12.07.2015 Aufrufe

Neuronale Netze

Neuronale Netze

Neuronale Netze

MEHR ANZEIGEN
WENIGER ANZEIGEN
  • Keine Tags gefunden...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

dkriesel.comC.2 Lernvorgangfender als Situationsgraph bezeichnet werden).Blätter des Baums sind Endsituationendes Systems. Der Exploration-Ansatzwürde den Baum möglichst genau durchsuchenund alle Blätter kennenlernen, derExploitation-Ansatz zielsicher zum bestenbekannten Blatt gehen.Analog zum Situationsbaum können wiruns auch einen Aktionsbaum aufbauen –hier stehen dann in den Knoten die Rewardsfür die Aktionen. Wir müssen nunvom täglichen Leben adaptieren, wie genauwir lernen.C.2.1 Strategien zur RewardvergabeInteressant und von großer Wichtigkeit istdie Frage, wofür man einen Reward vergibtund was für einen Reward man vergibt,da das Design des Rewards das Systemverhaltenmaßgeblich steuert. Wie wiroben gesehen haben, gibt es (wieder analogzum täglichen Leben) in der Regelzu jeder Situation verschiedene Aktionen,welche man ausführen kann. Es existierenverschiedene Strategien, um die ausgewähltenSituationen zu bewerten und sodie zum Ziel führende Aktionsfolge zu lernen.Diese sollen im Folgenden erst einmalgrundsätzlich erläutert werden.Wir wollen nun einige Extremfälle als Designbeispielezum Reward anbringen:Als Pure Delayed Reward bezeichnenwir eine Rewardvergabe ähnlich wie beimSchachspiel: Wir erhalten unsere Belohnungzum Schluss, und während des Spielskeine. Diese Methode ist immer dannvon Vorteil, wenn man am Ende genausagen kann, ob man Erfolg gehabt hat,aber in den Zwischenschritten nicht genaueinschätzen kann, wie gut die eigene Situationist. Es giltr t = 0 ∀t < τ(C.10)sowie r τ = 1 bei Gewinn und r τ = −1bei Verlust. Bei dieser Rewardstrategie gebennur die Blätter des Situationsbaumeseinen Reward zurück.Pure Negative Reward: Hier giltr t = −1 ∀t < τ.(C.11)Dieses System findet den schnellsten Wegzum Ziel, weil dieser automatisch auch dergünstigste in Bezug auf den Reward ist.Man wird bestraft für alles, was man tut –selbst wenn man nichts tut, wird man bestraft.Diese Strategie hat zur Folge, dasses die preiswerteste Methode für den Agentenist, schnell fertig zu werden.Als weitere Strategie betrachten wir dieAvoidance Strategy: Schädlichen Situationenwird aus dem Weg gegangen. Esgiltr t ∈ {0, −1},(C.12)Fast alle Situationen erhalten hier gar keinenReward, nur einige wenige erhalteneinen negativen. Diese negativen Situationenwird der Agent weiträumig umgehen.Achtung: Rewardstrategien können leichtunerwartete Folgen haben. Ein Roboter,dem man sagt ”mach was du willst, aberwenn du ein Hindernis berührst, kriegst duD. Kriesel – Ein kleiner Überblick über <strong>Neuronale</strong> <strong>Netze</strong> (EPSILON-DE) 203

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!