28.09.2013 Aufrufe

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Der Reward ist ein reeller oder diskreter Skalar, welcher uns wie oben beschrieben<br />

angibt, wie gut wir unser Ziel erreichen, jedoch keine Anleitung vermittelt, wie wir es<br />

erreichen können. Ziel ist immer, langfristig eine möglichst hohe Summe von Rewards<br />

zu erwirtschaften.<br />

C.1.1 Die Gridworld<br />

Als Lernbeispiel für Reinforcement Learning möchte ich gerne die sogenannte Gridworld<br />

verwenden. Wir werden sehen, dass sie sehr einfach aufgebaut und durchschaubar<br />

ist und daher eigentlich gar kein Reinforcement Learning notwendig ist – trotzdem<br />

eignet sie sich sehr gut, die Vorgehensweisen des Reinforcement Learning an ihr darzustellen.<br />

Definieren wir nun die einzelnen Bestandteile des Reinforcement Systems<br />

beispielhaft durch die Gridworld. Wir werden jedes dieser Bestandteile später noch<br />

genauer beleuchten.<br />

Umwelt: Die Gridworld (Abb. C.1 auf der folgenden Seite) ist eine einfache, diskrete<br />

Welt in zwei Dimensionen, die wir im Folgenden als Umweltsystem verwenden<br />

wollen.<br />

Agent: Als Agent nehmen wir einen einfachen Roboter, der sich in unserer Gridworld<br />

befindet.<br />

Zustandsraum: Wie wir sehen, hat unsere Gridworld 5 × 7 Felder, von denen 6 nicht<br />

begehbar sind. Unser Agent kann also 29 Positionen in der Gridworld besetzen.<br />

Diese Positionen nehmen wir für den Agenten als Zustände.<br />

Aktionsraum: Fehlen noch die Aktionen. Definieren wir einfach, der Roboter könnte<br />

jeweils ein Feld nach oben, unten, rechts oder links gehen (solange dort kein<br />

Hindernis oder der Rand unserer Gridworld ist).<br />

Aufgabe: Die Aufgabe unseres Agenten ist es, aus der Gridworld hinauszufinden. Der<br />

Ausgang befindet sich rechts von dem hell ausgefüllten Feld.<br />

Nichtdeterminismus: Die beiden Hindernisse können durch eine „Tür“ verbunden werden.<br />

Wenn die Tür geschlossen ist (unterer Teil der Abbildung), ist das entsprechende<br />

Feld nicht begehbar. Die Tür kann sich nicht während eines Durchlaufs<br />

verändern, sondern nur zwischen den Durchläufen.<br />

Wir haben nun eine kleine Welt geschaffen, die uns über die nachfolgenden Lernstrategien<br />

begleiten und sie uns anschaulich machen wird.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!