28.09.2013 Aufrufe

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Verhaltensweisen den Return des Roboters optimal erfüllen, aber leider nicht von uns<br />

intendiert waren.<br />

Man kann weiterhin zeigen, dass insbesondere kleine Aufgaben mit negativen Rewards<br />

besser gelöst werden können während man bei großen, komplizierten Aufgaben mit<br />

positiven, differenzierteren Rewards weiter kommt.<br />

In Bezug auf unsere Gridworld wollen wir den Pure Negative Reward als Strategie<br />

wählen: Der Roboter soll möglichst schnell zum Ausgang finden.<br />

C.2.2 Die State-Value-Funktion<br />

Im Gegensatz zu unserem Agenten haben wir eine gottgleiche Sicht auf unsere Gridworld,<br />

so dass wir schnell bestimmen können, welche Roboterstartposition welchen<br />

optimalen Return erreichen kann.<br />

In Abbildung C.3 auf der rechten Seite sind diese optimalen Returns pro Feld aufgetragen.<br />

In der Gridworld: Die State-Value-Funktion für unsere Gridworld stellt genau eine<br />

solche Funktion pro Situation (= Ort) dar, mit dem Unterschied, dass sie nicht bekannt<br />

ist, sondern gelernt werden muss.<br />

Wir sehen also, dass es für den Roboter praktisch wäre, die aktuellen wie zukünftigen<br />

Situationen einer Bewertung unterziehen zu können. Betrachten wir also ein weiteres<br />

Systemelement des Reinforcement Learning, die State-Value-Funktion V (s), welche<br />

mit Bezug auf eine Policy Π auch oft als VΠ(s) bezeichnet wird: Denn ob eine Situation<br />

schlecht ist, hängt ja auch davon ab, was der Agent für ein Allgemeinverhalten Π an<br />

den Tag legt.<br />

Eine Situation, die unter einer risikosuchenden, Grenzen austestenden Policy schlecht<br />

ist, wäre beispielsweise, wenn einem Agent auf einem Fahrrad das Vorderrad in der<br />

Kurve anfängt wegzurutschen und er in dieser Situation aufgrund seiner Draufgänger-<br />

Policy nicht bremst. Mit einer risikobewussten Policy sähe dieselbe Situation schon viel<br />

besser aus, würde also von einer guten State-Value-Funktion höher bewertet werden.<br />

VΠ(s) gibt einfach den Wert zurück, den die aktuelle Situation s unter der Policy Π für<br />

den Agenten gerade hat. Abstrakt nach den obigen Definitionen gesagt, entspricht der<br />

Wert der State-Value-Funktion dem Return Rt (dem erwarteten Wert) einer Situation<br />

st. EΠ bezeichnet hierbei die Menge der erwarteten Returns unter Π und der aktuellen<br />

Situation st.<br />

VΠ(s) = EΠ{Rt|s = st}

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!