28.09.2013 Aufrufe

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Genau wie wir durch Erfahrung lernen, in verschiedenen Situationen auf bestimmte<br />

Weise zu reagieren, macht es die Temporal Difference Lernmethode (kurz: TD-<br />

Learning), indem VΠ(s) trainiert wird (der Agent lernt also einschätzen, welche Situationen<br />

viel wert sind und welche nicht). Wir bezeichnen wieder die aktuelle Situation<br />

mit st, die nachfolgende Situation mit st+1 und so weiter. Die Lernformel für die<br />

State-Value-Funktion VΠ(st) ergibt sich also zu<br />

V (st) neu =V (st)<br />

+ α(rt+1 + γV (st+1) − V (st))<br />

<br />

Veränderung des alten Wertes<br />

Wir sehen, dass die zur Lernrate α proportionale Veränderung des Wertes der aktuellen<br />

Situation st beeinflusst wird von<br />

⊲ dem empfangenen Reward rt+1,<br />

⊲ dem mit einem Faktor γ gewichteten bisherigen Return der Nachfolgesituation<br />

V (st+1),<br />

⊲ dem alten Wert der Situation V (st).<br />

Definition C.11 (Temporal Difference Learning). Im Unterschied zur Montecarlo-<br />

Methodik schaut TD-Learning etwas in die Zukunft, indem die Nachfolgesituation st+1<br />

betrachtet wird. Die Lernregel ist definiert zu<br />

C.2.5 Die Action-Value-Funktion<br />

V (st) neu =V (st) (C.14)<br />

+ α(rt+1 + γV (st+1) − V (st)) .<br />

<br />

Veränderung des alten Wertes<br />

Analog zur State-Value-Funktion VΠ(s) ist ein weiterer Systembestandteil des Reinforcement<br />

Learning die Action-Value-Funktion QΠ(s, a), welche eine bestimmte<br />

Aktion a unter einer bestimmten Situation s und der Policy Π bewertet.<br />

In der Gridworld: In der Gridworld sagt uns die Action-Value-Funktion, wie gut es ist,<br />

von einem bestimmten Feld in eine bestimmte Richtung zu gehen (Abb. C.8 auf der<br />

rechten Seite).<br />

Definition C.12 (Action-Value-Funktion). Analog zur State-Value-Funktion bewertet<br />

die Action-Value-Funktion QΠ(st, a) bestimmte Aktionen ausgehend von bestimmten<br />

Situationen unter einer Policy. Die optimale Action-Value-Funktion benennen wir<br />

mit Q ∗ Π (st, a).

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!