28.09.2013 Aufrufe

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Definition C.5 (Aktion). Aktionen at können vom Agenten ausgeführt werden (wobei<br />

es sein kann, dass je nach Situation ein anderer Aktionsraum A(S) besteht) und<br />

bewirken Zustandsübergänge und damit eine neue Situation aus Sicht des Agenten.<br />

C.1.4 Reward und Return<br />

Wie im wirklichen Leben ist unser Ziel, eine möglichst hohe Belohnung zu erhalten, also<br />

die Summe der erwarteten Rewards r, genannt Return R, langfristig zu maximieren.<br />

Bei endlich vielen Zeitschritten 1 kann man die Rewards einfach aufsummieren:<br />

Rt = rt+1 + rt+2 + . . . (C.3)<br />

∞<br />

=<br />

(C.4)<br />

x=1<br />

rt+x<br />

Der Return wird hierbei natürlich nur abgeschätzt (Würden wir alle Rewards und<br />

damit den Return komplett kennen, bräuchten wir ja nicht mehr lernen).<br />

Definition C.6 (Reward). Ein Reward rt ist eine skalare, reelle oder diskrete (manchmal<br />

sogar nur binäre) Belohnungs- oder Bestrafungsgröße, welche dem Agenten vom<br />

Umweltsystem als Reaktion auf eine Aktion gegeben wird.<br />

Definition C.7 (Return). Der Return Rt ist die Aufkumulierung aller erhaltenen<br />

Rewards bis zum Zeitpunkt t.<br />

C.1.4.1 Umgang mit großen Zeiträumen<br />

Nicht alle Problemstellungen haben aber ein explizites Ziel und damit eine endliche<br />

Summe (unser Agent kann zum Beispiel ein Roboter sein, der die Aufgabe hat, einfach<br />

immer weiter herumzufahren und Hindernissen auszuweichen).<br />

Um im Falle einer unendlichen Reihe von Reward-Abschätzungen keine divergierende<br />

Summe zu erhalten, wird ein abschwächender Faktor 0 < γ < 1 verwendet, der den<br />

Einfluss ferner erwarteter Rewards abschwächt: Das ist nicht nur dann sinnvoll, wenn<br />

kein Ziel an sich existiert, sondern auch, wenn das Ziel sehr weit entfernt ist:<br />

Rt = rt+1 + γ 1 rt+2 + γ 2 rt+3 + . . . (C.5)<br />

∞<br />

= γ<br />

x=1<br />

x−1 rt+x<br />

(C.6)<br />

1 Soviel sind in der Praxis ja nur möglich, auch wenn die Formeln prinzipiell mit unendlichen Summen<br />

arbeiten

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!