31.10.2013 Aufrufe

Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...

Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...

Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

ε-Greedy<br />

Hierbei handelt es sich um ein Greedy-Verfahren welches zu einer Wahrscheinlichkeit p = 1 − ε die Aktion mit dem<br />

höchsten Q-Wert wählt und zu einer Restwahrscheinlichkeit von p =<br />

ε (mit N = Anzahl möglicher Aktionen) eine<br />

N−1<br />

zufällige nicht-opt<strong>im</strong>ale Aktion der Aktionsmenge. Je höher der ε-Wert gewählt ist, desto höher ist die Exploration des<br />

Labyrinths und es wird somit zunehmend wahrscheinlicher, dass der opt<strong>im</strong>ale Weg gefunden wird.<br />

3.2.3 Q-Learning<br />

Einer der zwei hier vorgestellten Algorithmen stellt das ein-Schritt Q-Learning dar [29]. Bei diesem Algorithmus wird<br />

die Q-Learning ist ein Reinforcement Learning Algorithmus welcher versucht für jede Aktion a eines Zustands s mittels<br />

Exploration den Wert Q(s, a) und somit die Vorgehensweise π zu verfeinern. Hierbei wird eine Wertefunktion Q ∗<br />

gelernt, welche versucht die Summe der zu erwartenden Belohnungen abzuschätzen [30]. Dies geschieht in dem der<br />

Agent versucht für jeden möglichen Zustand s die jeweils opt<strong>im</strong>ale Aktion a zu finden, auch wenn diese nicht der Vorgehensweise<br />

entspricht (off-policy Verfahren genannt). Dies geschieht indem zur Berechnung des Q-Werts des aktuellen<br />

(Zustand, Aktion)-Paars derjenige Q-Wert des (Zustand, Aktion)-Paars verwendet wird, welcher die max<strong>im</strong>ale Summe<br />

der Belohnungen verspricht.<br />

gelernter Wert<br />

{ }} {<br />

Q(s t , a t ) ← Q(s t , a t ) +α ∗ [ R(s<br />

} {{ }<br />

t+1 ) + γ maxQ(s t+1 , a t+1 ) −Q(s t , a t )]<br />

a t+1 } {{ }<br />

alter Wert<br />

} {{ }<br />

alter Wert<br />

max. Wert des Folgezustands<br />

Formel 3.1. Update-Regel des Q-Learning-Verfahrens.<br />

Dadurch erlernt der Q-Learning Agent nicht nur die opt<strong>im</strong>alen Aktionen der Zustände, welche durch das Folgen der<br />

Vorgehensweise besucht werden würden, sondern auch diejenigen um die besuchten Zustände herum. Somit bildet sich<br />

in der Q-Werte Tabelle eine Struktur ab, welche neben der zu verfeinernden Vorgehensweise π weitere mögliche<br />

Vorgehensweisen π n aufweist, da mehr exploriert wird. Eine wichtige Eigenschaft des Q-Learnings, die Konvergenz<br />

gegen die opt<strong>im</strong>ale Lösung, wurde zuvor von Watkings und Dayan <strong>im</strong> Jahre 1992 be<strong>wie</strong>sen, wodurch das Auffinden<br />

einer opt<strong>im</strong>alen Lösung <strong>im</strong> Folgenden gewährleistet ist.<br />

Listing 3.1: Q-Learning Algorithmus<br />

1 I n i t i a l i s i e r e Q( s , a ) ( s ∈ Zustand , a ∈ Aktionen in s )<br />

2 Wiederhole f ür jede Episode<br />

3 I n i t i a l i s i e r e s<br />

4 Wiederhole f ür jeden S c h r i t t der Episode ( while s != end )<br />

5 Wä hle a von s anhand der P o l i c y ( eps−Greedy )<br />

6 Führe a aus , b e t r a c h t e r und s ’<br />

7 Q( s , a ) = Q( s , a ) + alpha * [ r + gamma * maxQ( s ’ , a ’ ) − Q( s , a )]<br />

8 s = s ’<br />

18

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!