Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...
Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...
Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
ε-Greedy<br />
Hierbei handelt es sich um ein Greedy-Verfahren welches zu einer Wahrscheinlichkeit p = 1 − ε die Aktion mit dem<br />
höchsten Q-Wert wählt und zu einer Restwahrscheinlichkeit von p =<br />
ε (mit N = Anzahl möglicher Aktionen) eine<br />
N−1<br />
zufällige nicht-opt<strong>im</strong>ale Aktion der Aktionsmenge. Je höher der ε-Wert gewählt ist, desto höher ist die Exploration des<br />
Labyrinths und es wird somit zunehmend wahrscheinlicher, dass der opt<strong>im</strong>ale Weg gefunden wird.<br />
3.2.3 Q-Learning<br />
Einer der zwei hier vorgestellten Algorithmen stellt das ein-Schritt Q-Learning dar [29]. Bei diesem Algorithmus wird<br />
die Q-Learning ist ein Reinforcement Learning Algorithmus welcher versucht für jede Aktion a eines Zustands s mittels<br />
Exploration den Wert Q(s, a) und somit die Vorgehensweise π zu verfeinern. Hierbei wird eine Wertefunktion Q ∗<br />
gelernt, welche versucht die Summe der zu erwartenden Belohnungen abzuschätzen [30]. Dies geschieht in dem der<br />
Agent versucht für jeden möglichen Zustand s die jeweils opt<strong>im</strong>ale Aktion a zu finden, auch wenn diese nicht der Vorgehensweise<br />
entspricht (off-policy Verfahren genannt). Dies geschieht indem zur Berechnung des Q-Werts des aktuellen<br />
(Zustand, Aktion)-Paars derjenige Q-Wert des (Zustand, Aktion)-Paars verwendet wird, welcher die max<strong>im</strong>ale Summe<br />
der Belohnungen verspricht.<br />
gelernter Wert<br />
{ }} {<br />
Q(s t , a t ) ← Q(s t , a t ) +α ∗ [ R(s<br />
} {{ }<br />
t+1 ) + γ maxQ(s t+1 , a t+1 ) −Q(s t , a t )]<br />
a t+1 } {{ }<br />
alter Wert<br />
} {{ }<br />
alter Wert<br />
max. Wert des Folgezustands<br />
Formel 3.1. Update-Regel des Q-Learning-Verfahrens.<br />
Dadurch erlernt der Q-Learning Agent nicht nur die opt<strong>im</strong>alen Aktionen der Zustände, welche durch das Folgen der<br />
Vorgehensweise besucht werden würden, sondern auch diejenigen um die besuchten Zustände herum. Somit bildet sich<br />
in der Q-Werte Tabelle eine Struktur ab, welche neben der zu verfeinernden Vorgehensweise π weitere mögliche<br />
Vorgehensweisen π n aufweist, da mehr exploriert wird. Eine wichtige Eigenschaft des Q-Learnings, die Konvergenz<br />
gegen die opt<strong>im</strong>ale Lösung, wurde zuvor von Watkings und Dayan <strong>im</strong> Jahre 1992 be<strong>wie</strong>sen, wodurch das Auffinden<br />
einer opt<strong>im</strong>alen Lösung <strong>im</strong> Folgenden gewährleistet ist.<br />
Listing 3.1: Q-Learning Algorithmus<br />
1 I n i t i a l i s i e r e Q( s , a ) ( s ∈ Zustand , a ∈ Aktionen in s )<br />
2 Wiederhole f ür jede Episode<br />
3 I n i t i a l i s i e r e s<br />
4 Wiederhole f ür jeden S c h r i t t der Episode ( while s != end )<br />
5 Wä hle a von s anhand der P o l i c y ( eps−Greedy )<br />
6 Führe a aus , b e t r a c h t e r und s ’<br />
7 Q( s , a ) = Q( s , a ) + alpha * [ r + gamma * maxQ( s ’ , a ’ ) − Q( s , a )]<br />
8 s = s ’<br />
18