Thesis - RWTH Aachen University
Thesis - RWTH Aachen University
Thesis - RWTH Aachen University
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
66 3.3 Teach-In in virtuellen Umgebungen<br />
Wertfunktion anhand der gegebenen Belohnung geschätzt wird. Verfahren, die dies ermöglichen, sind<br />
beispielsweise der Monte Carlo Algorithmus und der TD-Ansatz, der im Anhang C beschrieben ist.<br />
Sei π die Funktion der Handlungsstrategie und W das Weltmodell. Dann ist die generelle Form des<br />
RL Algorithmus:<br />
1. Initialisiere den internen Zustand des lernenden Agenten zu I0.<br />
2. Erfasse den Zustand der Umgebung Zi.<br />
3. Wähle Aktion �ρ = πI(Zi).<br />
4. Führe Aktion �ρ durch.<br />
5. Berechne das Reinforcement Signal r = R(Zi+1, �ρ)<br />
6. Aktualisiere den internen Zustand und die Handlungsstrategie πI mit Ii+1 = U(W, Ii, Zi, r, �ρ).<br />
7. Gehe zu Schritt 2.<br />
Die Funktion U (Update Function) passt den internen Zustand des Agenten und daher die entsprechende<br />
Handlungsstrategie an die erhaltene Belohnung an. Ihre genaue Form ist vom eingesetzten<br />
Agenten abhängig.<br />
Zur Bewertung der erzielten Lernergebnisse kann die erzielte Belohnung über die Anzahl der Lerndurchgänge<br />
benutzt werden [SB98]. Hierbei wird in den meisten Fällen eine über alle k Lerndurchgänge<br />
akkumulierte gemittelte Belohnung benutzt.<br />
Rakk(k) = 1<br />
k<br />
k�<br />
i=1<br />
Ri = 1<br />
k<br />
k�<br />
i=1<br />
ni<br />
1 �<br />
rj<br />
ni<br />
j=1<br />
(3.19)<br />
Dabei stellt ni die Anzahl der Lernschritte pro Durchgang dar. Diese Kurve konvergiert idealerweise<br />
gegen die maximal mögliche Belohnung, je näher die erlernte Policy sich der optimalen Handlungsstrategie<br />
nähert. In der Praxis gibt man sich jedoch mit einem gewissen prozentuellen Anteil hiervon<br />
zufrieden 12 .<br />
Nach Arkin [Ark98] kann das Lernen mit Bewerter auf intelligenten Robotern mit der Struktur aus<br />
Abbildung 3.12 implementiert werden. Der Controller stellt die eigentliche Robotersteuerung dar und<br />
enthält die zu erlernende Handlungsstrategie. Der Roboter führt die gewählte Aktion aus, deren Ergebnis<br />
wiederum eine Reaktion der Welt erzeugt. Diese Reaktion evaluiert der Bewerter (Critic) und<br />
gibt eine Belohnung an die Robotersteuerung zurück. Diese Struktur ist jedoch nicht ohne weiteres<br />
anwendbar, wenn die Robotersteuerung die Ausgaben von mehreren untergeordneten Komponenten<br />
kombinieren muss, um die ausführende Aktion zu bilden. Dies ist beispielsweise der Fall, wenn mehrere<br />
Verhalten gleichzeitig an der Bildung der Gesamtreaktion des Systems beteiligt sind. Dann ist es<br />
nicht einfach, einer individuellen Komponente eine Belohnung zu zuweisen, da der Bewerter nur eine<br />
Gesamtbelohnung für die Gesamtaktion verteilen kann, aber nicht weiß, wie diese berechnet wurde.<br />
Dieses Problem ist als Credit Assignment Problem bekannt und muss beim Entwurf eines RL-Systems<br />
beachtet werden [Ark98]. In dieser Arbeit wird dieses Problem bei der Verhaltenskoordinierung dadurch<br />
gelöst, dass für jedes Verhalten eine entsprechende Belohnungsfunktion definiert und bei jedem<br />
Lernszenario nur der Beitrag einer einzelne Fertigkeit angepasst wird 13 .<br />
12 Alternativ kann man im Fall einer bekannten optimalen Handlungsstrategie die erlernte hiermit vergleichen. Dafür<br />
wird der prozentuelle Anteil der optimal getroffenen Entscheidungen aus allen Entscheidungen der erlernten Policy über<br />
die Anzahl der Lerndurchgänge aufgetragen.<br />
13 Andere Verhalten können gleichzeitig aktiv sein, sie dürfen jedoch nicht eine ähnliche Zielsetzung wie das zu erler-<br />
nende Verhalten haben.