09.02.2013 Aufrufe

Thesis - RWTH Aachen University

Thesis - RWTH Aachen University

Thesis - RWTH Aachen University

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

66 3.3 Teach-In in virtuellen Umgebungen<br />

Wertfunktion anhand der gegebenen Belohnung geschätzt wird. Verfahren, die dies ermöglichen, sind<br />

beispielsweise der Monte Carlo Algorithmus und der TD-Ansatz, der im Anhang C beschrieben ist.<br />

Sei π die Funktion der Handlungsstrategie und W das Weltmodell. Dann ist die generelle Form des<br />

RL Algorithmus:<br />

1. Initialisiere den internen Zustand des lernenden Agenten zu I0.<br />

2. Erfasse den Zustand der Umgebung Zi.<br />

3. Wähle Aktion �ρ = πI(Zi).<br />

4. Führe Aktion �ρ durch.<br />

5. Berechne das Reinforcement Signal r = R(Zi+1, �ρ)<br />

6. Aktualisiere den internen Zustand und die Handlungsstrategie πI mit Ii+1 = U(W, Ii, Zi, r, �ρ).<br />

7. Gehe zu Schritt 2.<br />

Die Funktion U (Update Function) passt den internen Zustand des Agenten und daher die entsprechende<br />

Handlungsstrategie an die erhaltene Belohnung an. Ihre genaue Form ist vom eingesetzten<br />

Agenten abhängig.<br />

Zur Bewertung der erzielten Lernergebnisse kann die erzielte Belohnung über die Anzahl der Lerndurchgänge<br />

benutzt werden [SB98]. Hierbei wird in den meisten Fällen eine über alle k Lerndurchgänge<br />

akkumulierte gemittelte Belohnung benutzt.<br />

Rakk(k) = 1<br />

k<br />

k�<br />

i=1<br />

Ri = 1<br />

k<br />

k�<br />

i=1<br />

ni<br />

1 �<br />

rj<br />

ni<br />

j=1<br />

(3.19)<br />

Dabei stellt ni die Anzahl der Lernschritte pro Durchgang dar. Diese Kurve konvergiert idealerweise<br />

gegen die maximal mögliche Belohnung, je näher die erlernte Policy sich der optimalen Handlungsstrategie<br />

nähert. In der Praxis gibt man sich jedoch mit einem gewissen prozentuellen Anteil hiervon<br />

zufrieden 12 .<br />

Nach Arkin [Ark98] kann das Lernen mit Bewerter auf intelligenten Robotern mit der Struktur aus<br />

Abbildung 3.12 implementiert werden. Der Controller stellt die eigentliche Robotersteuerung dar und<br />

enthält die zu erlernende Handlungsstrategie. Der Roboter führt die gewählte Aktion aus, deren Ergebnis<br />

wiederum eine Reaktion der Welt erzeugt. Diese Reaktion evaluiert der Bewerter (Critic) und<br />

gibt eine Belohnung an die Robotersteuerung zurück. Diese Struktur ist jedoch nicht ohne weiteres<br />

anwendbar, wenn die Robotersteuerung die Ausgaben von mehreren untergeordneten Komponenten<br />

kombinieren muss, um die ausführende Aktion zu bilden. Dies ist beispielsweise der Fall, wenn mehrere<br />

Verhalten gleichzeitig an der Bildung der Gesamtreaktion des Systems beteiligt sind. Dann ist es<br />

nicht einfach, einer individuellen Komponente eine Belohnung zu zuweisen, da der Bewerter nur eine<br />

Gesamtbelohnung für die Gesamtaktion verteilen kann, aber nicht weiß, wie diese berechnet wurde.<br />

Dieses Problem ist als Credit Assignment Problem bekannt und muss beim Entwurf eines RL-Systems<br />

beachtet werden [Ark98]. In dieser Arbeit wird dieses Problem bei der Verhaltenskoordinierung dadurch<br />

gelöst, dass für jedes Verhalten eine entsprechende Belohnungsfunktion definiert und bei jedem<br />

Lernszenario nur der Beitrag einer einzelne Fertigkeit angepasst wird 13 .<br />

12 Alternativ kann man im Fall einer bekannten optimalen Handlungsstrategie die erlernte hiermit vergleichen. Dafür<br />

wird der prozentuelle Anteil der optimal getroffenen Entscheidungen aus allen Entscheidungen der erlernten Policy über<br />

die Anzahl der Lerndurchgänge aufgetragen.<br />

13 Andere Verhalten können gleichzeitig aktiv sein, sie dürfen jedoch nicht eine ähnliche Zielsetzung wie das zu erler-<br />

nende Verhalten haben.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!