09.02.2013 Aufrufe

Thesis - RWTH Aachen University

Thesis - RWTH Aachen University

Thesis - RWTH Aachen University

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

64 3.3 Teach-In in virtuellen Umgebungen<br />

Umgebung<br />

Merkmalsvektor<br />

Controller<br />

Lehrer<br />

Fehlersignal<br />

Ist−Ausgabe<br />

Soll−Ausgabe<br />

Abbildung 3.11: Verlauf beim Lernen mit Lehrer.<br />

Ein Nachteil des überwachten Lernens ist, dass für die Trainingsdaten immer die Soll-Ausgaben des<br />

Systems 7 bekannt sein müssen. Entstehen außerdem Situationen, die vom Lehrer bzw. den Trainingsdaten<br />

nicht behandelt wurden 8 , dann kann der Agent keine geeignete Ausgabe generieren bzw. er<br />

generiert eine falsche Antwort. Dies erfordert die Existenz eines Lehrers, der zu jeder Situation die<br />

entsprechende richtige Ausgabe produziert. So ein Lehrer ist jedoch in vielen Fällen nicht bekannt<br />

bzw. schwer zu definieren. Beispielsweise kann man bei der Verhaltenskoordination ohne aufwendiges<br />

Experimentieren nicht genau sagen, mit welchem Anteil jedes Verhalten bei der Bewegung des<br />

Manipulators beisteuern sollte. Man kann jedoch die neue Situation nach einer Roboteraktion qualitativ<br />

bewerten und Aussagen treffen, ob die Aktion den Roboter näher zu seinem Zielzustand gebracht<br />

hat oder nicht. Für solche Fälle ist das Lernen mit Bewerter geeignet [Mat94], das in dieser Arbeit<br />

für die Hindernisvermeidung des Greifers und den Koordinationsmechanismus der Verhalten zum<br />

Einsatz kommt.<br />

3.3.2 Reinforcement Learning<br />

Das Lernen mit Bewerter (Reinforcement Learning, RL) gehört zu der Klasse des nicht überwachten<br />

Lernens (Unsupervised Learning). Der lernende Agent probiert in einer Situation eine Aktion aus<br />

und erhält dafür von seiner Umgebung eine positive oder negative Reaktion. Anhand dieser Reaktion<br />

passt er seinen Auswahlmechanismus an. Dabei bekommt er für jede gute Aktion eine positive Bewertung,<br />

für jede schlechte eine negative. Ziel ist, dass der Agent sich so anpasst, dass die anschließend<br />

erhaltene Belohnung mit der Zeit maximiert wird.<br />

Im Allgemeinen besteht das Lernen mit Bewerter aus vier Komponenten [SB98]:<br />

• einer Handlungsstrategie π (Policy),<br />

• einer Belohnungsfunktion R() (Reward Function),<br />

• einer Wertfunktion V () (Value Function) und<br />

• einem Weltmodell (optional).<br />

7In dieser Arbeit entspricht die Sollausgabe des Systems dem objektspezifischen Pfad zur Zielposition, wenn keine<br />

Hindernisse vorhanden sind.<br />

8Beispielsweise wenn Hindernisse vorhanden sind.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!