09.02.2013 Aufrufe

Thesis - RWTH Aachen University

Thesis - RWTH Aachen University

Thesis - RWTH Aachen University

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

4.2 Hindernisvermeidung 91<br />

H<br />

1<br />

ρ ρ<br />

2 T<br />

Abbildung 4.16: Fusion der Ausweichvektoren bei der Hindernisvermeidung des Greifers.<br />

stochastischen Teach-In in 45 unterschiedlichen Lernszenarien trainiert. In jedem Lernszenario muss<br />

sich der Greifer von einer zufällig generierten Startposition kollisionsfrei nach vorne bewegen. Dabei<br />

soll eine Ausgangssituation mit einem Hindernis 19 bewältigt werden. Nach jeder Bewegung des Manipulators<br />

berechnet ein Bewerter aus den aktuellen Aufnahmen der Greiferkamera und der bekannten<br />

Position des Greifers zum Hindernis eine Bewertung der Konstellation. Anhand der vergebenen Bewertung<br />

wird dann die Steuerungskomponente angepasst. Unterschreitet der minimale Abstand des<br />

Objektes von der Kamera einen gesetzten Schwellenwert, wird dies als Kollision interpretiert und der<br />

Schritt wird abgebrochen. Das Szenario wird so oft wiederholt, bis der Manipulator am Hindernis<br />

kollisionsfrei vorbeikommt.<br />

Der Bewerter implementiert die Belohnungsfunktion des Reinforcement Learning (Abbildung 4.17).<br />

Er ist hier mit einem Fuzzy System implementiert, das Bewertungen des aktuellen Umgebungszustands<br />

in Bezug auf eine Kollisionsgefahr erstellt, und wird nach der Trainingsphase vom System<br />

abgekoppelt. Als Eingabe erhält er den minimalen Abstand dHKmin des Hindernisses von der Kamera<br />

und den minimalen Abstand des Hindernisses dHSAmin von der Kamerasichtachse (Abbildung 4.18).<br />

Jedem Eingang des Bewerters wird eine linguistische Variable mit drei Termen zugeordnet. Die Zugehörigkeitsfunktionen<br />

sowie die Regelbasis des Bewerters wurden nicht trainiert, sondern sind vorgegeben;<br />

sie sind in Anhang D dargestellt. Die Regelbasis ist auf Basis zweier empirischer Aussagen<br />

erstellt worden. Einerseits erhöht eine Annäherung des Greifers an das Hindernis die Kollisionsgefahr;<br />

in diesem Fall sollte das Verhalten eine negative Bewertung erhalten. Andererseits gibt es mehr<br />

Raum für eine Vorwärtsbewegung, je größer der Abstand des Hindernisses von der Sichtachse wird;<br />

deshalb sollte für solche Konstellationen eine positive Bewertung erteilt werden. Somit bestraft der<br />

Bewerter Bewegungen, die dem Manipulator in Kollisionsgefahr mit dem Hindernis bringen, belohnt<br />

jedoch Bewegungen, die den Greifer möglichst schnell voran führen.<br />

Das eigentliche Training setzt den Q-learning Algorithmus [Wat89] ein, der von einem gegebenen<br />

Zustand Zi nach der Aktion �ρ sucht, die die akkumulierte zukünftige Belohnung und somit die Ak-<br />

19 Die Dimensionen des Hindernisses variieren pro Lernszenario.<br />

T<br />

ρ HG<br />

ρ 1<br />

H 2

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!