09.02.2013 Aufrufe

Thesis - RWTH Aachen University

Thesis - RWTH Aachen University

Thesis - RWTH Aachen University

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

3.3 Teach-In in virtuellen Umgebungen 71<br />

Zufallszahlengenerator eine beliebige Konfiguration in der virtuellen Umgebung von n Hindernissen<br />

mit variabler Größe und dem Zielobjekt auf einer Auflagefläche. Nachdem der Manipulator in eine<br />

Ausgangsposition gebracht wird, wird ein Greifvorgang initiiert. Bei jedem Schleifendurchlauf wird<br />

der jeweils aktuelle Merkmalsvektor �st der aktuellen Aufnahmen, der Positionsvektor des Manipulators<br />

� Pt und die Aktion �ρt, die der Roboterarm ausführen wird, gespeichert. Weiterhin wird jedes Mal<br />

der Bewerter 16 aufgerufen, der aufgrund der gegebenen Situation eine Belohnung rt erzeugt.<br />

rt = R( � Pt, �st, �ρt) (3.27)<br />

Unterschreitet der minimale Abstand des Greifers bzw der Manipulatorsegmente von einem der Objekte<br />

einen Schwellwert dKol, wird dies als Kollision interpretiert und der Schritt wird abgebrochen.<br />

Erst dann werden die Parameter der Steuerungsalgorithmen, die im internen Zustand It zusammengefasst<br />

sind, anhand der vergebenen Belohnungen für jeden Schritt angepasst, so dass keine Kollisionen<br />

mit Hindernissen stattfinden. Dabei können auch in anderen Schritten vergebene Belohnungen in Betracht<br />

gezogen werden, um das Lernen effizienter zu gestalten:<br />

It = U(It, � Pt, �st, rt, ..., rt−n, �ρt) (3.28)<br />

Danach wird der Vorgang aus derselben Position und derselben Konfiguration wiederholt, bis die<br />

Ausgangssituation bewältigt ist (Abbildung 3.17).<br />

Durch das stochastische Teach-In kann der Manipulator mit beliebigen Konstellationen von Hindernissen<br />

und Zielobjekt konfrontiert werden und seine Steuerung entsprechend anpassen, ohne dass<br />

eine direkte Vorgabe der richtigen Aktion notwendig ist 17 . Da besonders zu Beginn des Trainings<br />

viele Kollisionen auftreten können, hat das stochastische Teach-In den Vorteil, gefahrlos abzulaufen.<br />

Der Lernvorgang lässt sich automatisieren, so dass wesentlich mehr Durchgänge als bei einem realen<br />

Training möglich sind. Außerdem besteht die Möglichkeit, bei Bedarf die exakt gleiche Situation,<br />

Objekt- und Roboterpositionen zum mehrmaligen Training des Greifvorgangs herzustellen.<br />

16 Der Bewerter ist anwendungsspezifisch und die genaue Implementierung hängt von den zu lernenden Algorithmen<br />

ab. 17Der Ansatz besitzt eine Ähnlichkeit zu Piagets’ Circular Motion [YKD97], [WT98], [BG97]. Beide Verfahren produzieren<br />

eine Bewegung des Roboterarmes, die für das Erlernen der bildgestützten Steuerung des Roboterarmes eingesetzt<br />

wird. Jedoch gibt es einen grundlegenden Unterschied. Piagets’ Circular Motion ist ein Verfahren zur Unterstützung von<br />

überwachten Lernverfahren, da der Roboter nach seiner Bewegung die neue Ist-Position mit dem Merkmalsvektor als<br />

Trainingspaar verwendet. Beim stochastischen Teach-In dagegen findet eine Bewertung der Aktion des Manipulators statt<br />

und anhand dieser wird die Robotersteuerung angepasst.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!