Thesis - RWTH Aachen University
Thesis - RWTH Aachen University
Thesis - RWTH Aachen University
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
3.3 Teach-In in virtuellen Umgebungen 71<br />
Zufallszahlengenerator eine beliebige Konfiguration in der virtuellen Umgebung von n Hindernissen<br />
mit variabler Größe und dem Zielobjekt auf einer Auflagefläche. Nachdem der Manipulator in eine<br />
Ausgangsposition gebracht wird, wird ein Greifvorgang initiiert. Bei jedem Schleifendurchlauf wird<br />
der jeweils aktuelle Merkmalsvektor �st der aktuellen Aufnahmen, der Positionsvektor des Manipulators<br />
� Pt und die Aktion �ρt, die der Roboterarm ausführen wird, gespeichert. Weiterhin wird jedes Mal<br />
der Bewerter 16 aufgerufen, der aufgrund der gegebenen Situation eine Belohnung rt erzeugt.<br />
rt = R( � Pt, �st, �ρt) (3.27)<br />
Unterschreitet der minimale Abstand des Greifers bzw der Manipulatorsegmente von einem der Objekte<br />
einen Schwellwert dKol, wird dies als Kollision interpretiert und der Schritt wird abgebrochen.<br />
Erst dann werden die Parameter der Steuerungsalgorithmen, die im internen Zustand It zusammengefasst<br />
sind, anhand der vergebenen Belohnungen für jeden Schritt angepasst, so dass keine Kollisionen<br />
mit Hindernissen stattfinden. Dabei können auch in anderen Schritten vergebene Belohnungen in Betracht<br />
gezogen werden, um das Lernen effizienter zu gestalten:<br />
It = U(It, � Pt, �st, rt, ..., rt−n, �ρt) (3.28)<br />
Danach wird der Vorgang aus derselben Position und derselben Konfiguration wiederholt, bis die<br />
Ausgangssituation bewältigt ist (Abbildung 3.17).<br />
Durch das stochastische Teach-In kann der Manipulator mit beliebigen Konstellationen von Hindernissen<br />
und Zielobjekt konfrontiert werden und seine Steuerung entsprechend anpassen, ohne dass<br />
eine direkte Vorgabe der richtigen Aktion notwendig ist 17 . Da besonders zu Beginn des Trainings<br />
viele Kollisionen auftreten können, hat das stochastische Teach-In den Vorteil, gefahrlos abzulaufen.<br />
Der Lernvorgang lässt sich automatisieren, so dass wesentlich mehr Durchgänge als bei einem realen<br />
Training möglich sind. Außerdem besteht die Möglichkeit, bei Bedarf die exakt gleiche Situation,<br />
Objekt- und Roboterpositionen zum mehrmaligen Training des Greifvorgangs herzustellen.<br />
16 Der Bewerter ist anwendungsspezifisch und die genaue Implementierung hängt von den zu lernenden Algorithmen<br />
ab. 17Der Ansatz besitzt eine Ähnlichkeit zu Piagets’ Circular Motion [YKD97], [WT98], [BG97]. Beide Verfahren produzieren<br />
eine Bewegung des Roboterarmes, die für das Erlernen der bildgestützten Steuerung des Roboterarmes eingesetzt<br />
wird. Jedoch gibt es einen grundlegenden Unterschied. Piagets’ Circular Motion ist ein Verfahren zur Unterstützung von<br />
überwachten Lernverfahren, da der Roboter nach seiner Bewegung die neue Ist-Position mit dem Merkmalsvektor als<br />
Trainingspaar verwendet. Beim stochastischen Teach-In dagegen findet eine Bewertung der Aktion des Manipulators statt<br />
und anhand dieser wird die Robotersteuerung angepasst.