Thesis - RWTH Aachen University

Weitere Magazine

Empfehlungen

Info

70 3.3 Teach-In in virtuellen Umgebungen W O T und W P T sind aus der virtuellen Umgebung bekannt, P MBT und G KT sind abhängig von der Platt- form - Manipulator Konfiguration und müssen aus der Geometrie des Roboters bzw. aus der Kamerakalibrierung ermittelt werden. MB G T kann aus der Kinematik des Roboterarmes berechnet werden (Anhang C.1). Um den Greifer und dadurch auch die Kamera zum Objekt auszurichten, werden die yaw- und pitch- Winkel des Greifers angesteuert; der roll-Winkel wird von der Ausrichtung an der Zielposition definiert und auf konstantem Wert gehalten 14 : pitch = atan2(t14, t34) yaw = −atan2(t24 cos(pitch), t34) (3.25) Dabei sind ti4, i = 1, 2, 3, die Elemente der vierten Spalte der K O T Matrix und repräsentieren die Position des Objektes im Koordinatensystem der Kamera. Um die Trainingsdaten zu sammeln, werden die generierten Pfade durchlaufen und die Aufnahmen der virtuellen Kameras mit den entsprechenden Positionsdaten des Manipulators gespeichert. Pfade, die durch die Auflageflächen in der virtuellen Umgebung laufen bzw. Kollisionen des Roboterarms verursachen, können über Kollisionsmeldungen der Simulationsumgebung erkannt und vom weiteren Training ausgeschlossen werden. Sei � P ein 6×1 Vektor, der die erwünschte Position und Orientierung des Greifers auf dem Pfad relativ zum Objekt repräsentiert. Um einen generierten Pfad Pj, j = 1, .., n, mit n die Anzahl der generierten Pfade, zu speichern, wird die Position und Orientierung des Greifers � Pji auf dem Pfad in regulären Abständen in einer Liste gespeichert. � Pji sind auch als Stützstellen des Pfades bekannt. Dadurch kann ein Pfad als eine Reihenfolge von Stützstellen dargestellt werden: Pj = { � Pj1, .., � Pji, .., � Pjm} (3.26) mit m die Anzahl der Stützstellen. Falls auf alle Pfade äquidistante Intervalle verwendet werden, dann verfügen die Pfade Pj über dieselbe Anzahl von Stützstellen und dadurch dieselbe Länge. Alle Pfadlisten werden abgespeichert und ihr Index j wird benutzt, um sie zu referenzieren. 3.3.4 Stochastisches Teach-In Beim algorithmischen Teach-In ist die gewünschte Bewegung des Manipulators bekannt. Es gibt jedoch Fälle, wo die gewünschte Aktion des Manipulators nicht a priori bekannt oder nur schwer zu definieren ist. Dies ist beispielsweise der Fall bei der Verhaltenskoordination. Hier ist die Anwendbarkeit der Verhalten in einer Situation nicht genau bestimmbar, man kann jedoch eine qualitative Bewertung der Verhaltensanwendung anhand der sich ergebenden Situation machen 15 . Ähnlich ist auch bei der Hindernisvermeidung die optimale Bewegung des Manipulators in einer gegebenen Situation nicht genau bekannt. Nach Matarić [Mat94] ist für solche Fälle das Lernen mit Bewerter geeignet. Das stochastische Teach-In ist ein Verfahren zur Generierung und Akquisition der Trainingsdaten, um das Lernen mit Bewerter in einer virtuellen Umgebung zu unterstützen. Es generiert mit einem 14 atan2(x, y) entspricht der tan −1 ( x y ) Funktion, berücksichtigt jedoch die Vorzeichen von x, y, um den Winkel im Bereich (−180, 180] zu berechnen. 15 Diese Bewertungen können beispielsweise folgende Form haben: “In der gegebenen Situation sollte dieses Verhalten eine hohe Anwendbarkeit haben, das andere jedoch nicht”.
3.3 Teach-In in virtuellen Umgebungen 71 Zufallszahlengenerator eine beliebige Konfiguration in der virtuellen Umgebung von n Hindernissen mit variabler Größe und dem Zielobjekt auf einer Auflagefläche. Nachdem der Manipulator in eine Ausgangsposition gebracht wird, wird ein Greifvorgang initiiert. Bei jedem Schleifendurchlauf wird der jeweils aktuelle Merkmalsvektor �st der aktuellen Aufnahmen, der Positionsvektor des Manipulators � Pt und die Aktion �ρt, die der Roboterarm ausführen wird, gespeichert. Weiterhin wird jedes Mal der Bewerter 16 aufgerufen, der aufgrund der gegebenen Situation eine Belohnung rt erzeugt. rt = R( � Pt, �st, �ρt) (3.27) Unterschreitet der minimale Abstand des Greifers bzw der Manipulatorsegmente von einem der Objekte einen Schwellwert dKol, wird dies als Kollision interpretiert und der Schritt wird abgebrochen. Erst dann werden die Parameter der Steuerungsalgorithmen, die im internen Zustand It zusammengefasst sind, anhand der vergebenen Belohnungen für jeden Schritt angepasst, so dass keine Kollisionen mit Hindernissen stattfinden. Dabei können auch in anderen Schritten vergebene Belohnungen in Betracht gezogen werden, um das Lernen effizienter zu gestalten: It = U(It, � Pt, �st, rt, ..., rt−n, �ρt) (3.28) Danach wird der Vorgang aus derselben Position und derselben Konfiguration wiederholt, bis die Ausgangssituation bewältigt ist (Abbildung 3.17). Durch das stochastische Teach-In kann der Manipulator mit beliebigen Konstellationen von Hindernissen und Zielobjekt konfrontiert werden und seine Steuerung entsprechend anpassen, ohne dass eine direkte Vorgabe der richtigen Aktion notwendig ist 17 . Da besonders zu Beginn des Trainings viele Kollisionen auftreten können, hat das stochastische Teach-In den Vorteil, gefahrlos abzulaufen. Der Lernvorgang lässt sich automatisieren, so dass wesentlich mehr Durchgänge als bei einem realen Training möglich sind. Außerdem besteht die Möglichkeit, bei Bedarf die exakt gleiche Situation, Objekt- und Roboterpositionen zum mehrmaligen Training des Greifvorgangs herzustellen. 16 Der Bewerter ist anwendungsspezifisch und die genaue Implementierung hängt von den zu lernenden Algorithmen ab. 17Der Ansatz besitzt eine Ähnlichkeit zu Piagets’ Circular Motion [YKD97], [WT98], [BG97]. Beide Verfahren produzieren eine Bewegung des Roboterarmes, die für das Erlernen der bildgestützten Steuerung des Roboterarmes eingesetzt wird. Jedoch gibt es einen grundlegenden Unterschied. Piagets’ Circular Motion ist ein Verfahren zur Unterstützung von überwachten Lernverfahren, da der Roboter nach seiner Bewegung die neue Ist-Position mit dem Merkmalsvektor als Trainingspaar verwendet. Beim stochastischen Teach-In dagegen findet eine Bewertung der Aktion des Manipulators statt und anhand dieser wird die Robotersteuerung angepasst.
Seite 1:
Bildgestütztes Teach-In eines mobi
Seite 4 und 5:
ii und der Koordinationsmechanismus
Seite 7 und 8:
Inhaltsverzeichnis Abbildungsverzei
Seite 9 und 10:
INHALTSVERZEICHNIS vii 5.3 Verhalte
Seite 11 und 12:
Abbildungsverzeichnis 1.1 Anwendung
Seite 13 und 14:
ABBILDUNGSVERZEICHNIS xi 4.10 Epipo
Seite 15 und 16:
ABBILDUNGSVERZEICHNIS xiii C.11 Rad
Seite 17 und 18:
Tabellenverzeichnis 2.1 Gemeinsamke
Seite 19 und 20:
Kapitel 1 Einleitung In der industr
Seite 21 und 22:
1.2 Mobile Manipulation mit Hindern
Seite 23 und 24:
1.2 Mobile Manipulation mit Hindern
Seite 25 und 26:
1.3 Gliederung der Arbeit 7 Grund d
Seite 27 und 28:
Kapitel 2 Einführung in die mobile
Seite 29 und 30:
2.1 Allgemeine Systemarchitekturen
Seite 31 und 32:
2.2 Reaktive Verhalten für Manipul
Seite 33 und 34:
Seite 35 und 36:
Seite 37 und 38: 2.2 Reaktive Verhalten für Manipul
Seite 47 und 48: 2.3 Verfahren zur Koordination reak
Seite 53 und 54: 2.4 Planung 35 die Welt, die aus ei
Seite 55 und 56: 2.4 Planung 37 liche Zustand nicht
Seite 57 und 58: 2.4 Planung 39 eine Suche im Graphe
Seite 59 und 60: 2.5 Virtuelle Realität und Robotik
Seite 61 und 62: 2.6 Spezielle Systemarchitekturen f
Seite 63 und 64: 2.6 Spezielle Systemarchitekturen f
Seite 65 und 66: 2.7 Ein Konzept zur mobilen Manipul
Seite 67 und 68: 2.8 Abgrenzung von anderen Arbeiten
Seite 69 und 70: Kapitel 3 Eine virtuelle Umgebung z
Seite 71 und 72: 3.2 Abgleich der Daten virtueller u
Seite 81 und 82: 3.3 Teach-In in virtuellen Umgebung
Seite 87: 3.3 Teach-In in virtuellen Umgebung
Seite 91 und 92: Kapitel 4 Bildgestützte reaktive V
Seite 93 und 94: 4.1 Bildgestützte Zielführung 75
Seite 101 und 102: 4.2 Hindernisvermeidung 83 Steuerun
Seite 103 und 104: 4.2 Hindernisvermeidung 85 PSfrag r
Seite 105 und 106: 4.2 Hindernisvermeidung 87 Stochast
Seite 107 und 108: 4.2 Hindernisvermeidung 89 Fünfte
Seite 109 und 110: 4.2 Hindernisvermeidung 91 H 1 ρ
Seite 111 und 112: 4.2 Hindernisvermeidung 93 Ist der
Seite 113 und 114: 4.2 Hindernisvermeidung 95 Aus der
Seite 115 und 116: 4.2 Hindernisvermeidung 97 Nach der
Seite 117 und 118: 4.3 Pfadplanung im lokalen Manipula
Seite 123 und 124: Kapitel 5 Verhaltensauswahl und Ver
Seite 125 und 126: 5.2 Verhaltensauswahl 107 Rückmeld
Seite 127 und 128: 5.2 Verhaltensauswahl 109 5.2.2 Abl
Seite 129 und 130: 5.3 Verhaltenskoordination 111 Verh
Seite 131 und 132: 5.3 Verhaltenskoordination 113 Nach
Seite 133 und 134: 5.3 Verhaltenskoordination 115 5.3.
Seite 135 und 136: PSfrag replacements 5.3 Verhaltensk
Seite 137 und 138: 5.4 Erlernen der Verhaltenskoordina
Seite 139 und 140:
5.5 Resultate des Trainings 121 Nac
Seite 141 und 142:
5.6 Ergebnisse der Verhaltenskoordi
Seite 143 und 144:
5.7 Bewertung und Einordnung des im
Seite 145 und 146:
5.7 Bewertung und Einordnung des im
Seite 147 und 148:
Kapitel 6 Aufgabenplanung Die vermi
Seite 149 und 150:
6.2 High-Level Planer 131 einen Pla
Seite 151 und 152:
6.4 Weltdatenbank 133 der Erfolgsme
Seite 153 und 154:
6.5 Geometrische Planung 135 Root =
Seite 155 und 156:
6.5 Geometrische Planung 137 (a) (b
Seite 157 und 158:
6.6 ComControl 139 ja nein nein nei
Seite 159 und 160:
6.7 Ausführung des Testszenarios 1
Seite 161 und 162:
6.7 Ausführung des Testszenarios 1
Seite 163 und 164:
Kapitel 7 Zusammenfassung und Ausbl
Seite 165 und 166:
schiedliche Greifstrategien für un
Seite 167 und 168:
Literaturverzeichnis [ABD + 98a] N.
Seite 169 und 170:
LITERATURVERZEICHNIS 151 [BAHK95] B
Seite 171 und 172:
LITERATURVERZEICHNIS 153 [BRS99] R.
Seite 173 und 174:
LITERATURVERZEICHNIS 155 [DH55] J.
Seite 175 und 176:
LITERATURVERZEICHNIS 157 [GKG96] R.
Seite 177 und 178:
LITERATURVERZEICHNIS 159 [HOB + 04]
Seite 179 und 180:
LITERATURVERZEICHNIS 161 [KL94a] L.
Seite 181 und 182:
LITERATURVERZEICHNIS 163 [MCB00] E.
Seite 183 und 184:
LITERATURVERZEICHNIS 165 [PRG + 03]
Seite 185 und 186:
LITERATURVERZEICHNIS 167 [SD98] L.
Seite 187 und 188:
LITERATURVERZEICHNIS 169 [Tsa87] R.
Seite 189 und 190:
LITERATURVERZEICHNIS 171 [YYW03] Ca
Seite 191 und 192:
Anhang A Symbolverzeichnis Allgemei
Seite 193 und 194:
Symbol Bedeutung Ij Interner Zustan
Seite 195 und 196:
Anhang B Mobiler Service Roboter TA
Seite 197 und 198:
B.3 Kalibrierung der Roboterkameras
Seite 199 und 200:
Anhang C Theoretische Grundlagen C.
Seite 201 und 202:
C.1 Theoretische Grundlagen der Man
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Seite 209 und 210:
Seite 211 und 212:
Seite 213 und 214:
Seite 215 und 216:
C.2 Epipolare Geometrie 197 und αl
Seite 217 und 218:
C.3 Radial Basis Function Netze 199
Seite 219 und 220:
C.3 Radial Basis Function Netze 201
Seite 221 und 222:
C.4 Fuzzy Logik 203 gemessene Einga
Seite 223 und 224:
C.5 Neurofuzzy 205 Maximum einer Zu
Seite 225 und 226:
C.6 Temporal Differencing Verfahren
Seite 227 und 228:
C.7 Bayesian Belief Networks 209 Di
Seite 229 und 230:
C.7 Bayesian Belief Networks 211 Im
Seite 231 und 232:
Anhang D Implementierungsdaten der
Seite 233 und 234:
D.2 Steuerungskomponente der Hinder
Seite 235 und 236:
Seite 237 und 238:
Seite 239 und 240:
Seite 241 und 242:
Anhang E FSAs und BBNs der vermitte
Seite 243 und 244:
E.2 Realisierte Bayesian Belief Net
Seite 245 und 246:
Seite 247 und 248:
Seite 249 und 250:
Anhang F Deliberative Ebene F.1 S-G
Seite 251 und 252:
F.1 S-GOLOG Programm für das Tests
Seite 253:
F.2 Weltdatenbank für das Testszen
Alle anzeigen

Thesis - RWTH Aachen University

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?