Thesis - RWTH Aachen University

Weitere Magazine

Empfehlungen

Info

66 3.3 Teach-In in virtuellen Umgebungen Wertfunktion anhand der gegebenen Belohnung geschätzt wird. Verfahren, die dies ermöglichen, sind beispielsweise der Monte Carlo Algorithmus und der TD-Ansatz, der im Anhang C beschrieben ist. Sei π die Funktion der Handlungsstrategie und W das Weltmodell. Dann ist die generelle Form des RL Algorithmus: 1. Initialisiere den internen Zustand des lernenden Agenten zu I0. 2. Erfasse den Zustand der Umgebung Zi. 3. Wähle Aktion �ρ = πI(Zi). 4. Führe Aktion �ρ durch. 5. Berechne das Reinforcement Signal r = R(Zi+1, �ρ) 6. Aktualisiere den internen Zustand und die Handlungsstrategie πI mit Ii+1 = U(W, Ii, Zi, r, �ρ). 7. Gehe zu Schritt 2. Die Funktion U (Update Function) passt den internen Zustand des Agenten und daher die entsprechende Handlungsstrategie an die erhaltene Belohnung an. Ihre genaue Form ist vom eingesetzten Agenten abhängig. Zur Bewertung der erzielten Lernergebnisse kann die erzielte Belohnung über die Anzahl der Lerndurchgänge benutzt werden [SB98]. Hierbei wird in den meisten Fällen eine über alle k Lerndurchgänge akkumulierte gemittelte Belohnung benutzt. Rakk(k) = 1 k k� i=1 Ri = 1 k k� i=1 ni 1 � rj ni j=1 (3.19) Dabei stellt ni die Anzahl der Lernschritte pro Durchgang dar. Diese Kurve konvergiert idealerweise gegen die maximal mögliche Belohnung, je näher die erlernte Policy sich der optimalen Handlungsstrategie nähert. In der Praxis gibt man sich jedoch mit einem gewissen prozentuellen Anteil hiervon zufrieden 12 . Nach Arkin [Ark98] kann das Lernen mit Bewerter auf intelligenten Robotern mit der Struktur aus Abbildung 3.12 implementiert werden. Der Controller stellt die eigentliche Robotersteuerung dar und enthält die zu erlernende Handlungsstrategie. Der Roboter führt die gewählte Aktion aus, deren Ergebnis wiederum eine Reaktion der Welt erzeugt. Diese Reaktion evaluiert der Bewerter (Critic) und gibt eine Belohnung an die Robotersteuerung zurück. Diese Struktur ist jedoch nicht ohne weiteres anwendbar, wenn die Robotersteuerung die Ausgaben von mehreren untergeordneten Komponenten kombinieren muss, um die ausführende Aktion zu bilden. Dies ist beispielsweise der Fall, wenn mehrere Verhalten gleichzeitig an der Bildung der Gesamtreaktion des Systems beteiligt sind. Dann ist es nicht einfach, einer individuellen Komponente eine Belohnung zu zuweisen, da der Bewerter nur eine Gesamtbelohnung für die Gesamtaktion verteilen kann, aber nicht weiß, wie diese berechnet wurde. Dieses Problem ist als Credit Assignment Problem bekannt und muss beim Entwurf eines RL-Systems beachtet werden [Ark98]. In dieser Arbeit wird dieses Problem bei der Verhaltenskoordinierung dadurch gelöst, dass für jedes Verhalten eine entsprechende Belohnungsfunktion definiert und bei jedem Lernszenario nur der Beitrag einer einzelne Fertigkeit angepasst wird 13 . 12 Alternativ kann man im Fall einer bekannten optimalen Handlungsstrategie die erlernte hiermit vergleichen. Dafür wird der prozentuelle Anteil der optimal getroffenen Entscheidungen aus allen Entscheidungen der erlernten Policy über die Anzahl der Lerndurchgänge aufgetragen. 13 Andere Verhalten können gleichzeitig aktiv sein, sie dürfen jedoch nicht eine ähnliche Zielsetzung wie das zu erlernende Verhalten haben.
3.3 Teach-In in virtuellen Umgebungen 67 konventionelle Rückkopplung Controller Aktion Roboter Aufgabe Resultat Aktuator Reinforcement Signal Bewerter Abbildung 3.12: Reinforcement Learning nach Arkin [Ark98]. 3.3.3 Algorithmisches Teach-In Beim algorithmischen Teach-In wird eine Sequenz von ähnlichen Pfaden, die den Manöverraum des Manipulators abdecken, anhand einer erwünschten Form generiert. Der hier ausgewählte Vorgang, um die erwünschte Form des Pfades zu definieren, ist, die Pfade aus dreidimensionalen Flächen, wie einem elliptischen Paraboloid oder einem einschaligen kreisförmigen Hyperboloid, zu generieren [MZBK02]. Solche Flächen haben gemeinsam, dass bei Änderung der Parameter ihre Gleichungen eine neue Fläche mit ähnlichen Charakteristika produzieren. Ein Pfad mit der erwünschten Form wird dann über den Schnitt der Fläche mit einer Ebene definiert. Im speziellen Fall des Objektes des Testszenarios eignet sich ein modifiziertes einschaliges kreisförmiges Hyperboloid (Abbildung 3.13, Gleichung 3.20), da es eine trichterähnliche Form aufweist, die den Manipulator zur Zielposition am Griff eines Objektes führt. Diese Fläche ergibt sich, indem man in der Gleichung des einschaligen Hyperboloiden den Exponenten von z von 2 auf 4 setzt. Z Y X Abbildung 3.13: Modifiziertes einschaliges kreisförmiges Hyperboloid. x 2 α α y2 z4 + − 2 2 = 1, z ≤ 0 (3.20) γ2
Seite 1:
Bildgestütztes Teach-In eines mobi
Seite 4 und 5:
ii und der Koordinationsmechanismus
Seite 7 und 8:
Inhaltsverzeichnis Abbildungsverzei
Seite 9 und 10:
INHALTSVERZEICHNIS vii 5.3 Verhalte
Seite 11 und 12:
Abbildungsverzeichnis 1.1 Anwendung
Seite 13 und 14:
ABBILDUNGSVERZEICHNIS xi 4.10 Epipo
Seite 15 und 16:
ABBILDUNGSVERZEICHNIS xiii C.11 Rad
Seite 17 und 18:
Tabellenverzeichnis 2.1 Gemeinsamke
Seite 19 und 20:
Kapitel 1 Einleitung In der industr
Seite 21 und 22:
1.2 Mobile Manipulation mit Hindern
Seite 23 und 24:
1.2 Mobile Manipulation mit Hindern
Seite 25 und 26:
1.3 Gliederung der Arbeit 7 Grund d
Seite 27 und 28:
Kapitel 2 Einführung in die mobile
Seite 29 und 30:
2.1 Allgemeine Systemarchitekturen
Seite 31 und 32:
2.2 Reaktive Verhalten für Manipul
Seite 33 und 34: 2.2 Reaktive Verhalten für Manipul
Seite 47 und 48: 2.3 Verfahren zur Koordination reak
Seite 53 und 54: 2.4 Planung 35 die Welt, die aus ei
Seite 55 und 56: 2.4 Planung 37 liche Zustand nicht
Seite 57 und 58: 2.4 Planung 39 eine Suche im Graphe
Seite 59 und 60: 2.5 Virtuelle Realität und Robotik
Seite 61 und 62: 2.6 Spezielle Systemarchitekturen f
Seite 63 und 64: 2.6 Spezielle Systemarchitekturen f
Seite 65 und 66: 2.7 Ein Konzept zur mobilen Manipul
Seite 67 und 68: 2.8 Abgrenzung von anderen Arbeiten
Seite 69 und 70: Kapitel 3 Eine virtuelle Umgebung z
Seite 71 und 72: 3.2 Abgleich der Daten virtueller u
Seite 81 und 82: 3.3 Teach-In in virtuellen Umgebung
Seite 83: 3.3 Teach-In in virtuellen Umgebung
Seite 91 und 92: Kapitel 4 Bildgestützte reaktive V
Seite 93 und 94: 4.1 Bildgestützte Zielführung 75
Seite 101 und 102: 4.2 Hindernisvermeidung 83 Steuerun
Seite 103 und 104: 4.2 Hindernisvermeidung 85 PSfrag r
Seite 105 und 106: 4.2 Hindernisvermeidung 87 Stochast
Seite 107 und 108: 4.2 Hindernisvermeidung 89 Fünfte
Seite 109 und 110: 4.2 Hindernisvermeidung 91 H 1 ρ
Seite 111 und 112: 4.2 Hindernisvermeidung 93 Ist der
Seite 113 und 114: 4.2 Hindernisvermeidung 95 Aus der
Seite 115 und 116: 4.2 Hindernisvermeidung 97 Nach der
Seite 117 und 118: 4.3 Pfadplanung im lokalen Manipula
Seite 123 und 124: Kapitel 5 Verhaltensauswahl und Ver
Seite 125 und 126: 5.2 Verhaltensauswahl 107 Rückmeld
Seite 127 und 128: 5.2 Verhaltensauswahl 109 5.2.2 Abl
Seite 129 und 130: 5.3 Verhaltenskoordination 111 Verh
Seite 131 und 132: 5.3 Verhaltenskoordination 113 Nach
Seite 133 und 134: 5.3 Verhaltenskoordination 115 5.3.
Seite 135 und 136:
PSfrag replacements 5.3 Verhaltensk
Seite 137 und 138:
5.4 Erlernen der Verhaltenskoordina
Seite 139 und 140:
5.5 Resultate des Trainings 121 Nac
Seite 141 und 142:
5.6 Ergebnisse der Verhaltenskoordi
Seite 143 und 144:
5.7 Bewertung und Einordnung des im
Seite 145 und 146:
5.7 Bewertung und Einordnung des im
Seite 147 und 148:
Kapitel 6 Aufgabenplanung Die vermi
Seite 149 und 150:
6.2 High-Level Planer 131 einen Pla
Seite 151 und 152:
6.4 Weltdatenbank 133 der Erfolgsme
Seite 153 und 154:
6.5 Geometrische Planung 135 Root =
Seite 155 und 156:
6.5 Geometrische Planung 137 (a) (b
Seite 157 und 158:
6.6 ComControl 139 ja nein nein nei
Seite 159 und 160:
6.7 Ausführung des Testszenarios 1
Seite 161 und 162:
6.7 Ausführung des Testszenarios 1
Seite 163 und 164:
Kapitel 7 Zusammenfassung und Ausbl
Seite 165 und 166:
schiedliche Greifstrategien für un
Seite 167 und 168:
Literaturverzeichnis [ABD + 98a] N.
Seite 169 und 170:
LITERATURVERZEICHNIS 151 [BAHK95] B
Seite 171 und 172:
LITERATURVERZEICHNIS 153 [BRS99] R.
Seite 173 und 174:
LITERATURVERZEICHNIS 155 [DH55] J.
Seite 175 und 176:
LITERATURVERZEICHNIS 157 [GKG96] R.
Seite 177 und 178:
LITERATURVERZEICHNIS 159 [HOB + 04]
Seite 179 und 180:
LITERATURVERZEICHNIS 161 [KL94a] L.
Seite 181 und 182:
LITERATURVERZEICHNIS 163 [MCB00] E.
Seite 183 und 184:
LITERATURVERZEICHNIS 165 [PRG + 03]
Seite 185 und 186:
LITERATURVERZEICHNIS 167 [SD98] L.
Seite 187 und 188:
LITERATURVERZEICHNIS 169 [Tsa87] R.
Seite 189 und 190:
LITERATURVERZEICHNIS 171 [YYW03] Ca
Seite 191 und 192:
Anhang A Symbolverzeichnis Allgemei
Seite 193 und 194:
Symbol Bedeutung Ij Interner Zustan
Seite 195 und 196:
Anhang B Mobiler Service Roboter TA
Seite 197 und 198:
B.3 Kalibrierung der Roboterkameras
Seite 199 und 200:
Anhang C Theoretische Grundlagen C.
Seite 201 und 202:
C.1 Theoretische Grundlagen der Man
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Seite 209 und 210:
Seite 211 und 212:
Seite 213 und 214:
Seite 215 und 216:
C.2 Epipolare Geometrie 197 und αl
Seite 217 und 218:
C.3 Radial Basis Function Netze 199
Seite 219 und 220:
C.3 Radial Basis Function Netze 201
Seite 221 und 222:
C.4 Fuzzy Logik 203 gemessene Einga
Seite 223 und 224:
C.5 Neurofuzzy 205 Maximum einer Zu
Seite 225 und 226:
C.6 Temporal Differencing Verfahren
Seite 227 und 228:
C.7 Bayesian Belief Networks 209 Di
Seite 229 und 230:
C.7 Bayesian Belief Networks 211 Im
Seite 231 und 232:
Anhang D Implementierungsdaten der
Seite 233 und 234:
D.2 Steuerungskomponente der Hinder
Seite 235 und 236:
Seite 237 und 238:
Seite 239 und 240:
Seite 241 und 242:
Anhang E FSAs und BBNs der vermitte
Seite 243 und 244:
E.2 Realisierte Bayesian Belief Net
Seite 245 und 246:
Seite 247 und 248:
Seite 249 und 250:
Anhang F Deliberative Ebene F.1 S-G
Seite 251 und 252:
F.1 S-GOLOG Programm für das Tests
Seite 253:
F.2 Weltdatenbank für das Testszen
Alle anzeigen

Thesis - RWTH Aachen University

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?