Thesis - RWTH Aachen University

Weitere Magazine

Empfehlungen

Info

64 3.3 Teach-In in virtuellen Umgebungen Umgebung Merkmalsvektor Controller Lehrer Fehlersignal Ist−Ausgabe Soll−Ausgabe Abbildung 3.11: Verlauf beim Lernen mit Lehrer. Ein Nachteil des überwachten Lernens ist, dass für die Trainingsdaten immer die Soll-Ausgaben des Systems 7 bekannt sein müssen. Entstehen außerdem Situationen, die vom Lehrer bzw. den Trainingsdaten nicht behandelt wurden 8 , dann kann der Agent keine geeignete Ausgabe generieren bzw. er generiert eine falsche Antwort. Dies erfordert die Existenz eines Lehrers, der zu jeder Situation die entsprechende richtige Ausgabe produziert. So ein Lehrer ist jedoch in vielen Fällen nicht bekannt bzw. schwer zu definieren. Beispielsweise kann man bei der Verhaltenskoordination ohne aufwendiges Experimentieren nicht genau sagen, mit welchem Anteil jedes Verhalten bei der Bewegung des Manipulators beisteuern sollte. Man kann jedoch die neue Situation nach einer Roboteraktion qualitativ bewerten und Aussagen treffen, ob die Aktion den Roboter näher zu seinem Zielzustand gebracht hat oder nicht. Für solche Fälle ist das Lernen mit Bewerter geeignet [Mat94], das in dieser Arbeit für die Hindernisvermeidung des Greifers und den Koordinationsmechanismus der Verhalten zum Einsatz kommt. 3.3.2 Reinforcement Learning Das Lernen mit Bewerter (Reinforcement Learning, RL) gehört zu der Klasse des nicht überwachten Lernens (Unsupervised Learning). Der lernende Agent probiert in einer Situation eine Aktion aus und erhält dafür von seiner Umgebung eine positive oder negative Reaktion. Anhand dieser Reaktion passt er seinen Auswahlmechanismus an. Dabei bekommt er für jede gute Aktion eine positive Bewertung, für jede schlechte eine negative. Ziel ist, dass der Agent sich so anpasst, dass die anschließend erhaltene Belohnung mit der Zeit maximiert wird. Im Allgemeinen besteht das Lernen mit Bewerter aus vier Komponenten [SB98]: • einer Handlungsstrategie π (Policy), • einer Belohnungsfunktion R() (Reward Function), • einer Wertfunktion V () (Value Function) und • einem Weltmodell (optional). 7In dieser Arbeit entspricht die Sollausgabe des Systems dem objektspezifischen Pfad zur Zielposition, wenn keine Hindernisse vorhanden sind. 8Beispielsweise wenn Hindernisse vorhanden sind.
3.3 Teach-In in virtuellen Umgebungen 65 Die Handlungsstrategie entspricht der steuernden Komponente des Agenten. Sie bestimmt, welche Aktion der Agent in welcher Situation wählen soll und realisiert eine Abbildung von dem Zustandsraum 9 Z der Umgebung in den Aktionsraum 10 A zu: Z ↦→ A. Die Belohnungsfunktion bewertet die Reaktion der Umgebung zu den Aktionen des Agenten und demnach die ausgeführte Aktion der Handlungsstrategie. Mataric [Mat94] teilt die Belohnungsfunktionen in ereignisgesteuerte (event-driven) und fortschrittschätzende (progress-estimator) Funktionen ein. Immer wenn ein für die Lösung der Aufgabe wichtiges Ereignis eintritt, gibt die ereignisgesteuerte Belohnungsfunktion als Antwort eine entsprechende, festgelegte Belohnung zurück. Tritt kein vorher definiertes Ereignis ein, wird der Wert Null zugewiesen: Revent−driven(Z) = ⎧ ⎪⎨ ⎪⎩ rE1 wenn Ereignis E1 eintritt, rE2 wenn Ereignis E2 eintritt, . . 0 sonst. (3.17) Im Gegensatz dazu messen fortschrittschätzende Belohnungsfunktionen zu jedem Zeitpunkt den Grad des Fortschrittes des Agenten bezüglich seines festgelegten Ziels. Diese Funktion ist nicht von bestimmten Ereignissen abhängig, sondern gibt jederzeit eine bestimmte Belohnung aus einer kontinuierlichen Wertemenge 11 . Sie kann positiv oder negativ sein, je nachdem, ob sich die Situation verbes- sert oder verschlechtert hat. Rprogress−estimator(Z) = ⎧ ⎨ ⎩ i wenn ein Fortschritt vom Grad i gemacht wurde, −j wenn ein Rückschritt vom Grad j gemacht wurde, 0 sonst. (3.18) Der Grad i bzw. j ist ein Maß des Fortschrittes bzw. Rückschrittes und seine genaue Definition und Wertebereich hängen von dem spezifischen Problem ab. Im Gegensatz zur Belohnungsfunktion schätzt die Wertfunktion, wie vorteilhaft es für den Agenten ist, in einem gegebenen Zustand zu sein (State Value Function) bzw. wie vorteilhaft eine Aktion in einem gegebenen Zustand ist (Action Value Function). Diese Schätzung berücksichtigt nicht nur die aktuelle sondern auch die erwartete zukünftige Belohnung, die der Agent aus dem gegebenen Zustand mit der Handlungsstrategie bis zum Ziel erhalten kann. Die beste Handlungsstrategie, die beim RL gesucht bzw. zu erlernen ist, ist diejenige, die die erhaltene Gesamtbelohnung über die Zeit maximiert; dadurch entspricht der besten Handlungsstrategie, auch als optimale Policy bezeichnet, die höchst mögliche Wertfunktion (Optimal Value Function). Ist diese bekannt, dann ist es einfach die optimale Handlungsstrategie zu bestimmen: Die Aktion, die von einem Zustand Zi zu einem anderen Zustand Zi+1 mit dem höchsten Wert Vmax der Wertfunktion führt, ist die Aktion, die eine optimale Handlungsstrategie ergibt. Das Weltmodell dient der Vorhersage einer Situation, die sich aus der Anwendung einer oder mehrerer Aktionen in der Zukunft ergeben wird (Prediction). Demnach ermöglicht das Weltmodell die Berechnung der Abbildung Zt × A ↦→ Zt+n und dadurch die Berechnung der Werte der Wertfunktion. Dennoch kann auch ohne Weltmodell ein optimales Verhalten erlernt werden, indem die optimale 9 Der Zustandsraum umfasst alle möglichen Zustände, die die Umgebung annehmen kann. 10 Der Aktionsraum beinhaltet alle Aktionen, die der Roboter ausführen kann, um den Zustand der Umgebung zu ändern. 11 Dabei ist für die Berechnung der Belohnung die geeignete Soll-Ausgabe des Systems nicht bekannt; dies unterschei- det sie vom überwachten Lernen.
Seite 1:
Bildgestütztes Teach-In eines mobi
Seite 4 und 5:
ii und der Koordinationsmechanismus
Seite 7 und 8:
Inhaltsverzeichnis Abbildungsverzei
Seite 9 und 10:
INHALTSVERZEICHNIS vii 5.3 Verhalte
Seite 11 und 12:
Abbildungsverzeichnis 1.1 Anwendung
Seite 13 und 14:
ABBILDUNGSVERZEICHNIS xi 4.10 Epipo
Seite 15 und 16:
ABBILDUNGSVERZEICHNIS xiii C.11 Rad
Seite 17 und 18:
Tabellenverzeichnis 2.1 Gemeinsamke
Seite 19 und 20:
Kapitel 1 Einleitung In der industr
Seite 21 und 22:
1.2 Mobile Manipulation mit Hindern
Seite 23 und 24:
1.2 Mobile Manipulation mit Hindern
Seite 25 und 26:
1.3 Gliederung der Arbeit 7 Grund d
Seite 27 und 28:
Kapitel 2 Einführung in die mobile
Seite 29 und 30:
2.1 Allgemeine Systemarchitekturen
Seite 31 und 32: 2.2 Reaktive Verhalten für Manipul
Seite 47 und 48: 2.3 Verfahren zur Koordination reak
Seite 53 und 54: 2.4 Planung 35 die Welt, die aus ei
Seite 55 und 56: 2.4 Planung 37 liche Zustand nicht
Seite 57 und 58: 2.4 Planung 39 eine Suche im Graphe
Seite 59 und 60: 2.5 Virtuelle Realität und Robotik
Seite 61 und 62: 2.6 Spezielle Systemarchitekturen f
Seite 63 und 64: 2.6 Spezielle Systemarchitekturen f
Seite 65 und 66: 2.7 Ein Konzept zur mobilen Manipul
Seite 67 und 68: 2.8 Abgrenzung von anderen Arbeiten
Seite 69 und 70: Kapitel 3 Eine virtuelle Umgebung z
Seite 71 und 72: 3.2 Abgleich der Daten virtueller u
Seite 81: 3.3 Teach-In in virtuellen Umgebung
Seite 85 und 86: 3.3 Teach-In in virtuellen Umgebung
Seite 91 und 92: Kapitel 4 Bildgestützte reaktive V
Seite 93 und 94: 4.1 Bildgestützte Zielführung 75
Seite 101 und 102: 4.2 Hindernisvermeidung 83 Steuerun
Seite 103 und 104: 4.2 Hindernisvermeidung 85 PSfrag r
Seite 105 und 106: 4.2 Hindernisvermeidung 87 Stochast
Seite 107 und 108: 4.2 Hindernisvermeidung 89 Fünfte
Seite 109 und 110: 4.2 Hindernisvermeidung 91 H 1 ρ
Seite 111 und 112: 4.2 Hindernisvermeidung 93 Ist der
Seite 113 und 114: 4.2 Hindernisvermeidung 95 Aus der
Seite 115 und 116: 4.2 Hindernisvermeidung 97 Nach der
Seite 117 und 118: 4.3 Pfadplanung im lokalen Manipula
Seite 123 und 124: Kapitel 5 Verhaltensauswahl und Ver
Seite 125 und 126: 5.2 Verhaltensauswahl 107 Rückmeld
Seite 127 und 128: 5.2 Verhaltensauswahl 109 5.2.2 Abl
Seite 129 und 130: 5.3 Verhaltenskoordination 111 Verh
Seite 131 und 132: 5.3 Verhaltenskoordination 113 Nach
Seite 133 und 134:
5.3 Verhaltenskoordination 115 5.3.
Seite 135 und 136:
PSfrag replacements 5.3 Verhaltensk
Seite 137 und 138:
5.4 Erlernen der Verhaltenskoordina
Seite 139 und 140:
5.5 Resultate des Trainings 121 Nac
Seite 141 und 142:
5.6 Ergebnisse der Verhaltenskoordi
Seite 143 und 144:
5.7 Bewertung und Einordnung des im
Seite 145 und 146:
5.7 Bewertung und Einordnung des im
Seite 147 und 148:
Kapitel 6 Aufgabenplanung Die vermi
Seite 149 und 150:
6.2 High-Level Planer 131 einen Pla
Seite 151 und 152:
6.4 Weltdatenbank 133 der Erfolgsme
Seite 153 und 154:
6.5 Geometrische Planung 135 Root =
Seite 155 und 156:
6.5 Geometrische Planung 137 (a) (b
Seite 157 und 158:
6.6 ComControl 139 ja nein nein nei
Seite 159 und 160:
6.7 Ausführung des Testszenarios 1
Seite 161 und 162:
6.7 Ausführung des Testszenarios 1
Seite 163 und 164:
Kapitel 7 Zusammenfassung und Ausbl
Seite 165 und 166:
schiedliche Greifstrategien für un
Seite 167 und 168:
Literaturverzeichnis [ABD + 98a] N.
Seite 169 und 170:
LITERATURVERZEICHNIS 151 [BAHK95] B
Seite 171 und 172:
LITERATURVERZEICHNIS 153 [BRS99] R.
Seite 173 und 174:
LITERATURVERZEICHNIS 155 [DH55] J.
Seite 175 und 176:
LITERATURVERZEICHNIS 157 [GKG96] R.
Seite 177 und 178:
LITERATURVERZEICHNIS 159 [HOB + 04]
Seite 179 und 180:
LITERATURVERZEICHNIS 161 [KL94a] L.
Seite 181 und 182:
LITERATURVERZEICHNIS 163 [MCB00] E.
Seite 183 und 184:
LITERATURVERZEICHNIS 165 [PRG + 03]
Seite 185 und 186:
LITERATURVERZEICHNIS 167 [SD98] L.
Seite 187 und 188:
LITERATURVERZEICHNIS 169 [Tsa87] R.
Seite 189 und 190:
LITERATURVERZEICHNIS 171 [YYW03] Ca
Seite 191 und 192:
Anhang A Symbolverzeichnis Allgemei
Seite 193 und 194:
Symbol Bedeutung Ij Interner Zustan
Seite 195 und 196:
Anhang B Mobiler Service Roboter TA
Seite 197 und 198:
B.3 Kalibrierung der Roboterkameras
Seite 199 und 200:
Anhang C Theoretische Grundlagen C.
Seite 201 und 202:
C.1 Theoretische Grundlagen der Man
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Seite 209 und 210:
Seite 211 und 212:
Seite 213 und 214:
Seite 215 und 216:
C.2 Epipolare Geometrie 197 und αl
Seite 217 und 218:
C.3 Radial Basis Function Netze 199
Seite 219 und 220:
C.3 Radial Basis Function Netze 201
Seite 221 und 222:
C.4 Fuzzy Logik 203 gemessene Einga
Seite 223 und 224:
C.5 Neurofuzzy 205 Maximum einer Zu
Seite 225 und 226:
C.6 Temporal Differencing Verfahren
Seite 227 und 228:
C.7 Bayesian Belief Networks 209 Di
Seite 229 und 230:
C.7 Bayesian Belief Networks 211 Im
Seite 231 und 232:
Anhang D Implementierungsdaten der
Seite 233 und 234:
D.2 Steuerungskomponente der Hinder
Seite 235 und 236:
Seite 237 und 238:
Seite 239 und 240:
Seite 241 und 242:
Anhang E FSAs und BBNs der vermitte
Seite 243 und 244:
E.2 Realisierte Bayesian Belief Net
Seite 245 und 246:
Seite 247 und 248:
Seite 249 und 250:
Anhang F Deliberative Ebene F.1 S-G
Seite 251 und 252:
F.1 S-GOLOG Programm für das Tests
Seite 253:
F.2 Weltdatenbank für das Testszen
Alle anzeigen

Thesis - RWTH Aachen University

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?