Roboterarm-Ansteuerung mit Hilfe von visuellen Vorw¨artsmodellen

Universität Bielefeld 

Technische Fakultät 

AG Technische Informatik 

Diplomarbeit 

Roboterarm-Ansteuerung mit Hilfe von 

visuellen Vorwärtsmodellen 

Dennis Sinder 

16. Mai 2006 

Betreuer 

Dipl.-Psych. Wolfram Schenck 

Prof. Dr. Ralf Möller

Danksagung 

Mein Dank geht in erster Linie an meine Freundin, meine Eltern und meinen Bruder, die 

mich alle in der Zeit meines Studiums und ganz besonders in der Zeit der Diplomarbeit 

unterstützt haben. 

Ausserdem danke ich meinen Betreuern Dipl.-Psych. Wolfram Schenk und Prof.Dr.-Ing. 

Ralf Möller, sowie den weiteren Mitarbeitern der Arbeitsgruppe ” 

Technische Informatik“, 

für ihre ständige Hilfsbereitschaft. 

2 Universität Bielefeld, AG Technische Informatik

Inhaltsverzeichnis 


1 Einleitung 5 

2 Theoretischer Hintergrund 9 

2.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

2.2 Interne Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.2.1 Interne Vorwärtsmodelle . . . . . . . . . . . . . . . . . . . 11 

2.2.2 Inverse Modelle . . . . . . . . . . . . . . . . . . . . . . . 13 

2.2.3 Externe Vorwärtsmodelle . . . . . . . . . . . . . . . . . . 13 

2.2.4 Kombination der Modelle . . . . . . . . . . . . . . . . . . 14 

2.3 Neuronale Lernverfahren . . . . . . . . . . . . . . . . . . . . . . 14 

2.3.1 Back-Propagation Verfahren . . . . . . . . . . . . . . . . 18 

2.3.2 Resilient-Propagation Verfahren . . . . . . . . . . . . . . 21 

2.4 Optimierungsverfahren zur Bildung von Verhaltensketten . . . . . 22 

3 Experimentelles Setup 27 

3.1 Kamera-Setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

3.2 Roboterarm-Setup . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

3.3 Arbeitsbereich . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 

3.3.1 Einschränkung der Verschiebebewegungen . . . . . . . . 29 

3.3.2 Einschränkung des Verschiebebereiches . . . . . . . . . 30 

3.4 Datenbank-Setup . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

3.4.1 Sammeln von Trainingsdaten . . . . . . . . . . . . . . . . 31 

3.4.2 Datenrepräsentation der Datenbank . . . . . . . . . . . . 34 

4 Realisierung 35 

4.1 Ablauf einer Verschiebeoperation . . . . . . . . . . . . . . . . . . 35 

4.2 Bildvorverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . 36 

4.3 Visuelles Vorwärtsmodell . . . . . . . . . . . . . . . . . . . . . . 39 

4.3.1 Normierung der Lernbeispiele . . . . . . . . . . . . . . . 41 

4.3.2 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 

4.4 Bildung von Verhaltensketten . . . . . . . . . . . . . . . . . . . . 43 

Universität Bielefeld, AG Technische Informatik 3


4.5 Berechnung des Greifer-Startzustands . . . . . . . . . . . . . . . 45 

5 Experimente 47 

5.1 Auswertungsindikatoren . . . . . . . . . . . . . . . . . . . . . . . 48 

5.1.1 Indikatoren der Trainingsphase . . . . . . . . . . . . . . . 48 

5.1.2 Indikatoren der Testphase . . . . . . . . . . . . . . . . . . 49 

5.2 Variation der Faktoren . . . . . . . . . . . . . . . . . . . . . . . . 50 

5.2.1 Variation der Bildvorverarbeitung . . . . . . . . . . . . . . 50 

5.2.2 Variation der Trainingsgröße . . . . . . . . . . . . . . . . 52 

5.2.3 Variation des Lernverfahrens . . . . . . . . . . . . . . . . 53 

5.2.4 Variation der Netzwerkstruktur . . . . . . . . . . . . . . . 54 

5.2.5 Anwendungstest . . . . . . . . . . . . . . . . . . . . . . . 56 

5.2.6 Differential Evolution . . . . . . . . . . . . . . . . . . . . . 60 

5.3 Zusammenfassung der Resultate . . . . . . . . . . . . . . . . . . 61 

6 Zusammenfassung 67 

7 Verbesserungsvorschläge 71 

A Literaturverzeichnis 75 


1 

Einleitung 

Die Fähigkeit von Lebewesen, ihre komplexe Umwelt visuell wahrzunehmen, zu 

interpretieren und schließlich das eigene Verhalten anzupassen, konnte bislang technisch 

nicht nachgebildet werden. Trotz vieler guter Ansätze sind nach heutigem Stand 

Leistungsfähigkeit und Flexibilität der biologischen Vorbilder noch nicht in erreichbarer 

Nähe. Für Menschen ist die Verrichtung vieler Aufgaben, wie zum Beispiel die 

Bewegung der Gliedmaßen, selbstverständlich. Sie wissen in welcher Art und Weise 

sie einen Arm zu bewegen haben, um ihn in eine gewollte Position zu bringen. Derart 

kontrollierte Bewegungen gilt es zu erforschen, um die motorischen Fähigkeiten des 

Menschen technisch nachbilden zu können. Wichtig ist dabei die Koordination von 

Augen und Gliedmaßen, da gezielte Bewegungen oft nur durch visuelle Kontrolle 

möglich sind. Die zur Koordination verwendeten neuronalen Bewegungskontrollen des 

menschlichen zentralen Nervensystems werden durch so genannte ” 

Interne Modelle“ 

beschrieben (Wolpert et al., 2001). Ein wichtiges internes Modell ist das so genannte 

Vorwärtsmodell. Die Eigenschaft des Vorwärtsmodells ist dabei die Vorhersage von 

sensorischen Zuständen. 

Ein Beispiel für die Anwendung von visuellen Vorwärtsmodellen ist die Vorhersage 

von Objektpositionen durch eine Person mit eingeschränktem Sichtfeld, die einen 

Raum durchquert (Rieser et al., 1986). Obwohl durch die Sichteinschränkung manche 

Objekte nicht mehr sichtbar sind, ist die Person in der Lage, deren Position relativ 

genau zu bestimmen. 

Es gibt einige Studien, die visuelle Vorhersagen von selbst generierten Handlungen 

durch Vorwärtsmodelle untersuchen (Hoffmann und Möller, 2004; Blakemore et al., 

1999, 2000). 

Diese Diplomarbeit beschäftigt sich mit der Implementierung einer Roboterarm- 


1 Einleitung 

Ansteuerung mit Hilfe von visuellen Vorwärtsmodellen. Dabei werden Aspekte des 

menschlichen sensomotorischen Systems im Bezug auf die Koordination von Sensoren 

und Effektoren modelliert. Die Vorwärtsmodelle werden genutzt, um eine zielgerichtete 

Handlung zu realisieren. Es gilt dabei, den entstehenden sensorischen Fehler zwischen 

erwartetem und tatsächlich eintreffenden Ziel zu minimieren, um dieses Ziel mit 

größter Genauigkeit zu erreichen. Bei dem verwendeten Effektor handelt es sich um 

einen Roboterarm mit einem Greifer, bei dem Sensor um ein Kamerasystem. 

Das umzusetzende Ziel dieser Arbeit ist die Verschiebung eines Objektes mit Hilfe 

des Roboterarms. Start- und Zielzustand bestehen dabei aus Position und Orientierung 

des Objektes, welche in visueller Form eines Kamerabildes vorgegeben wird. Bei 

dem entstehenden Szenario überführt der Roboterarm das Objekt durch Anwendung 

von Motorkommandos von einem sensorischen Zustand ¢¡ zum Zeitpunkt £ in einen 

sensorischen Zustand ¤¡¦¥¨§ zum Zeitpunkt £© . Hierbei ist es von großem Interesse 

den sensorischen Zustand ¡¦¥¨§ schon zum Zeitpunkt £ vorhersagen zu können, um eine 

optimale Entscheidung über die zu wählenden Motorkommandos zu treffen. Unter 

Nutzung der visuellen Vorhersage eines Vorwärtsmodells, in Kombination mit einer 

Optimierung des entstehenden sensorischen Fehlers, ist es möglich, Motorkommandos 

zu berechnen, die zu dem gewünschten Zielzustand führen. 

Die Verschiebeoperation soll entlang einer möglichst sauberen Trajektorie verlaufen, 

die große Umwege ausschließt. Es ist sinnvoll, eine solche zielgerichtete Bewegung 

durch eine Sequenz von Motorkommandos zu realisieren. Eine Methode, um 

eine geeignete Sequenz von Motorkommandos zu finden, liegt laut Hoffmann und 

Möller (2004) in der Optimierung einer Kette von identischen aufeinander folgenden 

Vorwärtsmodellen. Es stellt sich dabei die Frage, wie gut sich eine zielgerichtete Bewegung 

durch eine Verkettung von mehreren aufeinander folgenden Vorwärtsmodellen 

realisieren lässt. Schon kleine Vorhersagefehler in den einzelnen Vorwärtsmodellen 

können sich schnell zu größeren Fehlern aufsummieren. 

In Kapitel 2 wird nach einer Motivation der Problemstellung mit kurzer Einführung in 

die bereits vorhandenen Studien ein theoretischer Überblick über die verwendeten Methoden 

und Verfahren gegeben. Nachdem dabei grundlegende Strukturen der internen 

Modelle beschrieben wurden, wird auf die neuronalen Netze eingegangen, mit Hilfe 

derer es möglich ist, ein solches Vorwärtsmodell zu trainieren. Anschließend wird das 

Optimierungsverfahren ” 

Differential Evolution“ erläutert, welches eine geeignete Verkettung 

von Vorwärtsmodellen zu der gesuchten Verschiebeoperation berechnet. 

Im darauf folgenden Kapitel 3 wird das Setup beschrieben, welches eine Grundlage 

für die praktische Realisierung bildet. Das Setup ist unterteilt in das Kamera-, das 

Roboterarm- und das Datenbank-Setup. Des Weiteren wird dort eine Einschränkung 

des Bereiches spezifiziert in dem die Verschiebeoperation ausgeführt werden soll. 

Auf die in Kapitel 2 und 3 beschriebenen Methoden und Verfahren aufbauend wird 

in Kapitel 4 geschildert, in welcher Art und Weise die Implementierung eines vi- 


1 Einleitung 

suellen Vorwärtsmodells realisiert wurde. Dabei wird zu Beginn die Umsetzung des 

Vorwärtsmodells als Multi-Layer-Perzeptron und die dabei verwendete Struktur der 

Lernbeispiele erläutert. Nach der Berechnung des Greifer-Startzustandes wird zuletzt 

noch die Realisierung von Differential Evolution beschrieben. 

In Kapitel 5 wird über die Experimente und deren Resultate berichtet. Hier wird auch 

darauf eingegangen, inwiefern die gestellte Aufgabe gelöst wurde und welche Verfahren 

und Variationen sich dabei als gut bzw. nicht geeignet herausgestellt haben. 

Nach einer kurzen Zusammenfassung in Kapitel 6 werden in Kapitel 7 noch mögliche 

Verbesserungsvorschläge vorgestellt, auf die im Rahmen dieser Arbeit nicht mehr eingegangen 

werden konnte. 


1 Einleitung 


2 

Theoretischer Hintergrund 

Dieses Kapitel beginnt mit einer Motivation des Zieles dieser Arbeit im Abschnitt 2.1. 

Die folgenden Abschnitte dienen zur Erläuterung des theoretischen Hintergrunds der in 

Kapitel 4 realisierten Modelle und Verfahren. Die so genannten internen Modelle, die 

bereits in der Einleitung erwähnt wurden, werden im Abschnitt 2.2 genauer beschrieben. 

Eines dieser Modelle ist das so genannte Vorwärtsmodell, welches im Rahmen 

dieser Arbeit eine wichtige Rolle spielt. In Abschnitt 2.3 werden neuronale Lernverfahren 

beschrieben. Dabei gibt es unterschiedliche Strukturen und Lernarten, die es zu 

berücksichtigen gilt. Schließlich wird im Abschnitt 2.4 das Optimierungsverfahren Differential 

Evolution erläutert. Mit Hilfe dieses Verfahrens ist es möglich, eine Kette von 

Vorwärtsmodellen zu bilden, welche vom Startzustand einer Verschiebeoperation zum 

Zielzustand führt. 

2.1 Motivation 

Aktuelle Forschungen in der Kognitionswissenschaft legen nahe, dass die neuronale 

Bewegungskontrolle durch interne Modelle, unterteilt in inverse Modelle und 

Vorwärtsmodelle, realisiert wird. Dabei wird in der Motorik das Vorwärtsmodell 

verwendet, um die sensorische Konsequenz von Handlungen vorherzusagen. Inverse 

Modelle hingegen werden benötigt, um Motorkommandos zu berechnen, durch die eine 

gewünschte Handlung ausgeführt und ein gewünschter sensorischer Zustand erreicht 

werden kann. Laut Möller (2001) ist es nicht auszuschließen, dass Vorwärtsmodelle bei 

den sensomotorischen Fähigkeiten von Menschen eine wichtige Rolle spielen. 

Auch im Bereich der somatosensorischen (taktilen) Vorhersagen können 


2 Theoretischer Hintergrund 

Vorwärtsmodelle die sensorische Konsequenz von selbstgenerierten Handlungen 

voraussagen (Blakemore et al., 1998). Jedoch muss streng zwischen selbstgenerierten 

und fremdgenerierten Handlungen unterschieden werden. Der Reiz einer selbstgenerierten 

Handlung kann eine andere sensorische Konsequenz hervorrufen, als ein 

identischer Reiz einer fremdgenerierten Handlung. 

Blakemore et al. (2000) erläutern dies an dem Beispiel des ” 

Kitzelns“. In einer Studie 

zeigen sie, dass die Frage, warum ein Mensch sich nicht selbst kitzeln kann, durch 

die Existenz interner Modelle beantwortet werden kann. Der Grund hierfür liegt 

darin, dass Menschen durch wiederholte Ausführung einer Handlung diese immer 

besser vorhersagen können. Dadurch kann die sensorische Konsequenz auf eine solche 

Handlung zunehmend unterdrückt werden. Die Konsequenz auf fremd initiierte Handlung 

hingegen kann nur teilweise vorhergesagt werden, so dass eine nicht erwartete 

Handlung eine stärkere sensorische Konsequenz haben kann. 

Diese Arbeit beschäftigt sich ausschließlich mit sensorischen Konsequenzen selbstgenerierter 

Handlungen. Ihr Ziel ist dabei die Untersuchung, auf welche Art und Weise 

visuelle Vorwärtsmodelle für einen Roboterarm mit Kamera-Kopf realisiert werden 

können. Dabei ist die gestellte Aufgabe die Verschiebung eines Objektes von einem 

sensorischen Startzustand in einen sensorischen Zielzustand, wobei die sensorischen 

Zustände nur in visueller Form vorliegen. Der genaue Ablauf einer solchen Verschiebeoperation 

wird im Abschnitt 4.1 beschrieben. 

Hoffmann und Möller (2004) untersuchten in diesem Kontext bereits, wie sich eine 

zielgerichtete Bewegung durch eine Kette von aufeinander folgenden visuellen Vorhersagen 

realisieren lässt. Auf diese Weise können kleinschrittige Vorhersagen zur Lösung 

komplexer Aufgaben verwendet werden. 

Als Motivation dieser Arbeit dient, wie schon in der Einleitung erwähnt, der Erwerb 

von sensomotorischen Fähigkeiten in Anlehnung an das menschliche sensomotorische 

System. Die internen Modelle dienen dabei zur sensomotorischen Koordination von 

Sensoren und Effektoren. 

Im folgenden Abschnitt wird genauer beschrieben, wie die internen Modelle aufgebaut 

sind und für welche Aufgabenbereiche sie geeignet sind. 

2.2 Interne Modelle 

Interne Modelle gewinnen zunehmend Bedeutung in aktuellen Forschungen der Neuround 

Kognitionswissenschaften. Es stellt sich dabei die Frage, wie das zentrale Nervensystem 

(ZNS) im Bezug auf die Motorik funktioniert und welche Arten von internen 

Modellen dabei wichtige Rollen übernehmen. Interne Modelle können laut Wolpert und 

Miall (1996) in folgende drei Arten von Modellen unterteilt werden. 

interne Vorwärtsmodelle 



Abbildung 2.1: Vorwärtsmodelle sagen anhand von Informationen über den Ausgangspunkt einer Bewegung und der 

Efferenzkopie den nächsten sensorischen Zustand vorraus. 

inverse Modelle 

externe Vorwärtsmodelle 

2.2.1 Interne Vorwärtsmodelle 

Ein internes Vorwärtsmodell dient zur Vorhersage der sensorischen Konsequenzen eines 

gegebenen Motorkommandos. Wenn zum Zeitpunkt ein Sensorzustand und ein Motorkommando 

vorliegen, so kann das Vorwärtsmodell den darauf folgenden Sensorzustand 

£ 

zum Zeitpunkt schätzen, der nach der Ausführung des motorischen Befehls vorliegt 

(siehe Abbildung 2.1). Soll beispielsweise eine Person ein Objekt über den Tisch 

schieben, muss der Arm von einer Startposition in eine Zielposition überführt werden. 

£ © 

Bei der Koordinierung einer solchen Bewegung ist bereits bei der Kommandogenerierung 

von Interesse, ob die gewählten Kommandos an die Muskulatur den gewünschten 

sensorischen Effekt erzielen. 

Vorhandene Studien unterteilen interne Vorwärtsmodelle in drei Kategorien (Karniel, 

2002). 

Output Predictor 

State Estimator 

Distal Teacher 

Output Predictor 

Der ” 

Output Predictor“ macht Vorhersagen über die zu erreichenden Zustände. Ein Beispiel 

ist die bereits beschriebene Beobachtung, dass man sich nicht selbst kitzeln kann 

(Blakemore et al., 2000). Aus den Beobachtungen, dass selbst initiierte taktile Stimulationen 

zu geringeren Empfindungen führen als fremd initiierte, schließen Blakmore et 

al., dass es ein Modell zur Vorhersage von sensorischen Konsequenzen auf selbstproduzierte 

Situationsveränderung geben muss. Außerdem muss es dem Gehirn möglich 

sein Konsequenzen auf gleiche Handlungen abzuspeichern und die sensorischen Empfindungen 

auf diese Handlung zu reduzieren oder gar zu unterdrücken. 



Abbildung 2.2: Distal Teacher. Die Kombination aus inversem Modell und Vorwärtsmodell ermöglicht das Training von 

inversen Modellen. 

Das sensorische Signal kann in ” 

Afferenz“, bestehend aus externem Einfluss auf den 

Körper, und ” 

Reafferenz“, bestehend aus der sensorischen Konsequenz auf eigene 

Handlungen, unterteilt werden. Durch eine Efferenzkopie, einer Kopie des ausgeführten 

Motorkommandos, kann ein Vorwärtsmodell eine Vorhersage des sensorischen Folgezustands 

erstellen, welche mit dem tatsächlich eintreffenden sensorischen Zustand verglichen 

werden kann. Die entstehende sensorische Differenz informiert das zentrale Nervensystem 

über mögliche externe Einflüsse. Die Grundlage dieses Prinzips ist das seit 

längerem bekannte Reafferenzprinzip (Holst und Mittelstaedt, 1950). 

State Estimator 

Der State Estimator dient zur Vorhersage interner Zustände in dynamischen Systemen. 

Durch einen ” 

Observer“, welcher Vorwärtsmodelle verwendet, können interne Zwischenergebnisse 

verarbeitet werden. Ein Beispiel ist die Koordination von Motorsignalen 

beim Zusammenspiel von zwei verschiedenen Körperteilen wie z.B. Auge und Arm 

oder zweier Arme. Diese Koordination wird durch die Vorhersage der internen Zwischenzustände 

ermöglicht. 

Distal Teacher 

Beim ” 

Distal Teacher“ handelt es sich um ein Vorwärtsmodell, welches das Trainieren 

von inversen Modellen (siehe Abschnitt 2.2.2) ermöglicht. Bei der Erzeugung einer 

gezielten motorischen Handlung berechnet das inverse Modell ein Motorkommando, 

das den momentanen Zustand in einen Folgezustand überführt. Das Vorwärtsmodell hat 

dabei die Aufgabe, den aus dem sensorischen Zustand hervorgehenden sensorischen 

Fehler in einen motorischen umzuwandeln. Dieser wird wiederum vom ” 

Distal Teacher“ 

genutzt, um das inverse Modell zu trainieren und somit den motorischen Fehler 

zu minimieren (siehe Abbildung 2.2). Durch diesen Kreislauf wird Schritt für Schritt 



Abbildung 2.3: Inverse Modelle dienen der Bewegungskontrolle. Sie bestimmen ausgehend vom gew ünschten Zustand 

und dem Ausgangszustand, den erforderlichen motorischen Befehl. 

das inverse Modell trainiert und im Bezug zur Aufgabenstellung optimiert. Als Beispiel 

dient hier die Bewegung des Arms zu einem visuellen Ziel. Während der Bewegung zum 

Ziel führen jegliche Fehler im Motorkommando zu visuellen Fehlern, welche durch das 

Vorwärtsmodell in motorische Fehler umgerechnet werden. Das inverse Modell kann 

daraufhin eine Korrektur des Motorkommandos bewirken. 

2.2.2 Inverse Modelle 

Inverse Modelle transformieren gewünschte Bewegungsziele in erforderliche Efferenzen 

und ermöglichen somit eine Bewegungssteuerung. Das inverse Modell eines Arms 

würde beispielsweise ein Motorkommando (Efferenz) berechnen, was zu einer Bewegung 

des Arms und damit einem neuen Zustand führt. Dabei besteht der Input aus dem 

aktuellen und dem gewünschten sensorischen Zustand (siehe Abbildung 2.3). Wie schon 

im vorhergehenden Abschnitt beschrieben, kann ein inverses Modell durch Zuhilfenahme 

eines Vorwärtsmodells trainiert werden. 

Oftmals ist die Abbildung eines inversen Modells eine so genannte ” 

one-to-many“- 

Abbildung. Dabei kann ein gewünschter sensorischer Zustand durch mehrere unterschiedliche 

Lösungswege erreicht werden. Als Beispiel einer solchen Abbildung kann 

die Kinematik von Roboterarmen herangezogen werden. Bei der Berechnung der inversen 

Kinematik können mehrere unterschiedliche Winkelstellungen der einzelnen Gelenke 

berechnet werden, welche alle die gleiche Position und Orientierung des Greifers 

erzeugen. Diese Mehrdeutigkeit stellt eine Schwierigkeit für das Lernen von inversen 

Modellen dar. Eine Kombination von inversen Modellen und Vorwärtsmodellen wird 

verwendet um diese Schwierigkeit zu kompensieren (siehe Abschnitt 2.2.4). 

2.2.3 Externe Vorwärtsmodelle 

Bei den externen Vorwärtsmodellen geht es nicht wie bei den internen 

Vorwärtsmodellen um die Vorhersage von Zuständen aufgrund von selbst generierten 

Kommandos, sondern um die Vorhersage von Situationsänderungen eines 

externen Systems, das sich unabhängig vom Individuum verhält. Beispielsweise kann 

die Lageänderung eines Objektes vorhergesagt werden, welches nicht im Zusammen- 



hang mit dem eigenen motorischen Apparat steht. Als konkretes Beispiel dient hier ein 

fallendes oder rollendes Objekt, dass eine Person zu fangen versucht. 

Diese Art von Vorwärtsmodellen spielt in Anbetracht der zu lösenden Aufgabe 

keine weitere Rolle, da nur interne Vorwärtsmodelle im Bezug auf selbstgenerierete 

Handlungen nötig sind, um eine Verschiebeoperation zu realisieren. 

2.2.4 Kombination der Modelle 

Die Kombination aus Vorwärtsmodellen und inversen Modellen, kann verwendet werden, 

um komplexe sensomotorische Koordinationen zu realisieren. 

Ein Beispiel dafür ist das von Haruno et al. (2001) entwickelte MOSAIC-Modell zur 

kontextsensitiven sensomotorischen Kontrolle. MOSAIC ist dabei eine die Abkürzung 

für ” 

modular selection and identification for control“. Es basiert auf einer Vielzahl so 

genannter Module, in denen jeweils ein Vorwärtsmodell mit einem inversem Modell gekoppelt 

ist. Die Vorwärtsmodelle der unterschiedlichen Module teilen unter sich den zu 

lösenden Kontext auf, so dass es für jeden beliebigen Teil des Kontextes eine Anzahl 

von Vorwärtsmodellen gibt, die die sensorische Konsequenz eines Motorkommandos 

korrekt vorhersagen. Der Vorhersagefehler jedes Vorwärtsmodells wird verwendet um 

das zugehörige inverse Modell zu trainieren. Dies garantiert, dass innerhalb eines Moduls 

das inverse Modell die entsprechende Konrolle des Kontextes übernimmt, in dem 

das gekoppelte Vorwärtsmodell die richtigen Vorhersagen macht. Durch dieses Zusammenspiel 

mehrerer Vorwärtsmodelle und inverser Modelle ist ein erfolgreiches Lernen 

verschiedener Aufgabestellungen möglich. 

Die Eigenschaften von Vorwärtsmodell und inversem Modell können nicht nur bei Eigenbewegungen, 

sondern auch bei der Interaktionen mit anderen Personen verwendet 

werden. Das auf dem MOSAIC-Modell basierende HMOSAIC ist ein solches Modell 

(Wolpert et al., 2001). Die Vorwärtsmodelle sagen dabei die Reaktion anderer Individuen 

auf selbst produzierte Handlungen voraus. Die inversen Modelle hingegen generieren 

Handlungen, durch die eine erwartete Reaktion des Gegenübers erzwungen werden 

kann. Wie jedoch die Erfahrung zeigt, weicht die tatsächliche Reaktion anderer Individuen 

auf eine Handlung oft stark von der erwarteten Reaktion ab. 

2.3 Neuronale Lernverfahren 

Einen wichtigen Bestandteil von Lernverfahren stellen künstliche neuronale Netze dar. 

Es handelt sich dabei um biologisch motivierte informationsverarbeitende Systeme, die 

aus einer großen Anzahl von auf abstraktem Niveau simulierten Neuronen bestehen. 

Durch Aktivierung dieser Neuronen über gewichtete Verbindungen werden Informationen 

untereinander ausgetauscht. Das biologische Analogon stellt das Gehirn von Lebewesen 

dar, bei dem die Informationsverarbeitung ebenfalls durch viele verbundene 



Nervenzellen realisiert wird. Beide Systeme bestehen aus sehr vielen kleinen einfachen 

Einheiten, die hochgradig verknüpft in der Lage sind, komplexe Aufgaben zu 

lösen. Ein wesentlicher Bestandteil von künstlichen neuronalen Netzen ist dabei ihre 

Lernfähigkeit. Dies ist die Fähigkeit, das Lösen einer Aufgabe, wie etwa eines Klassifikationsproblems, 

selbständig aus Trainingsbeispielen zu lernen, ohne dass das Netz 

dafür explizit programmiert werden muss. Durch hohe Parallelität bei der Informationsverarbeitung, 

Fehlertoleranz und verteilte Wissenrepräsentation hat der Verlust einer 

Nervenzelle keine große Auswirkung auf den Lernerfolg. 

Biologische Nervenzellen bestehen aus drei Komponenten: Zellkörper, Dendriten und 

Axon. Die Dendriten summieren dabei die Signale aus der Umwelt in den Zellkörper 

auf und ein Axon leitet die Ausgabe des Zellkörpers nach außen weiter, so dass andere 

Nervenzellen diese Informationen weiterverarbeiten können. Analog dazu verhält sich 

ein künstliches Neuron, das die Eingaben durch gewichtete Verbindungen leitet. Je nach 

Aufgabenstellung müssen die Gewichtungen so gewählt werden, dass gewünschte und 

tatsächliche Ausgabe möglichst genau übereinstimmen. Da es unpraktikabel und sehr 

zeitaufwändig wäre, diese Gewichtungen durch systematische Tests herauszufinden, 

sollen die Gewichtungen erlernt werden. So kann ein neuronales Netz durch Änderung 

der Gewichtungen an die Aufgabenstellung angepasst werden. 

Neuronale Netze können je nach Anwendungsgebiet unterschiedliche Strukturen haben. 

Einige dieser Topologien, auf die im Folgenden noch genauer eingegangen wird, sind 

in Abbildung 2.6 zu sehen. Je nach Topologie des Netzwerkes können unterschiedliche 

Lernverfahren sinnvoll sein. 

Zell (1997) und Wolpert et al. (2001) unterteilen das Lernen in neuronalen Netzen in 

drei unterschiedliche Kategorien: 

Überwachtes Lernen (supervised learning) 

Bestärkendes Lernen (reinforcement learning) 

Unüberwachtes Lernen (unsupervised learning) 

Beim überwachten Lernen wird eine Trainingsmenge benötigt, die aus vielen Lernbeispielen 

mit Eingabemustern und Ausgabemustern besteht. Für jedes Eingabemuster 

der Trainingsmenge wird das korrekte Ausgabemuster angegeben. Die Gewichtungen 

werden durch das Lernverfahren so verändert, dass das neuronale Netz möglichst für 

alle Eingabemuster das korrekte Ausgabemuster generiert. Hierfür wird ein Fehlermaß 

zwischen erwarteter Ausgabe und erreichter Ausgabe eingeführt, welches es zu 

minimieren gilt. 

Beim bestärkenden Lernen gibt ein externer Lehrer zu jedem Eingabemuster der 

Trainingsmenge an, ob es richtig oder falsch klassifiziert wurde. Es werden jedoch 

keine optimale Ausgaben für die Eingabemuster vorgegeben. 



Abbildung 2.4: Links: Lineares Problem lösbar durch ein einfaches Perzeptron, Rechts: Komplexeres Problem lösbar 

durch ein Multi-Layer-Perzeptron. 

Abbildung 2.5: Schemazeichnung eines Multi-Layer-Perzeprons mit Hervorhebung eines einzelnen Neurons. Quelle: 

Zell (1997) 

Gar keinen Lehrer gibt es beim unüberwachten Lernen, welches durch Selbstorganisation 

versucht, Eingabemuster in ähnliche Kategorien zu klassifizieren. Diese Art des 

Lernens, bei der die statistischen Eigenschaften der Eingabemuster extrahiert werden, 

ist biologisch am plausibelsten. 

Am praktikabelsten und einfachsten zu implementieren ist jedoch das überwachte 

Lernen, das auch für die Realisierungen in dieser Diplomarbeit gewählt wurde. 

Ein einfaches neuronales Netz ist das so genannte Perzeptron, welches aus einer Schicht 

von Neuronen, mit Hilfe derer einfache Muster detektiert werden können, besteht. Auf 

dieser Basis wurde der so genannte ” 

simple feature detector“ von (Minsky und Papert, 

1972) entwickelt. Von allen Neuronen der Schicht gibt es gewichtete Verbindungen zu 

einem einzigen Neuron, welches als Klassifikator fungiert. 



Abbildung 2.6: Schemazeichnung von vier verschiedenen Netzstrukturen eines neuronalen Netzes. Quelle: Zell 

(1997) 

Das Perzeptron ist jedoch ein linearer Klassifikator, so dass nur lineare Probleme mit 

seiner Hilfe gelöst werden können. Dies ist in Abbildung 2.4 grafisch verdeutlicht. Um 

kompliziertere Probleme lösen zu können, wurde das Perzeptron Modell zu dem Multi- 

Layer-Perzeptron Modell (MLP) erweitert (siehe Abbildung 2.5). Das Multi-Layer- 

Perzeptron dient dabei als Funktionsapproximator. Es kann beliebige Muster und Funktionen 

darstellen. Ein MLP besteht aus mindestens drei Schichten von Neuronen, einer 

Eingabeschicht (Input-Layer), mindestens einer verdeckten Schicht (Hidden-Layer) 

und einer Ausgabeschicht (Output-Layer). Es kann je nach Komplexität des zu lösenden 

Problems beliebig viele verdeckte Schichten geben. Wie schon erwähnt gibt es verschiedene 

Topologien bei neuronalen Netzen, wobei das MLP ein so genanntes feedforward- 

Netz ist, bei dem nur Verknüpfungen in eine Richtung vorgesehen sind (siehe Abbildung 

2.6 a). Zudem sind beim MLP alle Neuronen einer Schicht mit allen Neuronen 

der darauf folgenden Schicht verbunden. Bei anderen Topologien sind Querverbindungen 

zwischen Eingabe und Ausgabeschicht oder sogar Rückkopplungen erlaubt (siehe 

Abbildung 2.6 b, c und d). Auch müssen nicht alle Neuronen einer Schicht in alle Neuronen 

der darauf folgenden Schicht mit einfließen. Die Aktivierungen der Neuronen eines 

einlagigen Perzeptrons bestehen aus binären Eingaben. Ein Multi-Layer-Perzeptron als 

Funktionsapproximator hingegen nimmt beliebige Eingaben an. Die verdeckten Schichten 

und die Ausgabeschicht haben die gleichen Eigenschaften. 


¢ 


Abbildung 2.7: Die häufigsten Aktivierungsfunktionen: linear, semilinear und sigmoid. 

Dabei summiert jedes Neuron alle seine Eingaben, bestehend aus den Ausgaben 

der Vorgängerneuronen ¡£¢ multipliziert mit der jeweiligen Gewichtung ¤¥¢§¦ , zur so 

genannten Netzeingabe ¨© 

£ 

¦ auf. In vielen Modellen neuronaler Netze, so auch im 

MLP, hat jedes Neuron noch einen ungewichteten ” 

bias“ Wert, der einen Schwellwert 

angibt, ab dem ein Neuron stärker aktiv ist. Diese dient zur Feineinstellung und ist ein 

Äquivalent zur biologischen Reizschwelle, ab der ein Neuron anfängt zu feuern. 

Propagierungsfunktion: 

¡¢¤¢§¦ (2.1) 

£ 

¦¥ ¨© 

Die ¡¦ Ausgabe des Neurons ist dann durch die 

¡ Aktivierungsfunktion und der 

¨© 

£ 

¦ Netzeingabe gegeben. 

Ausgabefunktion: 

¡¦¥ ¡ ¨© 

£ 

¦ (2.2) 

Die 

¡ 

Aktivierungsfunktion der Neuronen kann beliebig sein. Übliche Aktivierungsfunktionen 

sind lineare, semilineare oder sigmoide Funktionen, wie sie in Abbildung 

2.7 zu sehen sind. 

2.3.1 Back-Propagation Verfahren 

Ein bekanntes Verfahren des überwachten Lernens ist das ” 

Back-Propagation Learning“ 

(bprop). Für das Lernen wird eine Trainingsmenge, bestehend aus einer Vielzahl von 

Lernbeispielen, benötigt. Ein Lernbeispiel besteht dabei aus einem Eingabemuster und 

einem dazu passenden optimalen Ausgabemuster. Die Lernbeispiele der Trainingsmenge 

können verwendet werden, um das neuronale Netz zu trainieren. Dabei werden für 

jedes Lernbeispiel folgende Schritte durchgeführt. 

Vorwärtspropagierung des Eingabemusters durch das gesamte Netz bis zur Ausgabe 


¨¡©¡¤ 

¥ 

¦ 

 


Abbildung 2.8: Probleme beim Back-Propagation Verfahren. Quelle: Zell (1997) 

Vergleich dieser Ausgabe mit der erwünschten Ausgabe liefert den Lernfehler 

Rückwärtspropagierung des Fehlers von der Ausgabeschicht bis zur Eingabeschicht 

wobei die Gewichte der Verbindungen geändert werden, um den Fehler 

zu minimieren. 

Jedes Element der Trainingsmenge durchläuft diese Prozedur mehrfach, bis der entstehende 

Durchschnitt aller Fehler einen bestimmten Schwellwert unterschreitet. Jeder 

Durchlauf der Trainingsmenge wird Epoche genannt. 

Das Back-Propagation Verfahren basiert auf einem Gradientenabstiegsverfahren, bei 

dem durch Änderung der Gewichte versucht wird, eine Fehlerfunktion zu minimieren. 

Als Fehlerfunktion wird häufig der quadratische Abstand zwischen erwarteter und realer 

Ausgabe verwendet. Der Gesamtfehler ¢¡£¡£¤ ergibt sich als Summe der Fehler ¦¥ 

über alle Lernbeispiele § . 

¥ (2.3) 

mit 

 

 

(2.4) 

£ 

¥ 

Es wird nach Zell (1997) eine so genannte Delta-Regel hergeleitet, welche die Modifikation 

der Gewichte beschreibt. Dabei wird der jeweilige Gradientenabstieg der Fehlerfunktion 

an der durch das ¤ ¢§¦ Gewicht definierten Stelle ¡£¡£¤ 

verwendet: 

¥¦ 

¡¥¦ 

¤¢¦ 

 

¡¥ ¢ £ 

¥¦¦ ¡¥¦ (2.5) 

¥ 

mit Gewichten ¤¢§¦ , Lernschrittweite , Lerneingabe £ ¥¦ und Ausgabe ¡¥¦ von Neuron 

bei Lernbeispiel § . Es handelt sich hierbei um das Offline-Trainingsverfahren, bei 


¡ 

¢ 

 

 

 

¡ 


dem alle Muster vorhanden sein müssen, bevor die Gewichte in einem Schritt geändert 

werden. Um neue Muster nachträglich trainieren zu können, wird in der Praxis oft das 

Online-Trainingsverfahren verwendet, bei dem die Änderung der Gewichte direkt nach 

Anlegen jedes einzelnen Musters erfolgt. 

Diese Delta-Regel ist nur für einstufige Netze und lineare Aktivierungsfunktionen definiert. 

Sie muss jedoch für Netze mit mehreren Ebenen und semilinearen Aktivierungsfunktionen 

verallgemeinert werden. Die verallgemeinerte Regel ist die Back- 

Propagation Regel. Die Offline- und Online-Back-Propagation Regeln sind dann definiert 

durch: 

¡¥ ¢ £ 

¥¦¦ ¡¥¦ (2.6) 

¥¤¢§¦ 

mit 

 

¤¢§¦ 

¥ 

¡¥ ¢ 

¡ 

¥¤¢¦ ¡¥ ¢ 

¡ 

(2.7) 

¥¦ 

(2.8) 

¥¦ 

¡¥¦ 

falls j Ausgabezelle ist 

falls j verdeckte Zelle ist 

(2.9) 

¥¦ 

¡¥¦ 

¡¥¦¤£¦¥ 

Die Nachfolgeneuronen von müssen berücksichtigt werden, da das Neuron bei allen 

§ Nachfolgezellen einen Fehler verursacht. 

Das Back-Propagation Verfahren wirft Probleme auf, da es sich um ein lokales Minimierungsverfahren 

handelt. Es berechnet den Gradientenabstieg aus den Kenntnissen 

seiner lokalen Umgebung und hat keine Information über die gesamte Fehlerfläche der 

Funktion (Zell, 1997). Auf die wichtigsten auftretenden Probleme wird nun kurz eingegangen. 

Eine Schwierigkeit bilden lokale Minima, bei deren Auftreten das Verfahren eine 

schlechte Lösung findet. Bessere Lösungen, im eigentlich gesuchten globalen Minimum, 

werden dann nicht mehr gefunden (siehe Abbildung 2.8 a). Die Wahl einer 

genügend kleinen 

Lernschrittweite hilft bei den meisten Anwendungen. Weiterhin 

kann das Verfahren bei flachen Plateaus (siehe Abbildung 2.8 b) stagnieren, da die 

Größe der Gewichtsänderungen von dem Betrag des Gradienten abhängig ist und dieser 

dort sehr gering ist. Es werden also viele Iterationen benötigt, um solche Stellen zu passieren. 

Das Überspringen guter Minima stellt ein weiteres Problem dar. In sehr engen 

Tälern auf der Fehlerfläche kann es durch einen großen Betrag des Gradienten vorkommen, 

dass ein globales Minimum übersprungen und ein schlechteres lokales Minimum 

gefunden wird (siehe Abbildung 2.8 c). Auch dieses Problem kann durch die Wahl einer 

kleinen Schrittweite vermieden werden. 


£¡ 

 

 

£¡ 

 

 

 

 

¥ 

 

 

 

 

 

 

¥ 

 

 

£ 

§¦©¨¤ 

£ 

¦¨ ¥¤ 

£ 

§¦©¨¤ 

£ 

¨ ¥¤ 

 

¥¤ 

£ 

§©¨ 

¤ 


Die Wahl der 

Lernschrittweite hat somit eine große Bedeutung. Die optimale Größe 

von hängt aber in der Regel von der Anwendung, den Trainingsdaten sowie Größe 

und Topologie des Netzes ab. 

2.3.2 Resilient-Propagation Verfahren 

Ein anderes ebenfalls bekanntes Lernverfahren ist das Resilient-Propagation Lernverfahren 

(rprop) von Riedmiller und Braun (1993). Es ist eine Kombination aus 

dem Manhattan-Verfahren, dem SuperSAB-Verfahren von Tollenaere (1990) und dem 

Quickprop-Verfahren von Fahlman (1988). Die Gewichte werden im Manhatten- 

Verfahren nicht wie im Back-Propagation Verfahren, nach dem Gradienten der Fehlerfunktion, 

sondern nach dessen Vorzeichen geändert. Außerdem werden wie bei SuperSAB 

und Quickprop die Vorzeichen des aktuellen und vorherigen Zeitpunktes verwendet. 

Ähnlich wie bei SuperSAB besitzt jedes Gewicht einen eigenen Parameter für die 

Änderung der Schrittweite. 

¢ ¡ 

 

¢§¦ £ 

 

¢§¦ £ 

 

¢§¦ £ 

falls ¤ 

£ 

 

 

 

 

 

falls ¤ 

£ 

 

 

falls 

sonst 

£ 

§¦©¨ ¥¤ 

£ 

§©¨ ¥¤ 

(2.10) 

¢§¦ £ 

 

Fehlerfunktion in Richtung des Gewichtes ¤ ¢¦ zum Zeitpunkt £ . 

 

Dabei ist der Lernparameter ¨ 

und ¤ 

£ 

die Steigung der 

Die Gewichtsänderung ¤¥¢¦ hängt nur von den Vorzeichen zum aktuellen und vorherigen 

Zeitpunkt ab. Sind diese Vorzeichen gleich, so wird der Betrag der Gewichtsänderung 

entweder addiert oder subtrahiert, je nach Vorzeichen der Steigung. 

 

Sind die Vorzeichen unterschiedlich, so war der Betrag der vorhergehenden Gewichtsänderung 

zu groß und ein lokales Minimum wurde übersprungen. In diesem Fall 

wird die letzte Gewichtsänderung rückgängig gemacht in dem ¤ ¢§¦ wieder subtrahiert 

wird. Daraus folgt: 

 

¤¢§¦ £ © 

¤¢§¦ £ 

 

© 

¤¢¦ £ 

(2.11) 

¢ ¡ 

(2.12) 

 

¢§¦ £ 

falls ¤ 

£ 

 

¢§¦ £ 

falls ¤ 

£ 

 

¢§¦ £ 

¤¢§¦ £ 

 

 

falls ¤ 

£ 


¡ 

 

 

§ 

 

 


Resilient-Propagation ist wie Quickprop ein Offline-Lernverfahren, bei dem die Gewichte 

erst nach der Präsentation aller Trainingsmuster adaptiert werden. Back- 

Propagation dagegen kann als Offline- oder auch als Online-Lernverfahren verwendet 

werden. Beim Online-Lernverfahren werden die Gewichte nach jedem Trainingsbeispiel 

sofort angepasst. Dann wird das nächste Trainingsbeispiel betrachtet. 

2.4 Optimierungsverfahren zur Bildung von Verhaltensketten 

Vorwärtsmodelle sagen lediglich für ein vorhandenes Motorkommando die sensorischen 

Informationen des darauf folgenden Zustandes vorher. Nachdem eine erfolgreiche und 

ausreichend präzise Vorhersage durch die trainierten Vorwärtsmodelle gewährleistet ist, 

besteht der nächste Teilschritt daher in der Erzeugung einer zielgerichteten Bewegung 

vom Startzustand bis zum Zielzustand. 

Bei den Vorhersagen durch Vorwärtsmodelle handelt es sich um Vorhersagen für 

kleine Verschiebeoperationen. Der Grund hierfür liegt im Aufbau der Trainingsmenge, 

auf den im Abschnitt 3.4.1 noch genauer eingegangen wird. In diesem Kapitel 

wird die Bildung einer Verhaltenskette beschrieben. Aus einzelnen Vorhersagen der 

Vorwärtsmodelle wird eine Kette gebildet, die vom Startzustand zum Endzustand 

führt. Ziel ist es, eine Serie von Motorkommandos zu finden, durch die eine möglichst 

genaue Übereinstimmung der sensorischen Informationen von gewünschtem und 

nach der Bewegung erreichtem Zielzustand erreicht wird. Dieses Problem kann als 

Optimierungsaufgabe gesehen werden, bei dee es gilt, den quadratischen Fehler der 

sensorischen Information zwischen gewünschtem und erreichtem Zustand zu minimieren 

(Hoffmann und Möller, 2004). Dieser Fehler wird im Folgenden auch als Energie 

bezeichnet. Je geringer die Energie, desto genauer ist die Übereinstimmung. 

Wichtig für eine zielgerichtete Bewegung ist das globale Minimum der Funktion, 

das durch solche lokalen Methoden nicht bestimmt werden kann. Es gibt einige 

Optimierungsverfahren, die jeweils Vor- und Nachteile haben. Bekannte Verfahren sind 

zum Beispiel Simulated Annealing und Differential Evolution, wobei in dieser Arbeit 

Differential Evolution verwendet wird. 

Differential Evolution (DE) ist ein sehr einfaches jedoch sehr mächtiges und effektives 

Verfahren zur kontinuierlichen Optimierung von reellwertigen Funktionen. Entworfen 

und weiterentwickelt wurde das Verfahren von Storn und Price (1995). 

Es handelt sich um eine evolutionäre, auf Populationen basierende Optimierungstechnik. 

Dabei verwendet es als Eingaberaum für die Suche eine Population mit 

für jede Generation 

§©©©§ 

. Jede dieser Generationen ist dabei ein Iterationsschritt der Optimierung. Die 

-dimensionalen Parameter-Vektoren ¢ ¢¤£¥ mit ¦ ¨§ 


¦¨§ 

¨© 

§ 

§ 

£¥ 


Abbildung 2.9: Zwei Dimensionale Beispiele f ür die Rand1 und die RandToBest1 Variation des Differential Evolution. 

Quelle: Storn und Price (1995) 

Dimension der Population 

bleibt während des gesamten Minimierungsprozesses 

unverändert. 

Die grundlegende Idee des Differential Evolution besteht in der Generierung von so 

genannten Mutations-Vektoren. Diese werden durch die Summation der gewichteten 

Differenz zweier Parameter-Vektoren aus einer Population mit einem dritten berechnet. 

Es wird im Bezug zur Aufgabe auch ein globales Minimum gesucht, da eine möglichst 

genaue Übereinstimmung von gesuchtem und erreichtem Zielzustand erreicht werden 

soll. Die initiale Population wird zufällig und gleichmäßig, aus einem Intervall gewählt, 

welches den vollständigen Parameterraum umfasst. 

Wenn der berechnete Mutations-Vektor ¢ eine geringere Energie als der ursprüngliche 

Parameter-Vektor ¢¢ hat, wird ¢¢ durch £¢ in der drauffolgenden Generation ersetzt. 

Anderenfalls wird der alte Vektor ¢ ¢ in der nächsten Generation beibehalten. Die 

Energie gibt dabei an wie gut der erzeugte Zustand mit dem zu erreichenden Zustand 

übereinstimmt. Je geringer die Energie ist, desto besser stimmen die beiden Zustände 

überein. 

Es gibt ca. 10-12 Varianten der Erzeugung des Mutations-Vektors von denen hier drei 

grundlegende Varianten genauer beschrieben werden. Bei diesen drei Varianten handelt 

es sich um Rand1, Best1 und RandToBest1. Die anderen Varianten sind Kombinationen 

und Variationen dieser drei. In allen Varianten werden für jeden ¢¢ Elternvektor drei 

weitere ¢¢¡ Vektoren ¢£¡ , ¢£¡¥¤ und zufällig aus der ¢¢¤£¥ Population mit i=0,1,2,..,N-1 

ausgewählt, die vom Vektor ¢¢ mit laufendem Index ¦ verschieden sind. Als nächstes 

wird ein Mutations-Vektor ¢ erzeugt. In diesem Punkt unterscheiden sich die Varianten 

(siehe Abbildung 2.9). 

 

© 

 

¢£¡ £¥ ¢£¡¥¤ £¥ (2.13) 

Universität Bielefeld, AG Technische Informatik 23 

¢¤£¥ 

¥¨§ 

¢£¡

¦¨§ 

¨ ©© ¡ ©¢¡ 

 

 

¡ 

 

¦¢¤£¥ 

¥¨§ 

 

¢ 

¡ 

£¥ 

¡ 

 

 

¡ 

 

¡ 

 

 

 

 

¡ 


Abbildung 2.10: Beispiel der Crossover-Methode mit D=7, n=2 und L=3. Quelle:Storn und Price (1995) 

£ 

©¢¡ 

© 

 

¢£¡ £¥ ¢£¡¥¤ £¥ (2.14) 

¢¤£¥ 

¥¨§ 

¢¤£¦¥¨§ 

£ 

© 

¡ 

£¥ ¢ ¢¤£¥ 

© 

 

¢£¡ £¥ ¢£¡¥¤ £¥ (2.15) 

mit: 

= Zufallszahl aus dem Intervall [0,1.2], welche die Verstärkung der differentiellen 

Variation kontrolliert. 

¢¤£¥ 

¥¨§ 

¢ ¢¤£¥ 

 

¢¤£¦¥¨§ 

¡ 

£¥ = Der beste Parameter-Vektor der Population. 

¢¤£¦¥¨§ 

= Variable zur Verstärkung des Terms ¢£¦¥§ mit 

¡ 

£¥ . 

RandToBest1 ist eine Kombination von Rand1 und Best1, wobei der Best1-Anteil durch 

die Variable gesteuert werden kann. Um die Vielfalt der neuen Parameter-Vektoren 

noch zu erhöhen, wird ein 

crossover“-Vektor definiert: 

” 

 

¢£¥ 

¥¨§ 

(2.16) 


 

¢£¥ 

¥¨§ 

 

 

¨¢¤£¥ 

¥¨§ 

§ 

 

¢¤£¥ 

¥¨§ 

§ ©©©§ 

¡ 

§¢ ¨ 

© 

§©©©§¢ ¨ 

© 

(2.17) 

¦ ¢¤£¥ 

¥¨§ für ¨ 

wobei: 

= Die Modulo Funktion mit als Dimension der Parameter-Vektoren. 

¡ ¨ 

¢ ¦ ¢¤£¥ für alle anderen ¨§ 



= Ein Zufallswert aus dem Intervall [0,D-1]. 

¨ 

= Die Anzahl der zu verändernden Werte wird aus [0,D-1] mit der Wahrscheinlichkeit 

[0,1] gewählt. 

¢¡ 

 

¤£ ¦ 

¦¥ mit £ ¦ 

Eine bestimmte Sequenz der Vektorelemente von ¢£¥ 

¥¨§ 

entspricht Elementen von 

¥¨§ 

, während der Rest von ¢¤£¥ 

¥¨§ 

aus den originalen Elementen von ¢ ¢¤£¥ besteht. 

¢¤£¥ 

Diese Rekombinations-Methode wird in der Evolutionstheorie crossover“ genannt. 

” 

Ein Beispiel hierfür ist in Abbildung 2.10 dargestellt. Die ¨ Werte und werden 

neu gewählt. Um zu entscheiden, ob der Vektor 

 

bei jedem neu generierten ¢£¥ 

¥¨§ 

¢¤£¥ 

¥¨§ in der nächsten Generation übernommen wird, wird er mit ¢ ¢¤£¥ verglichen. 

 

Wenn ¢¤£¥ 

¥¨§ einen kleineren Zielfunktionswert als ¢ ¢¤£¥ erreicht, wird ¢¢¤£¥ 

¥¨§ durch 

 

¢¤£¥ 

¥¨§ 

ersetzt, andernfalls wird der alte Wert ¢ ¢¤£¥ beibehalten. So ergeben sich die drei 

 

¦ 

Kontrollvariablen (Dimension der Population), (Verstärkung der differentiellen 

Variation) und (crossover Wahrscheinlichkeit). 

Laut der Entwickler (Storn und Price, 1995) ist Differential Evolution ein paralleles Verfahren. 

Eine Beschleunigung des Verfahrens kann durch das Ausführen auf parallelen 

Rechnern eines Netzwerks erreicht werden. Dies ist insbesondere sinnvoll für Probleme, 

deren Lösung auf einem einzigen Rechner sehr zeitaufwändig ist. 




3 

Experimentelles Setup 

Das Setup unterteilt sich in die drei Teilbereiche: Kamera-Setup, Roboterarm-Setup und 

Datenbank-Setup. In Abschnitt 3.1 wird die Kamera auf einer Pan-Tilt-Unit beschrieben, 

mit deren Hilfe Bilder vom Arbeitsbereich aufgenommen werden können. Mit einem 

Roboterarm, der im Abschnitt 3.2 beschrieben wird, kann ein Objekt (z.B. ein 

Klötzchen) auf dem Arbeitsbereich verschoben werden. Anschließend werden im Abschnitt 

3.3 nach einer Beschreibung des Arbeitstisches Einschränkungen über die Verschiebebewegung 

und den Verschiebebereich beschrieben. Zuletzt wird im Abschnitt 

3.4 erläutert, wie die Datenbank durch das Sammeln von Trainingsbeispielen erstellt 

und in welcher Form diese Bilder gespeichert wurden. 

3.1 Kamera-Setup 

Die verwendetete Kamera ist auf einer Pan-Tilt-Unit (Schwenk-Neige-Einheit, kurz 

PTU) montiert. Damit kann die Kamera beliebig ausgerichtet werden, um verschiedene 

§ 

Arbeitsbereiche zu visualisieren. Der Schwenkwinkel ist auf § ¨ 

 

einen Bereich von [- 

158,9 ; +158,9 ] und der Neigewinkel auf einen ¦ 

¡ £ 

Bereich von [-46,8 ; +31,1 ] beschränkt. 

Der Öffnungswinkel des Objektivs beträgt ca. 75 Grad in den Diagonalen. Die 

Kamera und die PTU sind über die serielle Schnittstelle mit dem £ Steuerungs-PC verbunden, 

wodurch die Kamera ein PAL-Videosignal an den Framegrabber im Steuerungs-PC 

übertragen kann. Bei der vorliegenden Aufgabe ist die Kamera auf den Arbeitsbereich 

ausgerichtet, in dem die Verschiebeoperationen durchgeführt werden sollen. Es handelt 

sich dabei um einen zentralen Bereich auf einem Arbeitstisch. Die verwendete Kamera 

£ ¡ 

§ 

ist dafür um = -9 geneigt. 

§ 

¨ = -25 geschwenkt und um £ ¦ 


3 Experimentelles Setup 

Abbildung 3.1: Links: Der verwendete Roboterarm in Verschiebehaltung. Eingezeichnet sind Basiskoordinatensystem 

im ersten Gelenk und die durch die Geiferspitze verlaufende Rotationsachse ¢¡ (parallel zur -Achse). 

Diese Rotationsachse verläuft senkrecht zum Arbeitstisch, wobei der Arbeitstisch in der £ -¤ -Ebene 

des Basiskoordinatensystems liegt. Rechts oben: Die verwendeten Pan-Tilt-Kameras. Rechts unten: 

Das Hilfswerkzeug f ür Verschiebeoperationen. 

3.2 Roboterarm-Setup 

Der Roboterarm der Firma Amtec besteht aus sechs Modulen und einem Greifer, wodurch 

er sechs rotatorische Freiheitsgrade und einen linearen Freiheitsgrad besitzt. Jedes 

Modul verfügt über einen Servomotor mit hohem Drehmoment und präziser Positionierung. 

Dabei sorgt jedes Modul für die Einhaltung seiner vorgegebenen Position. 

Links in Abbildung 3.1 ist der verwendete Arm zu sehen. Die Ansteuerung des Roboterarms 

erfolgt über einen CAN-Bus. Eine entsprechende CAN-Bus-Interface-Karte ist im 

Steuerungs-PC eingebaut. Zwischen dem letzten Modul und dem Greifer ist zusätzlich 

noch ein Kraft-Momenten-Sensor der Firma Schunk vom Typ FTCL 50-40 montiert. 

Dieser Sensor kann Kräfte und Drehmomente, die durch externen Einfluss am Greifer 

wirken, in allen drei Raumdimensionen messen. Er wird jedoch im Rahmen dieser Arbeit 

nicht verwendet. 

Bei dem zu verschiebenden Klötzchen handelt es sich um einen roten Schaumstoffschwamm 

mit einer Größe von ca. 45mm(B) x 135mm(L) x 40mm(H). Schaumstoff 

eignet sich für eine Verschiebeoperation besonders gut, da es durch die hohe Reibung 

direkt am Greifer bleibt. Da für die Bildverarbeitung das Klötzchen im Kontrast zum 



Abbildung 3.2: Zweidimensionale Grafik durch die deutlich wird um welche Achse sich der Greifer bei einer Verschiebeoperation 

rotiert. Eingezeichnet ist die Rotationsachse ¡ mit Rotation um ¡ Grad und die Translationsachse 

£ ¡ . 

weißen Arbeitstisch eine markante Farbe haben sollte, wurde ein rotes verwendet. Um 

sowohl eine gute Erreichbarkeit als auch eine gute Verschiebeoperation dieses roten 

Klötzchens zu gewährleisten, wird ein Hilfswerkzeug verwendet. Dieses Hilfswerkzeug 

hat des Weiteren den Vorteil, dass seine grüne Farbe ebenfalls zur visuellen Bestimmung 

von Position und Orientierung des Greifers genutzt werden könnte (siehe Abbildung 3.1 

Rechts). In dieser Arbeit wird das Hilfswerkzug jedoch ausschließlich verwendet, um eine 

breitere Auflagefläche zwischen Greifer und dem zu verschiebenden roten Klötzchen 

zu erhalten. 

3.3 Arbeitsbereich 

Als Arbeitsbereich dient ein quadratischer weißer Tisch, der etwa 80cm hoch ist und 

eine Fläche von ca. 80cm mal 80cm bietet. Die Kameras befinden sich ca. 1,5m schräg 

über der Tischfläche und der Roboterarm befindet sich ca. 25cm vor dem Tisch. Die 

Beleuchtung ist konstant, da die Fenster mit schwarzen Vorhängen behängt sind und der 

Raum mit Neonröhren ausgeleuchtet wird. 

3.3.1 Einschränkung der Verschiebebewegungen 

Um eine saubere Verschiebeoperation zu gewährleisten muss die Art und Weise, wie 

sich der Arm während der Verschiebung bewegt, eingeschränkt werden. 

Die erste Einschränkung besteht in der Höhe des Greifers. Um einen stetigen Kontakt 

zum roten Klötzchen zu behalten, muss sich der Greifer in konstanter Höhe 

über den Arbeitstisch bewegen. Dabei hat er immer eine Höhe von ¢ 

bezüglich des Roboterarm-Koordinatensystems. Der Ursprung dieses Roboterarm- 

Koordinatensystems, im Folgenden auch Basiskoordinatensystem genannt, liegt in dem 

ersten Gelenk nahe der Stahlaufhängung (siehe Abbildung 3.1 Links). Der Arbeitstisch 

liegt somit in der ¢ - Ebene, so dass sich die Bewegungen des Roboterarms auf eine 

Veränderung der Werte ¢ , und beschränken. Dabei ist Rotationswinkel um 

¤£¦¥¨§©© 



Abbildung 3.3: Links: Der zu kontrollierende Arbeitsbereich. Mitte: Mögliche Armpositionen innerhalb des markierten 

Bereiches. Rechts: Finaler Arbeitsbereich der Verschiebeoperation 

die -Achse, welche parallel zur -Achse des Basiskoordinatensystems verläuft. Diese 

¥ 

beiden Achsen verlaufen senkrecht ¢ zur - Ebene, so dass die Ausrichtung des ¢ Greifers 

¢ 

geändert werden kann (siehe Abbildung 3.2). Eine Verschiebeoperation ist dann unterteilt 

in die Änderung der Orientierung und eine anschließende Translation in Richtung 

dieser Orientierung. Die © Vorwärtstranslation um in Abhängigkeit zur Orientierung 

, wird mit 

 

© (3.1) 

¡ ¡ ¡ 

 

 

 

¢ 

 

 

¡¦ ¨ 

 

 

 

© (3.2) 

bezüglich des Basiskoordinatensystems umge- 

in die Translationsanteile ¢ und 

rechnet. 

 

3.3.2 Einschränkung des Verschiebebereiches 

Da die Bewegungsfreiheit des Roboterarms eingeschränkt ist und der Arm somit 

nicht jede Stelle des Tisches erreichen kann, wurde eine Einschränkung bezüglich 

des Arbeitsbereiches gemacht, in dem die Verschiebeoperationen durchgeführt werden 

können. Durch die Beschränkung soll ein zentraler Bereich auf dem Arbeitstisch 

erfasst werden. Dazu wird ein grob abgeschätzter Bereich mittels der inversen Kinematik 

überprüft. Zu sehen ist dieser 600mm x 600mm große Arbeitsbereich in Abbildung 

3.3 links. Für die Überprüfung wird über diesen Bereich ein Gitter mit 20mm 

Abständen konstruiert. In diesem Gitter wird an jedem Knoten überprüft, ob es eine 

Lösung der inversen Kinematik gibt. Hierdurch wird überprüft, welche Positionen 

der Greifer des Roboterarms erreichen kann. Das soeben beschriebene Verfahren wird 

mit verschiedenen Orientierungen wiederholt, wobei eine Rotation des Greifers um 5 

Grad in einem Intervall von [-50 ;+50 ] durchgeführt wird. Als Resultat zeigt sich, 

dass bei zunehmend starker Rotation des Greifers die Anzahl der auf dem Arbeitsbereich 

zu erreichenden Gitterpunkte sinkt (siehe Abbildung 3.3 Mitte). Aus diesem 



Grund wird der Verschiebebereich auf eine Fläche von 320mm ¢ in -Richtung (entspricht 

[-69,5mm; +250.5mm] im Basiskoordinatensystem) und 400mm in -Richtung 

(entspricht [+330mm; +730mm]) beschränkt. Dieser eingeschränkte Bereich ist in Abbildung 

3.3 rechts zu sehen. Zusätzlich wird die Orientierung des Greifers durch eine 

Rotation um die senkrecht zum Arbeitstisch verlaufende -Achse im Intervall von [-40 ; 

+40 ] eingeschränkt. 

¢ 

3.4 Datenbank-Setup 

Um die Vorwärtsmodelle trainiern zu können, wurde eine Datenbank erstellt, die eine 

Sammlung von Bildern und den dazugehörigen Daten beinhaltet. Die Daten definieren 

die Position und Orientierung des roten Klötzchens und des Greifers in dem Bild. Diese 

Datenbank wird dazu verwendet, das visuelle Vorwärtsmodell zu trainieren, so dass 

dieses lernt, die sensorische Konsequenz kleinschrittiger Verschiebeoperationen vorherzusagen. 

Mit Hilfe dieser kleinschrittigen Vorhersagen kann dann eine Kette von Motorkommandos 

berechnet werden, die vom sensorischen Startzustand in den gewünschten 

sensorischen Zielzustand führt. Wie genau die Daten der Position und Orientierung aus 

den Bildern extrahiert werden, wird im Abschnitt 4.2 noch genauer beschrieben. Folgend 

wird der Aufbau beschrieben, mit dem die Lernbeispiele gesammelt wurden. Die 

Datenbank ist so angeordnet und beziffert, dass sie kleinschrittige Verschiebeoperationen 

in alle möglichen Richtungen beinhaltet. Dabei ist zu beachten, dass alle möglichen 

kleinschrittigen Bewegungen im Verschiebebereich miteinbezogen werden müssen, um 

den Bereich vollständig mit Lernbeispielen abzudecken. 

3.4.1 Sammeln von Trainingsdaten 

Anhand der im Abschnitt 3.3.2 beschriebenen Einschränkung wird der Arbeitsbereich 

für die Erstellung einer Bilddatenbank definiert. Wie bereits erwähnt, soll die Datenbank 

dazu dienen, ein Vorwärtsmodell zu trainieren, so dass es Verschiebeoperationen 

durchführen kann. Voraussetztung für eine konsistente Datenbank ist, dass die Kamera 

bei der Aufnahme aller Bilder immer die gleichen Pan und Tilt Einstellungen hat. Ein 

Lernbeispiel für eine Verschiebeoperation kann durch folgenden Ablauf erzeugt werden: 

Das rote Klötzchen wird an einer zufälligen Stelle auf dem Verschiebebereich 

positioniert 

Der Greifer wird zufällig, jedoch in Verschiebehaltung, positioniert 

Aufnahme des visuellen Eingangssignals (sensorischer Eingang des 

Vorwärtsmodells) 



Ein Motorkommando wird zufällig erzeugt und ausgeführt (motorischer Eingang 

des Vorwärtsmodells) 

Aufnahme des visuellen Ausgangssignals (Ausgang des Vorwärtsmodells) 

Ein solcher Durchlauf erzeugt ein Muster, in dem alle zusammenhängenden Informationen 

enthalten sind, und welches somit zum Trainieren eines Vorwärtsmodells 

verwendet werden kann. Der Nachteil des gerade genannten Verfahrens ist die zufällige 

Wahl von Greiferposition und Motorkommando. Dadurch besteht die Gefahr, dass 

bestimmte Bereiche auf dem Arbeitsbereich unzureichend trainiert werden und demzufolge 

das Vorwärtsmodell schlechte Vorhersagen macht. Um dies zu verhindern ist ein 

systematischer Aufbau der Trainingsdatensätze notwendig, so dass jede mögliche Verschiebebewegung 

ausreichend trainiert werden kann. Zusätzlich besteht bei dem oben 

genannten Durchlauf die Gefahr, dass so genannte ” 

Leerlaufhandlungen“ aufgenommen 

werden. Bei diesen ” 

Leerlaufhandlungen“ handelt es sich um Bewegungsabläufe in 

denen das rote Klötzchen nicht verschoben wird, sondern lediglich der Greifer bewegt 

wird. Die Aufnahme solcher Datensätze kann zu einer Verschlechterung der Vorhersage 

des Vorwärtsmodells führen, da sie mit der eigentlichen Verschiebeoperation des 

roten Klötzchens nichts zu tun haben. Trotzdem sind diese ” 

Leerlaufhandlungen“ 

auch nicht unwichtig, da der Greifer, bevor er die eigentliche Verschiebeoperation 

durchführen kann, zu dem roten Klötzchen hingeführt werden muss. Dies wird durch 

die Verwendung einer Look-Up Tabelle realisiert, auf die in Abschnitt 4.5 noch genauer 

eingegangen wird. 

Der systematische Aufbau der Datensätze ist also auf die eigentlichen kleinschrittigen 

Verschiebeoperationen beschränkt. Die aufgenommenen Bilder der Datenbank 

zeigen somit immer eine Szene, in welcher der Roboterarm mit dem Hilfswerkzeug 

im Greifer und dem roten Klötzchen zu sehen ist. Es handelt sich immer um eine 

Verschiebeoperation, denn sowohl zu Beginn als auch nach der Verschiebung durch 

das Motorkommando befindet sich das rote Klötzen direkt vor dem Greifer mit dessen 

Hilfswerkzeug. 

Um die gestellte Verschiebeaufgabe lösen zu können, muss die Datenbank sowohl 

Translationen als auch Rotationen beinhalten. Es müssen schließlich unterschiedliche 

Positionen und Orientierungen des Klötzchend abgedeckt werden. Die Systematik der 

Erzeugung von Trainingsdaten für Translation und Rotation werden im Folgenden 

ausführlicher beschrieben. 

Translation: 

Um alle möglichen Translationsanteile einer Verschiebeoperation abzudecken, müssen 

auf der Startlinie Startpunkte gewählt werden auf denen der Arm das rote Klötzchen 

vor sich herschiebt. Mit Startlinie ist der unterste Bereich des beschriebenen eingeschränkten 

Bereichs gemeint (z-Wert= 330). Der Abstand der Startpunkte auf der 


¡ 


Abbildung 3.4: 1-3: Die Translationenbahnen f ür das Sammeln der Trainingsdaten mit jeweils verschiedenem Ausrichtungswinkel 

und mit x gekennzeichneten Startpunkten. 4: Das Gitter auf dem die Lernbeispiele f ür die 

Rotation gesammelt werden. 

Startlinie wurde auf 20mm gesetzt, wodurch grundsätzlich 17 Startpunkte gegeben sind. 

Bei Translationen mit einem ¨ Orientierungs-Wert kommen zusätzlich noch bis 

zu 8 Startpunkte an den Rändern hinzu, um auch die oberen Ecken mit Lernbeispielen 

abzudecken. Diese Startpunkte sind in Abbildung 3.4 durch ein X markiert. Von jeder 

dieser Startpunkte startet ein Verschiebungsdurchlauf mit 10mm Schritten, bis die 

obere Grenze des Arbeitsbereichs erreicht ist. Im Normalfall handelt es sich um ca. 40 

Schritte, jedoch wird die Schrittanzahl bei 

unterschiedlichem und den Startpunkten 

an den Rändern angepasst. Dieser Durchlauf wird mit allen möglichen Orientierungen 

des Greifers, im Bereich von -40 Grad bis +40 Grad mit 5 Grad Schritten, wiederholt 

(siehe Abbildung 3.4 1, 2 und 3). Vor und nach jedem Vorwärtsschritt wird ein 

Bild abgespeichert. Die dazugehörigen Daten, bestehend aus der aktuellen Position 

und Orientierung des Klötzchens und des Greifers, werden zusätzlich in einer Datei 

abgespeichert. 

Rotation: 

Um alle möglichen Rotationsanteile einer Verschiebeoperation abzudecken, muss ein 

Gitter über den Verschiebebereich gelegt werden. Auf allen Gitterpunkten des Gitters 

rotiert der Arm das rote Klötzchen in geeignet kleinen Rotations-Schritten um die 

-Achse des Greifers (siehe Abbildung 3.2), um dieses in eine andere Orientierung zu 

¥ 

bringen. Dieses Gitter ist rechts in der Abbildung 3.4 gezeigt. Bei dem Gitter handelt 

es sich um den schon beschriebenen eingeschränkten Bereich, wobei der Abstand 

der Gitterpunkte auf 20mm festgelegt wurde. Auf jedem dieser Gitterpunkte wurden 

Bilder in 5 Grad Schritten im Bereich von -40 Grad bis +40 Grad aufgenommen (pro 

Gitterpunkt 9 Bilder). Auch hier werden die dazugehörigen Daten zusätzlich in einer 

Datei abgespeichert. 



Die soeben beschriebenen Verfahren liefern eine Menge von ca. 23000 Bildern und 

21500 Lernbeispielen. Um festzustellen, ob mehr Lernbeispiele das Training der neuronalen 

Netze verbessern würden, wurde die Anzahl der Lernbeispiele vergrößert. 

Anstelle der 10mm Schritte wurden bei der Translation auch 20mm und 30mm 

Vorwärtsschritte in Form von Lernbeispielen mit den dazugehörigen Bildern abgespeichert. 

Bei der Rotation wurden zusätzlich zu den 5 Grad Rotationen auch 10 Grad Rotationen 

verwendet. Es sind somit ca. 37500 Lernbeispiele entstanden. Zusätzlich zu den 

Lernbeispielen wurden noch Testbeispiele gesammelt, um die trainierten Netze auf ihre 

Performanz zu testen. Hierfür wurden per Hand 10 zufällige Verschiebetrajektorien 

in unterschiedlichen Längen innerhalb des eingeschränkten Arbeitsbereichs aufgenommen. 

Die 10 Trajektorien enthalten dabei 193 Testbeispiele. Die Bilddatenbank besteht 

somit aus ca. 40000 Bildern. 

Diese systematische Erstellung der Trainingsdatenbank ist eine Voraussetzung für eine 

ausreichend gute Vorhersage des Vorwärtsmodells. Es ist jedoch möglich, dass 

zusätzliche Datensätze mit zufälliger Position und Orientierung und zufälligem Motorkommando 

die Vorhersage verbessern können. Dieser Verbesserungsvorschlag wurde 

jedoch nicht ausreichend geprüft. 

3.4.2 Datenrepräsentation der Datenbank 

Beim Sammeln der Datensätze werden zu jedem Bild, das der Framegrabber liefert, die 

zugehörigen Positions- und Orientierungsdaten bezüglich des Basiskoordinatensystems 

des Roboterarms ermittelt und abgespeichert. Dies geschieht, damit die Bilder jederzeit 

einer Position und Orientierung des Greifers zugeordnet werden können. 

Ein Datensatz der Datenbank besteht also aus einer Reihe aufgenommener Bilder und 

einer dazugehörigen Datei. In der Datei sind in Form einer Matrix für jeden Schritt 

zwischen zwei dieser Bilder sowohl die Positions- und Orientierungsänderung als auch 

die Position und Orientierung des Greifers vor und nach der Bewegung festgehalten. 

Zusätzlich sind in dieser Datei die aus den Bildern hervorgehenden Informationen der 

Orientierung und Position des roten Klötzchens vor und nach der Bewegung abgespeichert. 

Diese Dateien enthalten damit eine Reihe von § Lernbeispielen mit Hilfe derer die 

neuronalen Netze trainiert werden können. Die Bilder liegen in kartesischer Darstellung 

der Bildpunkte vor, wobei die Bildpunkte in Horizontal- und Vertikalkoordinaten dargestellt 

werden. Dabei © ist die Anzahl der horizontalen ¨ und die Anzahl der vertikalen 

Bildpunkte. Die Bildpunkte eines Farbbildes werden durch RGB-Triplets dargestellt, in 

denen die Werte für den Rotkanal, Grünkanal und Blaukanal definiert sind. Nach einer 

Transformation der Bilder in den LAB-Farbraum können Objekte, wie zum Beispiel das 

rote Klötzchen, vom Rest des Bildes extrahiert werden. Dieser LAB-Farbraum wird in 

Abschnitt 4.2 genauer beschrieben. 


4 

Realisierung 

In diesem Kapitel wird die Realisierung der in Kapitel 2 und 3 vorgestellten Methoden 

und Verfahren beschrieben. Zu Beginn wird im Abschnitt 4.1 beschrieben, wie genau 

eine durchzuführende Verschiebeoperation aufgebaut ist. Darauf folgend wird im Abschnitt 

4.2 erläutert, wie die Daten der Kamera vorverarbeitet werden, um sinnvolle Informationen, 

wie Position und Orientierung des roten Klötzchens, für die Lernbeispiele 

zu erhalten. Anschließend wird im Abschnitt 4.3 dargestellt, in welcher Art und Weise 

die Vorwärtsmodelle für die visuelle Vorhersage der gestellten Aufgabe genutzt werden. 

Dabei wird die Struktur der Lernbeispiele definiert und eine Normierung der aus 

den Bildern extrahierten Daten beschrieben. Zuletzt wird im Abschnitt 4.5 beschrieben, 

wie der Roboterarm von seiner Ausgangslage, der ” 

Ruhestellung“, in den Startzustand 

der Verschiebeoperation überführt wird. 

4.1 Ablauf einer Verschiebeoperation 

Das praktisch zu erreichende Ziel ist das Verschieben des roten Klötzchens von einem 

sensorischen Startzustand in einen anderen sensorischen Zielzustand. Dabei handelt es 

sich bei den sensorischen Zuständen um Position und Orientierung des roten Klötzchens 

in einem Bild, welches von einer Kamera aufgenommen wird. Diese zwei sensorischen 

Zustände sind in Abbildung 4.1 zu sehen. 

Der Ablauf einer solchen Verschiebeoperation ist folgendermaßen aufgebaut. Zu Beginn 

befindet sich der Roboterarm in der Ruhestellung, das heißt alle Gelenkwinkel stehen 

auf 0 Grad. Die Kamera fixiert einen festgelegten Arbeitsbereich (siehe Abschnitt 

3.3). Als nächstes wird das rote Klötzchen an einer beliebigen Stelle im Verschiebebereich 

positioniert, die Kamera nimmt ein Bild auf und die Informationen über Position 


4 Realisierung 

Abbildung 4.1: Links: Der sensorische Startzustand vor der eigentlichen Verschiebeoperation. Rechts: Der sensorische 

Zielzustand nach der Verschiebeopertaion. 

und Orientierung des Klötzchens und des Greifers werden gespeichert. Es handelt sich 

hierbei um die Zielposition des Klötzchens. In welcher Form genau die Informationen 

gespeichert werden, wird im Abschnitt 4.2 erläutert. Anschließend wird das rote 

Klötzchen an einer weiteren Stelle im Verschiebebereich, der Startposition, positioniert. 

Dann werden wieder die Informationen über Position und Orientierung des Klötzchens 

und des Greifers im aktuellen Bild gespeichert. Die Startposition des Greifers wird aus 

den Informationen des Bildes der Startposition ermittelt, wobei ein einfacher Vergleichsalgorithmus 

verwendet wird, der im Abschnitt 4.5 genauer erläutert wird. 

Anschließend beginnt die Berechnung der Verschiebetrajektorie, bestehend aus einer 

Kette von Motorschritten mit Hilfe der bereits trainierten Vorwärtsmodelle und eines 

Optimierungsalgorithmus (siehe Abschnitt 4.4). Nachdem der Roboterarm die Startposition 

angefahren hat, führt er eine Reihe von Motorkommandos aus, wodurch das rote 

Klötzchen von seinem sensorischen Startzustand in den gewünschten sensorischen Zielzustand 

überführt wird. 

4.2 Bildvorverarbeitung 

Bei der Vorverarbeitung geht es darum, aus den Bildern der Kameras die wichtigsten 

Informationen zu extrahieren, um so die oben beschriebenen visuellen Bestandteile des 

Lernbeispiels zu gewinnen. Vorerst werden die Bilder von der Kamera durch den Grabber 

zur weiteren Verarbeitung gespeichert. Es gilt nun, das rote Klötzchen aus dem Gesamtbild 

zu extrahieren und dessen Position sowie Orientierung zu bestimmen. Es wird 

lediglich ein vordefinierter Bereich, der den Experimentiertisch enthält, aus dem gesam- 


£ 

£ 

 


Abbildung 4.2: Links: LAB Farmraum-Spektrum bei einer Lumineszenz von ca. 50 %. Quelle: Wikipedia (LAB- 

Farbraum) Rechts: Bild des Roboterarms welches in den LAB Farbraum transformiert wurde. 

ten Bild für die weiteren Verarbeitungsschritte benutzt. Dies geschieht, damit Objekte 

oder Personen die sich neben dem Tisch befinden, nicht in die weitere Bildverarbeitung 

mit einfließen. 

¤£ 

¨¢¡ ¨ Aus dem Pixel großen Bild der Kamera wird somit ein ¨ ¨¥¡ ¨ ¨ ca. Pixel 

großes Bild des Tischbereichs extrahiert. Anschließend wird aus dem Bild die entsprechende 

Farbe isoliert. Im Falle des Klötzchens, welches es zu verschieben gilt, ist dies 

ein roter Farbton. Um die Farbe des Objektes ausreichend gut isolieren zu können, wird 

das Bild in den LAB Farbraum (auch CIE-LAB genannt) konvertiert. Bei dem LAB- 

Farbraum sind Helligkeit ( ) und (¦ Farbtöne ) voneinander getrennt. Ein L-Wert von 

0 entspicht Schwarz und ein L-Wert von 100 entspricht Weiß. Die Farbtöne sind dann 

 

durch und definiert (Abbildung ¦ 4.2). 

Es ist nun im LAB Farbraum möglich, genaue Wertebereiche für den Farbton des roten 

Klötzchens zu definieren, um dieses vom Rest der Bildes unterscheiden zu können. Ergebnis 

ist ein Grauwertbild, welches nur die gesuchten Bildpixel des roten Klötzchens 

weiß kenntlich macht. Mit diesem Bild kann dann die Position und Orientierung bestimmt 

werden, wofür ein Verfahren von Hoffmann et al. (2005) verwendet wird. 

Für die Bestimmung der Position wird ein Verfahren verwendet, bei dem das Graustufenbild 

des Klötzchens ¨ ¨§¡ ¨ ¨ von Pixeln auf ein Bild mit ¡ Pixeln (bzw. ¨¡© ) 

abgebildet wird, ohne wichtige Positionsinformationen zu verlieren. Hierfür werden 16 

£ 

gleichverteilte Neuronen in ¡ einem Gitter (analog dazu 9 Neuronen in ¨¡ einem 

Gitter) jeweils in einem Bild gespeichert und mit dem Bild des Klötzchens £ verrechnet. 

Bei der Unterscheidung von 4x4 Pixel mit 16 Neuronen und 3x3 Pixel mit 9 Neuronen 

handelt es sich um zwei verschiedene experimentelle Bedingungen. Nachdem die Verwendung 

von 16 Neuronen keine ausreichend guten Resultate erbracht hat, wurden als 



Abbildung 4.3: Bildvorverarbeitung f ür die Positionsmerkmale. In einem definierten Bildausschnitt wird die rote 

Farbe mit Hilfe des LAB-Farbraums herausextrahiert. Danach werden mit Hilfe von 16 Gaußfunktionen 

die Positionsmerkmale berechnet. 

Abbildung 4.4: Bildvorverarbeitung f ür die Orientierungmerkmale. Nach Anwendung eines Tiefpassfilters und eines 

von vier Kompassfiltern, werden alle Werte über einem Schwellwert aufsummiert. Quelle: Hoffmann 

et al. (2005) 

Alternative 9 Neuronen gewählt. Die Aktivierung jedes dieser Neuronen ist durch eine 

Gaußsche Normalverteilung definiert. 

 

¢ 

© ¢ 

(4.1) 

 

¢ § 

¢ 

§¡ 

£¢ 

¥¤§¦©¨ 


§ ¨ (bei der Verwendung des 4x4 Gitters) 

 

£ £¨© £ £ (bei der Verwendung des 3x3 Gitters) 

 

 

Es wird jedes Pixel des ¨ ¨ ¡ ¨ ¨ Grauwertbildes mit dem Wert des entsprechenden 

Pixels eines Gaußglockenbildes multipliziert und alle diese Werte werden aufsummiert. 

 

Um die entstehenden 16 bzw. 9 Werte in Abhängigkeit zu ihrer Position zu gewichten, 

wird jeder dieser Werte durch die Summe aller Werte der entsprechenden Gaußglocke 

dividiert. Die Gewichtung wird dadurch beseitigt, so dass die Werte in den Ecken nicht 

schwächer sind als die Werte nahe dem Zentrum. Die gesamte Information der Position 


¡ 

¡ 

¡ 

¡ 


ist somit in 16 (bzw. 9) Werten eindeutig dargestellt. Die einzelnen Schritte dieses Verfahrens 

sind in Abbildung 4.3 zu sehen. 

Auch für die Berechnung der Orientierung werden die vorverarbeiteten Grauwertbilder 

verwendet. Auf diese Bilder wird zuerst ein Tiefpass-Filter und anschließend einer von 

vier Kompass-Filtern (0 ,45 ,90 ,135 ) angewendet (siehe Abbildung 4.4). Alle Pixel 

über einem fest definierten Schwellwert werden aufsummiert und das so entstandene 

Histogramm definiert eindeutig die Orientierung des Objektes. Nach Anwendung dieses 

Verfahrens können Position und Orientierung von Klötzchen und Greifer jeweils 

durch 20 (bzw. 13) Parameter ausgedrückt werden. Es ergibt sich ein Lernbeispiel mit 

49 (bzw. 35) Elementen welches zum Trainieren des Multi-Layer-Perzeptron verwendet 

wird. 

4.3 Visuelles Vorwärtsmodell 

Wie schon beschrieben, eignen sich trainierte neuronale Netze für die Vorhersage sensorischer 

Zustände. Im Rahmen dieser Arbeit wurden daher die visuellen Vorwärtsmodelle 

durch Multi-Layer-Perzeptrone realisiert. Das Multi-Layer-Perzeptron kann dabei verschiedene 

Netzwerktopologien haben. Auf die in dieser Arbeit verwendeten Topologien 

wird in in Kapitel 5 im Rahmen der Erläuterung der Experimente genauer eingegangen. 

Die Struktur eines Multi-Layer-Perzeptron besteht, wie schon im Abschnitt 2.3 beschrieben, 

aus Eingabeknoten (Input), verdeckten Schichten und Ausgabeknoten (Outputs). 

Wie in Abbildung 4.5 schematisch dargestellt, bestehen Input und Output des 

neuronalen Netzes aus folgenden Bestandteilen. Der Input besteht aus den Motorkommandos 

, und , der Position und Orientierung des Greifers in Basiskoordina- 

¢ 

ten 

, und , 4 Werten für die Orientierung ( ¦¢¡ ¡ ) und 16 bzw. 9 Werten für 

¢ 

¡ 

die Position des roten ¡ ¡£¡ ¡ ¦ Klötzchens ( ). Der Output besteht lediglich aus der Position 

und Orientierung ¢ 

¡¦¥¨§ 

des 

¡¦¥¨§ 

Greifers 

¡¦¥¨§ 

, und , 4 Werten für die Orientierung 

¡ ( ) und 16 bzw. 9 Werten für die Position des roten ¡ ¡£¡ 

¡ ¦ Klötzchens( ). 

¦¢¡ 

Der Unterschied zwischen der visuellen Information des Inputs und Outputs besteht 

darin, dass dazwischen eine Verschiebeoperation, gegeben durch die Motorkommandos 

im Input, durchgeführt wird. Die genaue Berechnung der Position und Orientierung 

des roten Klötzchens aus den Bildern wurde bereits im Abschnitt 4.2 genauer erläutert. 

Die visuellen Eingabeinformationen in Kombination mit den Motorkommandos werden 

durch die verdeckten Schichten geleitet und liefern in den Ausgabeknoten eine sensorische 

Konsequenz als Vorhersage. Wie schon im Abschnitt 2.3 erwähnt, müssen dabei 

die Gewichtungen trainiert werden, um die sensorische Vorhersage zu optimieren. Dies 

wird durch eine Menge von Lernbeispielen realisiert. Bei diesen handelt es sich um 

überwacht aufgenommene Zusammenhänge zwischen Eingangs- und Ausgangsknoten, 

die ein für die gestellte Aufgabe optimiertes Lernen des Vorwärtsmodells gewährleisten 

sollen. Zur Erstellung von Lernbeispielen wurde bezüglich der gestellten Aufgabe eine 


§ 

§ £ £ 

© 

¡ 

¨ § 

§ 

§ 

 

 

 

 

 

§ £ £ 

© 

¡ 

¨ § 

£ 

¦ 

¦ 

 

 

 

 

 

 

 

 

 

 

 

 

¡ 

¡ 

§ £ 

© ¨ ¨ 

§ 

 

¡ 

¡ 

 

¡ 

 

 

 

 

¡ 

 

 

 

¡ 

§ 

¨© ¡ 

§ £ £ 

© 

¡ 

¨ ©©© 

¡ 

¡ 

 

 

§ 

¨ © ¡ 

§ 

¡ ¨© 

 

 

 

 

 

 

 

 

 

 

 

¡ 

 

 

 


Abbildung 4.5: Schematische Darstellung von Inputs und Outputs des neuronalen Netzes. Dabei sind , ¡ und ¡ 

Position und Orientierung des Greifers in Basiskoordinaten, ¢¤£ §¦¥ ist die Position und § ¡ ¢¨¥ die Orientierung 

des Klötzches. Der Index ¡ steht f ür den Zeitpunkt vor dem Motorkommandos © , ©¡ und 

© ¡ 

und ¡ ¥ § ist der Zeitpunkt nach den Motorkommandos. 

Datenbank erstellt, die im Abschnitt 3.4.1 bereits genauer erläutert wurde. 

In Analogie zum beschiebenen Input und Output des Multi-Layer-Perzeprons ergibt sich 

für die Lernbeispiele (engl. pattern) folgende Struktur : 

 

¡ 

£ 

¡ 

¡ 

¦ ¡£¨ 

 

¨© 

¦ © ¨ 

£ 

(4.2) 

 

§ ¡ ©© 

§ £ 

© ¨ ¡ 

¡ 

¡ 

£ 

¡ 

¡ 

¡ ¡¦ 

¦ © 

¡ 

¨ © ©¢¡ 

¡ 

©¦ © 

¡ 

© © 

 

¡ 

£ 

¡ 

¡ 

§ ¡ ©© 

© © 

§ ¡ ©© 

 

¢ 

 

(4.3) 

¢ 

¡ 

¡¦¥¨§ 

¢ 

¡ © 

¡ © 

 

¡ ¡ ¡ ¡ 

©©© ¡ ¡ ¡ 

¡ ¦ 

¦¢¡ ¡ 

©©© 

¦¢¡ 

¡ 

 


¡ ¡ Position des roten Klötzchen 

¡ 

Orientierung des roten Klötzchen 

¦¢¡ 

 

 

¦ 

¦¢¡ 

¡¦¥¨§ 

©©© 

oder ¦ (Anzahl der Gauß-Neuronen) 

£ 

£ 

(Anzahl der Kompasswerte) 

 

¡ ¡ ¡ 

¡¦¥¨§ 

©©© ¡ ¡ ¡ 

¡¦¥¨§ ¦ 

¦¢¡ 

¡¦¥¨§ 

 

Da viele Lernbeispiele für ein erfolgreiches Training notwendig sind, werden mehrere 

Lernbeispiele zur so genannten Lernmenge zusammengesetzt. 

Es ergibt sich die Lernmenge (engl. patternset): 

§ £ £ 

© 

¡ 

¨"!$# (4.4) 

§ £ £ 

© 

¡ 

¨ ¡© 

£ 

§ £ £ 

© 

¡ 

¨ 

§ 

§¤¡ 


¢ 

 

© 

§ 


Abbildung 4.6: Schematische Betrachtung der internen Datenrepräsentation. Es wird jeweils ein Bild vor und ein Bild 

nach jedem Motorkommando erstellt. Inhalt eines Patterns sind dann, Position und Orientierung vor 

und nach dem Motorkommando sowie das Motorkommando selbst. Zusätzlich werden im Pattern noch 

die Position und Orientierung des Greifer in Basiskoordinaten vor und nach dem Motorkommando 

gespeichert. Viele Pattern werden zu einem Patternset zusammengefasst. 


¨ Anzahl der Lernbeispiele 

Eine schematische Betrachtung der internen Datenrepräsentation ist in Abbildung 4.6 

£ 

¢¢¡ § ¡ § £¡ aufgenommen und gelangt nach der Bildverarbeitung 

§ 

¢ 

§ 

visualisiert. Diese Datenrepräsentation zeigt folgende Situation: Zum Zeitpunkt wird 

ein Bild mit Greiferkoordinaten 

ins Pattern . Zum nächsten Zeitpunkt hat sich der Greifer um das 

bewegt. Während Bild zum Zeitpunkt aufge- 

Motorkommando ¢ § 

nommen wird, hat der Greifer die Koordinaten § 

 

 

¢ 

und ¡ 

= + £¡ . Auch die Daten aus Bild fließen nach der Bildverarbeitung mit in das 

Pattern ein. Zusätzlich enthält das Pattern § auch das Motorkommando zwischen 

§ 

den beiden Bildern, sowie die Position und Orientierung des Greifers vor und nach der 

Bewegung. 

¢¤¡ § 

§ 

 

© 

4.3.1 Normierung der Lernbeispiele 

Die soeben beschriebenen Informationen aus den Bildern haben unterschiedliche 

Größen und sollten daher normiert werden, bevor mit ihnen die Vorwärtsmodelle trainiert 

oder sie für Vorhersagen verwendet werden. 

Die ersten 9 Werte eines Lernbeispiels bestehen aus den Motorkommandos und den absoluten 

Werten bezüglich des Basiskoordinatensystems, welche im Bereich zwischen 

-300 und +800 liegen. Die restlichen Werte enthalten Positions- und Orientierungsdaten 

aus den Bildern. Auch hier unterscheiden sich die Werte zum Teil stark. Während 

die Orientierungsdaten im Bereich zwischen +20 und +200 liegen, liegen die Werte der 


¢ 

¥ 

 

¢ ¢§¦ § 

¤¤¤£ 

 

 

 

 

¥ 

¥ 

§ 

¢ ¢¦ ¦ 

¢ 

 

© ¢ 


Positionsdaten im Bereich von 0 bis +1. Dies verdeutlicht warum eine Normierung notwendig 

ist. 

Bei der gewählten Normierung handelt es sich um die so genannte ” 

Z-Score- 

Normierung“ bei der die Daten auf einen Wertebereich mit Mittelwert 0 und Varianz 

1 skaliert werden. Berechnet wird dann der Mittelwert © ¢ jedes der 49 bzw. 35 Werte ¢ ¢§¦ 

und die Standardabweichung 

© ¢ 

¦¡ 

§ ¢ ¢§¦ (4.5) 

 

©¢ 

 

(4.6) 

 

 

mit ¨ § §©©©§ ¡ Index ¦ ¨§ §©©©§ und , ¡ wobei die Anzahl der trainierten Lernbeispiele 

und (49 bzw. 35) die Anzahl der Werte in den Lernbeispielen ist. 

Diese Werte werden für die gesamte § ¡ Lernmenge bestimmt und in einer Matrix abgespeichert, 

damit die Werte der einzelnen Lernbeispiele jederzeit normiert und wieder 

zurück normiert werden können. Jeder ¢ ¢§¦ Wert wird dabei § ¢ ¢§¦ zu normiert mit 

¢ ¢§¦ 

(4.7) 

und zurücknormiert zu ¢¢ mit 

¢¦¥ § ¢ ¢¦ ¢ 

 

 

© 

¢ 

© ¢ (4.8) 

4.3.2 Training 

Nachdem eine Menge von Lernbeispielen in Form eines Patternsets vorhanden ist, kann 

diese verwendet werden, um ein neuronales Netz wie das Multi-Layer-Perzeptron zu 

trainieren. Die in Kapitel 5 beschriebenen Versuche verwenden jedoch unterschiedliche 

Bereiche der gesamten Lernmenge für das Trainieren des Multi-Layer-Perzeptrons. 

Da ein großer Teil der Versuche Online-Lernverfahren beinhalten, ist es am besten, wenn 

die Lernbeispiele vor dem Training in eine zufällige Reihenfolge gebracht werden. Dies 

ist nötig, weil bei Verwendung von Online-Lernverfahren der Lernerfolg geringer sein 

kann, wenn beim Training aufeinander folgende Lernbeispiele sehr ähnlich sind. Die 

Trainingsmenge ist, wie im Abschnitt 3.4.1 beschrieben, schematisch und in aufeinander 

folgenden Ketten aufgebaut, so dass ein Umsortieren vor dem Training sinnvoll ist. 

Anschließend werden die Lernbeispiele nacheinander selektiert und von dem gewählten 

Lernverfahren für das Training des Multi-Layer-Perzeptrons genutzt. Bei den beiden 

verwendeten Lernverfahren handelt es sich um die bereits im Abschnitt 2.3.1 und 2.3.2 

beschrieben Back-Propagation und Resilient-Propagation Verfahren. 



4.4 Bildung von Verhaltensketten 

In diesem Abschnitt geht es um die Realisierung des Differential Evolution Optimierungsverfahrens 

im Zusammenhang mit den beschriebenen Verfahren. Ausgegangen 

wird von den Vorwärtsmodellen, mit deren Hilfe eine Vorhersage des sensorischen Zustandes 

zu einem Zeitpunkt nach einer Bewegung durch die Motorkommandos um ¢¢ , 

 

¢ 

 

und ¢ gemacht werden kann. Nachdem die Vorwärtsmodelle gespeichert wurden, 

können sie nun zur Weiterverwendung geladen werden. Zudem werden zu Beginn 

 

des zu lösenden Problems zwei Bilder aufgenommen. Auf dem ersten sollte die Zielposition 

des roten Klötzchens und auf dem zweiten die Startposition des roten Klötzchens 

zu sehen sein. Aus diesen Bildern werden, wie im Abschnitt 4.2 erläutert, jeweils die 

Information über die Position und Orientierung ermittelt. Damit sind dann alle notwendigen 

Informationen bekannt, um eine Bewegungstrajektorie zu erstellen, die vom Startzustand 

in den Zielzustand führt. 

Bei den frei wählbaren Parametern der zu minimierenden Funktion handelt es sich um 

die Motorkommandos in jedem Schritt, bestehend aus © ¢ und ¢ , wobei ©¢ den 

 

Translationanteil und ¢ den Rotationsanteil um die Greiferspitze darstellen. Eine 

Kette vom Startzustand in den Zielzustand besteht somit aus eine Reihe aufeinander 

 

folgender Motorkommandos. Dabei wird immer zuerst eine Rotation um ¢ Grad und 

anschließend eine Translation um © ¢ mm durchgeführt. Es wurde abweichend vom 

Training der Vorwärtsmodelle die Translation in Form von 

© ¢ und nicht in Form von 

 

¢ und ¢ verwendet, damit stets eine Translation in Abhängigkeit zur Greiferausrichtung 

ausgeführt wird. Wäre dies nicht der Fall, so könnte der Arm auch seitliche 

¢ 

Bewegungen ausführen, wodurch das Klötzchen aus dem Einflussbereich des Greifers 

geraten könnte. Jedoch muss der von Differential Evolution optimierte Parameter © ¢ 

jedes Mal in ¢ ¢ und ¢ bezüglich der aktuellen Orientierung umgewandelt werden, 

da die Vorwärtsmodelle ¢¢ und ¢ und ¢ als Input benötigen. 

Nachdem die Parameter ¢ ¢ , ¢ und ¢ und die sensorische Information des Startzustandes 

ermittelt sind, kann eine Vorhersage des nächsten Teilschrittes gemacht werden. 

 

Die Rotation um die Greiferspitze (siehe Abbildung 3.2) wurde von der Translation getrennt, 

so dass immer erst die Vorhersage der Rotation und dann die Vorhersage der 

Translation gemacht wird. Dadurch wird der Greifer immer zuerst in der Orientierung 

ausgerichtet und anschließend wird eine Vorwärtsbewegung durchgeführt. 

Rotation und Translation verwenden zwei unterschiedliche neuronale Netze für die Vorhersage. 

Diese Netze unterscheiden sich zwar in ihrer Struktur, jedoch unterscheiden sie 

sich nich in der Anzahl der trainierten Lernbeispiele. Der Output der Vorhersage des ersten 

Teilschrittes wird als Input des nächsten Teilschrittes mit neuen Parametern © ¢ 

¥¨§ 

und 

¢ 

¥¨§ 

verwendet (siehe Abbildung 4.7). 

Nachdem eine vordefinierte Kettenlänge 

durchlaufen ist, ist das Resultat eine Vorhersage 

des gewünschten Zielzustandes ermittelt. Nun gilt es, diese Vorhersage mit den 

¦ 

tatsächlich aufgenommen sensorischen Informationen des Zielzustandes zu vergleichen 



Abbildung 4.7: Verkettung mehrerer Multi-Layer-Perzeptrons. (Adaptiert von Hoffmann und Möller (2004)) 

und die Energie zu bestimmen. Dazu ist es sinnvoll, jeweils den euklidischen Abstand 

aller 16 bzw. 9 Werte der Position und der 4 Werte der Orientierung aufzusummieren. 

Dieses Verfahren ist analog zu dem Vergleichsverfahren, das bei der Look-Up Tabelle 

verwendet und im Abschnitt 4.5 noch genauer erläutert wird. Die Energie wird durch 

Addition der beiden gewichteten Anteile von Position und Orientierung erreicht. Hier 

gilt wieder, je geringer die Energie, desto besser ist die Übereinstimmung von erreichtem 

und gewünschtem sensorischen Zustand. 

Da zu Beginn nicht fest steht wie viele Kettenglieder ¦ , also einzelne Vorhersagen der 

Vorwärtsmodelle benötigt werden, um eine gute Trajektorie zu erstellen, wird erst von 

einem Glied ausgegangen und dann jeweils ein weiteres aufaddiert. In einem festgelegtem 

Intervall der Kettenlänge ¦ , wird das Verfahren wiederholt und jeweils die Energie 

berechnet. Die Kettenlänge mit der niedrigsten Energie wird verwendet um das rote 

Klötzchen vom Startzustand in den gewünschten Zielzustand zu schieben. Zusätzlich 

wird noch überprüft, ob der Energiewert einen bestimmten Schwellwert überschreitet. 

Ist dies der Fall, so kann alternativ nach einer festgelegten Anzahl von Wiederholungen 

aller Optimierungsschritte das beste Ergebnis ausgewählt werden. 

Die Behandlung des Problems einer zielgerichteten Bewegung als ein Optimierungsproblem 

ermöglicht es, Strafterme hinzuzufügen, wenn die Motorkommandos außerhalb 

gewollter Bereiche liegen. Dies ist notwendig, damit die Parameter (Motorkommados) 

des Differential Evolution in dem Bereich liegen, mit dem das Vorwärtsmodell 

auch trainiert wurde. Die Translation sollte stets positiv und nicht größer als die in den 

Vorwärtsmodellen trainierten Translationen sein. Somit liegt der straffreie Bereich bei 

der Translation von 0 bis 30. Alle Werte, die darüber oder darunter liegen, werden in 

Abhängigkeit von der Abweichung mit einer Konstante versehen, die zu dem Energiewert 

addiert wird. Dieser wird somit größer und schlechter, wodurch bestrafte Parameter 

nur selten im Ergebnis des Differential Evolution Prozesses enthalten sind. Bei der Rotation 

wird zusätzlich noch die Summe aller Absolutbeträge der Parameter auf die Energiefunktion 

aufgerechnet. Dies hat zur Folge, dass die Rotationsanteile über die gesamte 

Kette verteilt nicht vom trainierten Bereich von -10 Grad bis +10 Grad abweichen. Der 

Grund hierfür ist eine angestrebte Glättung der Trajektorien. Ohne diese Einschränkung 



kann es durchaus vorkommen, dass die Trajektorie eine Zick-Zack Form aufweist. 

In jedem Teilschritt der Kette wird ein so genannter DESolver (eine Prozedur des Differntial 

Evolution Verfahrens) erstellt, wobei die drei Kontrollvariablen (Dimension 

der Population), (Verstärkung der differentiellen Variation) und £ ¦ 

(crossover Wahrscheinlichkeit) 

festgelegt und die Variation des Verfahrens angegeben werden muss. 

 

Nach ausreichend vielen Testläufen hat sich das Verfahren RandToBest1 mit =20, 

¦ £ 

=0.5 und =0.95, im Vergleich zu anderen Verfahren und anderen Werten in den Variablen, 

als am besten erwiesen. Die anderen Variationen und leicht abweichende Werte 

 

in den Kontrollvariablen haben dabei nicht deutlich schlechtere Ergebnisse erbracht. 

Die weitere Untersuchung dieser Kontrollvariablen und Variationen wäre eine Verbessungsmöglichkeit 

des Verfahrens. In der Energiefunktion, die mit DESolver-Solve aufgerufen 

wird, ist definiert, wie die Parameter durch Minimierung der Energie optimiert 

werden. Mit DESolver-Energy kann die kleinste Energie und mit DESolver-Solution die 

dazugehörigen Parameter abgerufen werden. 

4.5 Berechnung des Greifer-Startzustands 

Das Ziel ist, wie bereits beschrieben, das erfolgreiche Verschieben von einem Startzustand 

in einen Zielzustand, wie sie in Abbildung 4.1 zu sehen sind. Durch die trainierten 

Vorwärtsmodelle ist eine Vorhersage von kleinen Verschiebungen möglich, und durch 

die Optimierungsalgorithmen kann eine Kette von Motorkommandos vom Startzustand 

in den Zielzustand erstellt werden. Fraglich ist jedoch noch wie von der Ausgangssituation, 

mit dem Roboterarm in Ausgangsstellung, der Startzustand der Verschiebeoperation 

erreicht werden kann. 

In der Ausgangsituation ist der Roboterarm in der so genannten ” 

Ruhestellung“, in der 

alle Gelenkwinkel 0 Grad betragen. Um den Startzustand zu erreichen werden zwei 

Phasen durchlaufen. In der ersten Phase muss der Roboterarm von der ” 

Ruhestellung“ 

in eine von zwei unterschiedlichen ” 

grundsätzlichen“ Verschiebehaltungen überführt 

werden. Dies ist notwendig, da bei einer direkten Bewegung von der ” 

Ruhestellung“ 

in den Startzustand der Roboterarm mit dem Arbeitstisch kollidieren würde. Da diese 

Bewegung durch die Hindernisdetektion in einen Fehlerzustand führen würde, ist eine 

solche Bewegung nicht erwünscht. Zusätzlich ist es von Interesse auf welcher Seite des 

Tisches sich der Startzustand befindet, damit die bessere der beiden ” 

grundsätzlichen“ 

Verschiebehaltungen eingenommen werden kann. Der Grund für diese Maßnahme liegt 

in der Art, wie der Roboterarm montiert ist. Dadurch, dass die Motoren in ihrer Rotation 

eingeschränkt sind, kommt es vor, dass der Arm eine aufwendige Ausgleichbewegung 

durchführen muss. Bei einer solchen Ausgleichbewegung wird zuerst eine festgelegte 

zentrale Position über dem Arbeitstisch angefahren und anschließend wieder zur ursprünglichen 

Position und Orientierung zurückgekehrt. Jedoch haben die Motoren dabei 

andere Winkelstellungen, so dass sie die Verschiebeoperation weiterhin ausführen 



können, ohne die Gelenkwinkelgrenze zu überschreiten. Um eine solche Ausgleichbewegung 

zu vermeiden, werden von Beginn an die optimalen grundsätzlichen“ Verschiebehaltungen 

gewählt und angefahren. Hierfür wird ein Bild von der Kamera ge- 

” 

nutzt, um anhand des roten Farbanteils im gespeicherten Bild zu bestimmen, ob sich 

das rote Klötzchen auf der linken oder rechten Seite des Tisches befindet. 

In der zweiten Phase muss die Position und Orientierung des Startzustandes berechnet 

werden, um von den grundsätzlichen“ Verschiebehaltungen in den Startzustand 

” 

zu gelangen. Es wird hierbei ein Teil der Datensätze verwendet, die für das Trainieren 

der Vorwärtsmodelle angelegt wurden. Bei den genutzten Daten handelt es sich um die 

Bildinformationen, die beim Sammeln der Lernbeispiele von Rotationsbewegungen auf 

dem gesamten Arbeitsbereich gespeichert wurden (siehe Abschnitt 3.4.1). Aus dem zu 

Beginn gespeicherten Bild werden, wie im Abschnitt 4.2 beschrieben, die Daten der 

Position und Orientierung des roten Klötzchens berechnet. Die aktuelle Orientierung 

des roten Klötzchens wird somit durch 4 Werte und die der Position durch 16 bzw. 9 

Werte ausgedrückt. Diese Daten werden mit den Daten aller Positionen und Orientierung 

der Datenbank verglichen, da diese den gesamten Arbeitsbereich abdecken. Dabei 

wird das euklidische Abstandsmaß der 20 bzw. 13 Werte verwendet, um die Positionen 

und Orientierungen zu finden mit dem das gespeicherte Bild am besten übereinstimmt. 

Das Verfahren ist somit nach dem Prinzip einer Lookup-Tabelle aufgebaut. Bei diesem 

Prinzip kann ein Wert mit in einer Tabelle gespeicherten Werten verglichen werden, um 

möglichst einen übereinstimmenden Wert zu finden. Alle Werte der Tabelle verweisen 

dabei auf weitere Informationen. Wird eine Übereinstimmung der visuellen Informationen 

von Position und Orientierung gefunden, verweist die Look-Up Tabelle auf die gespeicherte 

Position und Orientierung bezüglich des Basiskoordinatensystems. Je kleiner 

das Abstandsmaß über alle Werte ist, umso wahrscheinlicher ist es, dass dieser sensorische 

Zustand mit dem aktuellen sensorischen Zustand der Kamera übereinstimmt. Da 

die gesammelten Vergleichsdaten jedoch nur ein Gitter mit 20mm Abständen abdecken, 

ist es sinnvoll, die ¨ besten sensorischen Zustände zu berechnen und ein Mittel daraus 

zu bilden. Durch Versuche hat sich ergeben, ¨ 

£ 

dass ¨ § und die besten Resultate 

erzielen. 

Nachdem der Startzustand nach dem beschriebenen Verfahren ermittelt ist, muss er sinnvoll 

angefahren werden. Um mögliche Fehler bei diesem relativ einfachen Verfahren zu 

kompensieren, steuert der Arm eine Position an, die ¨ ©© vor der bestimmen Position 

liegt und bewegt sich dann §©© vorwärts. So kann verhindert werden, dass das 

Klötzchen nicht direkt vor dem Greifer liegt. 

 


5 

Experimente 

In diesem Kapitel werden die durchgeführten Experimente beschrieben. Durch die Experimente 

wird klar, welche Verfahren sich am besten für die Lösung der Teilaufgaben 

eignen. Da der wichtigste Teil dieser Arbeit die visuellen Vorwärtsmodelle sind, gilt es 

insbesondere diese auf ihre Qualität hin zu untersuchen. Dies geschieht zum einen im 

Bezug auf die Qualität der einzelnen Vorhersagen und zum anderen auf die Qualität der 

generierten Trajektorien zur Verschiebung des roten Klötzchens. 

Durch Variation unterschiedlicher Faktoren wurde versucht,das Ergebnis der Experimente 

weitgehend zu optimieren. Dabei wurden die hier betrachteten Experimente nach 

einem hierarchischen Prinzip ausgewählt. Vielversprechende Experimente werden im 

Folgenden genauer beschrieben, auf weniger Erfolg versprechende Experimente wird 

hingegen nur kurz eingegangen. Die wichtigsten Faktoren, die variiert wurden, sind 

Bildvorverarbeitung, Trainingsgröße, Lernverfahren und Netzwerkstruktur. Eine weitere 

Verbesserung könnte die Variation des Optimierungsalgorithmus der Trajektorie liefern, 

worauf aus zeitlcihen Gründen jedoch nicht genauer eingegangen werden konnte. 

Hier wird somit immer das Differential Evolution Verfahren als Optimierungsalgorithmus 

verwendet. 

Grundlegend werden bei jeder Variation drei unterschiedliche Vorwärtsmodelle betrachtet, 

die durch neuronale Netze realisiert sind. Das erste sagt die Orientierung des roten 

Klötzchens voraus, das zweite dessen Position und das dritte die Position und Orientierung 

des Greifers bezüglich des Basiskoordinatensystems. Die Netze sind also nach 

der Struktur der Lernbeispiele aufgeteilt. Diese Netzstruktur wird im folgenden Verlauf 

der Experimente als datenrelevante Struktur des Netzes bezeichnet. Eine Ausnahme 

bildet eine Variation des Multi-Layer-Perzeprons in Form einer monolithischen Netzwerkstruktur, 

bei der drei genannten Vorwärtsmodelle zusammen in einem Netz trainiert 


5 Experimente 

wurden. Eine weitere Ausnahme besteht im Auslassen des dritten Netzes, welches die 

Position und Orientierung des Greifer vorhersagt. 

Zuerst wird im Abschnitt 5.1 kurz auf die Auswertungsindikatoren der trainierten MLP 

und der vom Optimierungsalgorithmus generierten Trajektorie eingegangen. Danach 

werden die genannten Variationen im Abschnitt 5.2 nochmals genauer beschrieben und 

die Ergebnisse der einzelnen Experimente vorgestellt. Anschließend werden im Abschnitt 

5.3 die Ergebnisse der Experimente im Bezug auf die variierenden Faktoren diskutiert 

und es wird außerdem geschildert, ob und wie gut die gestellte Aufgabe gelöst 

wurde. 

5.1 Auswertungsindikatoren 

Um die Qualität der Vorwärtsmodelle mit den unterschiedlichen Variationen vergleichen 

zu können, müssen geeignete Auswertungsindikatoren gewählt werden. Es wird dabei 

zwischen Indikatoren in der Trainingsphase und der Testphase unterschieden. 

5.1.1 Indikatoren der Trainingsphase 

Bei den Indikatoren der Testphase handelt es sich um den ¡£¡£¤ 

Lernfehler und dessen 

¤¡ ¢ ¢£ Varianz , die nach jeder Lernepoche bestimmt werden können. 

Der ¡£¡£¤ 

Lernfehler ist der durchschnittliche Fehler aller ¨ Elemente , die in der Lernmenge 

definiert sind. Dabei wird die Abweichung zwischen dem Output des Netzes und 

dem zu erwartenden Output berechnet. 

 

 

£ ! 

¢ 

§ ¡¢ 

£ 

¢ 

¨ 

(5.1) 

¨¡©¡¤ 

 

¤¤ ¢ ¥£ Die Varianz der Fehlerentwicklung wird ebenfalls nach jeder Epoche berechnet. 

Im Folgenden werden der Lernfehler und die Varianz immer im letzten Schritt des Trainings 

angegeben, da sie ausschlaggebend für die Qualität des entstandenen Netzes sind. 

Die Werte nach der letzten Epoche werden als Referenzwerte genommen. Es gibt auch 

Fälle, bei denen sich der Lernfehler während des Trainings wieder verschlechtert. Daher 

ist es wichtig, eine geeignete Anzahl von Lernepochen zu ermitteln. Bei den verschiedenen 

Variationen liegt die verwendete Epochenanzahl zwischen 300 und 1000 

Anhand der beiden Indikatoren können bereits während der Lernphase eines Netzes 

Schlüsse über den Erfolg des Lernprozesses gezogen werden. Dabei können Variablen 

wie die Anzahl der Epochen oder die Lernschrittweite angepasst werden, um die Qualität 

des Netzes zu optimieren. Der Lernfehler und dessen Varianz können bei zu hoher 

Epochenanzahl unter Umständen wieder steigen. In diesem Fall muss die Varianz angepasst 

werden. 


© 

5 Experimente 

5.1.2 Indikatoren der Testphase 

Die Testphase unterteilt sich in zwei Bereiche. Bei dem ersten handelt es sich um eine 

Vorhersage des Verhaltens des neuronalen Netzes bei Anwendung auf nicht trainierte 

Lernbeispiele. Hierfür werden die neuronalen Netze auf einem nicht trainierten Teil der 

Lernmenge oder auf 193 von Hand aufgenommene Testbeispiele getestet. Bei diesen 

handelt es sich um Daten, die sich sowohl im Translationsanteil als auch im Rotationsanteilen 

stark von den Trainingsbeispielen unterscheiden. Dadurch kann verglichen 

werden wie gut das trainierte Netz mit Daten umgehen kann, welche den Trainingsbeispielen 

ähnlich sind oder stark davon abweichen. Beim Testen der Netze wird auch hier 

der Abstand jedes erwarteten Output-Wertes zu dem tatsächlichen Output-Wert berechnet. 

Je geringer der summierte Abstand über alle Werte, desto besser ist die Vorhersage 

des neuronalen Netzes. Die Übereinstimmung zwischen erwarteten und erreichten 

Werten wird in Prozent ausgegeben, so dass die Qualität der verschiedenen Variationen 

beurteilt werden kann. Im Folgenden wird der Durchschnitt aller Werte von allen Testbeispielen 

als Qualität bezeichnet. Die Varianz wird dann durch die maximale und die 

minimale Qualität ausgedrückt. Bei jeder Variation werden diese drei Werte für jedes 

Netz in einer Tabelle dargestellt. Zusätzlich sind in diesen Tabellen noch der vorhin genannte 

Lernfehler und die Fehlervarianz angegeben. Die Qualität jeder Variation wird 

in den Abbildungen 5.1 bis 5.12 dargestellt. 

Der zweite Teil der Testphase ist die Bewertung der Ergebnisse nach der Erstellung der 

Verschiebe-Trajektorie. Hier spielt außer dem neuronalen Netz auch die Wahl der Parameter 

des Optimierungsalgorithmus eine große Rolle. Nachdem die trainierten Netze in 

verschieden Variationen getestet wurden, wird für die besten dieser Netze der Optimierungsalgorithmus 

umgesetzt. Auch hier muss ein Vergleichswert geschaffen werden. 

Die Bewertung der Kombination aus neuronalem Netz und Optimierungsalgorithmus 

geschieht durch Betrachtung der Abweichung von Position und Orientierung zwischen 

gewünschtem und erreichtem sensorischen Zustand. Dabei sind ¡ und die Fehler 

der Position ¢ in - und -Richtung ¡ und ist der Fehler der Orientierung . Aus diesen 

Fehlern resultiert ein Vergleichswert , der Position und Orientierung mit gewichteten 

Werten in Relation setzt. 

¡ ¡ ¢¡ 

Verwendet wird dieser Vergleichswert mit den ¡ Gewichten und , um einen dimensionslosen 

Wert zu erhalten. Zusätzlich kann durch die Gewichte zum Beispiel die Position 

des Objektes stärker in die Bewertung einfließen als dessen Orientierung, falls Positionsabweichungen 

stärker bewertet werden sollen. In einer Tabelle werden im Abschnitt 

£ 

5.2.6 drei Variationen gegenübergestellt und durch den genannten Vergleichswert miteinander 

verglichen. 

©¤£ 

¡ (5.2) 


5 Experimente 

5.2 Variation der Faktoren 

In diesem Abschnitt wird der Aufbau der Experimente beschrieben. Für eine strukturierte 

Betrachtung der verschiedenen Variationen und deren Qualität ist es sinnvoll, 

schlechte Verfahren schnell auszuschließen, um sich auf die wichtigen Verfahren zu 

konzentrieren. Zu Beginn werden im Abschnitt 5.2.1 zwei Netze gegenübergestellt, die 

sich in der Bildvorverarbeitung unterscheiden. Dabei geht es speziell um die Variation 

der Berechnung der Positionswerte des roten Klötzchen. Anschließend werden im Abschnitt 

5.2.2 die Variation der Trainingsgröße und im Abschnitt 5.2.3 die Variation des 

Lernverfahrens beschrieben. Danach wird im Abschnitt 5.2.4 die Netzstruktur variiert. 

Die dabei entstehenden Variationen werden mit Variation 1 (4x4) bis Variation 7 (3x3) 

benannt. Diese Variationen werden auf einem nicht trainierten Bereich der Trainingsmenge 

getestet. Anschließend werden im Abschnit 5.2.5 die fünf Variationen Variation 

1 (4x4 Test), Variation 2 (3x3 Test), Variation 4 (3x3 Test), Variation 5 (3x3 Test) 

und Variation 7 (3x3 Test) auf von Hand aufgenommenen Testbeispielen getestet. Zuletzt 

werden im Abschnitt 5.2.6 die drei besten Variationen im Bezug auf die Erstellung 

einer Trajektorie miteinander verglichen. Diese drei Variationen sind Variation 2 (3x3 

Test), Variation 4 (3x3 Test) und Variation 5 (3x3 Test). Alle Experimente sind dabei 

so strukturiert, dass jeweils die erfolgversprechensten im nächsten Schritt weiter 

betrachtet werden. 

5.2.1 Variation der Bildvorverarbeitung 

Der zu variierende Faktor in der Bildvorverarbeitung liegt in der Berechnung der 

Position des roten Klötzchens. Die hier verglichenen beiden Ansätze unterscheiden 

sich in der Anzahl der Werte, durch die die Position ausgedrückt wird. Die Berechnung 

dieser Werte wurde im Abschnitt 4.2 bereits ausführlich beschrieben. Nachdem zu 

Beginn der Experimente mit einem 4x4 Gitter und den daraus resultierenden 16 Werten 

gerechnet wurde, hat sich nach einem Vergleich ein 3x3 Gitter mit 9 Werten als sinnvoller 

erwiesen. Erhoffter Vorteil des 3x3 Wertegitters ist ein besser zu trainierendes 

neuronales Netz. Dies geht jedoch auf Kosten eines möglichen Informationsverlustes 

durch eine zu kleine Anzahl der gewählten Werte. 

Die zwei im Folgenden verglichenen neuronalen Netzwerke werden auf derselben 

Trainingsgröße mit ca. 30000 Lernbeispielen und dem Back-Propagation Lernverfahren 

trainiert. Beide Netze besitzen die bereits beschriebene datenrelevante Struktur. Diese 

Faktoren werden im weiteren Verlauf noch genauer beschrieben. Die Anzahl der 

Epochen liegt bei ca. 300 und für jedes Teilnetz werden 15 Neuronen in der verdeckten 

Schicht verwendet. Nachdem mit 30000 Lernbeispielen trainiert wurde, wird das Netz 

auf den restlichen 7500 nicht trainierten Beispielen der Trainingsmenge getestet. Diese 

Aufteilung wurde zufällig gewählt. 

Die Ergebnisse der beiden Variationen sind in den Tabellen Variation 1 (4x4) und 


5 Experimente 

Abbildung 5.1: Qualität von Variation 1 (4x4). Es wird die durchschnittliche Prozentuale Übereinstimmung der 4 Orientierungswerte 

und der 16 Positionswerte in einem Diagramm (links) und zwei Graustufenbildern 

(rechts) visualisiert. 


und der 9 Positionswerte in einem Diagramm (links) und zwei Graustufenbildern (rechts) 

visualisiert. 

Variation 2 (3x3) und in den Abbildungen 5.1 und 5.2 zu sehen. 

Aus den Resultaten geht hervor, dass die Variation 2 (3x3) in allen ausschlaggebenden 

Werten besser ist als die Variation 1 (4x4). Es hat sich herausgestellt, dass die Qualität 

und der Lernfehler der Position besonders ausschlaggebend für die Leistung der 

Variationen ist. Gerade diese Werte sind bei der ersten Variation deutlich schlechter. 

¡©¡¤ 

¤¤ ¢ ¢£ 

Variation 1 (4x4): Orientierung Position O.P.Greifer 

Durchschnittliche Qualität: 97.29 92.46 100 

Qualität Maximum: 100 100 100 

Qualität Minimum: 31.92 6.041 99.97 

Lernfehler : 0.0217 0.0024 1.7e-15 

Fehlervarianz : 0.007 0.0026 1.3e-26 


5 Experimente 

¡£¡£¤ 

¤¡ ¢ ¢£ 





Lernfehler : 0.0218 0.0017 1.6e-15 


5.2.2 Variation der Trainingsgröße 

Beim Sammeln und Erstellen der Datenbank wurden, wie schon im Abschnitt 3.4.1 

beschrieben, insgesamt ca. 37500 Lernbeispiele aufgenommen. 

Dabei sind Translationen von 10mm, 20mm, 30mm und Rotationen von 5 und 10 Grad 

enthalten. Hierduch soll gezeigt werden, dass die Verwendung von zu vielen Lernbeispielen 

kein schlechteres Ergebnis erzielt als die Verwendung weniger Lernbeispiele. 

Im vorhergehenden Abschnitt wurden alle 37500 Lernbeispiele verwendet, und im 

Vergleich dazu werden in diesem Abschnitt nur 21500 Lernbeispiele verwendet. Diese 

bestehen nur aus 10mm Translationen und 5 Grad Rotationen. Die folgenden zwei 

Netze wurden somit mit 20000 Lernbeispielen trainiert und anschließend mit 1500 

Lernbeispielen getestet. Auch hier wurde das Back-Propagation Lernverfahren mit 

einer datenrelevanten Struktur verwendet. Die Anzahl der Epochen liegt ebenfalls bei 

ca. 300 und auch hier werden 15 Neuronen in den verdeckten Schichten verwendet. 

Die Ergebnisse der beiden Variationen sind in den Tabellen Variation 3 (4x4) und 

Variation 4 (3x3) und in den Abbildungen 5.3 und 5.4 zu sehen. 

Die Ergebnisse zeigen, dass die Variationen Variation 3 (4x4) und Variation 4 

(3x3) nur minimal besser sind als die beiden ersten Variationen. Dies kann jedoch an 

dem kleineren Umfang der Trainings und Testmenge liegen. Variation 2 (3x3) und 

Variation 4 (3x3) sollte daher weiterhin beobachtet werden. 

¡£¡£¤ 

¤¡ ¢ ¢£ 



Qualität Maximum: 99.9 100 100 


Lernfehler : 0.0217 0.0024 8.7e-19 


¡£¡£¤ 

¤¡ ¢ ¢£ 





Lernfehler : 0.0214 0.0015 7.1e-19 

Fehlervarianz : 0.0071 7.1e-05 7.6e-34 


5 Experimente 


und der 16 Positionswerte in einem Diagramm (links) und zwei Graustufenbildern 




visualisiert. 

5.2.3 Variation des Lernverfahrens 

In Abschnitt 2.3 wurden zwei grundlegende Lernverfahren beschrieben, mit deren Hilfe 

die neuronalen Netze trainiert werden können. Die bisherigen Variationen wurden 

alle, wie schon erwähnt, mit dem Back-Propagation Verfahren trainiert. In diesem 

Abschnitt wird zum Vergleich noch ein neuronales Netz mit dem Resilient-Propagation 

Verfahren trainiert. Das folgende Netz ist bis auf das Trainingsverfahren analog zu dem 

im Abschnitt 5.2.1 beschriebenen Variation 2 (3x3) mit der 3x3 Bildvorverarbeitung. 

Auch hier wurden ca. 30000 Lernbeispiele zum Trainieren und 7500 Lernbeispiele 

zum Testen verwendet. Jedoch wurden 1000 Epochen durchlaufen, da beim Resilient- 

Propagation Verfahren die Gefahr einer Verschlechterung bei zu hoher Epochenanzahl 

geringer ist. Die Ergebnisse der Variation sind in der Tabelle Variation 5 (3x3) und der 

Abbildung 5.5 zu sehen. 

Das Resilient-Propagation Verfahren scheint im Vergleich zu dem Back-Propagation 


5 Experimente 



visualisiert. 

Verfahren ein wenig besser zu sein. Diese Behauptung wird jedoch später in einem 

weiteren Versuch im Abschnitt 5.2.5 widerlegt. 

¡£¡£¤ 

¤¡ ¢ ¢£ 





Lernfehler : 0.0214 0.0016 1.5e-15 


5.2.4 Variation der Netzwerkstruktur 

Bisher sind alle vorgestellten Netzwerke nach der datenrelevanten Netzwerkstruktur 

aufgebaut. Dabei wurden drei getrennte Netze verwendet, so dass Orientierung, Position 

und Greiferposition und Orientierung jeweils eine eigene verdeckte Schicht mit speziell 

trainierten Gewichten hat. Es besteht jedoch auch die Möglichkeit, die Struktur noch 

weiter zu verfeinern oder zusammenzufügen. Die Teilung in 20 (4x4) bzw. 13 (3x3) 

kleine Netze, bei dem jeder Output-Wert der Vorhersage ein eigenes Netz hat, wurde 

schnell als nicht geeignet befunden. Das Gegenteil hierzu ist das Zusammenfügen der 

drei bereits behandelten Netze in ein einziges MLP. Dabei hat dieses Netz nur eine 

verdeckte Schicht, wodurch die Abhängigkeit der Daten zueinander größer ist. 

Die Ergebnisse der Variation sind in der Tabelle Variation 6 (3x3) und der Abbildung 

5.6 zu sehen. Aus den Ergebnissen geht jedoch hervor, dass es im Vergleich zu den 

vorherigen Variationen nicht lohnenswert ist, diese Variation weiter zu betrachten. 


5 Experimente 



visualisiert. 

¡©¡¤ 

¤¤ ¢ ¢£ 


Durchschnittliche Qualität: 96.09 95.79 95.01 



Lernfehler : 0.0081 0.0080 0.0079 

Fehlervarianz : 0.0027 0.0027 0.0027 

Die soeben genannten Strukturänderungen betreffen die Struktur der Netzausgabe und 

damit die Anzahl der verwendeten Netze. Eine andere Möglichkeit, die Struktur des 

Netzes zu verändern, liegt in der Änderung der Netzeingabe. Ausgegangen wird von der 

datenrelevanten Struktur mit Unterteilung in drei Netze. Bislang hat jedes dieser drei 

© £ £ © 

£ 

Netze 

zusätzlich zu den bzw. Werten der Position und Orientierung vor der 

Bewegung, die drei Motorkommandos , und als Eingabe bekommen. ¢ Auch 

wurden sie mit Lernbespielen trainiert, die Translationen und Rotationen beinhalten. 

Eine vollkommen andere Struktur entsteht, wenn das Netz zur Vorhersage der Position 

von dem zur Vorhersage der Orientierung getrennt wird. Das Motorkommando 

der Eingabe wäre dann im Falle einer Positionsvorhersage 

¢ null zu setzen und und 

wären bei einer Orientierungsvorhersage gleich null. Dies 

wurde in der folgenden 

Variation realisiert, indem die entsprechenden Netze nur mit dem entsprechenden Teil 

der Trainingsmenge trainiert wurden. Wie im Abschnitt 3.4.1 beschrieben, wurden die 

Lernbeispiele für die Translationen und die Rotationen unterschiedlich aufgenommen, 

so dass die Lernmenge problemlos in zwei Teile geteilt werden kann. Zudem besteht 

eine weitere interessante Strukturänderung im Weglassen der Position und Orientierung 

des Greifers. Dadurch wäre geklärt, ob die aktuelle Position des Greifers bei der Vorhersage 

eine wichtige Rolle spielt. Die Ergebnisse dieser Variation sind in der Tabelle 

Variation 7 (3x3) und der Abbildung 5.7 zu sehen. Auch hier sind die Resultate ausrei- 


5 Experimente 



visualisiert. 

chend gut. Vorteil dieser Variation ist, dass nur zwei neuronale Netze verwendet werden. 

¡£¡£¤ 

¤¡ ¢ ¢£ 

Variation 7 (3x3): Orientierung Position 

Durchschnittliche Qualität: 96.69 96.98 

Qualität Maximum: 100 100 

Qualität Minimum: 71.39 76.08 

Lernfehler : 0.0287 0.0016 

Fehlervarianz : 0.0126 0.0001 

Ob auch bei der Vorhersage von stark abweichenden Trainingsbeispielen vergleichbar 

gute Ergebnisse erzielt werden können, zeigt sich im folgenden Abschnitt. 

5.2.5 Anwendungstest 

Es wurden soeben die verschiedenen Variationen und ihre Performanz beim Training 

sowie bei den Tests auf Daten, die der eigentlichen Trainingsmenge entnommen 

wurden, aufgezeigt. Nun ist es interessant, wie gut diese Variationen neue zufällig 

generierte Bewegungstrajektorien vorhersagen können. Verglichen werden dabei die 

bislang erfolgversprechensten Variationen. Es handelt sich um die Variationen Variation 

1 (4x4), Variation 2 (3x3), Variation 4 (3x3), Variation 5 (3x3) und Variation 

7 (3x3). Während die Variation 4 (3x3 Test) auf 21500 Lernbeispielen trainiert wird, 

werden die restlichen Variationen mit allen 37500 Lernbeispielen trainiert. Es sollen 

dabei möglichst alle Lernbeispiele der Trainingsmenge verwendet werden, um keinen 

Teil des Verschiebebereiches unzureichend zu trainieren. Getestet werden diese fünf 

Variationen auf von Hand aufgenommenen, willkürlich ausgesuchten Bewegungstrajektorien 

über dem Arbeitsbereich. Es handelt sich dabei um 10 Verschiebetrajektorien 

mit ca. 193 Lernbeispielen, die als einzelne Testbeispiele dienen. Die Qualität kann 

dabei nicht mit der in den vorangegangen Tabellen verglichen werden, da es sich um 


5 Experimente 

Abbildung 5.8: Qualität von Variation 1 (4x4 Test). Es wird die durchschnittliche Prozentuale Übereinstimmung der 4 

Orientierungswerte und der 16 Positionswerte in einem Diagramm (links) und zwei Graustufenbildern 


teilweise stark von den Lernbeispielen abweichende Rotations- oder Translationsanteile 

handelt. 

Um im nächsten Schritt zusätzlich abzuschätzen, wie stark sich der durch die Vorhersage 

entstehende Fehler aufsummiert, werden aufeinander folgende Vorwärtsmodelle der 

10 Ketten miteinander verkettet. Die letzte Vorhersage wird dann mit dem tatsächlichen 

sensorischen Zustand verglichen. Die durchschnittliche Qualität aller 10 Trajektorien 

ist in den folgenden Tabellen als ” 

aufsummierter Fehler “ kenntlich gemacht. Die 

Resultate aller Variationen sind in den folgenden fünf Tabellen und in den Abbildungen 

5.8 bis 5.12 zu sehen. 

Aus den Resultaten geht hervor, dass Variation 1 (4x4 Test) und Variation 7 (3x3 Test) 

sich wegen ihrer schwachen Werte nicht für die nachfolgenden Experimente eignen. 

Die Ergebnisse der Variationen Variation 7 (3x3 Test), Variation 7 (3x3 Test) und 

Variation 7 (3x3 Test) dagegen sind wesentlich besser. Diese drei Variationen werden 

daher im nächsten Schritt für die Erzeugung von Vorhersageketten weiter verwendet. 

¡©¡¤ 

¤¤ ¢ ¢£ 

Variation 1 (4x4 Test): Orientierung Position O.P.Greifer 




Lernfehler : 0.0221 0.0021 1.3e-15 


Aufsummierter Fehler: 93.45 81.09 99.99 


5 Experimente 

Abbildung 5.9: Qualität von Variation 2 (3x3 Test). Es wird die durchschnittliche Prozentuale Übereinstimmung der 

4 Orientierungswerte und der 9 Positionswerte in einem Diagramm (links) und zwei Graustufenbildern 





¡£¡£¤ 

¤¡ ¢ ¢£ 





Lernfehler : 0.0222 0.0016 1.5e-15 




5 Experimente 




¡©¡¤ 

¤¤ ¢ ¢£ 



Qualität Maximum: 100 99.9 100 


Lernfehler : 0.0213 0.0015 1.2e-05 

Fehlervarianz : 0.0068 6.4e-05 1.2e-07 


¡©¡¤ 

¤¤ ¢ ¢£ 



Qualität Maximum: 99.9 99.9 100 


Lernfehler : 0.0233 0.0024 4.1e-11 



¡©¡¤ 

¤ ¢ ¢£ 

Variation 7 (3x3 Test): Orientierung Orientierung 

Durchschnittliche Qualität: 90.38 93.77 

Qualität Maximum: 99.98 99.9 

Qualität Minimum: 51.21 73.71 

Lernfehler : 0.0287 0.0016 

Fehlervarianz : 0.0127 0.0001 

Aufsummierter Fehler: 95.77 75.03 


5 Experimente 




5.2.6 Differential Evolution 

Nachdem nun die Performanz der verschiedenen Variationen im Bezug auf einzelne 

Vorhersagen verglichen wurde, gilt es im nächsten Schritt eine Vorhersagekette zu 

erstellen. Dies geschieht mit Hilfe von Differential Evolution. Es werden folgende drei 

Variationen betrachtet, die sich in der experimentellen Phase als am erfolgreichsten 

herausgestellt haben. Die Lernbeispiele der drei Variationen wurden alle mit der 3x3 

Variation der Bildvorverarbeitung erzeugt, da diese bessere Ergebnisse als die 4x4 

Bildverarbeitung liefert. Es handelt sich bei den drei Variationen um 4 (3x3) mit 

einer Trainingsmenge von 21500 Lernbeispielen und dem Back-Propagation Lernverfahren, 

2 (3x3 Test) mit der gesamten Trainingsmenge von 37500 Lernbeispielen 

und den Back-Propagation Lernverfahren und 5 (3x3 Test) mit 37500 Lernbeispielen 

als Trainingsmenge und dem Resilient-Propagation Lernverfahren. Bei den folgenden 

Experimenten wurden jeweils drei Versuche zur Bestimmung einer Trajektorie 

gemacht, wobei der beste Versuch in die hier vorgestellten Resultate einbezogen 

worden ist. In Abbildungen 5.13, 5.14 und 5.15 sind für jede Variation neun Beispiele 

dargestellt, bei denen das Differential Evolution Verfahren mit drei verschiedenen 

visuellen Vorwärtsmodellen eine Kette von Motorkommandos vom Startzustand in den 

Zielzustand berechnet hat. 

Für jedes Beispiel ist der 320mm x 400mm große Verschiebebereich zu sehen, in dem 

die berechnete Verschiebetrajektorie und die gewünschte Zielposition eingezeichnet 

sind. Die Trajektorie ist dabei durch Querstriche in die einzelnen Kettenglieder 

unterteilt und die Zielpositionen sind durch umkreiste Kreuze dargestellt. Unter jedem 

Beispiel sind die tatsächlichen Abweichungen der Position ¢ in -, -Richtung und der 

Orientierung in Grad angegeben. Die Werte wurden dabei ganzzahlig gerundet. 

Die Kettenlänge wurde bei den Experimenten auf ein Intervall von 10 bis 15 Vorhersagen 

beschränkt, da bei zunehmendem Intervall die Prozesszeit der Berechnung schnell 


© 

§ 

§ 

5 Experimente 

unakzeptabel wird. Mit diesen Kettenlängen sind jedoch Verschiebeoperationen mit 

einer Länge zwischen 100mm und 300mm problemlos möglich. In der Optimierung 

der zeitlichen Performanz besteht eindeutig noch Verbesserungspotential. 

Die folgende Tabelle fasst noch mal die Performanz der in den Abbildungen 5.13, 5.14 

und 5.15 gezeigten Beispiele zusammen. Um einen Vergleichswert zu schaffen, wird 

 

© £ 

¡ ¡ ¡ ¡ durch ¡ § 

¡¢¡ die Formel §¤£ mit und die Positions- und 

Orientierungsabweichung jedes Beispiels in einen dimensionslosen Wert umgerechnet. 

Es werden für alle drei Variationen jeweils neun Beispiele und £ dessen berechneter 

Vergleichswert aufgelistet. Zusätzlich wird dann noch für jede Variation die Summe 

über alle neun Beispiele ¢ gebildet. Die Werte , und sind in den Bildern der 

Abbildungen 5.13, 5.14 und 5.15 für jedes einzelne Beispiel vermerkt. 

Variation 2 (3x3) Variation 4 (3x3 Test) Variation 5 (3x3 Test) 

Beispiel 1: 5 36 9 








Beispiel 9: 10 27 33 

Summe: 38 231 211 

Die Ergebnisse zeigen eindeutig, dass die Variation 2 (3x3) die kleinsten Abweichungen 

zwischen den Endzuständen der Verschiebeoperationen und den zu erreichenden 

Zielzuständen erreicht hat. Die beiden anderen Variationen sind sowohl in der Summe 

als auch in allen Beispielen separat wesentlich schlechter. 

5.3 Zusammenfassung der Resultate 

Wie schon angesprochen sind die gemachten Experimente hierarchisch aufgebaut. Bei 

der Betrachtung des ersten Teils, in dem es ausschließlich um die Performanz während 

des Trainings ging, haben sich schon die ersten Vermutungen bezüglich der Verwendbarkeit 

einiger Variationen herausgestellt. 

Die zuerst angestrebte Bildvorverarbeitung zur Bestimmung der Position durch ein 4x4 

Gitter von Gaußfunktionen hat sich im Vergleich mit der Verwendung eines 3x3 Gitters 

als wesentlich schlechter herausgestellt. Sowohl Variation 1 (4x4) als auch Variation 

1 (4x4 Test) liefern wesentlich schlechtere Ergebnisse als die anderen Variationen des 


5 Experimente 

Vorwärtsmodells. 

Bei den Lernverfahren hat das Resilient-Propagation Verfahren in Variation 5 (3x3) eine 

leicht bessere Performanz als das Back-Propagation Verfahren in Variation 6 (3x3). 

Bei diesen Variationen wird jedoch nur auf einem nicht trainierten Teil der Trainingsmenge 

die Performanz ermittelt. Sobald aber die beiden Variationen auf reellen Testmustern 

getestet werden, zeigt die Variation 5 (3x3 Test) zwar eine bessere Performanz 

als die Variation 2 (3x3 Test) bei der Positionsbestimmung aber eine schlechtere bei 

der Bestimmung der Orientierung. Daher wurden diese beiden Variationen noch einmal 

bei Verwendung mit Differential Evolution verglichen. 

Weiterhin hat sich im Bezug auf die Netzwerkstruktur herausgestellt, dass eine datenrelevante 

Teilung der neuronalen Netze in Orientierung, Position und Orientierung und 

Position des Greifers die besten Ergebnisse liefert. Die Verwendung eines einzigen monolithischen 

Netzes in Variation 6 (3x3) hat bereits beim Training eine unzureichend 

schlechte Performanz, und die Unterteilung in noch mehr kleinere Netze wurde bereits 

vorher schon verworfen. Auch die Frage, ob die Position und Orientierung des Greifers 

wichtig und notwendig für eine erfolgreiche Vorhersage sind, beantwortet sich bei 

der Betrachtung von Variation 7 (3x3 Test). Die in den Tabellen gezeigte Qualität der 

Vorhersage der Testmuster ist schlechter im Vergleich zu Variation 2 (3x3 Test) und 

Variation 5 (3x3 Test). 

Bei der Betrachtung der Trainingsgröße haben sich vorerst noch keine Vor- oder Nachteile 

gezeigt. Ob es sinnvoller ist, 21500 Trainingsbeispiele mit 10er Translationsund 

5er Rotations-Schritten oder 37500 Trainingsbeispiele mit 10er,20er und 30er 

Translations- und 5er und 10er Rotations-Schritten zu verwenden, zeigt sich erst beim 

Vergleich der Anwendung auf die Testmuster. Daher wurden auch diese beiden Variationen 

bei der Verwendung mit Differential Evolution verglichen. 

Nachdem auf die Vor- und Nachteile der einzelnen Variationen beim Training der 

Vorwärtsmodelle und Testen auf den 10 Testmusterketten eingegangen wurde, wurden 

nur noch drei Variationen betrachtet. Umgesetzt wurde das Differential Evolution Verfahren 

somit für Variation 4 (3x3) mit einer Trainingsmenge von 21500 Lernbeispielen 

und dem Back-Propagation Lernverfahren, Variation 2 (3x3 Test) mit der gesamten 

Trainingsmenge von 37500 Lernbeispielen und dem Back-Propagation Lernverfahren 

und Variation 5 (3x3 Test) mit 37500 Lernbeispielen als Trainingsmenge und dem 

Resilient-Propagation Lernverfahren. Der Vergleich zeigt, dass die Verwendung des 

Back-Propagation Lernverfahrens deutlich bessere Motorketten generieren kann als das 

Resilient-Propagation Verfahren. Zudem stellt sich auch heraus, dass es sinnvoll ist alle 

37500 Trainingsbeispiele zu verwenden, da auch hier eine deutlich bessere Performanz 

als bei der Verwendung von nur 21500 Trainingsbeispielen erreicht wurde. 

Als beste Variation hat sich somit die Variation 2 (3x3 Test) , mit 3x3 Bildvorverarbeitung, 

37500 Trainingsbeispielen, dem Back-Propagation Lernverfahren und einer 

datenrelevanten Netzwerkstruktur herausgestellt. 


5 Experimente 

Abbildung 5.13: Von Differential Evolution erzeugte Ketten von Motorkommandos, die vom Startzustand in den Zielzustand 

f ühren. Zu sehen ist jeweils der Verschiebebereich mit einer Größe von 320mm x 400mm. 

Durch Querstriche auf der Verschiebetrajektorie werden die einzelnen Kettenglieder unterteilt. Der zu 

erreichende Zielzustand ist durch die Kreise dargestellt. Es werden neun Beispiele von Variation 2 

(3x3) mit voller Trainingsmenge und dem Back-Propagation Lernalgorithmus gezeigt. 


5 Experimente 





(3x3) mit kleinerer Trainingsmenge und dem Back-Propagation Lernalgorithmus gezeigt. 


5 Experimente 





(3x3) mit voller Trainingsmenge und dem Resilient-Propagation Lernalgorithmus gezeigt. 


5 Experimente 


6 

Zusammenfassung 

Ziel der vorliegenden Arbeit war die Entwicklung und Evaluation einer Roboterarm- 

Ansteuerung mit Hilfe von visuellen Vorwärtsmodellen. Der Roboterarm soll durch 

die Verwendung der Bilder einer Kamera oberhalb des Arbeitstisches eine Verschiebeoperation 

von einem sensorischen Startzustand in einen sensorischen Zielzustand 

durchführen. Die zu lösende Aufgabe setzt sich somit aus zwei Teilen zusammen. Der 

erste Teil ist eine Bewegung aus der ” 

Ruhestellung“ des Roboterarms in den einen 

vorgegebenen Startzustand, und der zweite Teil ist eine anschließende Verschiebung 

eines roten Klötzchen von diesem Startzustand in einen vorgegebenen Zielzustand. 

Die Zustände liegen dabei ausschließlich in visueller Form von zwei gespeicherten 

Bildern der Kamera vor. Bei jeder Verschiebeoperation wird erst ein Bild mit dem roten 

Klötzchen im Zielzustand und dann ein Bild mit dem roten Klötzchen im Startzustand 

gespeichert. Danach wird das Klötzchen nicht mehr von Hand bewegt, so dass es sich 

zum aktuellen Zeitpunkt in der Starthaltung befindet. 

Der erste Teil der Aufgabe wurde durch die folgenden Verfahren gelöst. Nach der 

Bildaufnahme des Startzustandes des roten Klötzchens kann bestimmt werden, auf 

welcher Seite des Bildes der rote Farbanteil höher ist. Anhand der gewonnenen 

Information, auf welcher Seite des Arbeitstisches sich das Klötzchen befindet, kann 

zwischen zwei grundsätzlichen gespeicherten Bewegungen, von der ” 

Ruhestellung“ des 

Roboterarms in eine Verschiebehaltung, unterschieden werden. Anschließend werden 

aus den aufgenommen Bildern Informationen über den sensorischen Startzustand und 

den Zielzustand der Verschiebeoperation in Form von Orientierung und Position des 

roten Klötzchens berechnet. Die Daten des Startzustandes werden nach dem Prinzip 

einer Look-Up Tabelle mit den Lernbeispielen aus der Datenbank verglichen, um so 


6 Zusammenfassung 

die aktuelle Position und Orientierung des roten Klötzchens in Basiskoordinaten zu 

bestimmen. Diese aktuelle Position und Orientierung kann dann angefahren werden, so 

dass sich der Greifer in dem Startzustand direkt vor dem roten Klötzchen befindet. Die 

Performanz dieses ersten Teilbereiches ist recht gut. Die maximale Abweichung von 

Position und Orientierung beträgt dabei ca. 5 mm und ca. 3 Grad. Jedoch braucht das 

Verfahren ungefähr 20 Sekunden, um die Position und Orientierung des Greiferstartzustandes 

anhand der Look-Up Tabelle zu berechnen. 

Der zweite Teil der Aufgabe besteht dann in der eigentlichen Verschiebeoperation 

von dem aktuellen Startzustand in den anfangs bestimmten sensorischen Zielzustand. 

Nachdem einmalig eine ausreichend große Menge von Lernbeispielen aufgenommen 

und archiviert wurde, konnte damit ein Multi-Layer-Perzetpron trainiert werden. Dieses 

Multi-Layer-Perzeptron kann dann visuelle Vorhersagen von Folgezuständen auf 

Motorkommandos des Roboterarms erstellen. Mit Hilfe eines Optimierungsverfahrens, 

wie z.B. Differential Evolution kann anschließend eine Kette von Motorkommandos 

berechnet werden, die vom sensorischen Startzustand in den sensorischen Zielzustand 

führt. Jedes Glied der Kette ist dabei eine visuelle Vorhersage des neuronalen 

Netzes auf ein Motorkommando, so dass das beste Motorkommando bezüglich der 

Verschiebeoperation in Richtung Zielzustand gefunden werden kann. Durch das 

Hintereinanderschalten mehrerer solcher visuellen Vorhersagen können längere Verschiebetrajektorien 

vorhergesagt werden. Optimiert wird diese Kette von Vorhersagen 

dann auf das globale Minimum, um so die Zielposition und Zielorientierung möglichst 

genau zu erreichen. 

Durch zahlreiche Experimente wurde versucht herauszufinden, welche Verfahren 

und Variationen die besten Ergebnisse liefern. Als bestes hat sich eine Variation 

herausgestellt, die drei getrennte Netze mit der gesamten Trainingsmenge (37500 

Lernbeispielen) und dem Back-Propagation Verfahren trainiert. Die drei Netze machen 

dabei getrennte Vorhersagen über Position und Orientierung des Klötzchens und 

Position und Orientierung des Greifers. Durch die Versuche wurde deutlich, dass eine 

erfolgreiche Vorhersage des Vorwärtsmodells, die geeignete Wahl der variierenden 

Faktoren benötigt. Die entscheidenden Faktoren in den unterschiedlichen Variationen 

waren dabei Trainingsgröße und Netzwerkstruktur. Die Trainingsgröße sollte so groß 

wie möglich sein, wobei auch eine gute Stukturierung der enthaltenen Lernbeispiele 

notwendig ist. Auch die Wahl der Netzwerkstruktur ist entscheidend. Dabei müssen 

die wichtigsten Aspekte der zu trainierenden Informationen in eine geeignete Struktur 

gebracht werden, wobei unabhängige Teilbereiche auch unterschiedlich trainiert 

werden müssen. Die ermittelte Variation ist recht robust, denn bei mehrfacher Anwendung 

des Optimierungsalgorithmus ist es sehr wahrscheinlich, dass eine gute Lösung 

erzielt wird. Einziges Defizit in der Performanz der Versuche ist jedoch der zeitliche 

Rechenaufwand. Denn allein ein Durchlauf des Optimierungsalgorithmus Differential 

Evolution dauert ca. 2 Minuten. Hauptgrund hierfür ist die Umsetzung mancher Teile 



der Software, unter anderem auch des Differential Evolution Verfahrens, in der Programmiersprache 

Tcl-Tk. In diesem Punkt besteht aber noch Verbesserungspotential. 

Durch die praktische Umsetzung eines visuellen Vorwärtsmodells in Form einer 

Verschiebeoperation mit dem Roboterarm, wurde das Ziel dieser Diplomarbeit erreicht. 

Die erstellten Experimente belegen, dass eine sensorische Koordination von Roboterarm 

und Kamerasystem durch nachgebildete, interne Modelle realisiert werden kann. 

Wie schon in der Motivation vermutet, wird deutlich, dass interne Modelle bei der 

sensomotorischen Kontrolle eine wichtige Bedeutung haben. Es stellt sich jedoch die 

Frage, ob eine Verkettung von Vorwärtsmodellen, wie sie in dieser Arbeit realisiert 

wurden, auch eine realistische Strategie für biologische Systeme darstellt. 

Obwohl die gewählte Strategie noch modifiziert werden muss, um einem analogen, 

biologischen System Nahe zu kommen, ist der Lösungsansatz einer zielgerichteten 

Handlung durch eine Reihe kleinschrittiger Vorhersagen durchaus denkbar. Die in dieser 

Arbeit verwendete Berechnung der Bewegungstrajektorie kann als Offline-Methode 

bezeichnet werden, da die sensorischen Informationen über Start- und Zielposition 

nur zu Beginn der Verschiebeoperation vorgegeben wurden. Biologische Systeme sind 

jedoch weitaus komplexer. Eine Online-Methode, bei der während einer Bewegung 

neue sensorische Informationen mit in die Berechnungen einfließen, würde einem 

biologischen System deutlich näher kommen. Entstehende Fehler, die sich bei der 

Verkettung von Vorwärtsmodellen aufsummieren, können somit kompensiert werden. 

Bezogen auf die Experimente müssten diese so modifiziert werden, dass nach jeder Teilbewegung 

der Vorhersagekette die aktuelle Position und Orientierung des Klötzchens 

aus einem neuen Bild extrahiert werden. Sobald dieser sensorische Zustand zu stark 

von dem berechneten Zustand abweicht, muss eine neue Trajektorie vom aktuellen 

sensorischen Zustand zum Zielzustand berechnet werden. Eine solche Modifikation 

konnte jedoch im Rahmen dieser Arbeit nicht mehr umgesetzt werden. 

Trotz der Verwendung einer Offline-Methode zur Berechnung einer Verschiebetrajektorie, 

wurde die Bedeutung von Vorwärtsmodellen in der sensomotorischen Koordination 

bestärkt. 

Es gibt noch weitere Verbesserungsvorschläge, die nicht mehr umgesetzt werden konnten, 

aber noch Potenzial zur Verbesserung beinhalten. Auf diese Vorschläge wird im 

folgenden Kapitel nochmals kurz eingegangen. 




7 

Verbesserungsvorschläge 

Die Ergebnisse dieser Arbeit sind zwar zufrieden stellend, jedoch können diese in manchen 

Bereichen noch verbessert werden. Im Folgenden wird kurz auf mögliche Verbesserungen 

eingegangen, die im Rahmen dieser Arbeit nicht mehr umgesetzt werden 

konnten. 

Eine leichte Verbesserung der Vorwärtsmodelle und somit auch der Trajektorienbildung 

könnte durch eine Erweiterung der Trainingsmenge erreicht werden. Es könnte 

zusätzlich zu dem bisherigen systematischen Aufbau der Lernmenge noch eine Vielzahl 

von ” 

per Hand“ aufgenommen Verschiebebeispielen in die Trainingsmenge aufgenommen 

werden. Somit könnten zentrale Bereiche, die in den meisten Verschiebeoperationen 

enthalten sind, noch besser beim Training abgedeckt werden. 

Die Berechnung des Startzustandes der Verschiebeoperation kann ebenfalls verbessert 

werden, indem das Suchen von Vergleichswerten in einer Look-Up Tabelle durch ein 

besseres Verfahren ersetzt wird. Das hier verwendete Verfahren hat eine schlechte Performanz 

bezüglich der Rechenzeit. Es bieten sich eine Menge von Verfahren an, auf die 

im Einzelnen nicht genauer eingegangen wird. 

Das verwendete Optimierungsverfahren Differential Evolution kann im Bezug auf die 

verwendeten Kontrollvariablen und Varianten noch weiterhin untersucht werden. Dort 

besteht noch Verbesserungspotential. 

Um die erwähnte Ineffektivität der zeitlichen Performanz zu beseitigen, müssen Teile 

der Implementation in anderen Programmiersprachen umgesetzt werden. Es ist durchaus 

möglich die Verschiebeoperation in weniger als einer Minute berechnen zu lassen. 

In diesem Fall könnte die Robustheit durch mehrfache Durchläufe des Differential Evolution 

Verfahrens noch gestärkt werden. 

Eine weitere Verbesserungsmöglichkeit der Berechnung der Trajektorie liegt in der Verwendung 

eines alternativen Optimierungsverfahrens. 


7 Verbesserungsvorschläge 


LITERATURVERZEICHNIS 

Literaturverzeichnis 

Blakemore, S., Frith, C., und Wolpert, D. Spatio-temporal prediction modulates the 

perception of self-produced stimuli. Journal of Cognitive Neurosience, 11(5):551– 

559, 1999. 

Blakemore, S., Goodbody, S., und Wolpert, D. Predicting the consequences of our own 

actions: The role of sensorimotor estimation. The Journal of Neurosience, 18(18): 

7511–7518, 1998. 

Blakemore, S., Wolpert, D., und Frith, C. Why can’t you tickle yourself. Neuro Report, 

11(11):11–15, 2000. 

Bronstein, I., Semendjajew, K., und Musiol, G. Taschenbuch der Mathmatik. 1997. 

Duhamel, J.-R., Colby, C., und Goldberg, M. The updating of the representation of 

visual space in parietal cortex by intended eye movements. Science, 255:90–92, 1992. 

Fahlman., S. Parallel processing in artificial intelligence. In Kowalik, J. S., editor, 

Parallel Computation and Computers for Artificial Intelligence, Kluwer Academic 

Publishers, 1988. 

Fallagan, J. und Wing, A. The role of internal models in motor planning and control: 

evidence from grip force adjustments during movements of hand-held loads. Journal 

of Neuroscience, 17:1519–1528, 1997. 

Große, S. Visuelle Vorwärtsmodelle für einen Roboter-Kamera-Kopf. Diplomarbeit, 

Technische Fakultät der Universität Bielefeld, Bielefeld, 2005. 

Haruno, M., Wolpert, D., und Kawato, M. MOSAIC Model for sensorimotor control 

and learning. Neural Computation, 13:2201–2220, 2001. 

Hoffmann, H. und Möller, R. Action selection and mental transformation based on a 

chain of forward models. In Schaal, S., Ijspeert, A., Vijayakumar, S., Hallam, J., und 

Meyer, J., editors, Proccedings of the 8th International Conference on the Simulation 

of Adaptive Behavior, pages 213–222, Cambridge, MA: MIT Press, 2004. 



Hoffmann, H., Schenck, W., und Möller, R. Learning visuomotor transformation for 

gaze-control and grasping. Biological Cybernetics, 93(2):119–130, 2005. 

Holst, E. und Mittelstaedt, H. Das Reafferenzprinzip. Naturwissenschaften, 37:464– 

476, 1950. 

Jordan, M. und Rumelhart, D. Forward models: Supervised learning with a distal teacher. 

Cognitive Science, 16:307–354, 1992. 

Karniel, A. Three creatures named ’forward model’. Neural Networks, 15:305–307, 

2002. 

Kirkpatrick, S., Gerlatt, C., und Vecchi, M. 

Science, 220:671–680, 1983. 

Optimization by Simulated Annealing. 

Minsky, M. und Papert, S. Perceptrons - An introduction to computational geometry. 

Cambridge, MIT Press, 1972. 

Möller, R. Wahrnehmung durch Vorhersage - Eine Konzeption der handlungsorientierten 

Wahrnehmung. Dissertation, Technische Universität Ilmenau, Fakultät für Informatik 

und Automatisierung, 1996. 

Möller, R. Perception through anticipaction - a behavior-based approach to visual perception. 

In Rieger, A., Stein, A., und Peschl, M., editors, Understanding Representation 

in the Cognitive Science, Plenum Press New York, 1999. 

Möller, R. Research Plan: Forward Models in Spatial Cognition. Max Planck Institute 

for Psychological Research, München, 2001. 

Nelson, R. Interaction between motor commands and somatic perception in sensorimotor 

cortex. Current Opinion in Neurobiology, 6:801–810, 1996. 

Richter, S. Vorwärtsmodelle und die Vorhersage des Bewegungsverlaufs. Dissertation, 

Heinrich-Heine-Universität Düsseldorf, Mathematische-Naturwissenschaftliche 

Fakultät, 2001. 

Riedmiller, M. und Braun, H. A direct adaptive method for faster backpropagation 

learning: The RPROP Algorithm. International Conference on Neural Networks, 

pages 586–591, 1993. 

Rieser, J., Guth, D., und Hill, E. Sensitivity to perspective structure while walking 

without vision. Perception, 15:173–188, 1986. 

Schenck, W., Hoffmann, H., und Möller, R. Learning Internal Models for Eye-Hand 

Coordination in Reaching and Grasping. Proc. EuroCogSci, pages 289–294, 2003. 



Storn, R. und Price, K. Differential Evolution - A simple and efficient adaptive scheme 

for global optimization over continuous spaces. Technical Report TR-95-012, 

International Computer Science Institute, 1995. 

Tollenaere, T. SuperSAB: Fast adaptive back propagation with good scaling properties. 

Neural Networks, 3:561–573, 1990. 

Wolpert, D., Ghahramani, Z., und Flanagan, J. Perspectives and problems in motor 

learning. Trends in Cognitive Science, 5(11):487–493, 2001. 

Wolpert, D., Ghahramani, Z., und Jordan, M. An internal model for sensorimotor integration. 

Science, 269:1880–1882, 1995. 

Wolpert, D. und Miall, R. Forward models for physiological motor control. Neural 

Networks, 9(8):1265–1279, 1996. 

Zell, A. Simulation Neuronaler Netze. Addison-Wesley, München, 1997. 





Hiermit versichere ich, daß ich diese Diplomarbeit selbständig bearbeitet habe. Ich habe 

keine anderen als die angegebenen Quellen und Hilfsmittel benutzt und entsprechende 

Zitate kenntlich gemacht. 

Bielefeld, den 16. Mai 2006 

Dennis Sinder

Roboterarm-Ansteuerung mit Hilfe von visuellen Vorw¨artsmodellen

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?