Vorlesungsfolien

Jörn Fischer 

j.fischer@hs-mannheim.de 

Willkommen zur Vorlesung 

Fortgeschrittenes 

Maschinelles Lernen

Jörn Fischer - j.fischer@hs-mannheim.de - Raum 113a - Tel. (0621)292-6767 

2 

Vorstellung 

Zu meiner Person... 

Seite 2


Überblick 

Inhalt 

● 

● 

● 

● 

● 

Organisatorisches 

Einführung 

Dynamik Rekurrenter Neuronaler Netze 

Genetische Programmierung 

Reinforcement Learning 

Seite 3



Fragen… 

 

Fragen können gerne auch per Email an mich gerichtet werden oder aber 

bei Diskussionsbedarf einfach per Mail einen Termin vereinbaren... 

 

Rückkopplung ist ausdrücklich erwünscht !!!!! 

Page 4


Einführung 

Ziel der Vorlesung 

 

 

 

 

...ist, dass ihr maximal dabei lernt 

Dass ihr die Algorithmen versteht 

Dass ihr sie selbst programmieren könnt 

Dass Ihr sie selbst erklären könnt 

Seite 5


Einführung 

Mein Ansatz 

● 

● 

● 

Ich werde Euch ausgesuchte Algorithmen und deren Grenzen erklären 

Ihr werdet die Algorithmen in elementarer Form programmieren... 

auch zu Hause! 

Die Algorithmen werden testiert und gelten als 

Zulassung für die Klausur 

Seite 6



Fragen zu organisatorischen 

Dingen? 

Seite 7



Frage an Sie... 

Haben Sie schon mal was von 

● 

● 

● 

● 

MLE besucht? 

Evolutionäre Algorithmen 


Neuronale Netze 

Gehört oder etwas mit gemacht? 

Seite 8


Einführung 

Seite 9


Einführung 

Literatur 

 

Russel, Stuard; Norvig, Peter: Künstliche Intelligenz. Prentice Hall, New 

Jersey, 1995 

 

Mitchell, Tom: Machine Learning. McGraw-Hill, 1997 

 

 

Zell, Andreas: Simulation Neuronaler Netze. Oldenbourg Verlag, München, 

1997 

Sutton, Richard; Barto, Andrew G.: Reinforcement Learning. MIT Press, 

1998 

Seite 10


Einführung 

Frage? 

● 

Was hält uns also davon ab eine Maschine zu bauen, die in allen 

Belangen die Leistungsfähigkeit eines Menschen hat? 

Antwort: 

? 

Seite 11


Einführung 

Frage? 

● 

● 

Was hält uns also davon ab eine Maschine zu bauen, die in allen 

Belangen die Leistungsfähigkeit eines Menschen hat? 

Antwort: 

Die Möglichkeit nicht nur Lösungen zu finden sondern auch neue 

Lösungsmethoden erlernen oder entwickeln zu können 

● 

● 

● 

Die Angepasstheit an unsere Umwelt durch eine Jahrtausende 

währende Evolution 

Die Fähigkeit Lernmethoden zu erlernen (Methalernen) 

… 

Seite 12


Einführung 

Was bedeutet ein System lernt 

Die Änderung von Informationen im System mit dem Ziel effizienter zu sein. 

● 

● 

● 

besser generalisieren zu können 

besser agieren zu können 

besser vorhersagen zu können 

Seite 13


Einführung 

Was ist ein Agent 

Als Agent kann alles angesehen werden, was seine Umwelt durch 

Sensoren (sensors) wahrnimmt und durch Effektoren (effectors) beeinflußt. 

Zitat: Russel und Norvig 

Seite 14


Einführung 

Was für Problemkategorien kann man unterscheiden? 

vollständig wahrnehmbar teilweise wahrnehmbar 

deterministisch stochastisch 

(Episoden sind 

unabhängig 

voneinander) 

episodisch sequentiell 

statisch dynamisch 

diskret kontinuierlich 

Seite 15


Einführung 

Was für Methoden kann man unterscheiden? 

● 

● 

● 

Überwachtes lernen (supervised learning) 

eine Funktion wird anhand Ein-Ausgabe Paaren gelernt 

Unüberwachtes Lernen (unsupervised learning) 

der Algorithmus findet anhand von Eingabedaten ein Modell, welches 

die Eingaben beschreibt und Vorhersagen ermöglicht 

Bekräftigungs Lernen (reinforcement learning) 

der Algorithmus belohnt oder bestraft eine Taktik wie in potentiell 

auftretenden Situationen zu handeln ist 

Seite 16


Dynamik Rekurrenter 

Neuronaler Netze 

Seite 17



Überblick 

● 

● 

● 

● 

● 

Einführung 

Perzeptron 

Biologische Neuronen 

Dynamische Systeme 

● 

● 

● 

● 

● 

● 

Was ist ein dynamisches System 

Begriffserläuterungen 

Wofür braucht man die Theorie Dynamischer Systeme? 

Welche Arten von Dynamiken gibt es? 

Phasendiagramm, Bifurkatiosdiagramm, Lyapunov Exponent 

Beispiele 

Das rekurrente IML-Netzwerk 

Seite 18


Einführung 

Warum Neuronale Netze? 

● 

● 

● 

Neuronale Netze können Funktionen aufgrund von Messdaten 

erlernen, so dass Modelle, die nur schwer in DGL‘s oder andere 

Abbildungen gefasst werden können trotzdem erlernbar sind. 

Man spricht dann von „Black Box Modelling“ 

Neuronale Netze funktionieren auch in hochdimensionalen Räumen, in 

denen die Komplexität der Daten ein konstruieren von Funktionen per 

Hand unpraktisch oder sogar unmöglich werden lässt


Einführung 

Welche Arten von Anwendungen gibt es? 

● 

● 

● 

● 

Funktionsapproximation bzw. Regressionsanalyse einschließlich 

Fitnessapproximation und Zeitreihenvorhersage 

Klassifikation, einschließlich Muster und Sequenzerkennung, 

Erkennung neuer bzw. unbekannter Daten (novelty detection) und 

sequentielles Entscheidungsfällen (bsp. Reinforcement Learning) 

Datamining, wie Filterung, Clustering, Blind Source Separation und 

Kompression 

Robotik, wie Bewegungskontrolle, Aufmerksamkeitssteuerung, 

Reinforcement Learning, etc.


Einführung 

Konkret? 

● 

Spiele wie Backgammon (TD Gammon), ein Reinforcement Learner 

gekoppelt mit Neuronalem Netz, welcher zu spielen lernt, indem er 

gegen sich selbst spielt. 

● 

Tesauro, Gerald (March 1995). "Temporal Difference Learning and TD- 

Gammon". Communications of the ACM 38 (3). Retrieved 2010-02-08.


Einführung 

Konkret? 

● 

● 

Krebs Diagnostik 

Ganesan, N. "Application of Neural Networks in Diagnosing Cancer 

Disease Using Demographic Data". International Journal of Computer 

Applications.


Einführung 

Konkret? 

● 

● 

Prädiktion von Energieen in der Dichte Funktionstheorie 

Roman M. Balabin, Ekaterina I. Lomakina (2009). "Neural network 

approach to quantum-chemistry data: Accurate prediction of density 

functional theory energies". J. Chem. Phys. 131 (7): 074104. 

doi:10.1063/1.3206326. PMID 19708729.

Einführung 

Ausserdem? 

● 

Regelung und Analyse von komplexen Prozessen 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

Frühwarnsysteme 

Optimierung 

Zeitreihenanalyse (Wetter, Aktien etc.) 

Sprachgenerierung (Beispiel: NETtalk) 

Bildverarbeitung und Mustererkennung 

Schrifterkennung (OCR) 

Spracherkennung 

Data-Mining 

Informatik: Bei Robotik, virtuellen Agenten und KI-Modulen in Spielen und Simulationen. 

Medizinische Diagnostik, Epidemiologie und Biometrie 

Klangsynthese 

Strukturgleichungsmodell zum Modellieren von sozialen oder betriebswirtschaftlichen 

Zusammenhängen 

Quelle: http://de.wikipedia.org/wiki/K%C3%BCnstliches_neuronales_Netz 

Jörn Fischer - j.fischer@hs-mannheim.de - Raum 113a - Tel. (0621)292-6767



Das Perzeptron



Das Perzeptron 

Beim Perzeptron ist die Neuronenaktivität : 

(2.1) 

t 

φ +1 n 

j =∑ i =1 

w t t 

ij o i 

Die Transferfunktion des Perzeptrons ist eine Schwellwertfunktion: 

Oj= 

{ 

1 if φj >= 0 

0 if φj < 0



Das Perzeptron (1 Layer) 

Lineare Separierbarkeit 

o1 

o3 

o2 

OR problem 

o1 o2 o3 

0 0 0 

0 1 1 

1 0 1 

1 1 1 

oII1 

1 

1 1 1 1 1 1 1 1 1 

1 1 1 1 1 1 1 1 

1 1 1 1 1 1 1 

0 

0 0 

0 0 0 0 

0 0 0 0 0 0 

1 1 1 1 1 1 

1 1 1 1 

1 1 1 

0 1 

o2




n 

Anzahl von 

Binärfunktionen mit n 

Inputs 

Anzahl der linear 

separablen Funktionen 

1 4 4 

2 16 14 

3 256 104 

4 65 536 1 772 

5 4.3 * 10 9 94 572 

6 1.8 * 10 19 5 028 134 

[Wasser, 89, Widner 60]




o3 

o1 

o6 

o4 

o2 

AND Verknüpfung 

von verschiedenen 

Bereichen 

o5 

Gewichte 

definiere die 

Bereiche 

o1 

1 

0 0 1 1 1 1 1 1 0 

1 1 1 1 0 0 

0 0 0 

0 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 0 0 0 

0 1 

o2




o1 

o6 

o8 

o7 

AND Verknüpfung der 

verschiedenen Bereiche 

Gewichte definieren 

konvexe Bereiche 

1 

1 1 1 0 0 0 0 0 1 

0 0 0 0 1 1 

0 0 0 

0 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 0 0 0 

o3 

o4 

o5 

0 1 

o2 

o1 

o2 

Gewichte 

definieren die 

Bereiche



Das Perzeptron (Lernregel) 

If Oj=0 and tj=1 and Oi=1 then 

Wij = Wij + Oi 

Oj 

tj = target 

If Oj=1 and tj=0 and Oi=1 then 

Wij = Wij - Oi 

wij 

Oi




● 

Eine Pyramidenzelle (Cajal, 1911) Die Information fließt von den 

Dendriten über den Soma zum Axon und zu den Synapsen, welche das 

Neuron mit anderen Neuronen verbindet 

Seite 32




Seite 33




Seite 34



Seite 35



Was ist ein dynamisches System? 

● 

Unter einem dynamischen System versteht man ein mathematisches 

Modell eines zeitabhängigen Prozesses, der homogen bezüglich der 

Zeit ist, also dessen Verlauf zwar von der Zeit, also dessen Verlauf 

zwar vom Anfangszustand, aber nicht vom Anfangszeitpunkt abhängt. 

(Wikipedia) 

Seite 36



Begriffserläuterungen 

● 

● 

● 

● 

● 

● 

Zustand: N Koordinaten oder N Werte, die das System zu einem 

gegebenen Zeitpunkt T vollständig beschreiben 

Anfangszustand: Der N-dimensionale Zustand, von dem aus ein 

Zustands-Verlauf beobachtet wird i.a. Bei T=0 

Orbit/ Trajektorie : Ein Zustandsverlauf im N-dimensionalen 

Phasenraum/ Zustandsraum: Der N-dimensionale Raum der 

Koordinaten, in dem ein Orbit oder eine Trajektorie verläuft 

Zeit diskretes dynamisches System: Wenn der Zustand eines Systems 

nur für diskrete Zeiten berechnet wird 

Attraktor: in einem nichtlinearen System werden Fixpunkte, Orbits und 

allgemeine nichtperiodische Grenzmengen als Attraktor bezeichnet 

Seite 37



Wofür braucht man die Theorie Dynamischer Systeme? 

● 

● 

● 

Die Theorie der dynamischen Systeme versucht die Art der Dynamik 

einzuordnen. 

Wenn man die Art der Dynamik kennt, die ein System beinhaltet, weiß 

man ob sich der Zustand einem Statischen Zustand nähert, ob der 

Zustand oszilliert oder sogar chaotisch verläuft. 

Man kann Aussagen über Zustandsänderungen und Vorhersagen bzw. 

Vorhersagefähigkeit treffen. 

Seite 38



Zeitdiskrete Lineare Systeme (1) 

● 

● 

Lineare Systeme kann man i.A. In Matrixdarstellung schreiben. Man 

kennt die Gleichung von der Geraden: x(t+1)=m x(t) + b wobei x(t) und 

b jeweils ein Vektor ist und m eine Matrix 

Wenn man diese Gleichung z.B. auf einen Punkt im 2 Dimensionalen 

Zustandsraum anwendet, so bekommt man zu Folgezeiten (t+n) 

weitere Punkte. 

Seite 39




● 

Angenommen b = 0 und die Beträge in der Matrix m sind klein (




● 

Falls b 0 bewegt sich der Punkt ins unendliche und divergiert 

Seite 41




● 

● 

● 

Falls b = 0 und m beispielsweise eine Rotationsmatrix, so bekommt 

man ein periodisches oder quasiperiodisches Verhalten. 

Periodisch nennt man es, wenn es nach n-Abbildungen wieder auf dem 

selben Punkt landet. Dann hat es die Periode n. 

Quasiperiodisch nennt man es, wenn die Schrittweite beispielsweise 

Seite 42



Zeitdiskrete Lineare Neuronale Netze: 

Seite 43



Stabilität 

Ein Fixpunkt ist genau dann stabil, wenn alle Eigenwerte der Matrix negative Realteile 

besitzen. 

Seite 44



Stabilität 

● 

Was aber, wenn der Punkt in n von N Richtungen Anziehend und N-n 

Richtungen abstoßend ist? → Dann ist er trotzdem instabil !!! 

Sattelpunkt 

Seite 45



Zeitdiskrete Nichtlineare Systeme 

● 

● 

● 

● 

Die Dynamik kann komplexer werden, denn es gibt nun, wenn die 

Abbildung steil genug verläuft auch Chaotisches Verhalten. 

Chaotisch heißt dass kleine Störungen zu komplett unterschiedlichem 

Verhalten führen. 

Beispiel: Galton Brett 

Wenn die 

Sigmoide eher eine 

Schwellwertfunktion ist 

und man nahe dem 

Ursprung ist springt der 

Output z.B. von 0 auf 1 

Seite 46



Zeitdiskrete Nichtlineare Systeme 

● 

Chaotischer Attraktor: Minimale Änderungen in der Anfangsbedingung 

führen zu einem komplett unterschiedlichen Verhalten 

Lorenzattraktor 

Seite 47



Zeitdiskrete Nichtlineare Neuronale Netze 

● 

Ein simples 2 Neuronen Netz: 

Seite 48




● 

Bifurkationsdiagramm: Ein 2 Neuronen Netz dessen Gewicht w11 verändert 

wird und der Output eines Neurons aufgezeichnet wird. 

Seite 49



Zeitdiskrete Nichtlineare 


● 

Ein Maß für das Chaos 

ist der sogenannte 

Ljapunov Exponent. 

mit 

Seite 50




● 

● 

● 

Ist der größte Ljapunov Exponent > 0, so ist das System i.d.Regel 

divergent. 

Ist er < 0, so entspricht dies einer Phasenraum kontraktion, d.h. das 

System ist dissipativ und agiert stationär oder periodisch stabil. 

Ist die Summe aller Ljapunov Exponenten = 0, so so handelt es sich um ein 

konservatives System(wie ein Potentialfeld, wo keine Kräfte reingesteckt 

werden) 

Seite 51



Aufgabe 1) 

● 

Ergänzt die Vorlage (BifurcationAndPhaseDiagram-Aufgabe.zip) so, dass 

das Bifurkationsdiagramm und das Phasendiagramm gezeichnet werden. Die 

Gewichtsmatrix des jeweiligen Neuronalen Netzes kann dem Paper 

entnommen werden. 

Seite 52



Das rückgekoppelte IML-Network 

● 

● 

● 

Ein Neuronales Netz wird i.A. Genutzt um eine Abbildung von Input zu 

Output zu bekommen 

Diese Abbildung kann von vergangenen Inputs abhängen, braucht also eine 

Art Gedächtnis 

Ein Gedächtnis bekommt ein Neuronales Netz mittels Rückkopplungen 

oder mindestens Nachbarschaftskopplungen 

Seite 53




● 

● 

● 

Ein Echo-State Netzwerk (Herbert Jäger) ist ein Netzwerk, welches genau 

solche Rückkopplungen im hidden Layer hat. Die Gewichte sind zufällig und 

ändern sich nicht, wobei durch Gewichtsskalierung dafür gesorgt werden 

muss, dass die Hidden Schicht nicht chaotische Attraktoren hervorbringt. 

Auch die Eingangsgewichte sind zufällig! 

Gelernt werden dann nur die Gewichte zu den Ausgangsneuronen mittels 

linearer Regression. 

Seite 54




● 

● 

Ein IML-Netzwerk ist die vereinfachte Version des Echo-State Netzwerkes, 

denn innerhalb der Hidden Schicht existieren nur seitliche Kopplungen zu 

den rechten Nachbarn mit einer Dichte von etwa 5%. Dass heißt, dass nur 

jede 20. mögliche Verbindung existiert. 

Eine Skalierung der Gewichte ist nicht notwendig, da innerhalb des Hidden 

Layers keine chaotische Dynamik entstehen kann. 

Seite 55




● 

● 

● 

Die Eingangsgewichte der Hidden Schicht sollte so skaliert werden, dass 

der Output des Hidden Layers weder „Binär“ (dann sind Gewichte zu groß) 

noch zu klein ist (dann sind auch die Gewichte zu klein). 

Zum erlernen der Output Gewichte sollte der quadratische Fehler der 

Abbildung minimiert werden. 

Dafür muss dann nur ein Gleichungssystem gelöst werden: 

Seite 56



Aufgabe 2) 

● 

Programmiert mit Hilfe der Vorlage ein feedforward IML-Netz, welches das 

Spiralproblem löst. In der Vorlage fehlt die Aktivierung des Netzes und die 

Vernetzung der Hidden mit der Eingangsschicht. 

● 

Die zweite Vorlage beinhaltet den Code für ein rückgekoppeltes IML-Netz 

(ohne Seitwärtskopplungen). Es lernt den Lorenzattraktor. Plottet bitte den 

Output einiger Hidden Neuronen, skaliert gegebenenfalls die Gewichte und 

traniert den Attraktor mehrfach indem ihr am Eingang rauschen mit geringer 

Amplitude hinzugebt. 

Seite 57


Optimierung 

Raum und Dimensionen 

Seite 58


Optimierung 

Nachbarzustände (Travelling Salesman) 

● 

Wie viele Nachbarzustände k gibt es, wenn man im Traveling 

Salesman Problem Städte vertauscht um eine n Städte Rundreise zu 

optimieren? 

k = n*(n-1) 

● 

● 

Dabei sucht man sich zunächst eine der n Städte aus und vertauscht 

sie mit einer der übriggebliebenen (n-1) Städte. 

→ Nachbarn können i.a. alle geprüft werden 

Seite 59


Optimierung 

Nachbarzustände (Hill Climber) 

● 

Wie viele Nachbarzustände k hat ein HillClimber, wenn der Parameterraum 

n Dimensionen hat? 

k=3 n -1 

n 

k 

n=1 k=2 

1 2 

2 8 

n=2 k=8 

4 80 

8 6560 

n=3 k=26 

16 43046720 

32 18*10 14 

64 34*10 29 

Nachbarn können i.a. nicht alle geprüft werden 

Seite 60



Genetische Algorithmen 

Seite 61



Seite 62



In der Informatik 

● 

● 

● 

Mutation: In der Gensequenz werden mit gegebener Wahrscheinlichkeit 

zufällig Bits „gekippt“ 

Rekombination (Crossover): Aus den Genen zweier effizienter Individuen 

wird durch Wählen eines oder mehrerer Crossover Punkte ein neues Gen 

(Individuum) produziert. Dabei wird der erste Teil des einen Gens (bis zum 

Crossoverpunkt) und der zweite Teil des anderen Gens zu einem neuen 

Gen zusammengefügt. 

Selektion: Bei der Selektion werden die Individuen bewertet und nur die 

effizientesten werden in die darauffolgende Generation übernommen 

Seite 63



p sei die Anzahl der Hypothesen(=Individuen) in der Population P 

r sei der Anteil, der in jedem Schritt durch Crossover ersetzt wird 

m sei Mutationsrate 

Initialisiere die Population (erzeuge Zufallshypothesen) 

Errechne die Fitness für alle Hypothesen 

while maxFitness



integer select() 

{ 

randNum sei Zufallszahl [0..1] 

summe = 0 

index = Zufallszahl [0..p] 

do 

index = index + 1 

index = index modulo p 

summe := summe + Pr(index) 

while summe



Problem bei der Mutation 

● 

● 

Problem: Ein genetischer Algorithmus findet einen Bitstring „011111“ = 31 

der noch nicht optimal ist, denn „100000“ = 32 währe der optimale Bitstring. 

Dann müsste der genetische Algorithmus alle Bits invertieren um dahin zu 

gelangen. Leider führt jede Invertierung eines Bits zunächst zu einem 

schlechteren Ergebnis… 

Lösung: Nach Möglichkeit kodiert man die zu optimierenden Parameter im 

Graycode. Damit ist garantiert, dass Nachbarzustände immer durch 

Änderung eines der Bits erreicht werden können! 

Seite 66



Graycode Kodierung 

Sei b={Bn..B1} eine n stellige Binärzahl und g={Gn..G1} der dazu passende 

Graycode, dann kann g aus b mit Hilfe folgender Vorschrift gewonnen werden: 

G n 

= B n 

(Das oberste Bit ist gleich) 

G i 

= XOR(B i+1 

,B i 

) 

(für alle 1 

genauso gilt: 

B n 

= G n 

(Das oberste Bit ist gleich) 

B i 

= XOR(B i+1 

,G i 

) 

(für alle 1 

Seite 67




Vorteile: 

● 

GA‘s sind nicht so anfällig dafür in lokalen Minima stecken zu bleiben (durch 

Operatoren wie Crossover können die Nachkommen z.B. weit auseinander 

liegen) 

Der Algorithmus ist einer der universellsten und lässt sich auch auf Probleme 

mit nicht stetiger Fitnessfunktion (im Prinzip sogar auf Probleme zeitlich 

veränderlicher Fitnessfunktion) anwenden 

● 

Nachteile 

● 

● 

Individuen mit hoher Fitness übernehmen schnell durch Kopien eine der 

folgenden Generationen, so dass weniger Diversität auftritt (crowding). 

Man findet nicht so konsequent und schnell die Minima wie beim 

Gradientenabstieg 

Seite 68




Was kann man tun um die Nachteile des Crowding zu überwinden? 

● 

● 

● 

Man kann beispielsweise die Fitness verringern, wenn es viele ähnlich 

Individuen gibt : „fitness sharing“ 

Man kann die Rekombination auf ähnliche Individuen beschränken, so erhält 

man Gruppen von „subspecies“ 

Man kann die Selektionsstrategie ändern: 

z.B. durch Tournament Selection oder Rank Selection 

Seite 69




● 

Tournament selection (Goldberg, Deb 1991) 

2 Hypothesen werden zufällig aus P ausgewählt; mit vordefinierter 

Wahrscheinlichkeit p wird die Hypothese ausgewählt, die die höhere Fitness 

hat, mit (1-p) Wahrscheinlichkeit die mit der kleineren Fitness 

→ führt zu mehr Diversität in der Population 

● 

Rank selection 

Die Hypothesen werden nach Fitness sortiert und die Wahrscheinlichkeit, 

dass eine Hypothese ausgewählt wird, hängt vom Rang statt von der Fitness 

ab. 

Seite 70



Aufgabe 3) 

● 

Schreibt einen universellen genetischen Algorithmus, der eine gewünschte 

Anzahl von Parametern mit jeweils 32 Bit (Floating Point IEEE754) optimiert. 

Die Fitness sollte der (-1)*Euklidische Abstand eines zufällig gewählten 

Punktes im Parameterraum sein 

Seite 71




Seite 72




● 

● 

Bei der genetischen Programmierung wird der Genotyp, d.h. die genetische 

Information oder der Bitstring in den Phänotyp nämlich einen 

Programmquelltext übersetzt. 

Koza (1992) beschreibt in seiner Veröffentlichung die Grundlagen 

genetischer Programmierung. 

(Koza, J.(1992) Genetic Programming: On the programming of Computers by means of natural 

selection. Cambridge, MA: MIT Press) 

Seite 73



Repräsentation von Programmen 

● 

Programme werden i.a. als Bäume dargestellt 

● 

Dabei stellt ein Funktionsaufruf einen Knoten dar und die Argumente sind 

weitere Knoten 

Seite 74




● 

● 

● 

Mutationen ändern einfach nur die Knoteninhalte. 

Dabei ist in unserem Beispiel darauf zu achten, dass die Blätter des 

Baumes Variablen oder Konstanten und die Zwischenknoten 

Rechenoperationen sind. 

Crossover: Es wird ein zufällig gewählter Unterbaum eines Elternteils durch 

einen zufällig gewählten Unterbaum des anderen Elternteils ersetzt. 

Seite 75




X 

= 

Seite 76


Beispiel Befehlssatz: 

Opcode Mnemonic 

0 LDA #123 // Konstante 

1 LDO #123 // Konstante 

2 JSR #123 // Konstante Jump Subroutine (Aussprungadresse kommt auf 

unsichtbaren Stack) 

3 RET // Wenn jsr vorher, dann zurückspringen, sonst Programmende 

4 LDA %O 

5 LDO %O 

6 STA %O 

7 CMP O // Acc < = > O setzt Equal, Lower, Higher Flags 

8 SUB O // Acc = Acc - O 

9 ADD O // Acc = Acc + O 

10 MUL O // Acc = Acc * O 

11 JIE O // Jump if Equal 

12 JIL O // Jump if Lower (bei CMP O -> ACC 1 


Seite 77



Aufgabe 4) 

● 

Schreibt einen Algorithmus der genetischen Programmierung, der den 

Speicher so voll schreibt, dass vom genetischen Programm möglichst viele 

unterschiedliche Primzahlen in den Speicher geschrieben werden 

Seite 78



Seite 79



Was ist Reinforcement Learning 

Reinforcement Learning (bzw. bestärkendes Lernen) ist ein Lernen, bei 

dem ein Agent lediglich aufgrund von Belohnung (positivem „reward“) und 

Bestrafung (negativem „reward“) lernt seinen Nutzen zu optimieren 

Umgebung 

Zustand 

reward 

Aktion 

Agent 

Zustand s kann sein: 

- Sensorwerte der Umwelt 

- eigene errechnete Position 

- Innere Zustände wie 

Speicherinhalte 

Aktion a kann sein: 

- Manipulator bewegen 

- Abwarten 

- Speicher beschreiben 

Reward r ist: 

- Belohnung, die positiv oder 

negativ sein kann 

Seite 80



Bewertungsfunktion 

Value Funktion V(s) oder Q(s,a) (Bewertungsfunktion / Value-Funktion): 

● 

● 

Die Bewertungsfunktion spiegelt die zu erwartende Belohnung (reward) 

wieder. Ist sie gelernt, so kann der Agent in jedem Zustand die Aktion 

aussuchen, die die größte zu erwartende Belohnung widerspiegelt. 

Sei Q* die optimale Bewertungsfunktion, dann gilt: 

γ=[0..1] 

Q t ∗ =∑ i=0 

∞ 

γ i r t +i 

Dabei ist 

Discount Faktor, der dafür sorgt, dass weit in der 

Zukunft liegende mögliche Rewards geringer gewichtet werden. 

(t=0 ist der aktuelle Zeitpunkt, t>0 ist die Anzahl der Schritte in die Zukunft) 

Seite 81



Bellmansches Optimalitätsprinzip 

„An optimal policy has the property that whatever the initial state and initial 

decision are, the remaining decisions must constitute an optimal policy with 

regard to the state resulting from the first decision.“ (Bellman 1957, Chap 

II.3) 

Beispiel: 

Wenn die Zustandsfolge 1,2,3,4,5 (mit Aktionen a,b,c,d) optimal ist, so ist 

auch die Teilfolge 2,3,4,5 mit Aktionen b,c,d optimal. 

Seite 82



Herleitung der Q-Learning Update-Formel 

Sei Q* die optimale Value-Funktion: 

Q ∗ ∞ 

t =∑ i=0 γ i r t +i 

0=r t 

+γQ ∗ ∗ 

t+1 

−Q t 

Q ∗ ∞ 

t =r t +∑ i=1 γ i r t +i 

Q ∗ ∞ 

r 

t =r t +∑ i=0 γ i+1 t 

+γ max a 

r 

t 

(Q t +1 

)−Q t 

t +i+1 

Q ∗ ∞ 

t =r t +γ∑ i =0 γ i r i +(t +1) 

Q ∗ ∗ 

Q 

t 

=r t 

+γQ t 

=Q t 

+α(r t 

+γ max a t 

(Q t +1 

)−Q t 

) 

t +1 

α∈[0..1]ist Lernrate z.B. α=0.01 

γ∈[0..1]ist Discountfaktor 

r t 

ist Reward (Belohnung) 

negativ,wenn Qt zu groß 

= 0, wenn Qt optimal 

positiv, wenn Qt zu klein 

Seite 83



Aktionsauswahl 

● 

● 

● 

Immer die Aktion mit der größten zu erwartenden Belohnung zu wählen 

nennt man Greedy-Strategie 

Fast immer die Aktion mit der größten Bewertung zu wählen, aber mit 

einer ε-Wahrscheinlichkeit eine der anderen Aktionen zu wählen nennt 

man ε-greedy 

Alle Aktionen mit gewichteten Wahrscheinlichkeiten zu wählen nennt 

man Softmax Action Selection: 

p [a ]= 

n 

∑ j=1 

eQ t[ a ]/ τ 

e Q t [ b]/ τ Seite 84



Softmax action Selection 

p[a ]= 

n 

∑ j=1 

eQ t[ a ]/ τ 

e Q t [ j ]/ τ Seite 85 

Die Verteilung nennt man Gibbs oder Boltzmann Verteilung 

tau nennt man Temperatur 

Für Ƭ unendlich ist p[a] für alle a etwa gleich groß 

Für Ƭ 0 ist p[a greedy 

]=1 und für alle anderen p[a not_greedy 

]=0



Q-Learning(Watkins, 1989) 

Q(s t 

, a t 

)=Q(s t 

, a t 

)+α[r t 

+γ max a 

Q(s t +1 

, a)−Q(s t 

, a t 

)] 

α = [0..1] ist die Lernrate 

Der Algorithmus: 

Seite 86



Markow Entscheidungs Prozess 

Reinforcement Learning wird häufig als Markow Entscheidungsprozess 

aufgefasst und es wird vorrausgesetzt, dass die Markoweigenschaft erfüllt 

ist. 

Markoweigenschaft 

Die Markoweigenschaft garantiert, dass das Verhalten des Systems und 

damit die Wahrscheinlichkeiten, in welche Folgezustände das System 

gelangt nur vom aktuellen Zustands-Aktionspaar abhängt. 

Seite 87



Aufgabe 5) 

Implementieren Sie einen Q-Learning Agenten der lernt ein PingPong Spiel zu 

spielen! Das Spiel wird vorgegeben. 

● 

● 

Reward = 1 bekommt der Agent, wenn der Schläger den Ball trifft. 

Reward = -1 bekommt der Agent, wenn er den Ball nicht trifft



Erweiterungen 

Es gibt eine Reihe von Erweiterungen für das klassische Reinforcement Learning: 

● 

● 

Approximation der Value-Funktions (Neuronale Netze, CMAC, Multi Resolution etc.) 

Hierarchisches Reinforcement Learning (Feudal Q-Learning) 

● 

Modell basierte Verbesserungen (Dyna, Priorized Sweeping)



Approximation der Value Funktion 


● 

Neuronale Netze werden zur Approximation der Value Funkion hinzugezogen, in 

einigen Arbeiten sogar rekurrente Netze. 

● 

Rekurrente Neuronale Netze haben ein Gedächtnis und können Zustände der 

ergangenheit mit beachten (Markow Eigenschaft) (Meeden, McGraw, & Blank, 1993; 

Lin& Mitchell, 1992; Schmidhuber, 1991)




CMAC (Cerebellar model articulation controller) Albus, J. S. (1975) 

Fig. aus (Frederick G. Harmon, Andrew 

A. Frank , Sanjay S. Joshi 2005) 

The control of a parallel hybrid-electric 

propulsion system for a small unmanned 

aerial vehicle using a CMAC neural 

network




Multi Resolution 

PartiGame Algorithmus (Moore 1994) generalisiert über Zustände 

Generiert neue Zustände gemäß eines Minimax Kriteriums



Hierarchisches Reinforcement Learning 

Feudal Q-Learning (Dayan & Hinton, 1993; Watkins, 1989) 

● 

● 

Im einfachsten Fall: high-level master Modul und low-level slave Modul 

Master bekommt Reinforcement vom Environment 

● 

Master gibt Kommandos an die low-level Module und belohnt sie, selbst wenn es 

keinen externen Reward gibt. 

● 

● 

Master lernt Mapping von State zu Kommandos und Belohnung 

Slave lernt Mapping von Kommandos 

zu externen Aktionen



Hierarchisches Reinforcement Learning 

Compositional Q-Learning (Singh 1992) 

● 

Hierarchie basiert auf zeitliche Abfolge von Unterzielen 

● 

Elementar-Tasks sind Verhaltensweisen, die eine wahrnehmbare Bedingung 

erfüllen 

● 

High-Level Ziel ist es mehrere Elementartasks in vorgegebener Reihenfolge zu 

lernen 

● 

Erst werden Elementary Tasks trainiert, dann lernt die sogenannte „gating-function“ 

die Elementary-Tasks in der richtigen Reihenfolge anzusteuern



Modell basierte Verbesserungen 

Dyna (Richard Sutton 1990/91) 

● 

Modell wird beim Handeln erstellt 

● Q-update 

● 

K mal wird ein Q-Update im Modell gelernt (ausgehend von k State-Action Paaren)



Modell basierte Verbesserungen 

Priorized Sweeping (Moore & Atkeson, 1993) 

● 

Funktioniert wie dyna nur statt k-mal Q-update mit zufälligen State-Action Paaren: 

● 

Q- odert V-Value des letzten Zustands wird gespeichert und die Differenz des 

letzten zum bisherigen Q/V wird als Priorität für das Update benutzt 

● 

Dass bedeutet, dass gerade da wo die Differenz beim Update groß ist, dort wird das 

nächste mal eher ein Update gemacht.

Vorlesungsfolien

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?