Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...

Weitere Magazine

Empfehlungen

Info

Average Reward per Episode Average Step per Episode 20000 Clustering Model based Clustering + Model based 2000 Clustering Model based Clustering + Model based 0 1500 Average Sum of Rewards -20000 -40000 Average Steps 1000 -60000 500 -80000 10 0 10 1 10 2 10 3 0 10 0 10 1 10 2 10 3 Number of Episodes Average Reward per Episode Number of Episodes Average Step per Episode 1000 2500 Clustering Model based Clustering + Model based 500 2000 Average Sum of Rewards 0 -500 Average Steps 1500 1000 -1000 500 Clustering Model based Clustering + Model based -1500 10 0 10 1 10 2 10 3 10 4 0 10 0 10 1 10 2 10 3 10 4 Number of Episodes Number of Episodes Abbildung 5.14: Reinforcement Learning erweitert mittels Kombination des Unsupervised und Supervised Learning. Als letzte Erweiterung bleibt nun noch die Verkapselung erlernten Wissens auszuwerten. Die durch diese Erweiterung erzielten Ergebnisse sind wieder im direkten Vergleich mit allen zuvor beschriebenen Kombinationen aufgezeigt. Dieser Vergleich ist in Abbildung 5.15 sowie 5.16 zu sehen. Da, wie zuvor bereits analysiert, das Umgebungsmodell mit Hilfe des Clusterings in beiden Labyrinthen keine Makro-Aktionen definiert, ist auch diese Erweiterung den Erwartungen nach keine erhebliche Verbesserung. Lediglich das Verkapseln erzielt aufgrund der hohen Iterationen mit den Werten x = 100 sowie y = 300% im späteren Verlauf der Lernphase. Average Reward per Episode Average Step per Episode 20000 0 2500 2000 Q-Learning Clustering Model based Clustering + Model based Clustering + Model based + Encapsulating Average Sum of Rewards -20000 -40000 Average Steps 1500 1000 -60000 Q-Learning Clustering Model based Clustering + Model based Clustering + Model based + Encapsulating -80000 10 0 10 1 10 2 10 3 500 0 10 0 10 1 10 2 10 3 Number of Episodes Number of Episodes Abbildung 5.15: Zusätzliche Erweiterung der Kombination mit Verkapselung des freien Labyrinths. 50
Average Reward per Episode Average Step per Episode 1000 500 2500 2000 Q-Learning Clustering Model based Clustering + Model based Clustering + Model based + Encaps. Average Sum of Rewards 0 -500 Average Steps 1500 1000 -1000 Q-Learning Clustering Model based Clustering + Model based Clustering + Model based + Encapsulating -1500 10 0 10 1 10 2 10 3 10 4 500 0 10 0 10 1 10 2 10 3 10 4 Number of Episodes Number of Episodes Abbildung 5.16: Zusätzliche Erweiterung der Kombination mit Verkapselung des offenen Labyrinths. Aus den erhobenen Daten bilden sich zum Schluss die folgenden Zahlen für die Werte Median sowie durchschnittliche Belohnung pro Schritt für das freie Labyrinth: freies Labyrinth RL UL+RL SL+RL UL+SL+RL UL+SL+RL+Enc. Median -3985.28 -3905 847 849 851 Belohnung pro Schritt -25.48 -25.03 5.29 5.305 5.39 Sowie für das offene Labyrinth: offenes Labyrinth RL UL+RL SL+RL UL+SL+RL UL+SL+RL+Enc. Median 815.85 815.04 816.39 816.37 819.19 Belohnung pro Schritt 4.36 4.6 4.66 4.65 4.72 10 5 5 0 4 -5 3 -10 -15 2 -20 1 -25 -30 RL UL+RL SL+RL UL+SL+RL UL+SL+RL+Enc 0 RL UL+RL SL+RL UL+SL+RL UL+SL+RL+Enc Abbildung 5.17: Durchschnittliche Belohnung pro Schritt aller vorgestellten Kombinationen veranschaulicht. Abschließend lässt sich im Rahmen dieser beiden Labyrinth-Arten festhalten, dass das verwendete Unsupervised Verfahren zu Beginn eine Beschleunigen der Konvergenz erzielen kann, welche im späteren Verlauf allerdings nachlässt. Das Umgebungsmodell des Supervised Learnings erreicht im Falle des freien Labyrinths hingegen einen anhaltenden Effekt. Eine Kombination beider entspricht hierbei annähernd dem gleichen Verfahren, wie es zuvor die Kombination des Q-Learnings mit Umgebungsmodell darstellte und der daraus erzielte Nutzen hängt von der Anzahl der 1-Zustand breiten Gänge ab. Als weitere Verbesserung in diesen Labyrinthen stellte sich das Verkapseln erlernten Wissens heraus, da zum Ende der Lernphase eine steigende Anzahl von Standardaktionen definiert wird. 51
Seite 1 und 2: Können Lernalgorithmen interagiere
Seite 3 und 4: Erklärung zur Bachelor-Thesis Hier
Seite 5 und 6: 1 Einführung Eine künstliche Inte
Seite 7 und 8: 1.3 Struktur der Arbeit Die vorlieg
Seite 9 und 10: Beispiel: Lernen beim Menschen Unse
Seite 11 und 12: Supervised Learning Das Ziel des Su
Seite 13 und 14: 2.3 Das menschliche Lernen Im mensc
Seite 15 und 16: 2. Das Kleinhirn enthält ein inter
Seite 17 und 18: abgeschätzt werden, wodurch die Ak
Seite 19 und 20: 3.2.1 Grundlagen Wie zuvor in der E
Seite 21 und 22: 3.2.4 SARSA SARSA 3 ist ein Algorit
Seite 23 und 24: Abbildung 3.3: Unterschied von Q-Le
Seite 25 und 26: Transitknoten erreichen, an dem es
Seite 27 und 28: 3.3.3 Algorithmus Der zur obigen Ve
Seite 29 und 30: 3.4 Supervised Learning In den zuvo
Seite 31 und 32: Wenden wir uns nun dem precomputed-
Seite 33 und 34: 3.5 Verkapseln erlernter Vorgehensw
Seite 35 und 36: 3.5.2 Verkapselung ohne Umgebungsmo
Seite 37 und 38: 3.5.4 Implementierung Nachdem nun b
Seite 39 und 40: 4.1 Verwendete Architekturen Im Rah
Seite 41 und 42: RL Umgebung SL generiere Trainingsd
Seite 43 und 44: Resultate Die hier erzielten Refere
Seite 45 und 46: Für diese Zustände sind durch das
Seite 47 und 48: 40 20 0 -20 -40 -60 RL UL+RL SL+RL
Seite 49 und 50: Die Daten dieser Labyrinth-Art wurd
Seite 51: Die folgende Abbildung 5.13 zeigt d
Seite 55 und 56: Aufgrund der Länge des Labyrinths
Seite 57 und 58: Average Reward per Episode Average
Seite 59 und 60: 6 Zusammenfassung Das Gehirn ist no
Seite 61 und 62: [26] Richard S. Sutton and Andrew G
Seite 63: 5.21 knifflige Labyrinth: Graphen e

Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?