Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...
Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...
Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Average Reward per Episode<br />
Average Steps per Episode<br />
100000<br />
0<br />
Q-Learning<br />
Model based<br />
20000<br />
Q-Learning<br />
Model based<br />
Average Sum of Rewards<br />
-100000<br />
-200000<br />
-300000<br />
-400000<br />
Average Steps<br />
15000<br />
10000<br />
5000<br />
-500000<br />
-600000<br />
10 0 10 1 10 2 10 3 10 4<br />
Number of Episodes<br />
0<br />
10 0 10 1 10 2 10 3 10 4<br />
Number of Episodes<br />
Abbildung 5.22: Reinforcement Learning erweitert mittels Supervised Learning.<br />
Auch hier ist durch das herausfiltern der (Zustand, Aktion)-Paare, welche eine Bestrafung mit sich führen, die Summe<br />
der erhaltenen Belohnungen auf einem höheren Niveau, wodurch auch die Anzahl der durchschnittlich benötigten<br />
Schritte zum Ziel sinkt, da die Exploration auf den potenziell zur Lösung gehörenden Zuständen zu Beginn höher ist, als<br />
be<strong>im</strong> reinen Q-Learnings. Folgende Abbildung betrachtet hierbei das Lernverhalten der Kombination Q-Learning mit<br />
Umgebungsmodell <strong>im</strong> Detail.<br />
5000<br />
Average Reward per Episode<br />
Q-Learning<br />
0<br />
Average Sum of Rewards<br />
-5000<br />
-10000<br />
-15000<br />
10 0 10 1 10 2 10 3 10 4<br />
Number of Episodes<br />
Abbildung 5.23: Reinforcement Learning erweitert mittels Supervised Learning <strong>im</strong> Detail.<br />
Mittels dieser Erweiterung wird eine Konvergenz gegen die opt<strong>im</strong>ale Lösung bereits ungefähr 300 Episoden früher gefunden,<br />
als es be<strong>im</strong> reinen Q-Learning der Fall ist. Es bleibt nun abzuwarten, <strong>wie</strong> die Kombination beider Verfahren die<br />
Konvergenz beeinflusst.<br />
Hierzu sei nun die Kombination beider Verfahren <strong>im</strong> direkten Vergleich zur Kombination Q-Learning mit Umgebungsmodell<br />
betrachtet.<br />
Da das Makro-Q-Learning die Exploration des Agenten derart beeinflusst, dass sich der Agent größtenteils auf Transitknoten<br />
aufhält, findet eine besonders starke Exploration dieser <strong>wie</strong> in den zuvor analysierten Labyrinthen statt. Außerdem<br />
begünstigt die Erweiterung mittels Umgebungsmodell diese Aufenthaltszeit, da negative Aktionen herausgefiltert wurden<br />
und somit auf den Transitknoten ein erhöhter Fokus liegt. In dem untersuchten Labyrinth dieser Kategorie nehmen<br />
Makro-Aktionen eine signifikante Stellung ein, da sie <strong>im</strong> Vergleich zu den zuvor betrachteten Labyrinthen eine erhöhte<br />
Anzahl von Schritten ausführen und somit die Exploration dieser Aktionen einen bemerkbaren Mehraufwand zur Folge<br />
haben. Dieser Mehraufwand ist <strong>im</strong> rechten Graphen der Abbildung 5.24 zu sehen: eine Kombination aus Umgebungsmodell<br />
so<strong>wie</strong> Clustering hat <strong>im</strong> Kontext der durchschnittlich benötigten Schritte vom Start- zum Zielzustand eine signifikant<br />
schlechtere Performanz, als beispielsweise das Clustering oder Umgebungsmodell allein.<br />
54