31.10.2013 Aufrufe

Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...

Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...

Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Average Reward per Episode<br />

Average Steps per Episode<br />

100000<br />

0<br />

Q-Learning<br />

Model based<br />

20000<br />

Q-Learning<br />

Model based<br />

Average Sum of Rewards<br />

-100000<br />

-200000<br />

-300000<br />

-400000<br />

Average Steps<br />

15000<br />

10000<br />

5000<br />

-500000<br />

-600000<br />

10 0 10 1 10 2 10 3 10 4<br />

Number of Episodes<br />

0<br />

10 0 10 1 10 2 10 3 10 4<br />

Number of Episodes<br />

Abbildung 5.22: Reinforcement Learning erweitert mittels Supervised Learning.<br />

Auch hier ist durch das herausfiltern der (Zustand, Aktion)-Paare, welche eine Bestrafung mit sich führen, die Summe<br />

der erhaltenen Belohnungen auf einem höheren Niveau, wodurch auch die Anzahl der durchschnittlich benötigten<br />

Schritte zum Ziel sinkt, da die Exploration auf den potenziell zur Lösung gehörenden Zuständen zu Beginn höher ist, als<br />

be<strong>im</strong> reinen Q-Learnings. Folgende Abbildung betrachtet hierbei das Lernverhalten der Kombination Q-Learning mit<br />

Umgebungsmodell <strong>im</strong> Detail.<br />

5000<br />

Average Reward per Episode<br />

Q-Learning<br />

0<br />

Average Sum of Rewards<br />

-5000<br />

-10000<br />

-15000<br />

10 0 10 1 10 2 10 3 10 4<br />

Number of Episodes<br />

Abbildung 5.23: Reinforcement Learning erweitert mittels Supervised Learning <strong>im</strong> Detail.<br />

Mittels dieser Erweiterung wird eine Konvergenz gegen die opt<strong>im</strong>ale Lösung bereits ungefähr 300 Episoden früher gefunden,<br />

als es be<strong>im</strong> reinen Q-Learning der Fall ist. Es bleibt nun abzuwarten, <strong>wie</strong> die Kombination beider Verfahren die<br />

Konvergenz beeinflusst.<br />

Hierzu sei nun die Kombination beider Verfahren <strong>im</strong> direkten Vergleich zur Kombination Q-Learning mit Umgebungsmodell<br />

betrachtet.<br />

Da das Makro-Q-Learning die Exploration des Agenten derart beeinflusst, dass sich der Agent größtenteils auf Transitknoten<br />

aufhält, findet eine besonders starke Exploration dieser <strong>wie</strong> in den zuvor analysierten Labyrinthen statt. Außerdem<br />

begünstigt die Erweiterung mittels Umgebungsmodell diese Aufenthaltszeit, da negative Aktionen herausgefiltert wurden<br />

und somit auf den Transitknoten ein erhöhter Fokus liegt. In dem untersuchten Labyrinth dieser Kategorie nehmen<br />

Makro-Aktionen eine signifikante Stellung ein, da sie <strong>im</strong> Vergleich zu den zuvor betrachteten Labyrinthen eine erhöhte<br />

Anzahl von Schritten ausführen und somit die Exploration dieser Aktionen einen bemerkbaren Mehraufwand zur Folge<br />

haben. Dieser Mehraufwand ist <strong>im</strong> rechten Graphen der Abbildung 5.24 zu sehen: eine Kombination aus Umgebungsmodell<br />

so<strong>wie</strong> Clustering hat <strong>im</strong> Kontext der durchschnittlich benötigten Schritte vom Start- zum Zielzustand eine signifikant<br />

schlechtere Performanz, als beispielsweise das Clustering oder Umgebungsmodell allein.<br />

54

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!