12.07.2015 Aufrufe

Neuronale Netze

Neuronale Netze

Neuronale Netze

MEHR ANZEIGEN
WENIGER ANZEIGEN
  • Keine Tags gefunden...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

dkriesel.comC.2 LernvorgangZustand (unseren Startzustand) aufgetragen.Dass es möglich ist und auch oft gemachtwird, die Werte für die zwischendurchbesuchten Zustände (im Fall derGridworld unsere Wege zum Ziel) gleichmit zu trainieren, sollte offensichtlich sein.Das Ergebnis einer solchen Rechnung inBezug auf unser Beispiel findet sich inAbb. C.6 auf der folgenden Seite.Die Montecarlo-Methodik mag suboptimalerscheinen und ist auch im Regelfallwesentlich langsamer als die nachfolgendvorgestellten Methoden des ReinforcementLearnings - allerdings ist sie die einzige,bei der man mathematisch beweisen kann,dass sie funktioniert und eignet sich dahersehr für theoretische Betrachtungen.Definition C.10 (Montecarlo-Lernen): Eswerden zufällig Aktionen ohne Rücksichtauf die State-Value-Funktion ausgeführtund langfristig eine aussagekräftige State-Value-Funktion mit untenstehender Lernregelaufkumuliert.-1-6 -5 -4 -3 -2-1-14 -13 -12 -2-11 -3-10 -4-9 -5-8 -7 -6-10V (s t ) neu = V (s t ) alt + α(R t − V (s t ) alt ),C.2.4 Temporal Difference LearningWir lernen im täglichen Leben weitestgehenddurch Erfahrung und Ausprobieren.Das Allermeiste, was wir lernen, geschiehtdurch Erfahrung; blessurenfrei (oder ebenauch nicht) gehen und Fahrrad fahren,auch geistige Fertigkeiten wie mathematischesProblemlösen profitieren sehr von Erfahrungund schlichtem Ausprobieren (Trialand Error). Wir initialisieren also unserePolicy mit irgendwelchen Werten - pro-Abbildung C.5: Anwendung der Montecarlo-Lernregel mit einer Lernrate von α = 0.5. Obensind beispielhaft zwei Wege aufgetragen, die derAgent durch Zufall wählt (einer mit offener, einermit geschlossener Tür). Unten das Ergebnisder Lernregel für den Wert des Startzustandsunter Berücksichtigung beider Wege. Dadurch,dass unter zufälliger Policy mit der Zeit sehr vieleverschiedene Wege gegangen werden, erhält maneine sehr aussagekräftige State-Value-Funktion.D. Kriesel – Ein kleiner Überblick über <strong>Neuronale</strong> <strong>Netze</strong> (EPSILON-DE) 207

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!