Vorlesungsfolien
Vorlesungsfolien
Vorlesungsfolien
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Jörn Fischer - j.fischer@hs-mannheim.de - Raum 113a - Tel. (0621)292-6767<br />
Reinforcement Learning<br />
Modell basierte Verbesserungen<br />
Priorized Sweeping (Moore & Atkeson, 1993)<br />
●<br />
Funktioniert wie dyna nur statt k-mal Q-update mit zufälligen State-Action Paaren:<br />
●<br />
Q- odert V-Value des letzten Zustands wird gespeichert und die Differenz des<br />
letzten zum bisherigen Q/V wird als Priorität für das Update benutzt<br />
●<br />
Dass bedeutet, dass gerade da wo die Differenz beim Update groß ist, dort wird das<br />
nächste mal eher ein Update gemacht.