30.01.2014 Aufrufe

Vorlesungsfolien

Vorlesungsfolien

Vorlesungsfolien

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Jörn Fischer - j.fischer@hs-mannheim.de - Raum 113a - Tel. (0621)292-6767<br />

Reinforcement Learning<br />

Softmax action Selection<br />

p[a ]=<br />

n<br />

∑ j=1<br />

eQ t[ a ]/ τ<br />

e Q t [ j ]/ τ Seite 85<br />

Die Verteilung nennt man Gibbs oder Boltzmann Verteilung<br />

tau nennt man Temperatur<br />

Für Ƭ unendlich ist p[a] für alle a etwa gleich groß<br />

Für Ƭ 0 ist p[a greedy<br />

]=1 und für alle anderen p[a not_greedy<br />

]=0

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!