Vorlesungsfolien
Vorlesungsfolien
Vorlesungsfolien
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Jörn Fischer - j.fischer@hs-mannheim.de - Raum 113a - Tel. (0621)292-6767<br />
Reinforcement Learning<br />
Softmax action Selection<br />
p[a ]=<br />
n<br />
∑ j=1<br />
eQ t[ a ]/ τ<br />
e Q t [ j ]/ τ Seite 85<br />
Die Verteilung nennt man Gibbs oder Boltzmann Verteilung<br />
tau nennt man Temperatur<br />
Für Ƭ unendlich ist p[a] für alle a etwa gleich groß<br />
Für Ƭ 0 ist p[a greedy<br />
]=1 und für alle anderen p[a not_greedy<br />
]=0