c11.pdf

More documents

Recommendations

Info

Invatarea bazata pe diferente temporare (DT) � Se foloseste pentru a estima aceste functii valoare. � Daca nu se estimeaza functia valoare, agentul trebuie sa astepte pana se primeste recompensa finala pentru a actualiza valorile pentru perechi stare-actiune. � Pentru acest caz in care se merge pana la tinta pentru evaluare, se foloseste fformula: l V(s t) = V(s t) + α(R t - V(s t)) � s t este starea vizitata la momentul t � R t – recompensa dupa momentul t � α – parametru constant 12
Invatarea bazata pe diferente temporare (DT) cazul fara estimari (Monte Carlo) 13 V(s t) = V(s t) + α(R t - V(s t)) s t s t este starea vizitata la momentul t Rt – recompensa dupa momentul t α – parametru constant T T T T T T T T T T
Page 1 and 2: Invatare reimprospatata Catalin Sto
Page 3 and 4: Caracteristici ale invatarii reimpr
Page 5 and 6: Invatare supervizata � Pasul 1
Page 7 and 8: Invatarea reimprospatata p p Formul
Page 9 and 10: Invatare reimprospatata � Prin ex
Page 11: Functii Valoare �� Sunt functii
Page 15 and 16: Invatarea bazata pe DT 15 V(s t) =
Page 17 and 18: Algoritmi de invatare Invatarea Q 1
Page 19 and 20: Algoritmi de invatare Invatarea SAR
Page 21: Exemplu � Exista 6 incaperi etich

c11.pdf

Create successful ePaper yourself

Delete template?

Save as template?