c11.pdf

More documents

Recommendations

Info

Invatarea bazata pe diferente temporare (DT) � Cea mai simpla metoda DT, DT(0), o estimare a recompensei finale este calculata la fiecare stare si valoarea stare-actiune este actualizata la fiecare pas. V(s t) = V(s t) + α(r t+1 + γ V(s t+1) - V(s t)) Estimare a recompensei � r t+1 este recompensa observata la momentul t+1. �� γ – rata de reducere pentru recompensa 14
Invatarea bazata pe DT 15 V(s t) = V(s t) + α(r t+1 + γ V(s t+1) - V(s t)) � r t+1 este recompensa observata la momentul t+1. s t s t+1 r t+1 T T T T T T T T T T
Page 1 and 2: Invatare reimprospatata Catalin Sto
Page 3 and 4: Caracteristici ale invatarii reimpr
Page 5 and 6: Invatare supervizata � Pasul 1
Page 7 and 8: Invatarea reimprospatata p p Formul
Page 9 and 10: Invatare reimprospatata � Prin ex
Page 11 and 12: Functii Valoare �� Sunt functii
Page 13: Invatarea bazata pe diferente tempo
Page 17 and 18: Algoritmi de invatare Invatarea Q 1
Page 19 and 20: Algoritmi de invatare Invatarea SAR
Page 21: Exemplu � Exista 6 incaperi etich

c11.pdf

Create successful ePaper yourself

Delete template?

Save as template?