01.12.2012 Views

c11.pdf

c11.pdf

c11.pdf

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Invatarea bazata pe diferente temporare (DT)<br />

� Se foloseste pentru a estima aceste functii valoare.<br />

� Daca nu se estimeaza functia valoare, agentul trebuie sa astepte<br />

pana se primeste recompensa finala pentru a actualiza valorile<br />

pentru perechi stare-actiune.<br />

� Pentru acest caz in care se merge pana la tinta pentru evaluare, se foloseste<br />

fformula: l<br />

V(s t) = V(s t) + α(R t - V(s t))<br />

� s t este starea vizitata la momentul t<br />

� R t – recompensa dupa momentul t<br />

� α – parametru constant<br />

12

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!