c11.pdf

More documents

Recommendations

Info

Invatare reimprospatata � Agentul invata prin interactiunea cu mediul si prin observarea rezultatelor lt t l obtinute bti t di din aceste t iinteractiuni. t ti i � Este vorba de “cauza si efect” si acesta este si modul in care noi ne formam cunoasterea aupra mediului pe parcursul vietii. � Ideea de “cauza si efect” se traduce in pasii urmatori pentru in agent tdi din cadrul d l iinvatarii t ii reimprospatate: i t t 8 1. Agentul observa o stare de intrare 22. Actiunea sa este determinata de o functie de luare de decizie (o strategie). 3. Actiunea este indeplinita 4. Agentul primeste o recompensa numerica de la mediu 5. Informatia despre recompensa primita pentru starea/actiunea respectiva p este retinuta
Invatare reimprospatata � Prin executarea de actiuni si observarea recompenselor obtinute, strategia folosita pentru a determina cea mai buna actiune pentru o stare poate fi imbunatatita. � Daca suficiente stari sunt observate, o strategie de decizie optimala va fi generata si vom obtine un agent care actioneaza perfect in mediul sau. � Asadar, agentul invata din recompensele primite de la mediu, fara sa existe vreo alta forma de supervizare in afara de propria strategie de a isi alege deciziile. � Este aruncat in mediul sau si lasat sa se descurce singur, din 9 propriile greseli si succese.
Page 1 and 2: Invatare reimprospatata Catalin Sto
Page 3 and 4: Caracteristici ale invatarii reimpr
Page 5 and 6: Invatare supervizata � Pasul 1
Page 7: Invatarea reimprospatata p p Formul
Page 11 and 12: Functii Valoare �� Sunt functii
Page 13 and 14: Invatarea bazata pe diferente tempo
Page 15 and 16: Invatarea bazata pe DT 15 V(s t) =
Page 17 and 18: Algoritmi de invatare Invatarea Q 1
Page 19 and 20: Algoritmi de invatare Invatarea SAR
Page 21: Exemplu � Exista 6 incaperi etich

c11.pdf

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?