c11.pdf

More documents

Recommendations

Info

Algoritmi de invatare Invatarea Q � Se initializeaza tabela de valori Q 1. Se initializeaza Q(s, a) in mod aleator 2. Repeta 1. Initializeaza starea s 2. Repeta 1. Alege actiunea a in functie de strategia aleasa (εgreedy sau Softmax) 2. Executa actiunea a, observa r si s’ 3. Q(s, a) = Q(s, a) + α[r(s, a) + γmax a’Q(s’, a’) – Q(s, a)] 4. s = s’ � S b t t 3. Pana cand s este stare terminala � Se observa starea curenta s � Se alege o actiune a din starea s � Actiunea se alege in functie de strategia folosita 3. Pana cand se intalneste conditia de oprire (un numar de iteratii) � Se executa actiunea, se ajunge la o noua stare s’ si se observa b recompensa r care se obtine bti di din starea t s, ddaca se iia actiunea a. � SSe actualizeaza t li valoarea l Q pentru t starea t curenta t ffolosind l i d recompensa obtinuta si cea maxima posibila pentru starea urmatoare (linia 22.2.3). 2 3) � 18 Se trece la urmatoarea stare s’. • α – rata de invatare • γ factorul de reducere • maxa’ – recompensa maxima ce poate fi obtinuta in starea urmatoare
Algoritmi de invatare Invatarea SARSA � Nu se foloseste recompensa maxima a starii urmatoare ca la Q. � In schimb, se alege g o noua actiune ( (si astfel o noua recompensa p se obtine) este selectata folosing aceeasi strategie. � Numele “sarsa” vine de la faptul p ca actualizarile sunt realizate 19 folosind tuplul Q(s, a, r, s’, a’) � s si a sunt starea si actiunea initiale � r este recompensa obtinuta in starea s daca se ia actiunea a � s’ si a’ sunt noua pereche stare-actiune
Page 1 and 2: Invatare reimprospatata Catalin Sto
Page 3 and 4: Caracteristici ale invatarii reimpr
Page 5 and 6: Invatare supervizata � Pasul 1
Page 7 and 8: Invatarea reimprospatata p p Formul
Page 9 and 10: Invatare reimprospatata � Prin ex
Page 11 and 12: Functii Valoare �� Sunt functii
Page 13 and 14: Invatarea bazata pe diferente tempo
Page 15 and 16: Invatarea bazata pe DT 15 V(s t) =
Page 17: Algoritmi de invatare Invatarea Q 1
Page 21: Exemplu � Exista 6 incaperi etich

c11.pdf

Create successful ePaper yourself

Delete template?

Save as template?