01.12.2012 Views

c11.pdf

c11.pdf

c11.pdf

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Algoritmi de invatare<br />

Invatarea Q<br />

� Se initializeaza tabela de valori Q<br />

1. Se initializeaza Q(s, a) in mod aleator<br />

2. Repeta<br />

1. Initializeaza starea s<br />

2. Repeta<br />

1. Alege actiunea a in functie de strategia aleasa (εgreedy<br />

sau Softmax)<br />

2. Executa actiunea a, observa r si s’<br />

3. Q(s, a) = Q(s, a) + α[r(s, a) + γmax a’Q(s’, a’) – Q(s, a)]<br />

4. s = s’<br />

� S b t t 3. Pana cand s este stare terminala<br />

� Se observa starea curenta s<br />

� Se alege o actiune a din starea s<br />

� Actiunea se alege in functie de strategia folosita<br />

3. Pana cand se intalneste conditia de oprire (un numar<br />

de iteratii)<br />

� Se executa actiunea, se ajunge la o noua stare s’ si se<br />

observa b recompensa r care se obtine bti di din starea t s, ddaca se iia<br />

actiunea a.<br />

� SSe actualizeaza t li valoarea l Q pentru t starea t curenta t ffolosind l i d<br />

recompensa obtinuta si cea maxima posibila pentru starea<br />

urmatoare (linia 22.2.3). 2 3)<br />

� 18<br />

Se trece la urmatoarea stare s’.<br />

• α – rata de invatare<br />

• γ factorul de reducere<br />

• maxa’ – recompensa maxima ce<br />

poate fi obtinuta in starea urmatoare

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!