08.02.2015 Views

Programação Linear (e rudimentos de otimização não-linear)

Programação Linear (e rudimentos de otimização não-linear)

Programação Linear (e rudimentos de otimização não-linear)

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

notas <strong>de</strong> aula – versão 64 - Jerônimo C. Pellegrini<br />

138 CAPÍTULO 9. CONTROLE DISCRETO<br />

• F : R + × S × A → [0, 1] dá a probabilida<strong>de</strong> da próxima época <strong>de</strong><br />

<strong>de</strong>cisão acontecer antes do tempo t, sendo que o processo está no<br />

estado s e a ação a será executada.<br />

A função <strong>de</strong> recompensa é composta por duas outras,<br />

• r : S × A → R dá a recompensa imediata após uma <strong>de</strong>cisão a em um<br />

estado s.<br />

• R : S × S × A → R dá a recompensa por permanecer em um estado<br />

s ′ dado que o estado anterior era s e a ação executada foi a.<br />

Como essa <strong>de</strong>scrição abre a possibilida<strong>de</strong> <strong>de</strong> termos infinitas épocas<br />

<strong>de</strong> <strong>de</strong>cisão em tempo finito, presumimos que para todos s ∈ S, a ∈ A,<br />

existem ε, δ > 0 tais que<br />

F(s, a, δ) ≤ 1 − ε<br />

O fator <strong>de</strong> <strong>de</strong>sconto usado para horizonte infinito é α > 0, e a recompensa<br />

no tempo t é multiplicada por e −αt (o que é equivalente a usar γ t ,<br />

com 0 < γ < 1).<br />

A recompensa entre duas épocas <strong>de</strong> <strong>de</strong>cisão acontecendo nos tempos<br />

u k e u k+1 é<br />

s t é o estado no tempo t.<br />

{<br />

∑ ∞<br />

V(s) = E<br />

k=0<br />

∫ uk+1<br />

u k<br />

e −αu k<br />

e −α(t−u k) R(s, s t , a)dt.<br />

[<br />

r(s, a) +<br />

∫ uk+1<br />

u k<br />

] }<br />

e −α(t−uk) R(s, s t , a)dt<br />

A recompensa R(s, a) po<strong>de</strong> ser calculada a partir <strong>de</strong> r e F.<br />

∫ ∞ ∑<br />

[∫ u<br />

]<br />

R(s, a) = r(s, a) +<br />

e −αt R(s, s ′ , a)T(s, a, s ′ )dt F(du, s, a)<br />

0<br />

s ′ 0<br />

Q(s ′ , t, s, a) é a probabilida<strong>de</strong> da próxima época <strong>de</strong> <strong>de</strong>cisão acontecer<br />

antes do tempo t e do próximo estado ser s ′ , dado que o estado atual era<br />

s e a ação executada foi a.<br />

Q(s ′ , t, s, a) = T(s ′ , s, a)F(t, s, a).<br />

Versão Preliminar<br />

Denotamos por m(s ′ , s, a) a probabilida<strong>de</strong> do próximo estado ser s ′ dado<br />

que o estado atual é s e a ação executada é a.<br />

m(s ′ , s, a) =<br />

∫ ∞<br />

0<br />

e −αt Q(dt, s ′ , s, a)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!