Programação Linear (e rudimentos de otimização não-linear)
Programação Linear (e rudimentos de otimização não-linear)
Programação Linear (e rudimentos de otimização não-linear)
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
notas <strong>de</strong> aula – versão 64 - Jerônimo C. Pellegrini<br />
138 CAPÍTULO 9. CONTROLE DISCRETO<br />
• F : R + × S × A → [0, 1] dá a probabilida<strong>de</strong> da próxima época <strong>de</strong><br />
<strong>de</strong>cisão acontecer antes do tempo t, sendo que o processo está no<br />
estado s e a ação a será executada.<br />
A função <strong>de</strong> recompensa é composta por duas outras,<br />
• r : S × A → R dá a recompensa imediata após uma <strong>de</strong>cisão a em um<br />
estado s.<br />
• R : S × S × A → R dá a recompensa por permanecer em um estado<br />
s ′ dado que o estado anterior era s e a ação executada foi a.<br />
Como essa <strong>de</strong>scrição abre a possibilida<strong>de</strong> <strong>de</strong> termos infinitas épocas<br />
<strong>de</strong> <strong>de</strong>cisão em tempo finito, presumimos que para todos s ∈ S, a ∈ A,<br />
existem ε, δ > 0 tais que<br />
F(s, a, δ) ≤ 1 − ε<br />
O fator <strong>de</strong> <strong>de</strong>sconto usado para horizonte infinito é α > 0, e a recompensa<br />
no tempo t é multiplicada por e −αt (o que é equivalente a usar γ t ,<br />
com 0 < γ < 1).<br />
A recompensa entre duas épocas <strong>de</strong> <strong>de</strong>cisão acontecendo nos tempos<br />
u k e u k+1 é<br />
s t é o estado no tempo t.<br />
{<br />
∑ ∞<br />
V(s) = E<br />
k=0<br />
∫ uk+1<br />
u k<br />
e −αu k<br />
e −α(t−u k) R(s, s t , a)dt.<br />
[<br />
r(s, a) +<br />
∫ uk+1<br />
u k<br />
] }<br />
e −α(t−uk) R(s, s t , a)dt<br />
A recompensa R(s, a) po<strong>de</strong> ser calculada a partir <strong>de</strong> r e F.<br />
∫ ∞ ∑<br />
[∫ u<br />
]<br />
R(s, a) = r(s, a) +<br />
e −αt R(s, s ′ , a)T(s, a, s ′ )dt F(du, s, a)<br />
0<br />
s ′ 0<br />
Q(s ′ , t, s, a) é a probabilida<strong>de</strong> da próxima época <strong>de</strong> <strong>de</strong>cisão acontecer<br />
antes do tempo t e do próximo estado ser s ′ , dado que o estado atual era<br />
s e a ação executada foi a.<br />
Q(s ′ , t, s, a) = T(s ′ , s, a)F(t, s, a).<br />
Versão Preliminar<br />
Denotamos por m(s ′ , s, a) a probabilida<strong>de</strong> do próximo estado ser s ′ dado<br />
que o estado atual é s e a ação executada é a.<br />
m(s ′ , s, a) =<br />
∫ ∞<br />
0<br />
e −αt Q(dt, s ′ , s, a)