Programação Linear (e rudimentos de otimização não-linear)
Programação Linear (e rudimentos de otimização não-linear)
Programação Linear (e rudimentos de otimização não-linear)
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
notas <strong>de</strong> aula – versão 64 - Jerônimo C. Pellegrini<br />
9.5. VARIANTES DE MDPS 137<br />
Teorema 9.8. O operador H é uma contração em R n com a norma ||v|| =<br />
max i |v i |.<br />
Demonstração. Sejam u, v ∈ R n duas funções valor, com Hu(s) ≥ Hv(s).<br />
Seja a ∗ s uma ação ótima para a função valor v – ou seja,<br />
Então<br />
{<br />
a ∗ s ∈ arg max R(s, a) + γ ∑ }<br />
T(s, a, s ′ )v(s ′ ) .<br />
a<br />
Lv(s) − Lu(s) ≤ R(s, a ∗ s) + ∑ γT(s, a, s ′ )v(s ′ )<br />
− R(s, a ∗ s) + ∑ γT(s, a, s ′ )u(s ′ )<br />
= γ ∑ s ′ T(s, a, s ′ )(v(s) − u(s))<br />
≤ γ ∑ s ′<br />
T(s, a, s ′ )||v − u||<br />
= γ||v − u|| ≤ ||v − u||.<br />
Po<strong>de</strong>-se <strong>de</strong>finir diferentes critérios <strong>de</strong> otimalida<strong>de</strong>, como minimizar<br />
a variância da recompensa, sujeitando a solução a uma recompensa média<br />
mínima, ou minimizar a recompensa média, limitando a variância da<br />
recompensa.<br />
9.5 Variantes <strong>de</strong> MDPs<br />
Esta seção discute algumas variantes <strong>de</strong> MDPs, sem no entanto <strong>de</strong>talhar<br />
os métodos para sua resolução. A Seção <strong>de</strong> Notas ao final do Capítulo traz<br />
indicações <strong>de</strong> leitura adicional para o leitor interessado.<br />
9.5.1 Tempo contínuo<br />
Po<strong>de</strong>-se <strong>de</strong>finir MPDs em tempo contínuo, mas com estados e ações discretos.<br />
Os conjuntos <strong>de</strong> estados e ações (S e A) e a função <strong>de</strong> transição T em<br />
um SMDP são semelhantes às <strong>de</strong> um MDP.<br />
Versão Preliminar<br />
• R : S × A → R é composta <strong>de</strong> duas outras funções;