Programação Linear (e rudimentos de otimização não-linear)
Programação Linear (e rudimentos de otimização não-linear)
Programação Linear (e rudimentos de otimização não-linear)
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
notas <strong>de</strong> aula – versão 64 - Jerônimo C. Pellegrini<br />
9.3. FORMULAÇÃO COMO PROGRAMA LINEAR 135<br />
9.3 Formulação como Programa <strong>Linear</strong><br />
Embora a equação do princípio da otimalida<strong>de</strong> já seja ela mesma a expressão<br />
<strong>de</strong> um algoritmo recursivo para a resolução do problema, ele po<strong>de</strong><br />
também ser mo<strong>de</strong>lado como programa <strong>linear</strong>.<br />
{<br />
V t (s) = max R(s, a) + T(s, a, s ′ )V t+1 (s ′ ) }<br />
a<br />
A equação <strong>de</strong> Bellman <strong>de</strong>termina o valor ótimo que queremos. De todos<br />
os valores maiores ou iguais a este ótimo, tomamos então o menor. Daí<br />
temos as restrições V t (s) ≥ R(s, a) + V t+1 (T(s, a)), e extraímos agora o<br />
mínimo: basta <strong>de</strong>finir então o problema <strong>de</strong> minimização<br />
min ∑ V t (s)<br />
t,s<br />
s.a. : V t (s) ≥ R(s, a) + T(s, a, s ′ )V t+1 (s ′ )<br />
O programa <strong>linear</strong>, no entanto, teria |S|×|A|×z restrições, e |S|×z variáveis,<br />
on<strong>de</strong> z é o horizonte (o número <strong>de</strong> estágios). O dual teria |S| × z restrições.<br />
Para horizontes muito longos, este método não é bom.<br />
9.4 Horizonte infinito e convergência<br />
Po<strong>de</strong>mos esten<strong>de</strong>r estas noções para horizonte infinito. Claramente, não<br />
é possível usar o critério <strong>de</strong> otimalida<strong>de</strong> da recompensa total, porque o<br />
somatório não necessariamente convergiria. Po<strong>de</strong>mos, no entanto, multiplicar<br />
a <strong>de</strong>cisão na época k por γ k , com 0 < γ < 1, garantindo assim<br />
que o problema continuará tendo solução. A interpretação <strong>de</strong>ste fator é a<br />
seguinte: valorizamos mais as recompensas obtidas num horizonte mais<br />
próximo e menos aquelas obtidas em um horizonte distante. Este critério<br />
<strong>de</strong> otimalida<strong>de</strong> é o da recompensa total esperada, e nos leva à seguinte<br />
versão da equação <strong>de</strong> Bellman.<br />
{<br />
}<br />
v(s) = max<br />
a∈A<br />
R(s) + γ ∑ s ′ ∈S<br />
T(s, a, s ′ )v(s ′ )<br />
Versão Preliminar<br />
Sua formulação como programa <strong>linear</strong> é<br />
min ∑ V(s)<br />
s<br />
s.a. : V(s) ≥ R(s, a) + T(s, a, s ′ )V(s ′ )<br />
.