08.02.2015 Views

Programação Linear (e rudimentos de otimização não-linear)

Programação Linear (e rudimentos de otimização não-linear)

Programação Linear (e rudimentos de otimização não-linear)

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

notas <strong>de</strong> aula – versão 64 - Jerônimo C. Pellegrini<br />

9.3. FORMULAÇÃO COMO PROGRAMA LINEAR 135<br />

9.3 Formulação como Programa <strong>Linear</strong><br />

Embora a equação do princípio da otimalida<strong>de</strong> já seja ela mesma a expressão<br />

<strong>de</strong> um algoritmo recursivo para a resolução do problema, ele po<strong>de</strong><br />

também ser mo<strong>de</strong>lado como programa <strong>linear</strong>.<br />

{<br />

V t (s) = max R(s, a) + T(s, a, s ′ )V t+1 (s ′ ) }<br />

a<br />

A equação <strong>de</strong> Bellman <strong>de</strong>termina o valor ótimo que queremos. De todos<br />

os valores maiores ou iguais a este ótimo, tomamos então o menor. Daí<br />

temos as restrições V t (s) ≥ R(s, a) + V t+1 (T(s, a)), e extraímos agora o<br />

mínimo: basta <strong>de</strong>finir então o problema <strong>de</strong> minimização<br />

min ∑ V t (s)<br />

t,s<br />

s.a. : V t (s) ≥ R(s, a) + T(s, a, s ′ )V t+1 (s ′ )<br />

O programa <strong>linear</strong>, no entanto, teria |S|×|A|×z restrições, e |S|×z variáveis,<br />

on<strong>de</strong> z é o horizonte (o número <strong>de</strong> estágios). O dual teria |S| × z restrições.<br />

Para horizontes muito longos, este método não é bom.<br />

9.4 Horizonte infinito e convergência<br />

Po<strong>de</strong>mos esten<strong>de</strong>r estas noções para horizonte infinito. Claramente, não<br />

é possível usar o critério <strong>de</strong> otimalida<strong>de</strong> da recompensa total, porque o<br />

somatório não necessariamente convergiria. Po<strong>de</strong>mos, no entanto, multiplicar<br />

a <strong>de</strong>cisão na época k por γ k , com 0 < γ < 1, garantindo assim<br />

que o problema continuará tendo solução. A interpretação <strong>de</strong>ste fator é a<br />

seguinte: valorizamos mais as recompensas obtidas num horizonte mais<br />

próximo e menos aquelas obtidas em um horizonte distante. Este critério<br />

<strong>de</strong> otimalida<strong>de</strong> é o da recompensa total esperada, e nos leva à seguinte<br />

versão da equação <strong>de</strong> Bellman.<br />

{<br />

}<br />

v(s) = max<br />

a∈A<br />

R(s) + γ ∑ s ′ ∈S<br />

T(s, a, s ′ )v(s ′ )<br />

Versão Preliminar<br />

Sua formulação como programa <strong>linear</strong> é<br />

min ∑ V(s)<br />

s<br />

s.a. : V(s) ≥ R(s, a) + T(s, a, s ′ )V(s ′ )<br />

.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!