08.02.2015 Views

Programação Linear (e rudimentos de otimização não-linear)

Programação Linear (e rudimentos de otimização não-linear)

Programação Linear (e rudimentos de otimização não-linear)

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

notas <strong>de</strong> aula – versão 64 - Jerônimo C. Pellegrini<br />

136 CAPÍTULO 9. CONTROLE DISCRETO<br />

O programa <strong>linear</strong> tem |S| variáveis e |S| 2 |A| restrições.<br />

Da mesma forma que com horizonte finito, po<strong>de</strong>mos extrair da equação<br />

<strong>de</strong> otimalida<strong>de</strong> um algoritmo recursivo. Partimos <strong>de</strong> um ponto qualquer<br />

e calculamos os valores da época anterior até que os valores entre<br />

duas iterações estejam suficientemente próximos.<br />

9.4.1 Convergência<br />

Para <strong>de</strong>monstrar que o algoritmo <strong>de</strong> programação dinâmica converge para<br />

MDPs <strong>de</strong> horizonte infinito com 0 < γ < 1, precisamos mostrar que cada<br />

passo do algoritmo aplica uma contração na função valor.<br />

O que o algoritmo <strong>de</strong> programação dinâmica para MDPs faz é essencialmente<br />

aproximar uma função, e para garantir que o algoritmo converge<br />

mostramos que cada passo <strong>de</strong>le aplica uma contração sobre V.<br />

Definição 9.3 (Sequência <strong>de</strong> Cauchy). Uma sequência <strong>de</strong> elementos em<br />

um espaço métrico é dita <strong>de</strong> Cauchy quando a distância entre dois elementos<br />

a n , a n+1 consecutivos da sequência ten<strong>de</strong> a zero quando n →<br />

∞. <br />

Definição 9.4 (Espaço <strong>de</strong> Banach). Um espaço vetorial V com uma norma<br />

é um espaço <strong>de</strong> Banach se toda sequência <strong>de</strong> Cauchy <strong>de</strong> elementos <strong>de</strong> V<br />

tem limite em V.<br />

<br />

Teorema 9.5. Seja ||.|| a norma obtida tomando o maior valor absoluto dos<br />

elementos <strong>de</strong> um vetor. R n com esta norma é um espaço <strong>de</strong> Banach.<br />

Definição 9.6 (Contração). Seja V um espaço <strong>de</strong> Banach. Um operador<br />

F : V → V é uma contração se para todos u, v ∈ V, ||Fv − Fu|| ≤ α||v − u||,<br />

com 0 ≤ α ≤ 1.<br />

<br />

Teorema 9.7. Seja V um espaço <strong>de</strong> Banach e F : V → V uma contração<br />

em V. Então F tem um único ponto fixo x ∗ tal que Fx ∗ = x ∗ . Além disso,<br />

se x 0 é um elemento qualquer <strong>de</strong> V, e x 0 , x 1 , . . . , x k uma sequência tal que<br />

x i = Fx i−1 , então esta sequência converge para x ∗ .<br />

Observamos agora que po<strong>de</strong>mos reescrever a equação <strong>de</strong> otimalida<strong>de</strong><br />

<strong>de</strong> forma a ficar claro que se trata <strong>de</strong> um operador <strong>linear</strong>.<br />

Versão Preliminar<br />

v i (s) = Hv i−1 (s)<br />

{<br />

Hv(s) = max<br />

a∈A<br />

R(s, a) + γ ∑ s ′ ∈S<br />

T(s, a, s ′ )v(s ′ )<br />

}<br />

.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!