ProgramaÃ§Ã£o Linear (e rudimentos de otimizaÃ§Ã£o nÃ£o-linear)

More documents

Recommendations

Info

notas de aula – versão 64 - Jerônimo C. Pellegrini 136 CAPÍTULO 9. CONTROLE DISCRETO O programa linear tem |S| variáveis e |S| 2 |A| restrições. Da mesma forma que com horizonte finito, podemos extrair da equação de otimalidade um algoritmo recursivo. Partimos de um ponto qualquer e calculamos os valores da época anterior até que os valores entre duas iterações estejam suficientemente próximos. 9.4.1 Convergência Para demonstrar que o algoritmo de programação dinâmica converge para MDPs de horizonte infinito com 0 < γ < 1, precisamos mostrar que cada passo do algoritmo aplica uma contração na função valor. O que o algoritmo de programação dinâmica para MDPs faz é essencialmente aproximar uma função, e para garantir que o algoritmo converge mostramos que cada passo dele aplica uma contração sobre V. Definição 9.3 (Sequência de Cauchy). Uma sequência de elementos em um espaço métrico é dita de Cauchy quando a distância entre dois elementos a n , a n+1 consecutivos da sequência tende a zero quando n → ∞. Definição 9.4 (Espaço de Banach). Um espaço vetorial V com uma norma é um espaço de Banach se toda sequência de Cauchy de elementos de V tem limite em V. Teorema 9.5. Seja ||.|| a norma obtida tomando o maior valor absoluto dos elementos de um vetor. R n com esta norma é um espaço de Banach. Definição 9.6 (Contração). Seja V um espaço de Banach. Um operador F : V → V é uma contração se para todos u, v ∈ V, ||Fv − Fu|| ≤ α||v − u||, com 0 ≤ α ≤ 1. Teorema 9.7. Seja V um espaço de Banach e F : V → V uma contração em V. Então F tem um único ponto fixo x ∗ tal que Fx ∗ = x ∗ . Além disso, se x 0 é um elemento qualquer de V, e x 0 , x 1 , . . . , x k uma sequência tal que x i = Fx i−1 , então esta sequência converge para x ∗ . Observamos agora que podemos reescrever a equação de otimalidade de forma a ficar claro que se trata de um operador linear. Versão Preliminar v i (s) = Hv i−1 (s) { Hv(s) = max a∈A R(s, a) + γ ∑ s ′ ∈S T(s, a, s ′ )v(s ′ ) } .
notas de aula – versão 64 - Jerônimo C. Pellegrini 9.5. VARIANTES DE MDPS 137 Teorema 9.8. O operador H é uma contração em R n com a norma ||v|| = max i |v i |. Demonstração. Sejam u, v ∈ R n duas funções valor, com Hu(s) ≥ Hv(s). Seja a ∗ s uma ação ótima para a função valor v – ou seja, Então { a ∗ s ∈ arg max R(s, a) + γ ∑ } T(s, a, s ′ )v(s ′ ) . a Lv(s) − Lu(s) ≤ R(s, a ∗ s) + ∑ γT(s, a, s ′ )v(s ′ ) − R(s, a ∗ s) + ∑ γT(s, a, s ′ )u(s ′ ) = γ ∑ s ′ T(s, a, s ′ )(v(s) − u(s)) ≤ γ ∑ s ′ T(s, a, s ′ )||v − u|| = γ||v − u|| ≤ ||v − u||. Pode-se definir diferentes critérios de otimalidade, como minimizar a variância da recompensa, sujeitando a solução a uma recompensa média mínima, ou minimizar a recompensa média, limitando a variância da recompensa. 9.5 Variantes de MDPs Esta seção discute algumas variantes de MDPs, sem no entanto detalhar os métodos para sua resolução. A Seção de Notas ao final do Capítulo traz indicações de leitura adicional para o leitor interessado. 9.5.1 Tempo contínuo Pode-se definir MPDs em tempo contínuo, mas com estados e ações discretos. Os conjuntos de estados e ações (S e A) e a função de transição T em um SMDP são semelhantes às de um MDP. Versão Preliminar • R : S × A → R é composta de duas outras funções;
Page 1 and 2:
notas de aula - versão 64 - Jerôn
Page 3 and 4:
Page 5 and 6:
Page 7 and 8:
Page 9 and 10:
Page 11 and 12:
Page 13 and 14:
Page 15 and 16:
Page 17 and 18:
Page 19 and 20:
Page 21 and 22:
Page 23 and 24:
Page 25 and 26:
Page 27 and 28:
Page 29 and 30:
Page 31 and 32:
Page 33 and 34:
Page 35 and 36:
Page 37 and 38:
Page 39 and 40:
Page 41 and 42:
Page 43 and 44:
Page 45 and 46:
Page 47 and 48:
Page 49 and 50:
Page 51 and 52:
Page 53 and 54:
Page 55 and 56:
Page 57 and 58:
Page 59 and 60:
Page 61 and 62:
Page 63 and 64:
Page 65 and 66:
Page 67 and 68:
Page 69 and 70:
Page 71 and 72:
Page 73 and 74:
Page 75 and 76:
Page 77 and 78:
Page 79 and 80:
Page 81 and 82:
Page 83 and 84:
Page 85 and 86:
Page 87 and 88:
Page 89 and 90:
Page 91 and 92:
Page 93 and 94:
Page 95 and 96: notas de aula - versão 64 - Jerôn
Page 145: notas de aula - versão 64 - Jerôn
Page 197 and 198:
Page 199 and 200:
Page 201 and 202:
Page 203 and 204:
Page 205 and 206:
Page 207 and 208:
Page 209 and 210:
Page 211 and 212:
show all

ProgramaÃ§Ã£o Linear (e rudimentos de otimizaÃ§Ã£o nÃ£o-linear)

Create successful ePaper yourself

Delete template?

Save as template?