ProgramaÃ§Ã£o Linear (e rudimentos de otimizaÃ§Ã£o nÃ£o-linear)

More documents

Recommendations

Info

notas de aula – versão 64 - Jerônimo C. Pellegrini 134 CAPÍTULO 9. CONTROLE DISCRETO longo do tempo (a minimização de uma função). Esta é uma instância de um problema mais geral, chamado de processo Markoviano de decisão. s (novo estado) ambiente política a (ação executada) Definição 9.2 (Processo Markoviano de Decisão). Um processo Markoviano de decisão consiste de um sistema com estado interno, um agente controlador, uma função de transição para o próximo estado e uma função que dá a recompensa para cada estado. Define-se o processo Markoviano de decisão, então, por (S, A, T, R), onde S é o conjunto de possíveis estados do sistema; A é o conjunto de possíveis ações (ou “controles”); T : S × A × S → [0, 1] é a função de transição: T(s, a, s ′ ) dá a probabilidade do sistema passar ao estado s ′ dado que estava no estado s e a ação a foi executada; R : S → R é a função recompensa: R(s) é a recompensa por estar no estado s. Também se deve associar ao problema um horizonte h, que consiste no número de decisões a serem tomadas e um critério de otimalidade, que determina o que se quer otimizar ao longo das épocas de decisão. Este processo de decisões em sequência é chamado de Markoviano porque a decisão tomada em um dado momento depende apenas do estado do sistema naquele momento, e não das decisões ou estados anteriores – esta é a propriedade de Markov. Ao definirmos um critério de otimalidade, definimos um valor para cada estado s em cada época de decisão k, que denotamos v k (s), de forma que em cada decisão a melhor ação é aquela que maximiza o critério de otimalidade. Por exemplo, podemos decidir maximizar a recompensa média nas épocas de decisão (1/z ∑ t V t(s)) – ou a recompensa total, ∑ t V t(s), e neste último caso os valores de cada estado serão ótimos quando V t (s) = max Versão Preliminar a∈A { R(s) + ∑ s ′ ∈S T(s, a, s ′ )V t+1 (s ′ ) Note que esta equação pode ser usada diretamente na elaboração de um algoritmo recursivo para a solução do problema: parte-se de v z (s) e calculase os valores da época anterior, até chegar à primeira época. }
notas de aula – versão 64 - Jerônimo C. Pellegrini 9.3. FORMULAÇÃO COMO PROGRAMA LINEAR 135 9.3 Formulação como Programa Linear Embora a equação do princípio da otimalidade já seja ela mesma a expressão de um algoritmo recursivo para a resolução do problema, ele pode também ser modelado como programa linear. { V t (s) = max R(s, a) + T(s, a, s ′ )V t+1 (s ′ ) } a A equação de Bellman determina o valor ótimo que queremos. De todos os valores maiores ou iguais a este ótimo, tomamos então o menor. Daí temos as restrições V t (s) ≥ R(s, a) + V t+1 (T(s, a)), e extraímos agora o mínimo: basta definir então o problema de minimização min ∑ V t (s) t,s s.a. : V t (s) ≥ R(s, a) + T(s, a, s ′ )V t+1 (s ′ ) O programa linear, no entanto, teria |S|×|A|×z restrições, e |S|×z variáveis, onde z é o horizonte (o número de estágios). O dual teria |S| × z restrições. Para horizontes muito longos, este método não é bom. 9.4 Horizonte infinito e convergência Podemos estender estas noções para horizonte infinito. Claramente, não é possível usar o critério de otimalidade da recompensa total, porque o somatório não necessariamente convergiria. Podemos, no entanto, multiplicar a decisão na época k por γ k , com 0 < γ < 1, garantindo assim que o problema continuará tendo solução. A interpretação deste fator é a seguinte: valorizamos mais as recompensas obtidas num horizonte mais próximo e menos aquelas obtidas em um horizonte distante. Este critério de otimalidade é o da recompensa total esperada, e nos leva à seguinte versão da equação de Bellman. { } v(s) = max a∈A R(s) + γ ∑ s ′ ∈S T(s, a, s ′ )v(s ′ ) Versão Preliminar Sua formulação como programa linear é min ∑ V(s) s s.a. : V(s) ≥ R(s, a) + T(s, a, s ′ )V(s ′ ) .
Page 1 and 2:
notas de aula - versão 64 - Jerôn
Page 3 and 4:
Page 5 and 6:
Page 7 and 8:
Page 9 and 10:
Page 11 and 12:
Page 13 and 14:
Page 15 and 16:
Page 17 and 18:
Page 19 and 20:
Page 21 and 22:
Page 23 and 24:
Page 25 and 26:
Page 27 and 28:
Page 29 and 30:
Page 31 and 32:
Page 33 and 34:
Page 35 and 36:
Page 37 and 38:
Page 39 and 40:
Page 41 and 42:
Page 43 and 44:
Page 45 and 46:
Page 47 and 48:
Page 49 and 50:
Page 51 and 52:
Page 53 and 54:
Page 55 and 56:
Page 57 and 58:
Page 59 and 60:
Page 61 and 62:
Page 63 and 64:
Page 65 and 66:
Page 67 and 68:
Page 69 and 70:
Page 71 and 72:
Page 73 and 74:
Page 75 and 76:
Page 77 and 78:
Page 79 and 80:
Page 81 and 82:
Page 83 and 84:
Page 85 and 86:
Page 87 and 88:
Page 89 and 90:
Page 91 and 92:
Page 93 and 94: notas de aula - versão 64 - Jerôn
Page 143: notas de aula - versão 64 - Jerôn
Page 195 and 196:
Page 197 and 198:
Page 199 and 200:
Page 201 and 202:
Page 203 and 204:
Page 205 and 206:
Page 207 and 208:
Page 209 and 210:
Page 211 and 212:
show all

ProgramaÃ§Ã£o Linear (e rudimentos de otimizaÃ§Ã£o nÃ£o-linear)

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?