ProgramaÃ§Ã£o Linear (e rudimentos de otimizaÃ§Ã£o nÃ£o-linear)

More documents

Recommendations

Info

notas de aula – versão 64 - Jerônimo C. Pellegrini 138 CAPÍTULO 9. CONTROLE DISCRETO • F : R + × S × A → [0, 1] dá a probabilidade da próxima época de decisão acontecer antes do tempo t, sendo que o processo está no estado s e a ação a será executada. A função de recompensa é composta por duas outras, • r : S × A → R dá a recompensa imediata após uma decisão a em um estado s. • R : S × S × A → R dá a recompensa por permanecer em um estado s ′ dado que o estado anterior era s e a ação executada foi a. Como essa descrição abre a possibilidade de termos infinitas épocas de decisão em tempo finito, presumimos que para todos s ∈ S, a ∈ A, existem ε, δ > 0 tais que F(s, a, δ) ≤ 1 − ε O fator de desconto usado para horizonte infinito é α > 0, e a recompensa no tempo t é multiplicada por e −αt (o que é equivalente a usar γ t , com 0 < γ < 1). A recompensa entre duas épocas de decisão acontecendo nos tempos u k e u k+1 é s t é o estado no tempo t. { ∑ ∞ V(s) = E k=0 ∫ uk+1 u k e −αu k e −α(t−u k) R(s, s t , a)dt. [ r(s, a) + ∫ uk+1 u k ] } e −α(t−uk) R(s, s t , a)dt A recompensa R(s, a) pode ser calculada a partir de r e F. ∫ ∞ ∑ [∫ u ] R(s, a) = r(s, a) + e −αt R(s, s ′ , a)T(s, a, s ′ )dt F(du, s, a) 0 s ′ 0 Q(s ′ , t, s, a) é a probabilidade da próxima época de decisão acontecer antes do tempo t e do próximo estado ser s ′ , dado que o estado atual era s e a ação executada foi a. Q(s ′ , t, s, a) = T(s ′ , s, a)F(t, s, a). Versão Preliminar Denotamos por m(s ′ , s, a) a probabilidade do próximo estado ser s ′ dado que o estado atual é s e a ação executada é a. m(s ′ , s, a) = ∫ ∞ 0 e −αt Q(dt, s ′ , s, a)
notas de aula – versão 64 - Jerônimo C. Pellegrini 9.5. VARIANTES DE MDPS 139 A equação de otimalidade para SMDPs é mostrada a seguir. Com ela podemos usar programação dinâmica na solução destes problemas. V k (s) = max a [ R(s, a) + ∑ s ′ m(s ′ , s, a)V k+1 (s ′ ) Diversos outros métodos para solução de MDPs também funcionam para SMDPs, inclusive a formulação como programa linear. 9.5.2 Parâmetros imprecisos Suponha que alguns dos parâmetros de um MDP foram especificados com imprecisão: sabemos apenas que algumas probabilidades de transição e valores de recompensa estão situados em determinados intervalos. Um MDP especificado desta forma é chamado de “MDP com parâmetros imprecisos” (MDPIP) 9.5.3 Observabilidade parcial Em um Processo de Decisão de Markov Parcialmente Observável (POMDP 1 ), não presumimos que o tomador de decisões conhece o estado do sistema. Ele conhece apenas uma distribuição de probabilidades sobre os estados na primeira época de decisão. Depois disso, a cada época de decisão ele percebe, além de sua recompensa, uma observação vinda do ambiente (o conjunto de observações é finito). Após obter a recompensa e verificar a observação, o tomador de decisões atualiza internamente uma estatística suficiente a respeito do sistema. Esta estatística representa, de certa forma, sua crença, e é chamada de estado de informação, porque não representa o estado do sistema, e sim o estado da informação que se tem a respeito do sistema. o (observação) ambiente Versão Preliminar estimador de estados nova estatística 1 Partially Observable Markov Decision Process política ] a (ação executada)
Page 1 and 2:
notas de aula - versão 64 - Jerôn
Page 3 and 4:
Page 5 and 6:
Page 7 and 8:
Page 9 and 10:
Page 11 and 12:
Page 13 and 14:
Page 15 and 16:
Page 17 and 18:
Page 19 and 20:
Page 21 and 22:
Page 23 and 24:
Page 25 and 26:
Page 27 and 28:
Page 29 and 30:
Page 31 and 32:
Page 33 and 34:
Page 35 and 36:
Page 37 and 38:
Page 39 and 40:
Page 41 and 42:
Page 43 and 44:
Page 45 and 46:
Page 47 and 48:
Page 49 and 50:
Page 51 and 52:
Page 53 and 54:
Page 55 and 56:
Page 57 and 58:
Page 59 and 60:
Page 61 and 62:
Page 63 and 64:
Page 65 and 66:
Page 67 and 68:
Page 69 and 70:
Page 71 and 72:
Page 73 and 74:
Page 75 and 76:
Page 77 and 78:
Page 79 and 80:
Page 81 and 82:
Page 83 and 84:
Page 85 and 86:
Page 87 and 88:
Page 89 and 90:
Page 91 and 92:
Page 93 and 94:
Page 95 and 96:
Page 97 and 98: notas de aula - versão 64 - Jerôn
Page 147: notas de aula - versão 64 - Jerôn
Page 199 and 200:
Page 201 and 202:
Page 203 and 204:
Page 205 and 206:
Page 207 and 208:
Page 209 and 210:
Page 211 and 212:
show all

ProgramaÃ§Ã£o Linear (e rudimentos de otimizaÃ§Ã£o nÃ£o-linear)

Create successful ePaper yourself

Delete template?

Save as template?