08.02.2015 Views

Programação Linear (e rudimentos de otimização não-linear)

Programação Linear (e rudimentos de otimização não-linear)

Programação Linear (e rudimentos de otimização não-linear)

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

notas <strong>de</strong> aula – versão 64 - Jerônimo C. Pellegrini<br />

9.5. VARIANTES DE MDPS 139<br />

A equação <strong>de</strong> otimalida<strong>de</strong> para SMDPs é mostrada a seguir. Com ela<br />

po<strong>de</strong>mos usar programação dinâmica na solução <strong>de</strong>stes problemas.<br />

V k (s) = max<br />

a<br />

[<br />

R(s, a) + ∑ s ′ m(s ′ , s, a)V k+1 (s ′ )<br />

Diversos outros métodos para solução <strong>de</strong> MDPs também funcionam<br />

para SMDPs, inclusive a formulação como programa <strong>linear</strong>.<br />

9.5.2 Parâmetros imprecisos<br />

Suponha que alguns dos parâmetros <strong>de</strong> um MDP foram especificados com<br />

imprecisão: sabemos apenas que algumas probabilida<strong>de</strong>s <strong>de</strong> transição e<br />

valores <strong>de</strong> recompensa estão situados em <strong>de</strong>terminados intervalos. Um<br />

MDP especificado <strong>de</strong>sta forma é chamado <strong>de</strong> “MDP com parâmetros imprecisos”<br />

(MDPIP)<br />

9.5.3 Observabilida<strong>de</strong> parcial<br />

Em um Processo <strong>de</strong> Decisão <strong>de</strong> Markov Parcialmente Observável (POMDP 1 ),<br />

não presumimos que o tomador <strong>de</strong> <strong>de</strong>cisões conhece o estado do sistema.<br />

Ele conhece apenas uma distribuição <strong>de</strong> probabilida<strong>de</strong>s sobre os estados<br />

na primeira época <strong>de</strong> <strong>de</strong>cisão. Depois disso, a cada época <strong>de</strong> <strong>de</strong>cisão ele<br />

percebe, além <strong>de</strong> sua recompensa, uma observação vinda do ambiente (o<br />

conjunto <strong>de</strong> observações é finito). Após obter a recompensa e verificar a<br />

observação, o tomador <strong>de</strong> <strong>de</strong>cisões atualiza internamente uma estatística<br />

suficiente a respeito do sistema. Esta estatística representa, <strong>de</strong> certa forma,<br />

sua crença, e é chamada <strong>de</strong> estado <strong>de</strong> informação, porque não representa<br />

o estado do sistema, e sim o estado da informação que se tem a respeito<br />

do sistema.<br />

o (observação)<br />

ambiente<br />

Versão Preliminar<br />

estimador<br />

<strong>de</strong> estados<br />

nova<br />

estatística<br />

1 Partially Observable Markov Decision Process<br />

política<br />

]<br />

a (ação executada)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!