Programação Linear (e rudimentos de otimização não-linear)
Programação Linear (e rudimentos de otimização não-linear)
Programação Linear (e rudimentos de otimização não-linear)
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
notas <strong>de</strong> aula – versão 64 - Jerônimo C. Pellegrini<br />
140 CAPÍTULO 9. CONTROLE DISCRETO<br />
Um POMDP po<strong>de</strong> ser <strong>de</strong>scrito da mesma forma que um MDP, pelos<br />
conjuntos S, A e funções T, R, além <strong>de</strong>:<br />
• Ω : o conjunto <strong>de</strong> possíveis observações.<br />
• O : S × A × Ω → [0, 1] : dá a probabilida<strong>de</strong> da observação o ser<br />
recebida após a ação a ser executada em um estado s.<br />
Há dois exemplos relevantes <strong>de</strong> estatística suficiente.<br />
• Histórico completo: a sequência completa <strong>de</strong> ações, observações e<br />
recompensas <strong>de</strong>s<strong>de</strong> o primeiro momento é uma estatística suficiente.<br />
• Distribuição <strong>de</strong> probabilida<strong>de</strong>s sobre estados: o tomador <strong>de</strong> <strong>de</strong>cisões<br />
po<strong>de</strong>, também, manter uma distribuição <strong>de</strong> probabilida<strong>de</strong> sobre<br />
os estados, e atualizá-la após cada estágio.<br />
A representação <strong>de</strong> políticas para POMDPs não po<strong>de</strong> ser feita diretamente,<br />
porque seria necessário mapear uma quantida<strong>de</strong> infinita e não<br />
enumerável <strong>de</strong> distribuições em valores. Po<strong>de</strong>-se <strong>de</strong>finir, no entanto, um<br />
MDP sobre um conjunto infinito <strong>de</strong> estados <strong>de</strong> crença, e a função valor<br />
torna-se convexa e <strong>linear</strong> por partes. O número <strong>de</strong> hiperplanos usado em<br />
cada época <strong>de</strong> <strong>de</strong>cisão) é exponencial em |Ω|, e portanto a quantida<strong>de</strong> <strong>de</strong><br />
vetores para z épocas <strong>de</strong> <strong>de</strong>cisão é duplamente exponencial em z. O algoritmo<br />
<strong>de</strong> programação dinâmica, quando aplicado diretamente a POMDPs,<br />
tem complexida<strong>de</strong> <strong>de</strong> tempo O(|S||A| |Ω|z ). O problema é P-ESPAÇO completo.<br />
Há outras formas <strong>de</strong> representar políticas para POMDPs, como por exemplo<br />
controladores (autômatos <strong>de</strong> Buchi) estocásticos.<br />
Notas<br />
O problema <strong>de</strong> Programação Dinâmica foi popularizado por Richard Bellman<br />
[Bel03] e Ronald Howard [How60].<br />
O livro <strong>de</strong> Martin Puterman trata <strong>de</strong>talhadamente do problema <strong>de</strong> <strong>de</strong>cisões<br />
em sequência [Put05], inclusive a formulação como programa <strong>linear</strong>.<br />
A abordagem mo<strong>de</strong>rna para programação dinâmica envolve métodos<br />
diferentes da programação <strong>linear</strong> – Bertsekas aborda o mesmo tema,<br />
<strong>de</strong> forma diferente [Ber07] [BT96]; o livro <strong>de</strong> Sutton e Barto apresenta métodos<br />
biologicamente inspirados [SB98]; o livro <strong>de</strong> Warren Powell trata <strong>de</strong><br />
Versão Preliminar