08.02.2015 Views

Programação Linear (e rudimentos de otimização não-linear)

Programação Linear (e rudimentos de otimização não-linear)

Programação Linear (e rudimentos de otimização não-linear)

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

notas <strong>de</strong> aula – versão 64 - Jerônimo C. Pellegrini<br />

140 CAPÍTULO 9. CONTROLE DISCRETO<br />

Um POMDP po<strong>de</strong> ser <strong>de</strong>scrito da mesma forma que um MDP, pelos<br />

conjuntos S, A e funções T, R, além <strong>de</strong>:<br />

• Ω : o conjunto <strong>de</strong> possíveis observações.<br />

• O : S × A × Ω → [0, 1] : dá a probabilida<strong>de</strong> da observação o ser<br />

recebida após a ação a ser executada em um estado s.<br />

Há dois exemplos relevantes <strong>de</strong> estatística suficiente.<br />

• Histórico completo: a sequência completa <strong>de</strong> ações, observações e<br />

recompensas <strong>de</strong>s<strong>de</strong> o primeiro momento é uma estatística suficiente.<br />

• Distribuição <strong>de</strong> probabilida<strong>de</strong>s sobre estados: o tomador <strong>de</strong> <strong>de</strong>cisões<br />

po<strong>de</strong>, também, manter uma distribuição <strong>de</strong> probabilida<strong>de</strong> sobre<br />

os estados, e atualizá-la após cada estágio.<br />

A representação <strong>de</strong> políticas para POMDPs não po<strong>de</strong> ser feita diretamente,<br />

porque seria necessário mapear uma quantida<strong>de</strong> infinita e não<br />

enumerável <strong>de</strong> distribuições em valores. Po<strong>de</strong>-se <strong>de</strong>finir, no entanto, um<br />

MDP sobre um conjunto infinito <strong>de</strong> estados <strong>de</strong> crença, e a função valor<br />

torna-se convexa e <strong>linear</strong> por partes. O número <strong>de</strong> hiperplanos usado em<br />

cada época <strong>de</strong> <strong>de</strong>cisão) é exponencial em |Ω|, e portanto a quantida<strong>de</strong> <strong>de</strong><br />

vetores para z épocas <strong>de</strong> <strong>de</strong>cisão é duplamente exponencial em z. O algoritmo<br />

<strong>de</strong> programação dinâmica, quando aplicado diretamente a POMDPs,<br />

tem complexida<strong>de</strong> <strong>de</strong> tempo O(|S||A| |Ω|z ). O problema é P-ESPAÇO completo.<br />

Há outras formas <strong>de</strong> representar políticas para POMDPs, como por exemplo<br />

controladores (autômatos <strong>de</strong> Buchi) estocásticos.<br />

Notas<br />

O problema <strong>de</strong> Programação Dinâmica foi popularizado por Richard Bellman<br />

[Bel03] e Ronald Howard [How60].<br />

O livro <strong>de</strong> Martin Puterman trata <strong>de</strong>talhadamente do problema <strong>de</strong> <strong>de</strong>cisões<br />

em sequência [Put05], inclusive a formulação como programa <strong>linear</strong>.<br />

A abordagem mo<strong>de</strong>rna para programação dinâmica envolve métodos<br />

diferentes da programação <strong>linear</strong> – Bertsekas aborda o mesmo tema,<br />

<strong>de</strong> forma diferente [Ber07] [BT96]; o livro <strong>de</strong> Sutton e Barto apresenta métodos<br />

biologicamente inspirados [SB98]; o livro <strong>de</strong> Warren Powell trata <strong>de</strong><br />

Versão Preliminar

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!