ProgramaÃ§Ã£o Linear (e rudimentos de otimizaÃ§Ã£o nÃ£o-linear)

More documents

Recommendations

Info

notas de aula – versão 64 - Jerônimo C. Pellegrini 140 CAPÍTULO 9. CONTROLE DISCRETO Um POMDP pode ser descrito da mesma forma que um MDP, pelos conjuntos S, A e funções T, R, além de: • Ω : o conjunto de possíveis observações. • O : S × A × Ω → [0, 1] : dá a probabilidade da observação o ser recebida após a ação a ser executada em um estado s. Há dois exemplos relevantes de estatística suficiente. • Histórico completo: a sequência completa de ações, observações e recompensas desde o primeiro momento é uma estatística suficiente. • Distribuição de probabilidades sobre estados: o tomador de decisões pode, também, manter uma distribuição de probabilidade sobre os estados, e atualizá-la após cada estágio. A representação de políticas para POMDPs não pode ser feita diretamente, porque seria necessário mapear uma quantidade infinita e não enumerável de distribuições em valores. Pode-se definir, no entanto, um MDP sobre um conjunto infinito de estados de crença, e a função valor torna-se convexa e linear por partes. O número de hiperplanos usado em cada época de decisão) é exponencial em |Ω|, e portanto a quantidade de vetores para z épocas de decisão é duplamente exponencial em z. O algoritmo de programação dinâmica, quando aplicado diretamente a POMDPs, tem complexidade de tempo O(|S||A| |Ω|z ). O problema é P-ESPAÇO completo. Há outras formas de representar políticas para POMDPs, como por exemplo controladores (autômatos de Buchi) estocásticos. Notas O problema de Programação Dinâmica foi popularizado por Richard Bellman [Bel03] e Ronald Howard [How60]. O livro de Martin Puterman trata detalhadamente do problema de decisões em sequência [Put05], inclusive a formulação como programa linear. A abordagem moderna para programação dinâmica envolve métodos diferentes da programação linear – Bertsekas aborda o mesmo tema, de forma diferente [Ber07] [BT96]; o livro de Sutton e Barto apresenta métodos biologicamente inspirados [SB98]; o livro de Warren Powell trata de Versão Preliminar
notas de aula – versão 64 - Jerônimo C. Pellegrini 9.5. VARIANTES DE MDPS 141 métodos para a resolução de grandes problemas de programação dinâmica [Pow11]. O livro de Robert Stengel é uma boa introdução à Teoria do Controle Ótimo [Ste94], também indicado ao leitor interessado no assunto. O algoritmo de programação dinâmica, elaborado para resolver um problemas de Controle Ótimo, mostrou-se útil também em outros contextos, tornando-se tópico obrigatório de estudo em Ciência da Computação [Cor+09; DPV06]. Os SMDPs foram estudados inicialmente por W. S. Jewell [Jew63], Howard [How71] e deCani [Can64], e são discutidos nos livros de Martin Puterman [Put05] e de Dimitri Bertsekas [Ber07]. A demonstração de que o problema de resolver POMDPs é P-ESPAÇOdifícil foi dada por Christos Papadimitriou e John Tsitsiklis [PT87]. MDPIPs são discutidos em diversos artigos [SL70; IE94; Fil+07], e há também POMDPs com parâmetros imprecisos, chamados de POMDPIPs [IN07]. Exercícios Ex. 64 — Implemente o algoritmo de programação dinâmica para o problema da mochila. Ex. 65 — Implemente o algoritmo de programação dinâmica para MDPs. Ex. 66 — Se os pesos w i e a capacidade C em uma instância do problema da mochila são todos muito grandes, é possível reescrever o problema de forma que exija tempo de execução menor do algoritmo de programação dinâmica Ex. 67 — Mostre como resolver as seguintes do problema da mochila usando programação dinâmica (k ∈ N é parâmetro de entrada): i) que funcione permitindo repetição de itens; ii) que permita até k itens do mesmo tipo; iii) que permita que até 1/k do peso total seja de itens do mesmo tipo; iv) que permita que até 1/k do valor total seja de itens do mesmo tipo. Versão Preliminar v) que maximize a quantidade de itens, e não seus valores. Diga como fica a complexidade de cada um dos seus algoritmos. Ex. 68 — Tente formular os algoritmos do Exercício 67 como programas lineares.
Page 1 and 2:
notas de aula - versão 64 - Jerôn
Page 3 and 4:
Page 5 and 6:
Page 7 and 8:
Page 9 and 10:
Page 11 and 12:
Page 13 and 14:
Page 15 and 16:
Page 17 and 18:
Page 19 and 20:
Page 21 and 22:
Page 23 and 24:
Page 25 and 26:
Page 27 and 28:
Page 29 and 30:
Page 31 and 32:
Page 33 and 34:
Page 35 and 36:
Page 37 and 38:
Page 39 and 40:
Page 41 and 42:
Page 43 and 44:
Page 45 and 46:
Page 47 and 48:
Page 49 and 50:
Page 51 and 52:
Page 53 and 54:
Page 55 and 56:
Page 57 and 58:
Page 59 and 60:
Page 61 and 62:
Page 63 and 64:
Page 65 and 66:
Page 67 and 68:
Page 69 and 70:
Page 71 and 72:
Page 73 and 74:
Page 75 and 76:
Page 77 and 78:
Page 79 and 80:
Page 81 and 82:
Page 83 and 84:
Page 85 and 86:
Page 87 and 88:
Page 89 and 90:
Page 91 and 92:
Page 93 and 94:
Page 95 and 96:
Page 97 and 98:
Page 99 and 100: notas de aula - versão 64 - Jerôn
Page 149: notas de aula - versão 64 - Jerôn
Page 201 and 202:
Page 203 and 204:
Page 205 and 206:
Page 207 and 208:
Page 209 and 210:
Page 211 and 212:
show all

ProgramaÃ§Ã£o Linear (e rudimentos de otimizaÃ§Ã£o nÃ£o-linear)

Create successful ePaper yourself

Delete template?

Save as template?