19.03.2013 Views

Bayesian Reasoning and Machine Learning

Bayesian Reasoning and Machine Learning

Bayesian Reasoning and Machine Learning

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

CONTENTS CONTENTS<br />

7.9.1 Partially observable MDPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144<br />

7.9.2 Reinforcement learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144<br />

7.10 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146<br />

7.11 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146<br />

7.11.1 Sum/Max under a partial order . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146<br />

7.11.2 Junction trees for influence diagrams . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146<br />

7.11.3 Party-Friend example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147<br />

7.11.4 Chest Clinic with Decisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147<br />

7.11.5 Markov decision processes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148<br />

7.12 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148<br />

II <strong>Learning</strong> in Probabilistic Models 153<br />

8 Statistics for <strong>Machine</strong> <strong>Learning</strong> 157<br />

8.1 Representing Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157<br />

8.1.1 Categorical . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157<br />

8.1.2 Ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157<br />

8.1.3 Numerical . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157<br />

8.2 Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158<br />

8.2.1 The Kullback-Leibler Divergence KL(q|p) . . . . . . . . . . . . . . . . . . . . . . . . . 161<br />

8.2.2 Entropy <strong>and</strong> information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162<br />

8.3 Classical Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163<br />

8.4 Multivariate Gaussian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168<br />

8.4.1 Completing the square . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169<br />

8.4.2 Conditioning as system reversal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170<br />

8.4.3 Whitening <strong>and</strong> centering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171<br />

8.5 Exponential Family . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171<br />

8.5.1 Conjugate priors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172<br />

8.6 <strong>Learning</strong> distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172<br />

8.7 Properties of Maximum Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174<br />

8.7.1 Training assuming the correct model class . . . . . . . . . . . . . . . . . . . . . . . . . 175<br />

8.7.2 Training when the assumed model is incorrect . . . . . . . . . . . . . . . . . . . . . . . 175<br />

8.7.3 Maximum likelihood <strong>and</strong> the empirical distribution . . . . . . . . . . . . . . . . . . . . 176<br />

8.8 <strong>Learning</strong> a Gaussian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176<br />

8.8.1 Maximum likelihood training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176<br />

8.8.2 <strong>Bayesian</strong> inference of the mean <strong>and</strong> variance . . . . . . . . . . . . . . . . . . . . . . . . 177<br />

8.8.3 Gauss-Gamma distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179<br />

8.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179<br />

8.10 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180<br />

8.11 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180<br />

9 <strong>Learning</strong> as Inference 189<br />

9.1 <strong>Learning</strong> as Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189<br />

9.1.1 <strong>Learning</strong> the bias of a coin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189<br />

9.1.2 Making decisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190<br />

9.1.3 A continuum of parameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191<br />

9.1.4 Decisions based on continuous intervals . . . . . . . . . . . . . . . . . . . . . . . . . . 192<br />

9.2 <strong>Bayesian</strong> methods <strong>and</strong> ML-II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193<br />

9.3 Maximum Likelihood Training of Belief Networks . . . . . . . . . . . . . . . . . . . . . . . . . 194<br />

9.4 <strong>Bayesian</strong> Belief Network Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197<br />

9.4.1 Global <strong>and</strong> local parameter independence . . . . . . . . . . . . . . . . . . . . . . . . . 197<br />

9.4.2 <strong>Learning</strong> binary variable tables using a Beta prior . . . . . . . . . . . . . . . . . . . . 198<br />

9.4.3 <strong>Learning</strong> multivariate discrete tables using a Dirichlet prior . . . . . . . . . . . . . . . 200<br />

9.5 Structure learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203<br />

9.5.1 PC algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204<br />

XIV DRAFT January 9, 2013

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!