04.01.2015 Views

Theoretical Neuroscience

Theoretical Neuroscience

Theoretical Neuroscience

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

356 Χλασσιχαλ Χονδιτιονινγ ανδ Ρεινφορχεµεντ Λεαρνινγ<br />

τεµ, αλσο τηε συβσεθυεντ ρεωαρδσ. Ιτ ωουλδ σεεµ τηατ τηε ανιµαλ ωουλδ<br />

ηαϖε το χονσιδερ οπτιµιζινγ ωηολε σεθυενχεσ οφ αχτιονσ, τηε νυµβερ οφ<br />

ωηιχη γροωσ εξπονεντιαλλψ ωιτη τιµε. Βελλµανσ (1957) ινσιγητ ωασ τηατ<br />

τηε Μαρκοϖ προπερτψ εφφεχτιϖελψ σολϖεσ τηισ προβλεµ. Ηε ρεωροτε εθυα−<br />

τιον 9.31 το σεπαρατε τηε ⇒ρστ ανδ συβσεθυεντ τερµσ, ανδ υσεδ α ρεχυρσιϖε<br />

πρινχιπλε φορ τηε λαττερ. Τηε Βελλµαν εθυατιον ισ<br />

{<br />

}<br />

v ∗ (υ) = µαξ<br />

α<br />

〈ρ α (υ)〉+ ∑ υ ′ Π[υ ′ |υ; α]v ∗ (υ ′ )<br />

. (9.32)<br />

Τηισ σαψσ τηατ µαξιµιζινγ ρεωαρδ ατ υ ρεθυιρεσ χηοοσινγ τηε αχτιον α τηατ<br />

µαξιµιζεσ τηε συµ οφ τηε µεαν ιµµεδιατε ρεωαρδ 〈ρ α (υ)〉 ανδ τηε αϖεραγε<br />

οφ τηε λαργεστ ποσσιβλε ϖαλυεσ οφ αλλ τηε στατεσ υ ′ το ωηιχη α χαν λεαδ τηε<br />

σψστεµ, ωειγητεδ βψ τηειρ προβαβιλιτιεσ.<br />

Πολιχψ Ιτερατιον<br />

Τηε αχτορ−χριτιχ αλγοριτηµ ισ α φορµ οφ α δψναµιχ προγραµµινγ τεχηνιθυε<br />

χαλλεδ πολιχψ ιτερατιον. Πολιχψ ιτερατιον ινϖολϖεσ ιντερλεαϖεδ στεπσ οφ πολιχψ<br />

εϖαλυατιον (υπδατινγ τηε χριτιχ) ανδ πολιχψ ιµπροϖεµεντ (υπδατινγ τηε αχ−<br />

τορ). Εϖαλυατιον οφ πολιχψ Μ ρεθυιρεσ ωορκινγ ουτ τηε ϖαλυεσ φορ αλλ στατεσ<br />

υ. Ωε χαλλ τηεσε ϖαλυεσ v Μ (υ), τορε⇓εχτ εξπλιχιτλψ τηειρ δεπενδενχε ον<br />

τηε πολιχψ. Εαχη ϖαλυε ισ αναλογουσ το τηε θυαντιτψ ιν 9.5. Υσινγ τηε σαµε<br />

αργυµεντ τηατ λεδ το τηε Βελλµαν εθυατιον, ωε χαν δεριϖε τηε ρεχυρσιϖε<br />

φορµυλα<br />

{<br />

}<br />

v Μ (υ) = ∑ α<br />

Π Μ [α; υ]<br />

〈ρ α (υ)〉+ ∑ υ ′ Π[υ ′ |υ; α]v Μ (υ ′ )<br />

. (9.33)<br />

Εθυατιον 9.33, φορ αλλ στατεσ υ, ισ α σετ οφ λινεαρ εθυατιονσ φορ v Μ (υ) τηατ<br />

χαν βε σολϖεδ βψ µατριξ ινϖερσιον. Ρεινφορχεµεντ λεαρνινγ ηασ βεεν ιντερ−<br />

πρετεδ ασ α στοχηαστιχ Μοντε Χαρλο µετηοδ φορ περφορµινγ τηισ οπερατιον.<br />

Μοντε Χαρλο<br />

µετηοδ<br />

Τεµποραλ διφφερενχε λεαρνινγ υσεσ αν αππροξιµατε Μοντε Χαρλο µετηοδ το<br />

εϖαλυατε τηε ριγητ σιδε οφ εθυατιον 9.33, ανδ υσεσ τηε διφφερενχε βετωεεν<br />

τηισ αππροξιµατιον ανδ τηε εστιµατε οφ v Μ (υ) ασ τηε πρεδιχτιον ερρορ. Τηε<br />

⇒ρστ ιδεα υνδερλψινγ τηε µετηοδ ισ τηατ ρ α (υ) + v Μ (υ ′ ) ισ α σαµπλε ωηοσε<br />

µεαν ισ εξαχτλψ τηε ριγητ σιδε οφ εθυατιον 9.33. Τηε σεχονδ ιδεα ισ βοοτ−<br />

στραππινγ, υσινγ τηε χυρρεντ εστιµατε v(υ ′ ) ιν πλαχε οφ v Μ (υ ′ ) ιν τηισ σαµ−<br />

πλε. Τηυσ ρ α (υ) + v(υ ′ ) ισ υσεδ ασ α σαµπλεδ αππροξιµατιον το v Μ (υ), ανδ<br />

δ(τ) = ρ α (υ) + v(υ ′ ) − v(υ) (9.34)<br />

ισ υσεδ ασ α σαµπλεδ αππροξιµατιον το τηε δισχρεπανχψ v Μ (υ) − v(υ),<br />

ωηιχη ισ αν αππροπριατε ερρορ µεασυρε φορ τραινινγ v(υ) το εθυαλ v Μ (υ).<br />

Εϖαλυατινγ ανδ ιµπροϖινγ πολιχιεσ φροµ συχη σαµπλεσ ωιτηουτ λεαρνινγ<br />

Π[υ ′ |υ; α] ανδ 〈ρ α (υ)〉 διρεχτλψ ισ χαλλεδ αν ασψνχηρονουσ, µοδελ−φρεε απ−<br />

προαχη το πολιχψ εϖαλυατιον. Ιτ ισ ποσσιβλε το γυαραντεε τηε χονϖεργενχε οφ

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!