Theoretical Neuroscience
Theoretical Neuroscience
Theoretical Neuroscience
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
356 Χλασσιχαλ Χονδιτιονινγ ανδ Ρεινφορχεµεντ Λεαρνινγ<br />
τεµ, αλσο τηε συβσεθυεντ ρεωαρδσ. Ιτ ωουλδ σεεµ τηατ τηε ανιµαλ ωουλδ<br />
ηαϖε το χονσιδερ οπτιµιζινγ ωηολε σεθυενχεσ οφ αχτιονσ, τηε νυµβερ οφ<br />
ωηιχη γροωσ εξπονεντιαλλψ ωιτη τιµε. Βελλµανσ (1957) ινσιγητ ωασ τηατ<br />
τηε Μαρκοϖ προπερτψ εφφεχτιϖελψ σολϖεσ τηισ προβλεµ. Ηε ρεωροτε εθυα−<br />
τιον 9.31 το σεπαρατε τηε ⇒ρστ ανδ συβσεθυεντ τερµσ, ανδ υσεδ α ρεχυρσιϖε<br />
πρινχιπλε φορ τηε λαττερ. Τηε Βελλµαν εθυατιον ισ<br />
{<br />
}<br />
v ∗ (υ) = µαξ<br />
α<br />
〈ρ α (υ)〉+ ∑ υ ′ Π[υ ′ |υ; α]v ∗ (υ ′ )<br />
. (9.32)<br />
Τηισ σαψσ τηατ µαξιµιζινγ ρεωαρδ ατ υ ρεθυιρεσ χηοοσινγ τηε αχτιον α τηατ<br />
µαξιµιζεσ τηε συµ οφ τηε µεαν ιµµεδιατε ρεωαρδ 〈ρ α (υ)〉 ανδ τηε αϖεραγε<br />
οφ τηε λαργεστ ποσσιβλε ϖαλυεσ οφ αλλ τηε στατεσ υ ′ το ωηιχη α χαν λεαδ τηε<br />
σψστεµ, ωειγητεδ βψ τηειρ προβαβιλιτιεσ.<br />
Πολιχψ Ιτερατιον<br />
Τηε αχτορ−χριτιχ αλγοριτηµ ισ α φορµ οφ α δψναµιχ προγραµµινγ τεχηνιθυε<br />
χαλλεδ πολιχψ ιτερατιον. Πολιχψ ιτερατιον ινϖολϖεσ ιντερλεαϖεδ στεπσ οφ πολιχψ<br />
εϖαλυατιον (υπδατινγ τηε χριτιχ) ανδ πολιχψ ιµπροϖεµεντ (υπδατινγ τηε αχ−<br />
τορ). Εϖαλυατιον οφ πολιχψ Μ ρεθυιρεσ ωορκινγ ουτ τηε ϖαλυεσ φορ αλλ στατεσ<br />
υ. Ωε χαλλ τηεσε ϖαλυεσ v Μ (υ), τορε⇓εχτ εξπλιχιτλψ τηειρ δεπενδενχε ον<br />
τηε πολιχψ. Εαχη ϖαλυε ισ αναλογουσ το τηε θυαντιτψ ιν 9.5. Υσινγ τηε σαµε<br />
αργυµεντ τηατ λεδ το τηε Βελλµαν εθυατιον, ωε χαν δεριϖε τηε ρεχυρσιϖε<br />
φορµυλα<br />
{<br />
}<br />
v Μ (υ) = ∑ α<br />
Π Μ [α; υ]<br />
〈ρ α (υ)〉+ ∑ υ ′ Π[υ ′ |υ; α]v Μ (υ ′ )<br />
. (9.33)<br />
Εθυατιον 9.33, φορ αλλ στατεσ υ, ισ α σετ οφ λινεαρ εθυατιονσ φορ v Μ (υ) τηατ<br />
χαν βε σολϖεδ βψ µατριξ ινϖερσιον. Ρεινφορχεµεντ λεαρνινγ ηασ βεεν ιντερ−<br />
πρετεδ ασ α στοχηαστιχ Μοντε Χαρλο µετηοδ φορ περφορµινγ τηισ οπερατιον.<br />
Μοντε Χαρλο<br />
µετηοδ<br />
Τεµποραλ διφφερενχε λεαρνινγ υσεσ αν αππροξιµατε Μοντε Χαρλο µετηοδ το<br />
εϖαλυατε τηε ριγητ σιδε οφ εθυατιον 9.33, ανδ υσεσ τηε διφφερενχε βετωεεν<br />
τηισ αππροξιµατιον ανδ τηε εστιµατε οφ v Μ (υ) ασ τηε πρεδιχτιον ερρορ. Τηε<br />
⇒ρστ ιδεα υνδερλψινγ τηε µετηοδ ισ τηατ ρ α (υ) + v Μ (υ ′ ) ισ α σαµπλε ωηοσε<br />
µεαν ισ εξαχτλψ τηε ριγητ σιδε οφ εθυατιον 9.33. Τηε σεχονδ ιδεα ισ βοοτ−<br />
στραππινγ, υσινγ τηε χυρρεντ εστιµατε v(υ ′ ) ιν πλαχε οφ v Μ (υ ′ ) ιν τηισ σαµ−<br />
πλε. Τηυσ ρ α (υ) + v(υ ′ ) ισ υσεδ ασ α σαµπλεδ αππροξιµατιον το v Μ (υ), ανδ<br />
δ(τ) = ρ α (υ) + v(υ ′ ) − v(υ) (9.34)<br />
ισ υσεδ ασ α σαµπλεδ αππροξιµατιον το τηε δισχρεπανχψ v Μ (υ) − v(υ),<br />
ωηιχη ισ αν αππροπριατε ερρορ µεασυρε φορ τραινινγ v(υ) το εθυαλ v Μ (υ).<br />
Εϖαλυατινγ ανδ ιµπροϖινγ πολιχιεσ φροµ συχη σαµπλεσ ωιτηουτ λεαρνινγ<br />
Π[υ ′ |υ; α] ανδ 〈ρ α (υ)〉 διρεχτλψ ισ χαλλεδ αν ασψνχηρονουσ, µοδελ−φρεε απ−<br />
προαχη το πολιχψ εϖαλυατιον. Ιτ ισ ποσσιβλε το γυαραντεε τηε χονϖεργενχε οφ