12.07.2015 Aufrufe

Übersicht Reinforcement Learning Betrachtete Agententypen ...

Übersicht Reinforcement Learning Betrachtete Agententypen ...

Übersicht Reinforcement Learning Betrachtete Agententypen ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Beispiel-2: Passives <strong>Reinforcement</strong> <strong>Learning</strong>(a) gibt die Politik an (Zustandsübergangsmodell ist unbekannt)(b) die aufgrund der 3 Beispielsequenzen unten gelernten NützlichkeitenBasisüberlegungen• falls Zustandsübergangsmodell unbekannt, kann esleicht gelernt werden: durch Auszählen der Zustandsübergängefür jeden Zustand, z.B. im Beispiel-2:• von Zustand (1,2) nach (1,3) in 3 von 3 Fällen (100%)• von Zustand (1,3) nach (1,2) in 1 von 3 Fällen (33%)• von Zustand (1,3) nach (2,3) in 2 von 3 Fällen (67%)• Die Belohnung in einem Zustand ist die direkte Belohnungdes Zustandes + die zukünftige Belohnung unter derAnnahme einer bestimmten Politik. Dabei wird davonausgegangen, das die direkte Belohnung in jedem Zustandwahrnehmbar ist:Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 7Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 8Vorgehensweisen zum LernenBasisalgorithmus:Der Agent aktualisiert mit jeder Trainingssequenz die erwartetenNützlichkeiten der betroffenen Zustände. Dabei gibt esverschiedene Möglichkeiten:• Direkte Nützlichkeitsschätzung• Adaptives dynamisches Programmieren• Zeitliches DifferenzlernenDatenstrukturen:U: Tabelle der aktuellen Nützlichkeitswerte aller ZuständeN: Tabelle der Häufigkeiten aller ZuständeM: Tabelle der Übergangswahrscheinlichkeiten zwischen denZuständenKünstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 9Direkte NützlichkeitsschätzungIn einer Trainingssequenz werden für alle Zustände der Sequenzihre beobachteten Nützlichkeiten rückwärts berechnet.Diese werden entsprechend der Häufigkeit der Zustände über alleTrainingssequenzen gewichtet und daraus die Gesamtnützlichkeitdes Zustandes berechnet.Aus Beispiel-1:Zustand (1,1) kommt in erster Sequenz 2 Mal mit jeweils -1 vor,insgesamt: Häufigkeit: 12; Summe: -2, Bewertung = -0,167Zustand (1,2): Häufigkeit: 10; Summe: -2, Bewertung = -0,2Zustand (1,3): Häufigkeit: 6; Summe: 0, Bewertung = 0Problem: Der Algorithmus berücksichtigt nicht das Wissen überÜbergangswahrscheinlichkeiten zwischen den Zuständen undkonvergiert deswegen extrem langsam, z.B. müsste Zustand (1,2)in der Mitte zwischen Zustand (1,1) und (1,3) liegen!Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 10Ergebnisse für Beispiel-1Schwäche der direkten NützlichkeitsschätzungIllustratives Beispiel für Schwäche der direktenNützlichkeitsschätzung: Der neue Knoten NEW wirdaufgrund einer Epoche entlang des gestrichelten Pfadesbewertet und bekommt daher die Bewertung +1, obwohlbereits bekannt ist, das der Knoten OLD, der die gleicheBewertung wie NEW haben muss, die Bewertung -0,8 hat.Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 11Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 12

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!