28.09.2013 Aufrufe

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Es ist für den Agenten aber nicht immer möglich, alle Informationen seines aktuellen<br />

Zustandes zu erfassen, weswegen wir den Begriff der Situation einführen müssen.<br />

Eine Situation ist ein Zustand aus Agentensicht, also nur eine mehr oder weniger gute<br />

Approximation eines Zustandes.<br />

Situationen lassen es daher nicht im Allgemeinen zu, Folgesituationen eindeutig „vorherzusagen“<br />

– selbst bei einem vollständig deterministischen System haben wir das<br />

vielleicht nicht gegeben. Wenn wir alle Zustände und die Übergänge dazwischen exakt<br />

kennen würden (also das gesamte System), wäre eine optimale Planung möglich<br />

und auch eine optimale Policy einfach findbar – (Methoden liefert z.B. die dynamische<br />

Programmierung).<br />

Wir wissen nun, dass das Reinforcement Learning eine Interaktion zwischen Agent<br />

und System mit Aktionen at und Situationen st ist. Der Agent kann nun nicht selbst<br />

feststellen, ob die aktuelle Situation gut oder schlecht ist: Genau dies ist der Grund,<br />

warum er wie eingangs bereits beschrieben von der Umwelt einen Reward erhält.<br />

In der Gridworld: Zustände sind die Orte, an denen der Agent sich befinden kann.<br />

Situationen kommen den Zuständen in der Gridworld vereinfachend gleich. Mögliche<br />

Aktionen sind nach Norden, Süden, Osten oder Westen zu gehen.<br />

Situation und Aktion können vektoriell sein, der Reward jedoch ist immer ein Skalar<br />

(im Extremfall sogar nur ein Binärwert), da das Ziel von Reinforcement Learning ist,<br />

mit sehr wenig Feedback auszukommen – ein komplizierter vektorieller Reward käme<br />

ja einem richtigen Teaching Input gleich.<br />

Im Übrigen soll ja eine Kostenfunktion minimiert werden, was aber mit einem vektoriellen<br />

Reward so nicht möglich wäre, da wir keine intuitiven Ordnungsrelationen im<br />

Mehrdimensionalen besitzen – also nicht direkt wissen, was jetzt besser oder schlechter<br />

ist.<br />

Definition C.3 (Zustand). In einem Zustand befindet sich der Agent innerhalb seiner<br />

Umwelt. Zustände enthalten jede Information über den Agent im Umweltsystem.<br />

Es ist also theoretisch möglich, aus diesem gottähnlichen Zustandswissen einen Folgezustand<br />

auf eine ausgeführte Aktion in einem deterministischen System eindeutig<br />

vorherzusagen.<br />

Definition C.4 (Situation). Situationen st (hier zum Zeitpunkt t) aus einem Situationsraum<br />

S sind das eingeschränkte, approximative Wissen des Agenten über seinen<br />

Zustand. Die Approximation (von der der Agent nicht einmal wissen kann, wie gut sie<br />

ist) macht eindeutige Vorhersagen unmöglich.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!