Neuronale Netze - D. Kriesel
Neuronale Netze - D. Kriesel
Neuronale Netze - D. Kriesel
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Es ist für den Agenten aber nicht immer möglich, alle Informationen seines aktuellen<br />
Zustandes zu erfassen, weswegen wir den Begriff der Situation einführen müssen.<br />
Eine Situation ist ein Zustand aus Agentensicht, also nur eine mehr oder weniger gute<br />
Approximation eines Zustandes.<br />
Situationen lassen es daher nicht im Allgemeinen zu, Folgesituationen eindeutig „vorherzusagen“<br />
– selbst bei einem vollständig deterministischen System haben wir das<br />
vielleicht nicht gegeben. Wenn wir alle Zustände und die Übergänge dazwischen exakt<br />
kennen würden (also das gesamte System), wäre eine optimale Planung möglich<br />
und auch eine optimale Policy einfach findbar – (Methoden liefert z.B. die dynamische<br />
Programmierung).<br />
Wir wissen nun, dass das Reinforcement Learning eine Interaktion zwischen Agent<br />
und System mit Aktionen at und Situationen st ist. Der Agent kann nun nicht selbst<br />
feststellen, ob die aktuelle Situation gut oder schlecht ist: Genau dies ist der Grund,<br />
warum er wie eingangs bereits beschrieben von der Umwelt einen Reward erhält.<br />
In der Gridworld: Zustände sind die Orte, an denen der Agent sich befinden kann.<br />
Situationen kommen den Zuständen in der Gridworld vereinfachend gleich. Mögliche<br />
Aktionen sind nach Norden, Süden, Osten oder Westen zu gehen.<br />
Situation und Aktion können vektoriell sein, der Reward jedoch ist immer ein Skalar<br />
(im Extremfall sogar nur ein Binärwert), da das Ziel von Reinforcement Learning ist,<br />
mit sehr wenig Feedback auszukommen – ein komplizierter vektorieller Reward käme<br />
ja einem richtigen Teaching Input gleich.<br />
Im Übrigen soll ja eine Kostenfunktion minimiert werden, was aber mit einem vektoriellen<br />
Reward so nicht möglich wäre, da wir keine intuitiven Ordnungsrelationen im<br />
Mehrdimensionalen besitzen – also nicht direkt wissen, was jetzt besser oder schlechter<br />
ist.<br />
Definition C.3 (Zustand). In einem Zustand befindet sich der Agent innerhalb seiner<br />
Umwelt. Zustände enthalten jede Information über den Agent im Umweltsystem.<br />
Es ist also theoretisch möglich, aus diesem gottähnlichen Zustandswissen einen Folgezustand<br />
auf eine ausgeführte Aktion in einem deterministischen System eindeutig<br />
vorherzusagen.<br />
Definition C.4 (Situation). Situationen st (hier zum Zeitpunkt t) aus einem Situationsraum<br />
S sind das eingeschränkte, approximative Wissen des Agenten über seinen<br />
Zustand. Die Approximation (von der der Agent nicht einmal wissen kann, wie gut sie<br />
ist) macht eindeutige Vorhersagen unmöglich.