Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...
Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...
Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
In Abbildung 3.7 ist der komplette Ablauf nochmal bildlich dargestellt. Der Reinforcement Learning Agent agiert auf<br />
einem Zustand s t und führt die anhand der Vorgehensweise π gewählte Aktion a t aus und gelangt somit in Zustand<br />
s t+1 . Jedes (s t , a t )-Paar wird an das Unsupervised Learning übermittelt und der Zustand s t entsprechend seiner Aktion<br />
a t den beiden Clustern Horizontal und Vertikal zugeordnet. Anschließend wird der Schnitt beider Cluster ermittelt<br />
welcher die Menge der Transitknoten darstellt. Ist die Explorationsphase zu Ende, startet das interne Clustern bei dem<br />
alle zusammenhängende Zustände zusammengefasst und die Transitknoten miteinander verbunden werden.<br />
3.3.4 Beispielanwendung<br />
Das zuvor beschriebene Verfahren wurde nun beispielhaft auf ein Labyrinth des Exper<strong>im</strong>ents angewendet, um die Funktionsweise<br />
zu demonstrieren. Hierbei stellt Abbildung 3.8 das verwendete Labyrinth, mit den bereits geclusterten Zuständen<br />
farbig in Form von kleinen Quadraten markiert, zum einen nach Beendigung der Explorationsphase und zum<br />
anderen nach der Beendigung der Lernphase dar. Hierbei sind grüne Punkte Elemente des vertikalen Clusters, lila Punkte<br />
des horizontalen Clusters und blaue Punkte stellen Elemente des Transitclusters dar.<br />
Abbildung 3.8: Das klassische Labyrinth nach Beendigung der Explorationsphase (links) und am Ende der Lernphase<br />
mit eingezeichneten Zuständen der drei Cluster (rechts).<br />
Es ist zu sehen, dass die benötigte Strecke vom Start- zum Zielzustand in diesem Falle aus nur 12 Transitknoten<br />
(inklusive Start- und Zielzustand) besteht und somit nur diese vom Reinforcement Learning untersucht werden<br />
brauchen. Dies entspricht in diesem einfachen Beispiel allein einer Reduktion von 35 auf 12 Zuständen und sollte somit<br />
das Lernen zum einen zeitlich beschleunigen (gemessen an benötigter Zeit in ms), als auch das Lernverhalten allgemein<br />
verbessern.<br />
26