31.10.2013 Aufrufe

Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...

Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...

Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

In Abbildung 3.7 ist der komplette Ablauf nochmal bildlich dargestellt. Der Reinforcement Learning Agent agiert auf<br />

einem Zustand s t und führt die anhand der Vorgehensweise π gewählte Aktion a t aus und gelangt somit in Zustand<br />

s t+1 . Jedes (s t , a t )-Paar wird an das Unsupervised Learning übermittelt und der Zustand s t entsprechend seiner Aktion<br />

a t den beiden Clustern Horizontal und Vertikal zugeordnet. Anschließend wird der Schnitt beider Cluster ermittelt<br />

welcher die Menge der Transitknoten darstellt. Ist die Explorationsphase zu Ende, startet das interne Clustern bei dem<br />

alle zusammenhängende Zustände zusammengefasst und die Transitknoten miteinander verbunden werden.<br />

3.3.4 Beispielanwendung<br />

Das zuvor beschriebene Verfahren wurde nun beispielhaft auf ein Labyrinth des Exper<strong>im</strong>ents angewendet, um die Funktionsweise<br />

zu demonstrieren. Hierbei stellt Abbildung 3.8 das verwendete Labyrinth, mit den bereits geclusterten Zuständen<br />

farbig in Form von kleinen Quadraten markiert, zum einen nach Beendigung der Explorationsphase und zum<br />

anderen nach der Beendigung der Lernphase dar. Hierbei sind grüne Punkte Elemente des vertikalen Clusters, lila Punkte<br />

des horizontalen Clusters und blaue Punkte stellen Elemente des Transitclusters dar.<br />

Abbildung 3.8: Das klassische Labyrinth nach Beendigung der Explorationsphase (links) und am Ende der Lernphase<br />

mit eingezeichneten Zuständen der drei Cluster (rechts).<br />

Es ist zu sehen, dass die benötigte Strecke vom Start- zum Zielzustand in diesem Falle aus nur 12 Transitknoten<br />

(inklusive Start- und Zielzustand) besteht und somit nur diese vom Reinforcement Learning untersucht werden<br />

brauchen. Dies entspricht in diesem einfachen Beispiel allein einer Reduktion von 35 auf 12 Zuständen und sollte somit<br />

das Lernen zum einen zeitlich beschleunigen (gemessen an benötigter Zeit in ms), als auch das Lernverhalten allgemein<br />

verbessern.<br />

26

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!