Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...
Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...
Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
3.3 Unsupervised Learning<br />
Wie zuvor in der Einleitung erwähnt behandelt das Unsupervised Learning das Problem, versteckte Strukturen in Eingabedaten<br />
<strong>wie</strong>derzufinden oder die mit den Daten verbundene Problemd<strong>im</strong>ension zu verringern. Dabei findet keine<br />
Fehlerkorrektur statt sondern es werden Kriterien festgelegt anhand dessen die Daten einer Struktur zugeordnet oder<br />
reduziert werden.<br />
Die Intention des Unsupervised Learnings <strong>im</strong> Rahmen des gegebenen Problemszenarios besteht darin, die Komplexität<br />
des Labyrinths auf markante (Zustand, Aktion)-Paare zu reduzieren und somit potenzielle Fehlentscheidungen zu verhindern<br />
was den Lernprozess beschleunigt. Hierzu wurde die folgende Methode entworfen um das Clustering von Gängen<br />
innerhalb des Labyrinths zu ermöglichen.<br />
3.3.1 Herleitung der Idee<br />
Begeht man ein Labyrinth so ist intuitiv klar, wann es in Frage kommt die Richtung zu wechseln – nämlich genau dann,<br />
wenn man an einer Kreuzung oder Ecke vorbei kommt, denn erst dann besteht überhapt die Möglichkeit von gehe nach<br />
Norden zu gehe nach Süden, gehe nach Westen oder gehe nach Osten zu wechseln. Befindet man sich inmitten eines Ganges,<br />
in dem es nur vor oder zurück geht, so sollte man in der Regel nicht auf den Gedanken kommen gegen eine Wand laufen<br />
zu wollen und der einzige Richtungswechsel welcher in Frage kommt ist das Inverse zur jetzigen, das zurück gehen.<br />
Für einen Reinforcement Learning Agenten ist das hingegen nicht so leicht, schließlich ist er ja gewillt das Labyrinth zu<br />
erkunden und hat zu Beginn keine Ahnung wohin ihn ein (Status, Aktion)-Paar bringen wird und versucht entsprechend<br />
öfters mit dem Kopf durch die Wand zu gehen.<br />
Betrachtet man ein Labyrinth hingegen von oben so wird man sich deren möglicherweise vorhandenen Gänge und dessen<br />
Kreuzungen und Ecken bewusst und kann schnell entscheiden an welchen Ecken eine Entscheidung möglich ist, denn<br />
abstrakt betrachtet stellt ein Labyrinth einen gerichteten Graphen dar, wobei die Zustände die Knoten und die Aktionen<br />
die Kanten zu den Folgeknoten darstellen. Betrachten wir nun also Abbildung 3.4 welches oben ein Labyrinth samt Übergänge<br />
darstellt so<strong>wie</strong> darunter den dazugehörigen Zustandsübergangsgraph des Labyrinths aufweist.<br />
Hinweis: Hierbei sei allerdings angemerkt das Aktionen, welche in einem nicht definierten Zustand oder einer Mauer landen,<br />
zur besseren Lesbarkeit nicht eingezeichnet wurden – sie sind aber nichts desto trotz vorhanden und stellen eine Schleife zum<br />
jeweiligen Zustand dar. So ergäbe zum Beispiel (S 0 , ↑) als Folgezustand <strong>wie</strong>der S 0 .<br />
S0 S1 S2<br />
S3<br />
S4 S5 S6<br />
S7<br />
S8 S9 S10<br />
S11<br />
S0 S1 S2 S3<br />
S4 S5 S6 S7<br />
S8 S9 S10 S11<br />
Abbildung 3.4: Labyrinth und dazu gehöriger Zustandsübergangsgraph. Spieler in, Ziel in lila.<br />
Um also von Grün zu Lila zu gelangen ist die Menge der Aktionen der Reihe nach: {→, →, →, ↓, ↓, ←, ←, ←}. Eine<br />
wichtige Beobachtung hierbei ist das wir in Zustand S 3 und Zustand S 11 einen Richtungswechsel vornehmen können<br />
und in diesem Fall sogar müssen. Diese besonderen Knoten sind <strong>im</strong> Folgenden als Transit(-knoten) bezeichnet. Ein<br />
Transitknoten ist hierbei als ein Knoten definiert, bei dem ein Richtungswechsel von horizontal zu vertikal (oder<br />
umgedreht) <strong>im</strong> Verlauf des Spielverlaufs stattgefunden hat. Des Weiteren wird der Start- so<strong>wie</strong> Endknoten auch als<br />
Transit definiert. Die Intuition besagt nun, dass in der obigen Aktionsmenge die Aktionsfolge {→, →, →} zu einer<br />
einzelnen Aktion → zusammengefasst werden kann, da die Aktion → genau so lange Sinn macht, bis wir einen<br />
22