31.10.2013 Aufrufe

Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...

Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...

Können Lernalgorithmen interagieren wie im Gehirn? - Intelligent ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

3.3 Unsupervised Learning<br />

Wie zuvor in der Einleitung erwähnt behandelt das Unsupervised Learning das Problem, versteckte Strukturen in Eingabedaten<br />

<strong>wie</strong>derzufinden oder die mit den Daten verbundene Problemd<strong>im</strong>ension zu verringern. Dabei findet keine<br />

Fehlerkorrektur statt sondern es werden Kriterien festgelegt anhand dessen die Daten einer Struktur zugeordnet oder<br />

reduziert werden.<br />

Die Intention des Unsupervised Learnings <strong>im</strong> Rahmen des gegebenen Problemszenarios besteht darin, die Komplexität<br />

des Labyrinths auf markante (Zustand, Aktion)-Paare zu reduzieren und somit potenzielle Fehlentscheidungen zu verhindern<br />

was den Lernprozess beschleunigt. Hierzu wurde die folgende Methode entworfen um das Clustering von Gängen<br />

innerhalb des Labyrinths zu ermöglichen.<br />

3.3.1 Herleitung der Idee<br />

Begeht man ein Labyrinth so ist intuitiv klar, wann es in Frage kommt die Richtung zu wechseln – nämlich genau dann,<br />

wenn man an einer Kreuzung oder Ecke vorbei kommt, denn erst dann besteht überhapt die Möglichkeit von gehe nach<br />

Norden zu gehe nach Süden, gehe nach Westen oder gehe nach Osten zu wechseln. Befindet man sich inmitten eines Ganges,<br />

in dem es nur vor oder zurück geht, so sollte man in der Regel nicht auf den Gedanken kommen gegen eine Wand laufen<br />

zu wollen und der einzige Richtungswechsel welcher in Frage kommt ist das Inverse zur jetzigen, das zurück gehen.<br />

Für einen Reinforcement Learning Agenten ist das hingegen nicht so leicht, schließlich ist er ja gewillt das Labyrinth zu<br />

erkunden und hat zu Beginn keine Ahnung wohin ihn ein (Status, Aktion)-Paar bringen wird und versucht entsprechend<br />

öfters mit dem Kopf durch die Wand zu gehen.<br />

Betrachtet man ein Labyrinth hingegen von oben so wird man sich deren möglicherweise vorhandenen Gänge und dessen<br />

Kreuzungen und Ecken bewusst und kann schnell entscheiden an welchen Ecken eine Entscheidung möglich ist, denn<br />

abstrakt betrachtet stellt ein Labyrinth einen gerichteten Graphen dar, wobei die Zustände die Knoten und die Aktionen<br />

die Kanten zu den Folgeknoten darstellen. Betrachten wir nun also Abbildung 3.4 welches oben ein Labyrinth samt Übergänge<br />

darstellt so<strong>wie</strong> darunter den dazugehörigen Zustandsübergangsgraph des Labyrinths aufweist.<br />

Hinweis: Hierbei sei allerdings angemerkt das Aktionen, welche in einem nicht definierten Zustand oder einer Mauer landen,<br />

zur besseren Lesbarkeit nicht eingezeichnet wurden – sie sind aber nichts desto trotz vorhanden und stellen eine Schleife zum<br />

jeweiligen Zustand dar. So ergäbe zum Beispiel (S 0 , ↑) als Folgezustand <strong>wie</strong>der S 0 .<br />

S0 S1 S2<br />

S3<br />

S4 S5 S6<br />

S7<br />

S8 S9 S10<br />

S11<br />

S0 S1 S2 S3<br />

S4 S5 S6 S7<br />

S8 S9 S10 S11<br />

Abbildung 3.4: Labyrinth und dazu gehöriger Zustandsübergangsgraph. Spieler in, Ziel in lila.<br />

Um also von Grün zu Lila zu gelangen ist die Menge der Aktionen der Reihe nach: {→, →, →, ↓, ↓, ←, ←, ←}. Eine<br />

wichtige Beobachtung hierbei ist das wir in Zustand S 3 und Zustand S 11 einen Richtungswechsel vornehmen können<br />

und in diesem Fall sogar müssen. Diese besonderen Knoten sind <strong>im</strong> Folgenden als Transit(-knoten) bezeichnet. Ein<br />

Transitknoten ist hierbei als ein Knoten definiert, bei dem ein Richtungswechsel von horizontal zu vertikal (oder<br />

umgedreht) <strong>im</strong> Verlauf des Spielverlaufs stattgefunden hat. Des Weiteren wird der Start- so<strong>wie</strong> Endknoten auch als<br />

Transit definiert. Die Intuition besagt nun, dass in der obigen Aktionsmenge die Aktionsfolge {→, →, →} zu einer<br />

einzelnen Aktion → zusammengefasst werden kann, da die Aktion → genau so lange Sinn macht, bis wir einen<br />

22

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!