21.12.2012 Aufrufe

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

4.2 Das Verhalten des ANTS 93<br />

trie im Aufbrechverhalten auf die zeitliche Struktur des Datensatzes zurückzuführen<br />

sein. Insbesondere die dynamische Kopplung, die im kombinierten Modell für b und<br />

c stattfindet, zeigt, dass die stark unterschiedlichen Lebensdauern diese Unsymmetrie<br />

verursachen.<br />

In (c) wurde dasselbe Annealing-Schema für ein ANTS-Training mit 50 Prozent aller<br />

Daten wiederholt (vgl. den α-Stumpf in Abb. 49). Bereits diese relativ schwache Datenselektion<br />

reicht aus, um die beiden sehr unterschiedlichen Lebensdauern der Daten<br />

anzugleichen. Man beobachtet qualitativ wieder das gleiche symmetrische Aufspaltungsmuster<br />

wie in (a).<br />

Zwar ist, wie am Ende <strong>von</strong> Kapitel 2 angesprochen, das in Abb. 50b beobachtete<br />

Aufbrechverhalten hier nicht vollständig quantifizierbar, doch kann die Aufhebung der<br />

unsymmetrischen Aufspaltung – die allein auf die Existenz <strong>von</strong> zwei sehr unterschiedlichen<br />

Zeitskalen im System zurückzuführen ist – als Beweis für die unterschiedliche,<br />

an die Daten angepasste Lebensdauerkompression gewertet werden.<br />

4.2.5 Zusammenfassung und Diskussion<br />

Mit Einführung der selbstreferentiellen Datenselektion durch f(xt; θ(t)) kann, wie das<br />

letzte Beispiel gezeigt hat, selbst ein Datenstrom, in dem sehr unterschiedliche Systemzeitskalen<br />

enthalten sind, <strong>von</strong> einem aufmerksamen MVNN gelernt werden, ohne<br />

dass die hierarchischen Aspekte der Dichteschätzung vollständig verlorengehen. Der<br />

ANTS passt dabei die statistischen Gewichte im System durch den Mechanismus seiner<br />

Aufmerksamkeitsschwelle so an, dass sehr häufig vorkommende Cluster stärker abgeschwächt<br />

werden als seltene. Dadurch erscheinen ihm auch ihre Lebensdauern verkürzt,<br />

und der on-line Datenstrom wird quasi randomisiert.<br />

Diese Quasi-Randomisierung führt dazu, dass in einem wesentlich größeren Parameterbereich<br />

dynamisch entkoppelt gelernt werden kann. Mit dem ANTS ist also ein Algorithmus<br />

gegeben, der eine wesentliche Fähigkeit zum on-line Lernen besitzt, nämlich<br />

selbst auf die Zeitskalen im System zu reagieren.<br />

Versucht man, wie in Abb. 36 den Parameterweg des ANTS darzustellen, bekommt<br />

man effektiv mehrere Wege. Da die Näherung (4-17) für verschiedene Cluster verschieden<br />

gültig ist, bekommen die Neuronen, die für verschiedene Cluster zuständig<br />

sind, unterschiedliche effektive Lernraten ε 〈f ar〉 X . Diese Unterschiede in den Lernraten<br />

sind der unterschiedlich starken Gewichtskompression äquivalent. Es sind nun<br />

Phasenübergänge möglich, die auf sehr unterschiedliche Zeitskalen im System zurückzuführen<br />

sind.<br />

Der ANTS benötigt dazu nur eine einzige a-priori Annahme über das zeitliche Systemverhalten,<br />

nämlich den Anteil α der zu lernenden Daten. Ein großes α schwächt<br />

die Möglichkeiten des ANTS zur unterschiedlichen Zeitskalenkompression ab, während<br />

bei zu kleinem α eventuell die relevante Struktur in der Datenverteilung nicht mehr<br />

sichtbar wird.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!