Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
4.2 Das Verhalten des ANTS 93<br />
trie im Aufbrechverhalten auf die zeitliche Struktur des Datensatzes zurückzuführen<br />
sein. Insbesondere die dynamische Kopplung, die im kombinierten Modell für b und<br />
c stattfindet, zeigt, dass die stark unterschiedlichen Lebensdauern diese Unsymmetrie<br />
verursachen.<br />
In (c) wurde dasselbe Annealing-Schema für ein ANTS-Training mit 50 Prozent aller<br />
Daten wiederholt (vgl. den α-Stumpf in Abb. 49). Bereits diese relativ schwache Datenselektion<br />
reicht aus, um die beiden sehr unterschiedlichen Lebensdauern der Daten<br />
anzugleichen. Man beobachtet qualitativ wieder das gleiche symmetrische Aufspaltungsmuster<br />
wie in (a).<br />
Zwar ist, wie am Ende <strong>von</strong> Kapitel 2 angesprochen, das in Abb. 50b beobachtete<br />
Aufbrechverhalten hier nicht vollständig quantifizierbar, doch kann die Aufhebung der<br />
unsymmetrischen Aufspaltung – die allein auf die Existenz <strong>von</strong> zwei sehr unterschiedlichen<br />
Zeitskalen im System zurückzuführen ist – als Beweis für die unterschiedliche,<br />
an die Daten angepasste Lebensdauerkompression gewertet werden.<br />
4.2.5 Zusammenfassung und Diskussion<br />
Mit Einführung der selbstreferentiellen Datenselektion durch f(xt; θ(t)) kann, wie das<br />
letzte Beispiel gezeigt hat, selbst ein Datenstrom, in dem sehr unterschiedliche Systemzeitskalen<br />
enthalten sind, <strong>von</strong> einem aufmerksamen MVNN gelernt werden, ohne<br />
dass die hierarchischen Aspekte der Dichteschätzung vollständig verlorengehen. Der<br />
ANTS passt dabei die statistischen Gewichte im System durch den Mechanismus seiner<br />
Aufmerksamkeitsschwelle so an, dass sehr häufig vorkommende Cluster stärker abgeschwächt<br />
werden als seltene. Dadurch erscheinen ihm auch ihre Lebensdauern verkürzt,<br />
und der on-line Datenstrom wird quasi randomisiert.<br />
Diese Quasi-Randomisierung führt dazu, dass in einem wesentlich größeren Parameterbereich<br />
dynamisch entkoppelt gelernt werden kann. Mit dem ANTS ist also ein Algorithmus<br />
gegeben, der eine wesentliche Fähigkeit zum on-line Lernen besitzt, nämlich<br />
selbst auf die Zeitskalen im System zu reagieren.<br />
Versucht man, wie in Abb. 36 den Parameterweg des ANTS darzustellen, bekommt<br />
man effektiv mehrere Wege. Da die Näherung (4-17) für verschiedene Cluster verschieden<br />
gültig ist, bekommen die Neuronen, die für verschiedene Cluster zuständig<br />
sind, unterschiedliche effektive Lernraten ε 〈f ar〉 X . Diese Unterschiede in den Lernraten<br />
sind der unterschiedlich starken Gewichtskompression äquivalent. Es sind nun<br />
Phasenübergänge möglich, die auf sehr unterschiedliche Zeitskalen im System zurückzuführen<br />
sind.<br />
Der ANTS benötigt dazu nur eine einzige a-priori Annahme über das zeitliche Systemverhalten,<br />
nämlich den Anteil α der zu lernenden Daten. Ein großes α schwächt<br />
die Möglichkeiten des ANTS zur unterschiedlichen Zeitskalenkompression ab, während<br />
bei zu kleinem α eventuell die relevante Struktur in der Datenverteilung nicht mehr<br />
sichtbar wird.