Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
78 4. Neuigkeitsorientiertes Lernen<br />
4.1 Entfernen <strong>von</strong> redundanten Daten<br />
Der ANTS ist ein on-line lernender Algorithmus gemäß der Charakterisierung am Anfang<br />
<strong>von</strong> Kapitel 2. Es kann vorkommen, dass in dem präsentierten on-line Datenstrom<br />
zeitliche Korrelationen auf mehreren Zeitskalen vorkommen, ähnlich wie sie für<br />
den Markovprozess in (2-12) definiert sind. Die Forderung an einen on-line-fähigen<br />
Algorithmus ist, dass er keine a-priori Kenntnis dieser Skalen besitze, also insbesondere<br />
keine starren Regeln kennen kann, welche einen Datenstrom nach einer bestimmter<br />
Dauer als ” redundant“ einstufen.<br />
Vielmehr muss die Relevanz eines Datenpunktes x vom Lerner selbst festgestellt werden.<br />
Dafür stehen ihm ausschließlich der aktuelle Punkt x und seine Netzwerkparameter,<br />
also sein Modell für die Umgebung und ihre Vergangenheit, zur Verfügung.<br />
4.1.1 Die Aufmerksamkeitsschwelle<br />
Die Relevanz muss aus dem aktuellen Modell A(· ; θ) bestimmt werden. Dazu führt<br />
man üblicherweise eine Aufmerksamkeitsschwelle ein, mit der A(x; θ) verglichen wird<br />
(Wilden, 1998; Albrecht et al. 2000). Für diejenigen Datenpunkte x, deren Aktivitäten<br />
A(x; θ) einen Schwellenwert ǫA>0 überschreiten, darf angenommen werden, dass dort<br />
bereits genügend Datenpunkte gesehen und gelernt wurden. Sie brauchen also nicht<br />
weiter beachtet zu werden, schließlich werden sie <strong>von</strong> hinreichend vielen Neuronen<br />
repräsentiert.<br />
Das Relevanzkriterium ist hier also nichts anderes als ein Neuigkeitskriterium. Bereits<br />
bekannte Daten werden als irrelevant, unbekannte mit kleinem Aktivitätswert dagegen<br />
als relevant eingestuft.<br />
Die einfachste Möglichkeit zur Berechnung <strong>von</strong> f aus dem Vergleich <strong>von</strong> A(x; θ) und ǫA<br />
ist diejenige, einen Datenpunkt entweder genau wie im univar-Algorithmus zu lernen,<br />
also mit f =1, oder ihn vollständig zu ignorieren (f =0). Formal wird dies durch die<br />
Heavyside-Funktion ausgedrückt,<br />
f(x) := Θ � ǫA − A(x; θ) � �<br />
1 falls A(x; θ) < ǫA,<br />
=<br />
(4-1)<br />
0 sonst.<br />
Diese Regel ist die einfachste, die dem Prinzip der selbstreferentiellen Relevanzbestimmung<br />
genügt. Kompliziertere Funktionen als Θ ließen sich ohne weiteres verwenden,<br />
im folgenden soll jedoch <strong>von</strong> (4-1) ausgegangen werden. Es stellt sich nun die Frage,<br />
wie die Schwelle ǫA zu bestimmen ist. Sie soll keine a-priori-Kenntnis über die Daten<br />
enthalten, sich vielmehr nach den vorkommenden Werten <strong>von</strong> A(x) richten.<br />
Für jede feste Schwelle beobachtet man, dass ein gewisser Prozentsatz der Datenpunkte<br />
gelernt wird. Eine Schwelle ǫA>maxx{A(x)} lässt alle Punkte lernen, eine sehr kleine<br />
Schwelle kaum Punkte. Jedem Wert <strong>von</strong> ǫA lässt sich also der entsprechende Anteil α<br />
der gelernten Punkte am gesamten Datensatz zuordnen,<br />
SA: [0, ∞) → [0, 1]: ǫA ↦→ α. (4-2)