21.12.2012 Aufrufe

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

78 4. Neuigkeitsorientiertes Lernen<br />

4.1 Entfernen <strong>von</strong> redundanten Daten<br />

Der ANTS ist ein on-line lernender Algorithmus gemäß der Charakterisierung am Anfang<br />

<strong>von</strong> Kapitel 2. Es kann vorkommen, dass in dem präsentierten on-line Datenstrom<br />

zeitliche Korrelationen auf mehreren Zeitskalen vorkommen, ähnlich wie sie für<br />

den Markovprozess in (2-12) definiert sind. Die Forderung an einen on-line-fähigen<br />

Algorithmus ist, dass er keine a-priori Kenntnis dieser Skalen besitze, also insbesondere<br />

keine starren Regeln kennen kann, welche einen Datenstrom nach einer bestimmter<br />

Dauer als ” redundant“ einstufen.<br />

Vielmehr muss die Relevanz eines Datenpunktes x vom Lerner selbst festgestellt werden.<br />

Dafür stehen ihm ausschließlich der aktuelle Punkt x und seine Netzwerkparameter,<br />

also sein Modell für die Umgebung und ihre Vergangenheit, zur Verfügung.<br />

4.1.1 Die Aufmerksamkeitsschwelle<br />

Die Relevanz muss aus dem aktuellen Modell A(· ; θ) bestimmt werden. Dazu führt<br />

man üblicherweise eine Aufmerksamkeitsschwelle ein, mit der A(x; θ) verglichen wird<br />

(Wilden, 1998; Albrecht et al. 2000). Für diejenigen Datenpunkte x, deren Aktivitäten<br />

A(x; θ) einen Schwellenwert ǫA>0 überschreiten, darf angenommen werden, dass dort<br />

bereits genügend Datenpunkte gesehen und gelernt wurden. Sie brauchen also nicht<br />

weiter beachtet zu werden, schließlich werden sie <strong>von</strong> hinreichend vielen Neuronen<br />

repräsentiert.<br />

Das Relevanzkriterium ist hier also nichts anderes als ein Neuigkeitskriterium. Bereits<br />

bekannte Daten werden als irrelevant, unbekannte mit kleinem Aktivitätswert dagegen<br />

als relevant eingestuft.<br />

Die einfachste Möglichkeit zur Berechnung <strong>von</strong> f aus dem Vergleich <strong>von</strong> A(x; θ) und ǫA<br />

ist diejenige, einen Datenpunkt entweder genau wie im univar-Algorithmus zu lernen,<br />

also mit f =1, oder ihn vollständig zu ignorieren (f =0). Formal wird dies durch die<br />

Heavyside-Funktion ausgedrückt,<br />

f(x) := Θ � ǫA − A(x; θ) � �<br />

1 falls A(x; θ) < ǫA,<br />

=<br />

(4-1)<br />

0 sonst.<br />

Diese Regel ist die einfachste, die dem Prinzip der selbstreferentiellen Relevanzbestimmung<br />

genügt. Kompliziertere Funktionen als Θ ließen sich ohne weiteres verwenden,<br />

im folgenden soll jedoch <strong>von</strong> (4-1) ausgegangen werden. Es stellt sich nun die Frage,<br />

wie die Schwelle ǫA zu bestimmen ist. Sie soll keine a-priori-Kenntnis über die Daten<br />

enthalten, sich vielmehr nach den vorkommenden Werten <strong>von</strong> A(x) richten.<br />

Für jede feste Schwelle beobachtet man, dass ein gewisser Prozentsatz der Datenpunkte<br />

gelernt wird. Eine Schwelle ǫA>maxx{A(x)} lässt alle Punkte lernen, eine sehr kleine<br />

Schwelle kaum Punkte. Jedem Wert <strong>von</strong> ǫA lässt sich also der entsprechende Anteil α<br />

der gelernten Punkte am gesamten Datensatz zuordnen,<br />

SA: [0, ∞) → [0, 1]: ǫA ↦→ α. (4-2)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!