Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
4.2 Das Verhalten des ANTS<br />
4.2 Das Verhalten des ANTS 81<br />
Die Einführung der modifizierten Lernregel (4-8) und der Aufmerksamkeitsschwelle in<br />
Schritt (TS-3) hat nicht nur zeitliche, sondern auch räumliche Auswirkungen. Zunächst<br />
sollen ihre Auswirkungen auf die stationären Eigenschaften des ANTS beschrieben werden,<br />
anschließend wird beschrieben, wie sie Lern- und Systemdynamik so entkoppelt,<br />
dass die Hierarchie in den Phasenübergängen erhalten bleibt.<br />
4.2.1 Stationäre Approximationseigenschaften<br />
In Abschnitt 1.1 wurde erklärt, warum der univar-Algorithmus eine Approximation<br />
der Verteilungsdichte p des präsentierten Datensatzes durchführt. Die Frage nach<br />
der Approximationseigenschaft des ANTS ist wesentlich schwieriger zu beantworten.<br />
Die Verteilungsdichte wird, da Datenpunkte nach der Regel (TS-3) ignoriert werden<br />
können, ständig selbstreferentiell modifiziert. Deswegen wird nicht eine einfache Loglikelihood-Funktion<br />
der ursprünglichen Form<br />
�<br />
p(x) ln A(x, θ) dx (4-10)<br />
M<br />
maximiert, sondern es wird p durch die Verteilungsdichte ˜p der tatsächlich gelernten<br />
Datenpunkte ersetzt. Diese hängt selbst <strong>von</strong> den Parametern θ ab.<br />
Abbildung 41 zeigt, dass die Codebuchzentren selbst im stationären Endzustand des<br />
Lerners ständig hin- und hergezogen werden. Sie weisen dadurch unterschiedliches<br />
Selektionsverhalten zu unterschiedlichen Zeitpunkten auf. Datenpunkte an der Stelle<br />
x∈M können, je nach Zustand des Lerners, einmal gelernt und zu einem anderen Zeitpunkt<br />
ignoriert werden. Beim Versuch, diejenige Menge Ω ⊂ M zu charakterisieren,<br />
in der Datenpunkte gelernt werden, stellt man fest, dass die kleinen Bewegungen im<br />
Codebuch diese ständig ” verschmieren.“ Man bekommt also nicht eine scharfe Menge<br />
Ω, sondern für jeden Punkt x ∈ M eine Wahrscheinlichkeit ωA(x), dass dort gelernt<br />
wird. Diese Wahrscheinlichkeiten kann man auch als Zuordnungsfunktion ωA der fuz-<br />
(a)<br />
At<br />
c1<br />
f(xt) = 0<br />
c2<br />
ǫA<br />
(b)<br />
At+1<br />
c1<br />
f(xt+1) = 1<br />
c2<br />
(c)<br />
At+2<br />
c1<br />
f(xt+2) = 1<br />
Abbildung 41: Skizze eines quasistationären Zustands im Lerner aus zwei Neuronen zu drei aufeinanderfolgenden<br />
Zeitpunkten. In (a) wird ein Datenpunkt xt ignoriert, da die Aktivierung A(xt; θ(t))<br />
größer als die Schwelle ǫA ist. Der darauffolgende Punkt (b) wird gelernt, die Zentren rutschen leicht<br />
nach rechts. In (c) wird zufällig wieder der gleiche Punkt wie in (a) gezeigt, diesmal kann er jedoch<br />
gelernt werden.<br />
c2<br />
ǫA