Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
82 4. Neuigkeitsorientiertes Lernen<br />
zy-Menge Ω auffassen. Sie sind gleichzeitig die Ensemble-Mittelwerte 〈f(x)〉 ens <strong>von</strong><br />
f(x), wobei das Ensemble aus allen Codebüchern des stationären Zustandes besteht.<br />
Für einen Datensatz aus zwei verrauschten Zuständen, wie er im Laufe der Arbeit<br />
bereits des öfteren verwendet wurde, ist ωA in Abbildung 42c dargestellt. Man sieht<br />
deutlich, dass es einen ” äußeren“ Bereich gibt, in dem immer f =1 gilt. Dort bleiben<br />
die Aktivitätswerte A(x) immer unter ǫA. Dazwischen gibt es einen ” inneren“ Bereich,<br />
in dem die Datenselektion wirkt. Das stationäre Codebuch besteht hier aus zwölf<br />
Codebuchzentren. Die Funktion A, die in Abb. 42b eingezeichnet ist, ragt an acht<br />
Stellen leicht über die Schwelle ǫA hinaus (was in der Abbildung fast nicht zu sehen ist,<br />
da sie sich nur ganz leicht <strong>von</strong> dem Schwellwert unterscheidet). Dort werden verstärkt<br />
Datenpunkte ignoriert, was die Senken in ωA verursacht.<br />
Die Verteilungsdichte ˜p der tatsächlich gelernten Datenpunkte, die ebenfalls in Abb. 42b<br />
zu sehen ist, kann im quasi-stationären Zustand durch die Multiplikation <strong>von</strong> Zuordnungswahrscheinlichkeit<br />
ωA und ursprünglicher Dichte p ausgedrückt werden. Ihre<br />
Normierung ist gerade der Anteil α der gelernten Daten, also<br />
˜p(x, θ) = 1<br />
α p(x) ωA(x, θ) ∀x ∈ M. (4-11)<br />
In Abb. 42b sieht man bei ˜p scharfe Senken und Spitzen an den gleichen Stellen wie<br />
bei der Zuordnungsfunktion ωA in 42c. Analog zu Gleichung (4-10), führt nun die<br />
Lernregel (4-8) eine Maximum-likelihood-Schätzung durch, nur diesmal mit der modifizierten<br />
Verteilungsdichte ˜p, die selbst <strong>von</strong> A, also den Netzwerkparametern θ abhängt.<br />
Insgesamt wird statt (4-10) die Funktion<br />
�<br />
˜p(x, θ) ln A(x, θ) dx = 1<br />
�<br />
p(x) ωA(x, θ) lnA(x, θ) dx (4-12)<br />
α<br />
M<br />
unter Variation der Parameter cr ∈θr maximiert.<br />
Approximation des Stumpfes <strong>von</strong> p<br />
M<br />
Man sieht in Abb. 42b, dass die Funktion A ein sehr flaches Plateau bekommt, dessen<br />
Höhe etwa der Schwellenwert ǫA ist. Sie weicht leicht <strong>von</strong> ǫA ab und verursacht dadurch<br />
die scharfen Spitzen und Senken in ˜p und ωA. Es kann also vermutet werden, dass<br />
die ideale Aktivierungsfunktion des stationären Codebuchs dort genau den Wert ǫA<br />
annehmen würde. Sie wäre in diesem Fall eine Approximation des α-Stumpfes <strong>von</strong><br />
p. Dieser ist in Abb. 42a zu sehen, er wird als die renormierte Version des unteren<br />
Bereiches <strong>von</strong> p definiert, der das Integral α hat, oder formal<br />
p c �<br />
ǫA für p(x) > αǫA,<br />
:=<br />
(4-13)<br />
p(x)/α sonst.<br />
In Appendix C.2 wird gezeigt, dass dies tatsächlich die ideale Approximationseigenschaft<br />
des ANTS ist,<br />
A = p c . (4-14)