21.12.2012 Aufrufe

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

82 4. Neuigkeitsorientiertes Lernen<br />

zy-Menge Ω auffassen. Sie sind gleichzeitig die Ensemble-Mittelwerte 〈f(x)〉 ens <strong>von</strong><br />

f(x), wobei das Ensemble aus allen Codebüchern des stationären Zustandes besteht.<br />

Für einen Datensatz aus zwei verrauschten Zuständen, wie er im Laufe der Arbeit<br />

bereits des öfteren verwendet wurde, ist ωA in Abbildung 42c dargestellt. Man sieht<br />

deutlich, dass es einen ” äußeren“ Bereich gibt, in dem immer f =1 gilt. Dort bleiben<br />

die Aktivitätswerte A(x) immer unter ǫA. Dazwischen gibt es einen ” inneren“ Bereich,<br />

in dem die Datenselektion wirkt. Das stationäre Codebuch besteht hier aus zwölf<br />

Codebuchzentren. Die Funktion A, die in Abb. 42b eingezeichnet ist, ragt an acht<br />

Stellen leicht über die Schwelle ǫA hinaus (was in der Abbildung fast nicht zu sehen ist,<br />

da sie sich nur ganz leicht <strong>von</strong> dem Schwellwert unterscheidet). Dort werden verstärkt<br />

Datenpunkte ignoriert, was die Senken in ωA verursacht.<br />

Die Verteilungsdichte ˜p der tatsächlich gelernten Datenpunkte, die ebenfalls in Abb. 42b<br />

zu sehen ist, kann im quasi-stationären Zustand durch die Multiplikation <strong>von</strong> Zuordnungswahrscheinlichkeit<br />

ωA und ursprünglicher Dichte p ausgedrückt werden. Ihre<br />

Normierung ist gerade der Anteil α der gelernten Daten, also<br />

˜p(x, θ) = 1<br />

α p(x) ωA(x, θ) ∀x ∈ M. (4-11)<br />

In Abb. 42b sieht man bei ˜p scharfe Senken und Spitzen an den gleichen Stellen wie<br />

bei der Zuordnungsfunktion ωA in 42c. Analog zu Gleichung (4-10), führt nun die<br />

Lernregel (4-8) eine Maximum-likelihood-Schätzung durch, nur diesmal mit der modifizierten<br />

Verteilungsdichte ˜p, die selbst <strong>von</strong> A, also den Netzwerkparametern θ abhängt.<br />

Insgesamt wird statt (4-10) die Funktion<br />

�<br />

˜p(x, θ) ln A(x, θ) dx = 1<br />

�<br />

p(x) ωA(x, θ) lnA(x, θ) dx (4-12)<br />

α<br />

M<br />

unter Variation der Parameter cr ∈θr maximiert.<br />

Approximation des Stumpfes <strong>von</strong> p<br />

M<br />

Man sieht in Abb. 42b, dass die Funktion A ein sehr flaches Plateau bekommt, dessen<br />

Höhe etwa der Schwellenwert ǫA ist. Sie weicht leicht <strong>von</strong> ǫA ab und verursacht dadurch<br />

die scharfen Spitzen und Senken in ˜p und ωA. Es kann also vermutet werden, dass<br />

die ideale Aktivierungsfunktion des stationären Codebuchs dort genau den Wert ǫA<br />

annehmen würde. Sie wäre in diesem Fall eine Approximation des α-Stumpfes <strong>von</strong><br />

p. Dieser ist in Abb. 42a zu sehen, er wird als die renormierte Version des unteren<br />

Bereiches <strong>von</strong> p definiert, der das Integral α hat, oder formal<br />

p c �<br />

ǫA für p(x) > αǫA,<br />

:=<br />

(4-13)<br />

p(x)/α sonst.<br />

In Appendix C.2 wird gezeigt, dass dies tatsächlich die ideale Approximationseigenschaft<br />

des ANTS ist,<br />

A = p c . (4-14)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!