Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
84 4. Neuigkeitsorientiertes Lernen<br />
mit der Verteilungsdichte p c zur Verfügung stünde. Da der Algorithmus jedoch keine<br />
Daten mit der Verteilungsdichte p c sieht, sondern nur solche mit p oder ˜p, muss man<br />
ein alternatives Kriterium für die optimale Breite σopt der Mischungskomponenten<br />
finden, welches dem ML-Kriterium mit einer zugrundegelegten Verteilungsdichte p c<br />
äquivalent ist. Die Berechnungen und Abb. 54 am Ende <strong>von</strong> Appendix C.2 geben einen<br />
Hinweis darauf, dass im Idealfall – also wieder unter der Voraussetzung beliebig guter<br />
Approximationsfähigkeit durch die endliche Mischung A – kein Unterschied zwischen<br />
der Verteilungsdichte p c und ˜p besteht, solange sie nicht als eigenständige ” Funktionen“<br />
aufgefasst, sondern nur als Maß verwendet werden, bezüglich dessen in (4-12) integriert<br />
wird. Es liegt also nahe, zur Bestimmung <strong>von</strong> σopt das Funktional<br />
�<br />
M<br />
˜p ln A ≈ 〈f ln A〉 X<br />
(4-15)<br />
unter Variation <strong>von</strong> σ zu maximieren. Es ist das Log-likelihood-Maß für die Übereinstimmung<br />
<strong>von</strong> A und ˜p; und da A immer glatter, je besser die Approximation wird,<br />
während ˜p immer schmalere Spitzen bekommt und der Verteilungsdichte p c immer<br />
ähnlicher wird (Abb. 42 und 54), auch ein Maß für die Übereinstimmung <strong>von</strong> A und<br />
p c . Von allen Größen, die dem Algorithmus zur Verfügung stehen, ist ˜p dem Stumpf<br />
p c also am ähnlichsten.<br />
Dies ist in numerischen Simulationen auf dem Datensatz aus Abb. 42 auch durch den<br />
Vergleich verschiedener anders lautender Funktionale deutlich geworden. Da ihre Ergebnisse<br />
wesentlich schlechter waren als diejenigen unter Verwendung <strong>von</strong> (4-15), werde<br />
ich sie hier nicht anführen. Ein Annealingprozess, bei dem das Funktional (4-15)<br />
beobachtet wurde, ist in Abbildung 43 zu sehen. Es wurde langsam abgekühlt und<br />
� f(x) lnA(x) � gleitend gemittelt. Der so bestimmte optimale Wert σopt liefert eine<br />
gute Approximation des α-Stumpfes <strong>von</strong> p.<br />
Teilweise Rekonstruktion der Verteilungsdichte p<br />
Dadurch, dass im ANTS nur der α-Stumpf approximiert wird, ist dennoch nicht alle<br />
Information über die ursprüngliche Verteilung verloren gegangen. Die mittlere Aktivierung<br />
eines Neurons, seine Load 〈ar〉, wird im Algorithmus durch gleitende Mittelung<br />
berechnet. Wenn hierzu nun alle Datenpunkte, nicht nur diejenigen mit f = 1<br />
verwendet werden, kann in einer zusätzlich mit der Load gewichteten Mischung aus<br />
Normalverteilungen,<br />
A l := � Pr 〈ar〉<br />
(2πσ2 � 2 |x − cr|<br />
exp −<br />
) d/2 2σ2 �<br />
r<br />
(4-16)<br />
wieder die Struktur <strong>von</strong> p erkannt werden. Diese rekonstruierte Verteilungsdichte ist<br />
für das Beispiel oben in Abbildung 44 dargestellt. Natürlich erhält man bei dieser<br />
Methode fast nie eine so gute Approximation <strong>von</strong> p wie bei einem univar-Training,<br />
schließlich ist sie nicht das Optimierungsziel.