21.12.2012 Aufrufe

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

84 4. Neuigkeitsorientiertes Lernen<br />

mit der Verteilungsdichte p c zur Verfügung stünde. Da der Algorithmus jedoch keine<br />

Daten mit der Verteilungsdichte p c sieht, sondern nur solche mit p oder ˜p, muss man<br />

ein alternatives Kriterium für die optimale Breite σopt der Mischungskomponenten<br />

finden, welches dem ML-Kriterium mit einer zugrundegelegten Verteilungsdichte p c<br />

äquivalent ist. Die Berechnungen und Abb. 54 am Ende <strong>von</strong> Appendix C.2 geben einen<br />

Hinweis darauf, dass im Idealfall – also wieder unter der Voraussetzung beliebig guter<br />

Approximationsfähigkeit durch die endliche Mischung A – kein Unterschied zwischen<br />

der Verteilungsdichte p c und ˜p besteht, solange sie nicht als eigenständige ” Funktionen“<br />

aufgefasst, sondern nur als Maß verwendet werden, bezüglich dessen in (4-12) integriert<br />

wird. Es liegt also nahe, zur Bestimmung <strong>von</strong> σopt das Funktional<br />

�<br />

M<br />

˜p ln A ≈ 〈f ln A〉 X<br />

(4-15)<br />

unter Variation <strong>von</strong> σ zu maximieren. Es ist das Log-likelihood-Maß für die Übereinstimmung<br />

<strong>von</strong> A und ˜p; und da A immer glatter, je besser die Approximation wird,<br />

während ˜p immer schmalere Spitzen bekommt und der Verteilungsdichte p c immer<br />

ähnlicher wird (Abb. 42 und 54), auch ein Maß für die Übereinstimmung <strong>von</strong> A und<br />

p c . Von allen Größen, die dem Algorithmus zur Verfügung stehen, ist ˜p dem Stumpf<br />

p c also am ähnlichsten.<br />

Dies ist in numerischen Simulationen auf dem Datensatz aus Abb. 42 auch durch den<br />

Vergleich verschiedener anders lautender Funktionale deutlich geworden. Da ihre Ergebnisse<br />

wesentlich schlechter waren als diejenigen unter Verwendung <strong>von</strong> (4-15), werde<br />

ich sie hier nicht anführen. Ein Annealingprozess, bei dem das Funktional (4-15)<br />

beobachtet wurde, ist in Abbildung 43 zu sehen. Es wurde langsam abgekühlt und<br />

� f(x) lnA(x) � gleitend gemittelt. Der so bestimmte optimale Wert σopt liefert eine<br />

gute Approximation des α-Stumpfes <strong>von</strong> p.<br />

Teilweise Rekonstruktion der Verteilungsdichte p<br />

Dadurch, dass im ANTS nur der α-Stumpf approximiert wird, ist dennoch nicht alle<br />

Information über die ursprüngliche Verteilung verloren gegangen. Die mittlere Aktivierung<br />

eines Neurons, seine Load 〈ar〉, wird im Algorithmus durch gleitende Mittelung<br />

berechnet. Wenn hierzu nun alle Datenpunkte, nicht nur diejenigen mit f = 1<br />

verwendet werden, kann in einer zusätzlich mit der Load gewichteten Mischung aus<br />

Normalverteilungen,<br />

A l := � Pr 〈ar〉<br />

(2πσ2 � 2 |x − cr|<br />

exp −<br />

) d/2 2σ2 �<br />

r<br />

(4-16)<br />

wieder die Struktur <strong>von</strong> p erkannt werden. Diese rekonstruierte Verteilungsdichte ist<br />

für das Beispiel oben in Abbildung 44 dargestellt. Natürlich erhält man bei dieser<br />

Methode fast nie eine so gute Approximation <strong>von</strong> p wie bei einem univar-Training,<br />

schließlich ist sie nicht das Optimierungsziel.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!