Diplomarbeit von Michael Schindler

Weitere Magazine

Empfehlungen

Info

84 4. Neuigkeitsorientiertes Lernen mit der Verteilungsdichte p c zur Verfügung stünde. Da der Algorithmus jedoch keine Daten mit der Verteilungsdichte p c sieht, sondern nur solche mit p oder ˜p, muss man ein alternatives Kriterium für die optimale Breite σopt der Mischungskomponenten finden, welches dem ML-Kriterium mit einer zugrundegelegten Verteilungsdichte p c äquivalent ist. Die Berechnungen und Abb. 54 am Ende von Appendix C.2 geben einen Hinweis darauf, dass im Idealfall – also wieder unter der Voraussetzung beliebig guter Approximationsfähigkeit durch die endliche Mischung A – kein Unterschied zwischen der Verteilungsdichte p c und ˜p besteht, solange sie nicht als eigenständige ” Funktionen“ aufgefasst, sondern nur als Maß verwendet werden, bezüglich dessen in (4-12) integriert wird. Es liegt also nahe, zur Bestimmung von σopt das Funktional � M ˜p ln A ≈ 〈f ln A〉 X (4-15) unter Variation von σ zu maximieren. Es ist das Log-likelihood-Maß für die Übereinstimmung von A und ˜p; und da A immer glatter, je besser die Approximation wird, während ˜p immer schmalere Spitzen bekommt und der Verteilungsdichte p c immer ähnlicher wird (Abb. 42 und 54), auch ein Maß für die Übereinstimmung von A und p c . Von allen Größen, die dem Algorithmus zur Verfügung stehen, ist ˜p dem Stumpf p c also am ähnlichsten. Dies ist in numerischen Simulationen auf dem Datensatz aus Abb. 42 auch durch den Vergleich verschiedener anders lautender Funktionale deutlich geworden. Da ihre Ergebnisse wesentlich schlechter waren als diejenigen unter Verwendung von (4-15), werde ich sie hier nicht anführen. Ein Annealingprozess, bei dem das Funktional (4-15) beobachtet wurde, ist in Abbildung 43 zu sehen. Es wurde langsam abgekühlt und � f(x) lnA(x) � gleitend gemittelt. Der so bestimmte optimale Wert σopt liefert eine gute Approximation des α-Stumpfes von p. Teilweise Rekonstruktion der Verteilungsdichte p Dadurch, dass im ANTS nur der α-Stumpf approximiert wird, ist dennoch nicht alle Information über die ursprüngliche Verteilung verloren gegangen. Die mittlere Aktivierung eines Neurons, seine Load 〈ar〉, wird im Algorithmus durch gleitende Mittelung berechnet. Wenn hierzu nun alle Datenpunkte, nicht nur diejenigen mit f = 1 verwendet werden, kann in einer zusätzlich mit der Load gewichteten Mischung aus Normalverteilungen, A l := � Pr 〈ar〉 (2πσ2 � 2 |x − cr| exp − ) d/2 2σ2 � r (4-16) wieder die Struktur von p erkannt werden. Diese rekonstruierte Verteilungsdichte ist für das Beispiel oben in Abbildung 44 dargestellt. Natürlich erhält man bei dieser Methode fast nie eine so gute Approximation von p wie bei einem univar-Training, schließlich ist sie nicht das Optimierungsziel.
−1.4 −1.5 〈f lnA〉 σopt/σS (a) 0.35 0.3 0.25 0.2 0.15 0.1 σ/σS 4.2 Das Verhalten des ANTS 85 p c A c1 · · · c12 Abbildung 43: (a) Bestimmung des Maximums von Funktional (4-15) unter langsamem Annealing der Breite σ. Im Optimalfall wird die Verteilungsdichte p c (graue Linie) relativ gut von der Mischung A univariater Normalverteilungen mit gleicher Varianz und gleichem statistischem Gewicht angenähert (b). Dieser Zustand des Codebuchs wurde auch in Abb. 42 verwendet. Abbildung 44: Die mit der Load modifizierte Schätzung A l (kontinuierliche Linie) aus Formel (4-16) im Vergleich zu p (gepunktet). In einem einfachen Fall wie diesem lassen sich die Prototypen der Verteilung gut identifizieren. Die Aktivierungsfunktion A (gestrichelt) ist dieselbe wie in Abb. 43b. 4.2.2 Eigenschaften der Phasenübergänge A A l c1 · · · c12 Die Phasenübergangskurve, wie sie in Kapitel 2 charakterisiert wurde, hängt immer auch vom gelernten Datensatz ab. Da dieser durch den ANTS im Vergleich zum ursprünglichen verändert wird, muss sich auch die kritische Parameterkurve verändern. Dabei lassen sich räumliche und zeitliche Aspekte zunächst noch klar trennen, sobald die Daten jedoch etwas kompliziertere Struktur aufweisen, vermischen sich Raum- und Zeitskalen wieder, wie die folgenden Beispiele zeigen werden. Verschiebung in σ-Richtung Im letzten Abschnitt wurde klar, dass der ANTS den Dichtestumpf p c approximiert, der wesentlich breiter als die ursprüngliche Dichte ist. Seine Varianz ist also größer als die von p. Dadurch wird die Kurve der kritischen Parameter ebenfalls zu größeren σ-Werten geschoben, denn zumindest im Bereich τS ≪ 1 findet der Phasenübergang immer bei Gleichheit von σ 2 und der Varianz der zugrundegelegten Verteilung statt. In Abbildung 45 ist die kritische Parameterkurve eines Beispiels gegeben, welches aus zwei verrauschten Systemzuständen besteht (wie in Abb. 22 und 42), das jedoch nicht Markov-artig schaltet, sondern deterministisch wie die Beispiele in Abb. 32. Deshalb findet man, wenn alle Datenpunkte gelernt werden (α=1), eine ähnliche Kurve kritischer Parameter wie in Abb. 32. Wieder stimmt sie hervorragend mit den theoretischen Kurven aus den Abbildungen 30 und 31 überein (hier ist M =20). Wenn dagegen nur p (b)
Seite 1:
Modelle zur Entkopplung von Lern- u
Seite 4 und 5:
iv Inhaltsverzeichnis 3 Neuronale G
Seite 6 und 7:
2 Einleitung a3 a4 a1 a2 Abbildung
Seite 8 und 9:
4 Einleitung Das Auffinden der pass
Seite 10 und 11:
6 Einleitung In der folgenden Gleic
Seite 12 und 13:
8 Einleitung Gleitende Mittelung vo
Seite 14 und 15:
10 Einleitung Dauer. Die akustische
Seite 16 und 17:
12 Einleitung kann, insbesondere, w
Seite 18 und 19:
14 1. Grundlagen schen Methoden zu
Seite 20 und 21:
16 1. Grundlagen lichkeitsdichte je
Seite 22 und 23:
18 1. Grundlagen Glockenkurve zuord
Seite 24 und 25:
20 1. Grundlagen folgt. Dies ist di
Seite 26 und 27:
22 1. Grundlagen Mit den Eigenwertg
Seite 28 und 29:
24 1. Grundlagen verteilungen, was
Seite 30 und 31:
26 1. Grundlagen kann diese Analogi
Seite 32 und 33:
28 1. Grundlagen Kapitel 2 gewidmet
Seite 34 und 35:
30 1. Grundlagen Eingabeschicht ⏐
Seite 36 und 37:
32 1. Grundlagen h r Sr T −→ x
Seite 38 und 39: 34 1. Grundlagen Die Verarbeitungsa
Seite 40 und 41: 36 1. Grundlagen 1.2.4 Hebb’sches
Seite 42 und 43: 38 1. Grundlagen (a) (b) kleiner Fi
Seite 44 und 45: 40 1. Grundlagen 1.2.6 Dimensionsre
Seite 46 und 47: 42 2. On-line Lernen mit univar Nac
Seite 48 und 49: 44 2. On-line Lernen mit univar 0 t
Seite 50 und 51: 46 2. On-line Lernen mit univar Au
Seite 52 und 53: 48 2. On-line Lernen mit univar x/
Seite 54 und 55: 50 2. On-line Lernen mit univar der
Seite 56 und 57: 52 2. On-line Lernen mit univar vie
Seite 58 und 59: 54 2. On-line Lernen mit univar (a1
Seite 60 und 61: 56 2. On-line Lernen mit univar 2.1
Seite 62 und 63: 58 2. On-line Lernen mit univar (c)
Seite 64 und 65: 60 2. On-line Lernen mit univar Die
Seite 66 und 67: 62 2. On-line Lernen mit univar log
Seite 68 und 69: 64 2. On-line Lernen mit univar imm
Seite 70 und 71: 66 2. On-line Lernen mit univar in
Seite 72 und 73: 68 2. On-line Lernen mit univar und
Seite 74 und 75: 70 2. On-line Lernen mit univar
Seite 76 und 77: 72 3. Neuronale Gewöhnung in Aplys
Seite 82 und 83: 78 4. Neuigkeitsorientiertes Lernen
Seite 100 und 101: 96 5. Zusammenfassung und Ergebniss
Seite 102 und 103: 98 A. Gedächtniskerne Man sieht, d
Seite 104 und 105: Appendix B Einige einfache Modelle
Seite 106 und 107: 102 B. Einige einfache Modelle Nun
Seite 108 und 109: 104 B. Einige einfache Modelle bere
Seite 110 und 111: Appendix C Ergebnisse der Variation
Seite 112 und 113: 108 C. Ergebnisse der Variationsrec
Seite 118 und 119: Literatur Abramowitz, M. & Stegun,
Seite 120 und 121: 116 Literatur Rieke, F., Warland, D
Seite 122 und 123: 118 Notation cr Zentren der Gaußfu
Seite 124 und 125: 120
Alle anzeigen

Diplomarbeit von Michael Schindler

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?