Diplomarbeit von Michael Schindler

Weitere Magazine

Empfehlungen

Info

108 C. Ergebnisse der Variationsrechnung C.2 Warum selbstreferentielles Lernen die Datenverteilungsdichte abschneidet Behauptung Der ANTS, bestehend aus den Schritten (TS-1) bis (TS-6) auf Seite 80, oder kurz, cr(t+1) = cr(t) + εf(xt) ar(xt) � xt − cr(t) � mit (C-8) � 1 für A(xt) < ǫA f(xt) := Θ(ǫA−A(xt)) = (C-9) 0 sonst, angewandt auf eine stationäre Quelle von Datenpunkten mit Verteilungsdichte p führt im Grenzübergang beliebig guter Approximation, also M → ∞, zu einer Schätzung des α-Stumpfes pc , A → p c � ǫA für p(x) > αǫA, := (C-10) p(x)/α sonst. Dabei soll o.E. angenommen werden, dass p glatt ist, also ˆp bis auf den Rand {p(x)= αǫA} des Plateaus ebenfalls. Dann gilt der Grenzübergang in (C-10) sogar punktweise. Beweisidee Die Beweisidee soll für den stationären Fall formuliert werden. Dann ist die logische Reihenfolge der im folgenden verwendeten Größen: 1. p und ǫA seien vorgegeben; in jedem Zeitschritt wird ein x gezogen, es werden A(x) und f(x) berechnet. 2. Im stochastisch stationären Endzustand bewegt sich das Codebuch immer ein wenig, und man kann für x die Wahrscheinlichkeit berechnen, gelernt zu werden. Sie ist der (Ensemble-)Erwartungswert von f(x), ωA(x) := 〈f(x)〉 ens . (C-11) Da f über die Heavyside-Funktion Θ definiert ist, und da der Ensemblemittelwert bei kleinem ε lediglich eine kleine Verschmierung bedeutet, kann man ωA als durch ε ” aufgeweichte“ Heavyside-Funktion Θ�schreiben, ωA(x) = 〈Θ(ǫA−A(x))〉 ens ≈ Θ�(ǫA−A(x)). (C-12) Die Funktion ωA ist in Abb. 42c dargestellt. Sie teilt den Merkmalsraum in zwei Mengen ein, die als ” inneres“ und ” äußeres“ zu verstehen sind. In Γo wird jeder Punkt gelernt, in Γi wird selektiert, Γo Menge aller x ∈ M mit Θ(ǫA−A(x) = 1) Γi Menge aller x ∈ M mit Θ(ǫA−A(x) < 1).
C.2 Warum selbstreferentielles Lernen die Datenverteilungsdichte abschneidet 109 Da die Funktion Θ�sowohl in Abhängigkeit von x als auch von A aufgefasst werden kann, benutze ich im folgenden unterschiedliche Notationen für diese beiden Bedeutungen, x ↦→ ωA(x) als Funktion von x, und A(x) ↦→ Θ(ǫA−A(x)) als ” Funktion“ von A. (C-13) 3. Der Anteil α der gelernten Datenpunkte ist � α := p ωA. (C-14) 4. Daraus ergibt sich wegen der Definition (C-11) die Verteilungsdichte ˜p aller gelernten Punkte, Gleichung (4-11), ˜p = p ωA � p ωA = 1 α p ωA. (C-15) Der Algorithmus (TS-1) bis (TS-6) extremiert das Funktional � E[A] = ˜p[A] ln A = 1 � p Θ�(ǫA−A) ln A (C-16) α unter den Nebenbedingungen M � M ˜p = 1 � α M � M M A = 1 (C-17) p Θ�(ǫA − A) = 1. (C-18) Wie in (C-3) kann dieses mit Lagrange-Parametern geschrieben werden, � � L[A] = E[A] + λ1 A + λ2 p Θ�(ǫA−A). (C-19) Variation dieses Funktionals und Nullsetzen liefert die Bedingung 0 ! = δL δA p Θ�(ǫA−A) = − α A p α Θ′�(ǫA−A)(ln A + λ2) + λ1, (C-20) die eine Konsistenzbedingung für den stationären Zustand von A ist. Da Θ�im wesentlichen eine Heavyside-Funktion ist, kann man ohne die genaue Form von Θ�zu kennen – allein an der Differentialgleichung (C-20) – die gesuchten Approximationseigenschaften des stationären A finden. In Γo, wo Θ�(ǫA−A)=1 und Θ ′�(ǫA−A)=0 gilt, dort ist auch p(x) α = −λ1A(x) für alle x ∈ Γo. (C-21)
Seite 1:
Modelle zur Entkopplung von Lern- u
Seite 4 und 5:
iv Inhaltsverzeichnis 3 Neuronale G
Seite 6 und 7:
2 Einleitung a3 a4 a1 a2 Abbildung
Seite 8 und 9:
4 Einleitung Das Auffinden der pass
Seite 10 und 11:
6 Einleitung In der folgenden Gleic
Seite 12 und 13:
8 Einleitung Gleitende Mittelung vo
Seite 14 und 15:
10 Einleitung Dauer. Die akustische
Seite 16 und 17:
12 Einleitung kann, insbesondere, w
Seite 18 und 19:
14 1. Grundlagen schen Methoden zu
Seite 20 und 21:
16 1. Grundlagen lichkeitsdichte je
Seite 22 und 23:
18 1. Grundlagen Glockenkurve zuord
Seite 24 und 25:
20 1. Grundlagen folgt. Dies ist di
Seite 26 und 27:
22 1. Grundlagen Mit den Eigenwertg
Seite 28 und 29:
24 1. Grundlagen verteilungen, was
Seite 30 und 31:
26 1. Grundlagen kann diese Analogi
Seite 32 und 33:
28 1. Grundlagen Kapitel 2 gewidmet
Seite 34 und 35:
30 1. Grundlagen Eingabeschicht ⏐
Seite 36 und 37:
32 1. Grundlagen h r Sr T −→ x
Seite 38 und 39:
34 1. Grundlagen Die Verarbeitungsa
Seite 40 und 41:
36 1. Grundlagen 1.2.4 Hebb’sches
Seite 42 und 43:
38 1. Grundlagen (a) (b) kleiner Fi
Seite 44 und 45:
40 1. Grundlagen 1.2.6 Dimensionsre
Seite 46 und 47:
42 2. On-line Lernen mit univar Nac
Seite 48 und 49:
44 2. On-line Lernen mit univar 0 t
Seite 50 und 51:
46 2. On-line Lernen mit univar Au
Seite 52 und 53:
48 2. On-line Lernen mit univar x/
Seite 54 und 55:
50 2. On-line Lernen mit univar der
Seite 56 und 57:
52 2. On-line Lernen mit univar vie
Seite 58 und 59:
54 2. On-line Lernen mit univar (a1
Seite 60 und 61:
56 2. On-line Lernen mit univar 2.1
Seite 62 und 63: 58 2. On-line Lernen mit univar (c)
Seite 64 und 65: 60 2. On-line Lernen mit univar Die
Seite 66 und 67: 62 2. On-line Lernen mit univar log
Seite 68 und 69: 64 2. On-line Lernen mit univar imm
Seite 70 und 71: 66 2. On-line Lernen mit univar in
Seite 72 und 73: 68 2. On-line Lernen mit univar und
Seite 74 und 75: 70 2. On-line Lernen mit univar
Seite 76 und 77: 72 3. Neuronale Gewöhnung in Aplys
Seite 82 und 83: 78 4. Neuigkeitsorientiertes Lernen
Seite 100 und 101: 96 5. Zusammenfassung und Ergebniss
Seite 102 und 103: 98 A. Gedächtniskerne Man sieht, d
Seite 104 und 105: Appendix B Einige einfache Modelle
Seite 106 und 107: 102 B. Einige einfache Modelle Nun
Seite 108 und 109: 104 B. Einige einfache Modelle bere
Seite 110 und 111: Appendix C Ergebnisse der Variation
Seite 114 und 115: 110 C. Ergebnisse der Variationsrec
Seite 116 und 117: 112 C. Ergebnisse der Variationsrec
Seite 118 und 119: Literatur Abramowitz, M. & Stegun,
Seite 120 und 121: 116 Literatur Rieke, F., Warland, D
Seite 122 und 123: 118 Notation cr Zentren der Gaußfu
Seite 124 und 125: 120
Alle anzeigen

Diplomarbeit von Michael Schindler

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?