Diplomarbeit von Michael Schindler

Weitere Magazine

Empfehlungen

Info

Appendix C Ergebnisse der Variationsrechnung In diesem Anhang wird eine der zentralen Eigenschaften des ANTS-Algorithmus begründet, nämlich dass er den unteren Stumpf einer Verteilungsdichte p approximiert. Die dafür verwendete Methode ist die Variationsrechnung. Da sich dieser Kalkül aber nicht auf beliebige Funktionen p anwenden lässt, gelten die im folgenden gemachten Aussagen nicht in aller mathematischer Strenge, sondern sind als Heuristiken zu verstehen, die in vielen Fällen unter Verwendung von ausreichend gutartigen Funktionenklassen richtig sind. Zunächst möchte ich an einem einfachen Beispiel demonstrieren, wie die Verwendung des Variationskalküls viele ansonsten schwer zu beweisende Aussagen vereinfacht. Anschließend soll das stationäre Verhalten des ANTS-Algorithmus untersucht und die Behauptung (4-14) gezeigt werden. C.1 Warum eine ML-Schätzung die Verteilungsdichte approximiert In Abschnitt 1.1 wurde klar, dass der stationäre Zustand des multivar-Algorithmus, der durch die Gleichungen (1-13) bis (1-15) charakterisiert ist, eine Maximum-likelihood- Dichteschätzung darstellt. Anhand der Erklärung des ML-Prinzips auf den Seiten 15f wurde klar, dass es sich bei ˆp tatsächlich um ein Modell der Verteilungsdichte p handelt, die dem Datensatz zugrundeliegt. Diese Frage, ob p und ˆp im Idealfall eines vollständigen Datensatzes und einer beliebig guten Approximationsfähigkeit durch ˆp gleich werden können, wurde von Dersch (1995) beantwortet, der die mögliche Gleichheit von p und ˆp feststellte. Als Bedingung nannte er, dass die Breiten der verwendeten Normalverteilungen von der gleichen Größenordnung sein sollen wie ihre Abstände. Mit dem ML-Prinzip ist diese Bedingung noch genauer gefasst worden. In diesem Abschnitt möchte ich nun mit einer formalen Methode das Ergebnis ˆp = p für beliebig genaue Approximierbarkeit durch ˆp (d.h. beliebig viele Neuronen) erneut ableiten. Dazu betrachtet man die Log-Likelihood aus (1-7) und erweitert sie zu dem
Funktional C.1 Warum eine ML-Schätzung die Verteilungsdichte approximiert 107 � E [ˆp] := M p ln ˆp. (C-1) Dieses Log-likelihood-Funktional wird unter der Nebenbedingung maximiert, dass ˆp immer auf eins normiert bleibt, � ˆp = 1. (C-2) M Da diese Nebenbedingung ebenfalls eine Integralbedingung ist, handelt es sich um ein isoperimetrisches Variationsproblem. Man kann die Maximierung von E, eingeschränkt auf die durch (C-2) definierte Mannigfaltigkeit, durch Maximierung des Funktionals L mit einem reellen Lagrange-Parameter λ, � � L[ˆp] = p ln ˆp + λ � � ˆp − 1 , (C-3) ersetzen (siehe Tapia & Thompson, 1978, Appendix I oder Klingbeil, 1988). Wenn man nun die Definition der Variationsableitung δL/δˆp verwendet (Bishop, 1995, Appendix D), � δL = L[ˆp + δˆp] − L[ˆp] =: M δL δˆp δˆp dx + O(δˆp2 ), (C-4) dann bekommt man die notwendige Bedingung für die Maximierung von L, δL δˆp = p ˆp + λ ! = 0. (C-5) Aus p=−λ ˆp und der Normierung von p folgt sofort der Wert des Lagrange-Parameters λ=−1 und die Behauptung der Dichteschätzung, ˆp = p. (C-6) Dies gilt natürlich nur, wenn man ˆp tatsächlich beliebig ” nahe“ an p bringen kann, also wenn p ebenfalls eine endliche Mischung von Normalverteilungen ist. Ansonsten müsste die Variation auf die Menge der Mischungen von Normalverteilungen eingeschränkt werden, was schwieriger aufzuschreiben ist. Man bekommt dann M Lagrange- Parameter (einen für jedes Codebuchzentrum), was letztendlich nur wieder den stationären Zustand (1-13) der Lernregeln wiederholt. Wenn man die zweite Ableitung des Funktionals bestimmt, so bekommt man was als Funktion kleiner als Null ist, denn es ist auch δ2L p = − < 0, (C-7) δˆp 2 ˆp 2 ˆp(x) > 0 für alle x ∈ M, und p(x) > 0 für mindestens ein x ∈ M. Mit Gleichung (C-7) ist also die asymptotische Stabilität des stationären Zustandes p= ˆp von multivar bewiesen.
Seite 1:
Modelle zur Entkopplung von Lern- u
Seite 4 und 5:
iv Inhaltsverzeichnis 3 Neuronale G
Seite 6 und 7:
2 Einleitung a3 a4 a1 a2 Abbildung
Seite 8 und 9:
4 Einleitung Das Auffinden der pass
Seite 10 und 11:
6 Einleitung In der folgenden Gleic
Seite 12 und 13:
8 Einleitung Gleitende Mittelung vo
Seite 14 und 15:
10 Einleitung Dauer. Die akustische
Seite 16 und 17:
12 Einleitung kann, insbesondere, w
Seite 18 und 19:
14 1. Grundlagen schen Methoden zu
Seite 20 und 21:
16 1. Grundlagen lichkeitsdichte je
Seite 22 und 23:
18 1. Grundlagen Glockenkurve zuord
Seite 24 und 25:
20 1. Grundlagen folgt. Dies ist di
Seite 26 und 27:
22 1. Grundlagen Mit den Eigenwertg
Seite 28 und 29:
24 1. Grundlagen verteilungen, was
Seite 30 und 31:
26 1. Grundlagen kann diese Analogi
Seite 32 und 33:
28 1. Grundlagen Kapitel 2 gewidmet
Seite 34 und 35:
30 1. Grundlagen Eingabeschicht ⏐
Seite 36 und 37:
32 1. Grundlagen h r Sr T −→ x
Seite 38 und 39:
34 1. Grundlagen Die Verarbeitungsa
Seite 40 und 41:
36 1. Grundlagen 1.2.4 Hebb’sches
Seite 42 und 43:
38 1. Grundlagen (a) (b) kleiner Fi
Seite 44 und 45:
40 1. Grundlagen 1.2.6 Dimensionsre
Seite 46 und 47:
42 2. On-line Lernen mit univar Nac
Seite 48 und 49:
44 2. On-line Lernen mit univar 0 t
Seite 50 und 51:
46 2. On-line Lernen mit univar Au
Seite 52 und 53:
48 2. On-line Lernen mit univar x/
Seite 54 und 55:
50 2. On-line Lernen mit univar der
Seite 56 und 57:
52 2. On-line Lernen mit univar vie
Seite 58 und 59:
54 2. On-line Lernen mit univar (a1
Seite 60 und 61: 56 2. On-line Lernen mit univar 2.1
Seite 62 und 63: 58 2. On-line Lernen mit univar (c)
Seite 64 und 65: 60 2. On-line Lernen mit univar Die
Seite 66 und 67: 62 2. On-line Lernen mit univar log
Seite 68 und 69: 64 2. On-line Lernen mit univar imm
Seite 70 und 71: 66 2. On-line Lernen mit univar in
Seite 72 und 73: 68 2. On-line Lernen mit univar und
Seite 74 und 75: 70 2. On-line Lernen mit univar
Seite 76 und 77: 72 3. Neuronale Gewöhnung in Aplys
Seite 82 und 83: 78 4. Neuigkeitsorientiertes Lernen
Seite 100 und 101: 96 5. Zusammenfassung und Ergebniss
Seite 102 und 103: 98 A. Gedächtniskerne Man sieht, d
Seite 104 und 105: Appendix B Einige einfache Modelle
Seite 106 und 107: 102 B. Einige einfache Modelle Nun
Seite 108 und 109: 104 B. Einige einfache Modelle bere
Seite 112 und 113: 108 C. Ergebnisse der Variationsrec
Seite 118 und 119: Literatur Abramowitz, M. & Stegun,
Seite 120 und 121: 116 Literatur Rieke, F., Warland, D
Seite 122 und 123: 118 Notation cr Zentren der Gaußfu
Seite 124 und 125: 120
Alle anzeigen

Diplomarbeit von Michael Schindler

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?