Diplomarbeit von Michael Schindler

Weitere Magazine

Empfehlungen

Info

26 1. Grundlagen kann diese Analogie, wie weiter unten noch genauer erklärt werden wird, auch formal exakt formuliert werden. Wie wir am Beispiel aus Abb. 11a–c gesehen haben, nimmt die univar-Phase eine Grobanalyse der Datenverteilung vor, bei der das Optimum des Führparameters σ 2 und die zugehörigen Zentren cr der univariaten Modelle bestimmt werden. Dieses Optimum wird als Ausgangspunkt der zweiten Lernphase (Abb. 11d–f) verwendet. Indem die Kopplung der σ 2 ri an σ2 durch Verkleinern von µ langsam aufgehoben und durch Iteration aller Lernregeln (1-41) bis (1-44) zusätzlich noch die lokalen Kovarianzmatrizen Σr der Modelle bestimmt werden, analysieren nun multivariate Normalverteilungen Orientierung und Geometrie der Cluster. Die Qualität der gleitenden Mittelwertsbildung ist dabei durch die Größe von ε bedingt. Eine ausführliche Diskussion der Rolle von ε findet sich in Abschnitt 2.1.3. Die Lernregel (1-41) der Zentren, die im univar-Algorithmus zur Maximum-likelihood- Dichteschätzung führt, wurde schon von Rose, Gurewitz & Fox (1990) in einem etwas anderen Zusammenhang vorgeschlagen. Sie formulierten die Regel für einen Clustering-Algorithmus, der selbstorganisiert eine Zuordnung von Datenpunkten zu Prototypen durchführt. Das Verfahren dazu, das sie fuzzy clustering nannten, beruht auf ähnlichen unscharfen Partitionsfunktionen, wie sie in Abb. 9 gezeigt sind. Auch bei ihnen gibt es einen Parameter σ 2 , der die Schärfe der Einteilung bestimmt. Für jede der Partitionen existiert ein Prototyp, welcher die zugehörige Menge von Datenpunkten repräsentieren soll. Für ihr Modell konnten Rose, Gurewitz & Fox ein mechanisch/statistisches Analogon formulieren und in der Molekularfeldnäherung lösen. Der Parameter σ 2 bekommt dabei die Bedeutung einer Temperatur, die von großen nach kleinen Werten ” abgekühlt“ wird, um die Zuordnung der Punkte zu ihren Prototypen zu verbessern. Deshalb wird ein solches Verkleinern von σ 2 auch Annealing (Abkühlen) genannt. Die Autoren begründeten die Lernregel (1-41) mit einem Gradientenabstieg auf einer Funktion, die sie als freie Energie interpretieren konnten. Ihnen entging jedoch, dass die Regel in der sequentiell-stochastischen Form wie sie hier verwendet wird, ebenfalls die Log-likelihood eines univariaten Mischungsdichtemodells maximiert. Dieser Zusammenhang wurde von Kloppenburg & Tavan (1997) aufgedeckt, die erklärten, welche Verbindung zwischen Dichteschätzung im Maximum-likelihood-Sinne durch eine Mischung univariater Normalverteilungen (mit identischen Gewichten und Varianzen) und dem Problem des fuzzy clustering besteht. Ihr univar-Algorithmus kombiniert beide Sichtweisen. Die Theorie von Rose, Gurewitz & Fox hat den Vorteil, dass sie die Form der Aufspaltungen erklärt, und zwar als Phasenübergänge mit Führparameter σ und Ordnungsparameter (cr−cr ′) (Abb. 12c). Für große Werte von σ ist das Codebuch, wie man die Menge C ={c1, . . .,cM} der Zentren auch nennt, vollständig entartet. Beim Annealing bricht es sukzessive auf, wenn σ kritische Werte σkrit annimmt, bis seine Entartungen vollständig aufgehoben sind. Rose, Gurewitz & Fox (1990) zeigten, dass der erste Phasenübergang gerade dann geschieht, wenn σ2 und der größte Eigenwert der Kovarianzmatrix ΣX = � (x−cr)(x−cr) T� des Datensatzes, also die größte relevanten Struktur X
1.1 Dichteschätzung mit einer Mischung multivariater Normalverteilungen 27 in den Daten, gleich werden, σ 2 krit = max � λ � � ΣXy=λy � . (1-50) Die Richtung der Aufspaltung ist dann parallel zur dazugehörigen Hauptachse (von Abb. 11a nach b liegt sie waagerecht). Mit dieser Erkenntnis kann der Initialisierungsschritt (MV-1) des multivar- wie des univar-Algorithmus präzisiert werden. Jeder Lernprozess sollte mit so großem σ beginnen, dass der erste Aufspaltungsprozess noch nicht stattgefunden hat oder gerade stattfindet. Diese Initialisierung wurde in Abb. 11a gewählt: (MV-1) Initialisiere alle Zentren cr im Schwerpunkt des gesamten Datensatzes und mache die Varianzen so groß wie die größte Varianz des Datensatzes cr = 〈x〉 X für alle r, (1-51) σ 2 = max � λ � � ΣXy=λy � , und µ ≫ 1, (1-52) ˆPr = 1 , M und ν ≫ 1. (1-53) Beim multivariaten Training passen sich die Werte der σri datengetrieben an die Varianzen der Cluster an (Abb. 11d bis f). In diesem Sinne sind die Varianzen σri Netzwerkparameter, für die es eine geeignete Lernregel gibt. Beim univariaten Training wird σ dagegen als Führparameter behandelt, der die Stärke der Kompetition während des Lernprozesses steuert. Die optimale Form von σ(t) als Funktion der Zeit im Annealing- Prozess ist nicht durch das Maximum-likelihood-Prinzip bestimmt, das ja nur Aussagen über die optimalen Netzwerkparemeter θ im stationären Zustand erlaubt. Sie hat zwar bei beliebig langsamem Training keinen Einfluss auf den stationären Endzustand, doch in allen praktisch relevanten Fällen ist wichtig, wie das genaue Abkühl-Schema aussieht. Für das Thema dieser Arbeit, nämlich die Beschreibung der Probleme, die auftauchen, sobald der gelernte Datenstrom zeitliche Korrelationen aufweist, sind die beiden Phasen des multivar-Lernprozesses unterschiedlich interessant. Während der zweiten Phase passen sich die multivariaten Normalverteilungen genau an die lokale Geometrie der Datencluster an. Dazu ist notwendig, dass die Partitionierung von M bereits genügend scharf ist, dass also insbesondere die Phasenübergänge schon stattgefunden haben. Zeitlich korrelierte Daten haben in diesem Zustand wenig Einfluss auf das Verhalten der Parameter. Dies wird anhand von Abb. 6b in der Einleitung klar. Gäbe es – wie in Abbildung 13 – zwei Normalverteilungen, dann hätte sich jedes der Zentren auf einen der beiden Systemzustände spezialisiert, und die beiden Kurven würden sich von ihren lokalen Mittelwerten nicht mehr weit entfernen. Die Optimierung der lokalen Kovarianzmatrizen ist also ein Aspekt, bei dem eine Kopplung der Lerndynamik an die Systemdynamik von untergeordneter Bedeutung ist. Wesentlich interessanter bei der Verwendung von on-line Daten sind dagegen die Veränderungen des Clusteringprozesses. Hier wird sich das on-line Lernproblem in aller Deutlichkeit zeigen. Der detaillierten Beschreibung der auftretenden Phänomene ist
Seite 1: Modelle zur Entkopplung von Lern- u
Seite 4 und 5: iv Inhaltsverzeichnis 3 Neuronale G
Seite 6 und 7: 2 Einleitung a3 a4 a1 a2 Abbildung
Seite 8 und 9: 4 Einleitung Das Auffinden der pass
Seite 10 und 11: 6 Einleitung In der folgenden Gleic
Seite 12 und 13: 8 Einleitung Gleitende Mittelung vo
Seite 14 und 15: 10 Einleitung Dauer. Die akustische
Seite 16 und 17: 12 Einleitung kann, insbesondere, w
Seite 18 und 19: 14 1. Grundlagen schen Methoden zu
Seite 20 und 21: 16 1. Grundlagen lichkeitsdichte je
Seite 22 und 23: 18 1. Grundlagen Glockenkurve zuord
Seite 24 und 25: 20 1. Grundlagen folgt. Dies ist di
Seite 26 und 27: 22 1. Grundlagen Mit den Eigenwertg
Seite 28 und 29: 24 1. Grundlagen verteilungen, was
Seite 32 und 33: 28 1. Grundlagen Kapitel 2 gewidmet
Seite 34 und 35: 30 1. Grundlagen Eingabeschicht ⏐
Seite 36 und 37: 32 1. Grundlagen h r Sr T −→ x
Seite 38 und 39: 34 1. Grundlagen Die Verarbeitungsa
Seite 40 und 41: 36 1. Grundlagen 1.2.4 Hebb’sches
Seite 42 und 43: 38 1. Grundlagen (a) (b) kleiner Fi
Seite 44 und 45: 40 1. Grundlagen 1.2.6 Dimensionsre
Seite 46 und 47: 42 2. On-line Lernen mit univar Nac
Seite 48 und 49: 44 2. On-line Lernen mit univar 0 t
Seite 50 und 51: 46 2. On-line Lernen mit univar Au
Seite 52 und 53: 48 2. On-line Lernen mit univar x/
Seite 54 und 55: 50 2. On-line Lernen mit univar der
Seite 56 und 57: 52 2. On-line Lernen mit univar vie
Seite 58 und 59: 54 2. On-line Lernen mit univar (a1
Seite 60 und 61: 56 2. On-line Lernen mit univar 2.1
Seite 62 und 63: 58 2. On-line Lernen mit univar (c)
Seite 64 und 65: 60 2. On-line Lernen mit univar Die
Seite 66 und 67: 62 2. On-line Lernen mit univar log
Seite 68 und 69: 64 2. On-line Lernen mit univar imm
Seite 70 und 71: 66 2. On-line Lernen mit univar in
Seite 72 und 73: 68 2. On-line Lernen mit univar und
Seite 74 und 75: 70 2. On-line Lernen mit univar
Seite 76 und 77: 72 3. Neuronale Gewöhnung in Aplys
Seite 78 und 79: 74 3. Neuronale Gewöhnung in Aplys
Seite 80 und 81:
76 3. Neuronale Gewöhnung in Aplys
Seite 82 und 83:
78 4. Neuigkeitsorientiertes Lernen
Seite 84 und 85:
Seite 86 und 87:
Seite 88 und 89:
Seite 90 und 91:
Seite 92 und 93:
Seite 94 und 95:
Seite 96 und 97:
Seite 98 und 99:
Seite 100 und 101:
96 5. Zusammenfassung und Ergebniss
Seite 102 und 103:
98 A. Gedächtniskerne Man sieht, d
Seite 104 und 105:
Appendix B Einige einfache Modelle
Seite 106 und 107:
102 B. Einige einfache Modelle Nun
Seite 108 und 109:
104 B. Einige einfache Modelle bere
Seite 110 und 111:
Appendix C Ergebnisse der Variation
Seite 112 und 113:
108 C. Ergebnisse der Variationsrec
Seite 114 und 115:
Seite 116 und 117:
Seite 118 und 119:
Literatur Abramowitz, M. & Stegun,
Seite 120 und 121:
116 Literatur Rieke, F., Warland, D
Seite 122 und 123:
118 Notation cr Zentren der Gaußfu
Seite 124 und 125:
120
Alle anzeigen

Diplomarbeit von Michael Schindler

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?