Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
26 1. Grundlagen<br />
kann diese Analogie, wie weiter unten noch genauer erklärt werden wird, auch formal<br />
exakt formuliert werden. Wie wir am Beispiel aus Abb. 11a–c gesehen haben, nimmt<br />
die univar-Phase eine Grobanalyse der Datenverteilung vor, bei der das Optimum des<br />
Führparameters σ 2 und die zugehörigen Zentren cr der univariaten Modelle bestimmt<br />
werden.<br />
Dieses Optimum wird als Ausgangspunkt der zweiten Lernphase (Abb. 11d–f) verwendet.<br />
Indem die Kopplung der σ 2 ri an σ2 durch Verkleinern <strong>von</strong> µ langsam aufgehoben<br />
und durch Iteration aller Lernregeln (1-41) bis (1-44) zusätzlich noch die lokalen Kovarianzmatrizen<br />
Σr der Modelle bestimmt werden, analysieren nun multivariate Normalverteilungen<br />
Orientierung und Geometrie der Cluster. Die Qualität der gleitenden<br />
Mittelwertsbildung ist dabei durch die Größe <strong>von</strong> ε bedingt. Eine ausführliche Diskussion<br />
der Rolle <strong>von</strong> ε findet sich in Abschnitt 2.1.3.<br />
Die Lernregel (1-41) der Zentren, die im univar-Algorithmus zur Maximum-likelihood-<br />
Dichteschätzung führt, wurde schon <strong>von</strong> Rose, Gurewitz & Fox (1990) in einem etwas<br />
anderen Zusammenhang vorgeschlagen. Sie formulierten die Regel für einen Clustering-Algorithmus,<br />
der selbstorganisiert eine Zuordnung <strong>von</strong> Datenpunkten zu Prototypen<br />
durchführt. Das Verfahren dazu, das sie fuzzy clustering nannten, beruht auf<br />
ähnlichen unscharfen Partitionsfunktionen, wie sie in Abb. 9 gezeigt sind. Auch bei<br />
ihnen gibt es einen Parameter σ 2 , der die Schärfe der Einteilung bestimmt. Für jede<br />
der Partitionen existiert ein Prototyp, welcher die zugehörige Menge <strong>von</strong> Datenpunkten<br />
repräsentieren soll. Für ihr Modell konnten Rose, Gurewitz & Fox ein mechanisch/statistisches<br />
Analogon formulieren und in der Molekularfeldnäherung lösen. Der<br />
Parameter σ 2 bekommt dabei die Bedeutung einer Temperatur, die <strong>von</strong> großen nach<br />
kleinen Werten ” abgekühlt“ wird, um die Zuordnung der Punkte zu ihren Prototypen<br />
zu verbessern. Deshalb wird ein solches Verkleinern <strong>von</strong> σ 2 auch Annealing (Abkühlen)<br />
genannt. Die Autoren begründeten die Lernregel (1-41) mit einem Gradientenabstieg<br />
auf einer Funktion, die sie als freie Energie interpretieren konnten. Ihnen entging jedoch,<br />
dass die Regel in der sequentiell-stochastischen Form wie sie hier verwendet wird,<br />
ebenfalls die Log-likelihood eines univariaten Mischungsdichtemodells maximiert. Dieser<br />
Zusammenhang wurde <strong>von</strong> Kloppenburg & Tavan (1997) aufgedeckt, die erklärten,<br />
welche Verbindung zwischen Dichteschätzung im Maximum-likelihood-Sinne durch eine<br />
Mischung univariater Normalverteilungen (mit identischen Gewichten und Varianzen)<br />
und dem Problem des fuzzy clustering besteht. Ihr univar-Algorithmus kombiniert<br />
beide Sichtweisen.<br />
Die Theorie <strong>von</strong> Rose, Gurewitz & Fox hat den Vorteil, dass sie die Form der Aufspaltungen<br />
erklärt, und zwar als Phasenübergänge mit Führparameter σ und Ordnungsparameter<br />
(cr−cr ′) (Abb. 12c). Für große Werte <strong>von</strong> σ ist das Codebuch, wie man die<br />
Menge C ={c1, . . .,cM} der Zentren auch nennt, vollständig entartet. Beim Annealing<br />
bricht es sukzessive auf, wenn σ kritische Werte σkrit annimmt, bis seine Entartungen<br />
vollständig aufgehoben sind. Rose, Gurewitz & Fox (1990) zeigten, dass der erste<br />
Phasenübergang gerade dann geschieht, wenn σ2 und der größte Eigenwert der Kovarianzmatrix<br />
ΣX = � (x−cr)(x−cr) T� des Datensatzes, also die größte relevanten Struktur<br />
X