21.12.2012 Aufrufe

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

26 1. Grundlagen<br />

kann diese Analogie, wie weiter unten noch genauer erklärt werden wird, auch formal<br />

exakt formuliert werden. Wie wir am Beispiel aus Abb. 11a–c gesehen haben, nimmt<br />

die univar-Phase eine Grobanalyse der Datenverteilung vor, bei der das Optimum des<br />

Führparameters σ 2 und die zugehörigen Zentren cr der univariaten Modelle bestimmt<br />

werden.<br />

Dieses Optimum wird als Ausgangspunkt der zweiten Lernphase (Abb. 11d–f) verwendet.<br />

Indem die Kopplung der σ 2 ri an σ2 durch Verkleinern <strong>von</strong> µ langsam aufgehoben<br />

und durch Iteration aller Lernregeln (1-41) bis (1-44) zusätzlich noch die lokalen Kovarianzmatrizen<br />

Σr der Modelle bestimmt werden, analysieren nun multivariate Normalverteilungen<br />

Orientierung und Geometrie der Cluster. Die Qualität der gleitenden<br />

Mittelwertsbildung ist dabei durch die Größe <strong>von</strong> ε bedingt. Eine ausführliche Diskussion<br />

der Rolle <strong>von</strong> ε findet sich in Abschnitt 2.1.3.<br />

Die Lernregel (1-41) der Zentren, die im univar-Algorithmus zur Maximum-likelihood-<br />

Dichteschätzung führt, wurde schon <strong>von</strong> Rose, Gurewitz & Fox (1990) in einem etwas<br />

anderen Zusammenhang vorgeschlagen. Sie formulierten die Regel für einen Clustering-Algorithmus,<br />

der selbstorganisiert eine Zuordnung <strong>von</strong> Datenpunkten zu Prototypen<br />

durchführt. Das Verfahren dazu, das sie fuzzy clustering nannten, beruht auf<br />

ähnlichen unscharfen Partitionsfunktionen, wie sie in Abb. 9 gezeigt sind. Auch bei<br />

ihnen gibt es einen Parameter σ 2 , der die Schärfe der Einteilung bestimmt. Für jede<br />

der Partitionen existiert ein Prototyp, welcher die zugehörige Menge <strong>von</strong> Datenpunkten<br />

repräsentieren soll. Für ihr Modell konnten Rose, Gurewitz & Fox ein mechanisch/statistisches<br />

Analogon formulieren und in der Molekularfeldnäherung lösen. Der<br />

Parameter σ 2 bekommt dabei die Bedeutung einer Temperatur, die <strong>von</strong> großen nach<br />

kleinen Werten ” abgekühlt“ wird, um die Zuordnung der Punkte zu ihren Prototypen<br />

zu verbessern. Deshalb wird ein solches Verkleinern <strong>von</strong> σ 2 auch Annealing (Abkühlen)<br />

genannt. Die Autoren begründeten die Lernregel (1-41) mit einem Gradientenabstieg<br />

auf einer Funktion, die sie als freie Energie interpretieren konnten. Ihnen entging jedoch,<br />

dass die Regel in der sequentiell-stochastischen Form wie sie hier verwendet wird,<br />

ebenfalls die Log-likelihood eines univariaten Mischungsdichtemodells maximiert. Dieser<br />

Zusammenhang wurde <strong>von</strong> Kloppenburg & Tavan (1997) aufgedeckt, die erklärten,<br />

welche Verbindung zwischen Dichteschätzung im Maximum-likelihood-Sinne durch eine<br />

Mischung univariater Normalverteilungen (mit identischen Gewichten und Varianzen)<br />

und dem Problem des fuzzy clustering besteht. Ihr univar-Algorithmus kombiniert<br />

beide Sichtweisen.<br />

Die Theorie <strong>von</strong> Rose, Gurewitz & Fox hat den Vorteil, dass sie die Form der Aufspaltungen<br />

erklärt, und zwar als Phasenübergänge mit Führparameter σ und Ordnungsparameter<br />

(cr−cr ′) (Abb. 12c). Für große Werte <strong>von</strong> σ ist das Codebuch, wie man die<br />

Menge C ={c1, . . .,cM} der Zentren auch nennt, vollständig entartet. Beim Annealing<br />

bricht es sukzessive auf, wenn σ kritische Werte σkrit annimmt, bis seine Entartungen<br />

vollständig aufgehoben sind. Rose, Gurewitz & Fox (1990) zeigten, dass der erste<br />

Phasenübergang gerade dann geschieht, wenn σ2 und der größte Eigenwert der Kovarianzmatrix<br />

ΣX = � (x−cr)(x−cr) T� des Datensatzes, also die größte relevanten Struktur<br />

X

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!