Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
1.1 Dichteschätzung mit einer Mischung multivariater Normalverteilungen 19<br />
˜p(x|1; θ) ˜p(x|2; θ) ˜p(x|3; θ)<br />
c1 c2 c3 x<br />
Abbildung 10: Die drei lokalen Verteilungsdichten, die nach Gleichung (1-21) <strong>von</strong><br />
den einzelnen Normalverteilungen in Abb. 8a approximiert werden. Die Aufteilung<br />
der ursprünglichen Verteilungsdichte p durch die Partitionierung in Abb. 8b<br />
findet gerade so statt, dass jeder Teil selbst etwa die Form einer Normalverteilung<br />
hat.<br />
um lineare Korrelationen in den Koordinatenwerten der Daten zu finden. Dazu muss<br />
die Kovarianzmatrix diagonalisiert werden. Orientiert man sich dabei hauptsächlich<br />
an den Eigenvektoren zu den größten Eigenwerten, so spricht man auch <strong>von</strong> Hauptachsenanalyse<br />
oder PCA (Principal component analysis).<br />
Die Terme in (1-13) und (1-14), bei denen die Approximation mit mehreren Normalverteilungen<br />
durchgeführt wird, sind jedoch keine globalen Momente, sondern werden<br />
zusätzlich mit den Zuständigkeiten ˆ P(r|x; θ) der einzelnen Normalverteilungen gewichtet.<br />
Somit erzeugen sie lokale Statistiken (Kloppenburg, 1996). Um dieses Konzept zu<br />
verstehen, stellen wir zunächst fest, dass sich für jede Komponente r des Mischungsmodells<br />
(1-3) ein zugehöriger Ausschnitt<br />
˜p(x|r; θ) := ˆ � � �<br />
P(r|x; θ) p(x) ˆP(r|x; θ) mit (1-21)<br />
X<br />
� �<br />
ˆP(r|x; θ) X =<br />
�<br />
ˆP(r|x; θ) p(x) dx (1-22)<br />
M<br />
aus der Datenverteilung p(x) angeben lässt. Das statistische Gewicht (1-22) der rlokalen<br />
Verteilung (1-21) wird gelegentlich auch als Load der r-ten Komponente bezeichnet.<br />
Abbildung 10 zeigt die r-lokalen Verteilungen (1-21) für das Beispiel aus<br />
Abb. 8a als hellgraue Linien. Wie man dort sieht, werden sie durch Normalverteilungen<br />
approximiert. Dieser Approximation liegen die Näherungen<br />
ˆPr ≈ � �<br />
P(r|x; ˆ θ) (1-23)<br />
für die statistischen Gewichte ˆ Pr und<br />
X<br />
ˆp(x; θ) ≈ p(x) (1-24)<br />
für die Gesamtverteilung zugrunde; denn mit diesen Näherungen folgt aus (1-21)<br />
zunächst<br />
˜p(x|r; θ) ≈ ˆ P(r|x; θ) ˆp(x; θ) � ˆ Pr, (1-25)<br />
woraus durch Einsetzen der Bayes’schen Formel (1-10) unmittelbar<br />
˜p(x|r; θ) ≈ ˆp(x|r; θr) (1-26)