Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
67 5.4. CLUSTERING<br />
ϕ(x; µ; σ) = 1 (x−µ)2<br />
−<br />
√ e 2σ<br />
2πσ 2 , −∞ < x < ∞ (5.16)<br />
Jedem Cluster entspricht eine solche Verteilung <strong>und</strong> eine dazugehörige Dich-<br />
te. Da ein Dokument zu unterschiedlichen Graden unterschiedlichen Clustern<br />
angehören kann, muss für jedes Dokument eine Mischfunktion der unterschied-<br />
lichen Wahrscheinlichkeitsdichten existieren, die die verschiedenen Cluster mit<br />
unterschiedlicher Gewichtung w zusammengeführt werden. Diese ist, wie von<br />
Bradley et al.[BFR99] erläutert, für ein Dokument x über alle k Cluster mit<br />
Index h wie folgt definiert.<br />
p(x) =<br />
k�<br />
wh · fh(x|µh, σh) (5.17)<br />
h=1<br />
Die Gewichte w ergeben aufsummiert 1 <strong>und</strong> entsprechen dem Anteil an Do-<br />
kumenten, die in Cluster h gehören. Die Funktion f dagegen ist die Wahrschein-<br />
lichkeitsdichtefunktion für die Verteilung beliebiger Dokumente x in Bezug auf<br />
den Cluster h, parametrisiert mit der nötigen Erwartung <strong>und</strong> Varianz.<br />
Der Algorithmus schätzt diese Formel ab, indem er ihre Parameter (beste-<br />
hend aus den Gewichten, Erwartungen <strong>und</strong> Varianzen) mit Hilfe des Maximum<br />
Likelihood Verfahrens derart wählt, dass die resultierende Likelihood-Funktion<br />
maximal ist. Die Likelihood-Funktion wird über den kompletten Dokumenten-<br />
Raum aufgestellt <strong>und</strong> stellt die Qualität ( ” how well the corresponding mixture<br />
model fits the data“ 4 ) der geschätzten Parameter dar. Hier die Formel, bei der<br />
Φ für die Menge aller Parameter steht:<br />
L(Φ) = �<br />
�<br />
k�<br />
�<br />
log wh · fh(x|µh, σh)<br />
x∈D<br />
h=1<br />
(5.18)<br />
Der Ablauf besteht im Wesentlichen aus zwei Schritten[LGXZ02] [BFR99],<br />
die sich bis zum Erreichen <strong>eines</strong> Stop-Kriteriums abwechseln <strong>und</strong> somit iterativ<br />
die Lösung optimieren. Der erste Schritt wird häufig als E-Schritt (Gleichung<br />
5.19) bezeichnet, während der Zweite (Gleichung 5.20) dann den M-Schritt dar-<br />
stellt. Während des ersten Schrittes werden die Wahrscheinlichkeiten berechnet,<br />
nach der sich Dokument x in Cluster h aufhält. Der zweite Schritt optimiert die<br />
Parameter mit Hilfe der Ergebnisse des ersten Schritts.<br />
4 Seite 7 in [BFR99]