07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

67 5.4. CLUSTERING<br />

ϕ(x; µ; σ) = 1 (x−µ)2<br />

−<br />

√ e 2σ<br />

2πσ 2 , −∞ < x < ∞ (5.16)<br />

Jedem Cluster entspricht eine solche Verteilung <strong>und</strong> eine dazugehörige Dich-<br />

te. Da ein Dokument zu unterschiedlichen Graden unterschiedlichen Clustern<br />

angehören kann, muss für jedes Dokument eine Mischfunktion der unterschied-<br />

lichen Wahrscheinlichkeitsdichten existieren, die die verschiedenen Cluster mit<br />

unterschiedlicher Gewichtung w zusammengeführt werden. Diese ist, wie von<br />

Bradley et al.[BFR99] erläutert, für ein Dokument x über alle k Cluster mit<br />

Index h wie folgt definiert.<br />

p(x) =<br />

k�<br />

wh · fh(x|µh, σh) (5.17)<br />

h=1<br />

Die Gewichte w ergeben aufsummiert 1 <strong>und</strong> entsprechen dem Anteil an Do-<br />

kumenten, die in Cluster h gehören. Die Funktion f dagegen ist die Wahrschein-<br />

lichkeitsdichtefunktion für die Verteilung beliebiger Dokumente x in Bezug auf<br />

den Cluster h, parametrisiert mit der nötigen Erwartung <strong>und</strong> Varianz.<br />

Der Algorithmus schätzt diese Formel ab, indem er ihre Parameter (beste-<br />

hend aus den Gewichten, Erwartungen <strong>und</strong> Varianzen) mit Hilfe des Maximum<br />

Likelihood Verfahrens derart wählt, dass die resultierende Likelihood-Funktion<br />

maximal ist. Die Likelihood-Funktion wird über den kompletten Dokumenten-<br />

Raum aufgestellt <strong>und</strong> stellt die Qualität ( ” how well the corresponding mixture<br />

model fits the data“ 4 ) der geschätzten Parameter dar. Hier die Formel, bei der<br />

Φ für die Menge aller Parameter steht:<br />

L(Φ) = �<br />

�<br />

k�<br />

�<br />

log wh · fh(x|µh, σh)<br />

x∈D<br />

h=1<br />

(5.18)<br />

Der Ablauf besteht im Wesentlichen aus zwei Schritten[LGXZ02] [BFR99],<br />

die sich bis zum Erreichen <strong>eines</strong> Stop-Kriteriums abwechseln <strong>und</strong> somit iterativ<br />

die Lösung optimieren. Der erste Schritt wird häufig als E-Schritt (Gleichung<br />

5.19) bezeichnet, während der Zweite (Gleichung 5.20) dann den M-Schritt dar-<br />

stellt. Während des ersten Schrittes werden die Wahrscheinlichkeiten berechnet,<br />

nach der sich Dokument x in Cluster h aufhält. Der zweite Schritt optimiert die<br />

Parameter mit Hilfe der Ergebnisse des ersten Schritts.<br />

4 Seite 7 in [BFR99]

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!