Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
61 5.3. REPRÄSENTATION VON DOKUMENTEN<br />
einbringt. Und zwar wie folgt:<br />
G(t) =<br />
m�<br />
− P (ci) log P (ci)<br />
i=1<br />
m�<br />
+P (t) P (ci|t) log P (ci|t)<br />
i=1<br />
m�<br />
+P (t) P (ci|t) log P (ci|t)<br />
i=1<br />
(5.5)<br />
In dieser Formel bezeichnet c eine Klasse aus der Menge aller Klassen (i=1. . . m),<br />
denen jeweils ein Dokument entweder zugeordnet wird oder nicht. Dabei ist P(c)<br />
die Wahrscheinlichkeit oder Frequenz, mit der ein Dokument dieser Klasse c zu-<br />
geordnet wird. P(t) ist die Frequenz des Auftretens des Terms/Features t <strong>und</strong><br />
P(c|t) entsprechend die Frequenz, mit der Dokumente bei vorliegendem Feature<br />
t der Klasse c zugeordnet werden.<br />
Mutual Information<br />
Mutual Information (MI) beschreibt die statistische Korrelation, in diesem Fall<br />
zwischen Features <strong>und</strong> Klassen, <strong>und</strong> ist folgendermaßen definiert.<br />
I(t, c) = log<br />
P (t ∧ c)<br />
P (t) × P (c)<br />
(5.6)<br />
Gleichung 5.6 geht auf das Maß des gemeinsamen Informationsgehaltes von<br />
Kullback-Leibler [KL51] zurück, das in Gleichung 5.7 dargestellt ist. Es geht von<br />
zwei unterschiedlichen Wahrscheinlichkeitsverteilungen über eine gemeinsame<br />
Wahrscheinlichkeitsvariable x aus, die in Beziehung gesetzt werden.<br />
Besondere Eigenschaften: Dieses Maß ist nicht symmetrisch, so dass es eher<br />
als Inklusion verstanden werden kann. Zudem ist zu beachten, dass es unendlich<br />
wird, wenn die Wahrscheinlichkeit q für x 0 ist, während dies bei p für x nicht<br />
der Fall ist.<br />
IKL(p, q) = log p(x)<br />
q(x)<br />
(5.7)<br />
Die Formel, die im allgemeinen unter der Bezeichnung Kullback-Leibler-<br />
Divergenz bekannt ist <strong>und</strong> die auch im folgenden die Gr<strong>und</strong>lage bilden soll, ent-<br />
spricht dem erwarteten gemeinsamen Informationsgehalt. Der Erwartungswert<br />
beschreibt den durchschnittlichen Wert einer Wahrscheinlichkeitsverteilung <strong>und</strong>