07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

61 5.3. REPRÄSENTATION VON DOKUMENTEN<br />

einbringt. Und zwar wie folgt:<br />

G(t) =<br />

m�<br />

− P (ci) log P (ci)<br />

i=1<br />

m�<br />

+P (t) P (ci|t) log P (ci|t)<br />

i=1<br />

m�<br />

+P (t) P (ci|t) log P (ci|t)<br />

i=1<br />

(5.5)<br />

In dieser Formel bezeichnet c eine Klasse aus der Menge aller Klassen (i=1. . . m),<br />

denen jeweils ein Dokument entweder zugeordnet wird oder nicht. Dabei ist P(c)<br />

die Wahrscheinlichkeit oder Frequenz, mit der ein Dokument dieser Klasse c zu-<br />

geordnet wird. P(t) ist die Frequenz des Auftretens des Terms/Features t <strong>und</strong><br />

P(c|t) entsprechend die Frequenz, mit der Dokumente bei vorliegendem Feature<br />

t der Klasse c zugeordnet werden.<br />

Mutual Information<br />

Mutual Information (MI) beschreibt die statistische Korrelation, in diesem Fall<br />

zwischen Features <strong>und</strong> Klassen, <strong>und</strong> ist folgendermaßen definiert.<br />

I(t, c) = log<br />

P (t ∧ c)<br />

P (t) × P (c)<br />

(5.6)<br />

Gleichung 5.6 geht auf das Maß des gemeinsamen Informationsgehaltes von<br />

Kullback-Leibler [KL51] zurück, das in Gleichung 5.7 dargestellt ist. Es geht von<br />

zwei unterschiedlichen Wahrscheinlichkeitsverteilungen über eine gemeinsame<br />

Wahrscheinlichkeitsvariable x aus, die in Beziehung gesetzt werden.<br />

Besondere Eigenschaften: Dieses Maß ist nicht symmetrisch, so dass es eher<br />

als Inklusion verstanden werden kann. Zudem ist zu beachten, dass es unendlich<br />

wird, wenn die Wahrscheinlichkeit q für x 0 ist, während dies bei p für x nicht<br />

der Fall ist.<br />

IKL(p, q) = log p(x)<br />

q(x)<br />

(5.7)<br />

Die Formel, die im allgemeinen unter der Bezeichnung Kullback-Leibler-<br />

Divergenz bekannt ist <strong>und</strong> die auch im folgenden die Gr<strong>und</strong>lage bilden soll, ent-<br />

spricht dem erwarteten gemeinsamen Informationsgehalt. Der Erwartungswert<br />

beschreibt den durchschnittlichen Wert einer Wahrscheinlichkeitsverteilung <strong>und</strong>

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!