Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
5.3. REPRÄSENTATION VON DOKUMENTEN 62<br />
erweitert die Formel zur KL-Divergenz über eine Wahrscheinlichkeitsvariable x<br />
mit n Ausprägungen wie folgt:<br />
�<br />
KL(p|q) = EpIKL(p, q) = Ep log p(x)<br />
�<br />
=<br />
q(x)<br />
n�<br />
i<br />
pi log pi<br />
qi<br />
(5.8)<br />
Auf unsere Domäne der Klassifizierung von Termen bezogen wird aus 5.8 <strong>und</strong><br />
5.6 die Gleichung 5.9 für Terme t.<br />
m�<br />
P (t ∧ ci)<br />
MI(t) = P (t ∧ ci) log<br />
P (t) × P (ci)<br />
i=1<br />
(5.9)<br />
Dabei beschreibt MI, wie viel Information von P(t) in P(c) <strong>und</strong> von P(c)<br />
in P(t) enthalten ist. Sind die Wahrscheinlichkeitsverteilungen P(c) <strong>und</strong> P(t)<br />
unabhängig voneinander, hat MI den Wert 0, ansonsten ist er positiv. Je höher<br />
er ist, um so mehr Information ist beiden Verteilungen gemein.<br />
Es existiert eine Abschätzung der obigen Formel auf der Basis der Anzahlen<br />
A, B <strong>und</strong> C, sowie der Gesamtanzahl an Dokumenten N. Die Anzahlen be-<br />
gründen sich durch Korrelationen von t <strong>und</strong> c wie folgt: t mit c (A), t ohne c<br />
(B) sowie c ohne t (C) <strong>und</strong> münden in der Abschätzung:<br />
Anwendung<br />
I(t, c) ≈ log<br />
A × N<br />
(A + C) × (A + B)<br />
(5.10)<br />
Bei den drei erläuterten Maßen kommt nur DF ohne eine Lernphase aus. So-<br />
wohl IG als auch MI basieren auf Wahrscheinlichkeitsverteilungen, die zunächst<br />
unbekannt sind. Sie setzen voraus, dass eine Klassifikation existiert, der Do-<br />
kumente zugeordnet sind <strong>und</strong> dass eine Menge an Termkandidaten existiert.<br />
Nur wenn das der Fall ist, können die nötigen Wahrscheinlichkeitsverteilungen<br />
P(c) oder P(t) überhaupt ermittelt werden. Wenn die zugr<strong>und</strong>eliegenden Daten<br />
nicht ausreichen, ist eine Trainingsmenge ausreichender Größe mit repräsentati-<br />
ven Dokumenten anzulegen, damit die nötigen Wahrscheinlichkeitsverteilungen<br />
ermittelt werden können.<br />
5.3.4. Latent Semantic Indexing<br />
LSI [DFL + 88] arbeitet ebenso wie die meisten anderen bekannten Verfahren<br />
mit dem Vektorraummodell <strong>und</strong> repräsentiert ein Dokument somit als Feature<br />
Vektor.