07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

5.3. REPRÄSENTATION VON DOKUMENTEN 62<br />

erweitert die Formel zur KL-Divergenz über eine Wahrscheinlichkeitsvariable x<br />

mit n Ausprägungen wie folgt:<br />

�<br />

KL(p|q) = EpIKL(p, q) = Ep log p(x)<br />

�<br />

=<br />

q(x)<br />

n�<br />

i<br />

pi log pi<br />

qi<br />

(5.8)<br />

Auf unsere Domäne der Klassifizierung von Termen bezogen wird aus 5.8 <strong>und</strong><br />

5.6 die Gleichung 5.9 für Terme t.<br />

m�<br />

P (t ∧ ci)<br />

MI(t) = P (t ∧ ci) log<br />

P (t) × P (ci)<br />

i=1<br />

(5.9)<br />

Dabei beschreibt MI, wie viel Information von P(t) in P(c) <strong>und</strong> von P(c)<br />

in P(t) enthalten ist. Sind die Wahrscheinlichkeitsverteilungen P(c) <strong>und</strong> P(t)<br />

unabhängig voneinander, hat MI den Wert 0, ansonsten ist er positiv. Je höher<br />

er ist, um so mehr Information ist beiden Verteilungen gemein.<br />

Es existiert eine Abschätzung der obigen Formel auf der Basis der Anzahlen<br />

A, B <strong>und</strong> C, sowie der Gesamtanzahl an Dokumenten N. Die Anzahlen be-<br />

gründen sich durch Korrelationen von t <strong>und</strong> c wie folgt: t mit c (A), t ohne c<br />

(B) sowie c ohne t (C) <strong>und</strong> münden in der Abschätzung:<br />

Anwendung<br />

I(t, c) ≈ log<br />

A × N<br />

(A + C) × (A + B)<br />

(5.10)<br />

Bei den drei erläuterten Maßen kommt nur DF ohne eine Lernphase aus. So-<br />

wohl IG als auch MI basieren auf Wahrscheinlichkeitsverteilungen, die zunächst<br />

unbekannt sind. Sie setzen voraus, dass eine Klassifikation existiert, der Do-<br />

kumente zugeordnet sind <strong>und</strong> dass eine Menge an Termkandidaten existiert.<br />

Nur wenn das der Fall ist, können die nötigen Wahrscheinlichkeitsverteilungen<br />

P(c) oder P(t) überhaupt ermittelt werden. Wenn die zugr<strong>und</strong>eliegenden Daten<br />

nicht ausreichen, ist eine Trainingsmenge ausreichender Größe mit repräsentati-<br />

ven Dokumenten anzulegen, damit die nötigen Wahrscheinlichkeitsverteilungen<br />

ermittelt werden können.<br />

5.3.4. Latent Semantic Indexing<br />

LSI [DFL + 88] arbeitet ebenso wie die meisten anderen bekannten Verfahren<br />

mit dem Vektorraummodell <strong>und</strong> repräsentiert ein Dokument somit als Feature<br />

Vektor.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!