07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

59 5.3. REPRÄSENTATION VON DOKUMENTEN<br />

5.3.3. Methoden für die Beschränkung auf wesentliche Features<br />

Aufgr<strong>und</strong> der genannten Beschränkungen ist es sinnvoll, nach Wegen zu suchen,<br />

die Dimensionalität der Feature Vektoren einzuschränken. Yang <strong>und</strong> Pedersen<br />

[YP97] sind eben dieser Frage nachgegangen <strong>und</strong> haben verschiedene Methoden<br />

auf ihre Wirksamkeit hin überprüft. Die Gewinner der Studie sollen an dieser<br />

Stelle kurz vorgestellt werden.<br />

Inverse Document Frequency<br />

Dieser Ansatz wurde bereits in [SJ72] beschrieben, wo er als ” Collection Fre-<br />

quency Weight“ bezeichnet wurde. Die Annahme dahinter ist, dass offenbar<br />

solche Begriffe für die Klassifikation besonders nützlich sind, die in einzelnen<br />

Dokumenten besonders häufig vorkommen, gleichzeitig aber in der gesamten<br />

Sammlung nur selten auftauchen. Solche Begriffe trennen einzelne Dokumente<br />

sehr gut von anderen <strong>und</strong> sind daher von Vorteil.<br />

idfi = log N<br />

ni<br />

(5.3)<br />

Rechnerisch kann IDF recht einfach als das Verhältnis zwischen der Zahl<br />

an Dokumenten insgesamt (N) <strong>und</strong> der Anzahl jener Dokumente, in denen der<br />

jeweilige Begriff bzw. das Feature i vorkommt (ni) angegeben werden, so dass<br />

letztendlich für jedes einzelne Feature ein entsprechender IDF-Wert existiert.<br />

Um entscheiden zu können, welche Features in den meisten Dokumenten vor-<br />

kommen <strong>und</strong> welche nicht, wäre ein Schwellenwert denkbar, der die allgemeine<br />

Umschreibung ” die meisten“ expliziert. Features, deren IDF nun über diesem<br />

Schwellenwert läge, könnten aus der Betrachtung ausgeschlossen werden.<br />

Häufiger dürfte IDF jedoch als Mittel zur Gewichtung der ermittelten Häufig-<br />

keiten angewandt werden. In dieser Funktion nennt man es auch TF-IDF, kurz<br />

für Term Frequency and Inverse Document Frequency. Dabei multipliziert man<br />

einfach die ermittelten Häufigkeiten (TF) <strong>eines</strong> Terms i in einem Dokument j<br />

mit der passenden IDF für den Term i.<br />

Information Gain<br />

Information Gain (IG) beschreibt den Informationsgewinn, der durch ein Fea-<br />

ture in Bezug auf die Klassifikation erbracht wird. Um den Gewinn ausdrücken<br />

zu können, benötigt man zunächst ein Maß für den Informationsgehalt. Ein

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!