Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
59 5.3. REPRÄSENTATION VON DOKUMENTEN<br />
5.3.3. Methoden für die Beschränkung auf wesentliche Features<br />
Aufgr<strong>und</strong> der genannten Beschränkungen ist es sinnvoll, nach Wegen zu suchen,<br />
die Dimensionalität der Feature Vektoren einzuschränken. Yang <strong>und</strong> Pedersen<br />
[YP97] sind eben dieser Frage nachgegangen <strong>und</strong> haben verschiedene Methoden<br />
auf ihre Wirksamkeit hin überprüft. Die Gewinner der Studie sollen an dieser<br />
Stelle kurz vorgestellt werden.<br />
Inverse Document Frequency<br />
Dieser Ansatz wurde bereits in [SJ72] beschrieben, wo er als ” Collection Fre-<br />
quency Weight“ bezeichnet wurde. Die Annahme dahinter ist, dass offenbar<br />
solche Begriffe für die Klassifikation besonders nützlich sind, die in einzelnen<br />
Dokumenten besonders häufig vorkommen, gleichzeitig aber in der gesamten<br />
Sammlung nur selten auftauchen. Solche Begriffe trennen einzelne Dokumente<br />
sehr gut von anderen <strong>und</strong> sind daher von Vorteil.<br />
idfi = log N<br />
ni<br />
(5.3)<br />
Rechnerisch kann IDF recht einfach als das Verhältnis zwischen der Zahl<br />
an Dokumenten insgesamt (N) <strong>und</strong> der Anzahl jener Dokumente, in denen der<br />
jeweilige Begriff bzw. das Feature i vorkommt (ni) angegeben werden, so dass<br />
letztendlich für jedes einzelne Feature ein entsprechender IDF-Wert existiert.<br />
Um entscheiden zu können, welche Features in den meisten Dokumenten vor-<br />
kommen <strong>und</strong> welche nicht, wäre ein Schwellenwert denkbar, der die allgemeine<br />
Umschreibung ” die meisten“ expliziert. Features, deren IDF nun über diesem<br />
Schwellenwert läge, könnten aus der Betrachtung ausgeschlossen werden.<br />
Häufiger dürfte IDF jedoch als Mittel zur Gewichtung der ermittelten Häufig-<br />
keiten angewandt werden. In dieser Funktion nennt man es auch TF-IDF, kurz<br />
für Term Frequency and Inverse Document Frequency. Dabei multipliziert man<br />
einfach die ermittelten Häufigkeiten (TF) <strong>eines</strong> Terms i in einem Dokument j<br />
mit der passenden IDF für den Term i.<br />
Information Gain<br />
Information Gain (IG) beschreibt den Informationsgewinn, der durch ein Fea-<br />
ture in Bezug auf die Klassifikation erbracht wird. Um den Gewinn ausdrücken<br />
zu können, benötigt man zunächst ein Maß für den Informationsgehalt. Ein