Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
5.3. REPRÄSENTATION VON DOKUMENTEN 60<br />
Begriff, dessen Auftreten oder Nichtauftreten in Dokumenten eine hohe Aus-<br />
sagekraft über die Klassifikation hat, der hat einen hohen Informationsgehalt.<br />
Dies lässt sich wie folgt verallgemeinern <strong>und</strong> formeller ausdrücken.<br />
Der Informationsgehalt wurde ursprünglich von Shannon [Sha48] in Bezug<br />
auf die Kapazität von Übertragungskanälen betrachtet. Mit Kapazität ist hier<br />
die Information, die pro Zeiteinheit maximal durch den Übertragungskanal ge-<br />
leitet werden kann, gemeint. Seine Motivation war, formell mathematisch zu<br />
beschreiben, wie sich Rauschen auf die Korrektheit übertragener Daten aus-<br />
wirkt <strong>und</strong> welche Möglichkeiten es gibt, diesem Effekt entgegenzuwirken. Mit<br />
Rauschen sind Fehler gemeint, die bei der Übertragung passieren können.<br />
Rauschen hat die Eigenschaft, gleichmäßig verteilt nach einer bestimmten<br />
Wahrscheinlichkeit (Signal-to-Noise-Ratio oder kurz SNR) aufzutreten. Die The-<br />
se von Shannon bezüglich der Information ist nun, dass es bei einer bestimmten<br />
SNR eine ganz bestimmte Menge an Information gibt, die so durch den teilweise<br />
verrauschten Kanal geleitet werden kann, dass am anderen Ende ein rauschfrei-<br />
es fehlerloses Ergebnis steht. Diese Menge an Information ist eine theoretische<br />
Größe, die auch durch schlaueste Kodierungsverfahren nicht überschritten wer-<br />
den kann.<br />
Es gibt nun eine feste maximale Kapazität, die auf unverrauschte Weise er-<br />
reicht wird <strong>und</strong> die systemimmanent <strong>und</strong> gegeben ist. Wie sich diese Kapazität<br />
durch Rauschen erniedrigt, wird durch Shannons Maß für Information (auch<br />
Entropie genannt) mathematisch errechnet. Dies hat er in einer Formel wie<br />
folgt ausgedrückt 2 :<br />
H = −<br />
n�<br />
pi log pi<br />
i=1<br />
(5.4)<br />
Auf Information Retrieval übertragen lässt es sich derart, dass hierbei nach<br />
Wegen gesucht wird, so wenige Features (entsprechend Bits) wie möglich zu<br />
verwenden, um so viel Information wie möglich auszudrücken, um damit eine<br />
möglichst exakte Klassifizierung zu erreichen. Der Trick dabei ist, Rauschen (in<br />
Bezug auf die Klassifikation falsche Begriffe, Fehler, oder gleichmäßig verteilte<br />
Begriffe) herauszurechnen.<br />
Nun lässt sich die von Shannon ermittelte Formel für den Informationsge-<br />
halt verwenden, um den Informationsgewinn auszudrücken, den ein bestimmter<br />
Term t (bzw. ein bestimmtes Feature) für die Klassifikation des Dokuments<br />
2 Beweis siehe [Sha48], Seite 28ff