07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5.3. REPRÄSENTATION VON DOKUMENTEN 60<br />

Begriff, dessen Auftreten oder Nichtauftreten in Dokumenten eine hohe Aus-<br />

sagekraft über die Klassifikation hat, der hat einen hohen Informationsgehalt.<br />

Dies lässt sich wie folgt verallgemeinern <strong>und</strong> formeller ausdrücken.<br />

Der Informationsgehalt wurde ursprünglich von Shannon [Sha48] in Bezug<br />

auf die Kapazität von Übertragungskanälen betrachtet. Mit Kapazität ist hier<br />

die Information, die pro Zeiteinheit maximal durch den Übertragungskanal ge-<br />

leitet werden kann, gemeint. Seine Motivation war, formell mathematisch zu<br />

beschreiben, wie sich Rauschen auf die Korrektheit übertragener Daten aus-<br />

wirkt <strong>und</strong> welche Möglichkeiten es gibt, diesem Effekt entgegenzuwirken. Mit<br />

Rauschen sind Fehler gemeint, die bei der Übertragung passieren können.<br />

Rauschen hat die Eigenschaft, gleichmäßig verteilt nach einer bestimmten<br />

Wahrscheinlichkeit (Signal-to-Noise-Ratio oder kurz SNR) aufzutreten. Die The-<br />

se von Shannon bezüglich der Information ist nun, dass es bei einer bestimmten<br />

SNR eine ganz bestimmte Menge an Information gibt, die so durch den teilweise<br />

verrauschten Kanal geleitet werden kann, dass am anderen Ende ein rauschfrei-<br />

es fehlerloses Ergebnis steht. Diese Menge an Information ist eine theoretische<br />

Größe, die auch durch schlaueste Kodierungsverfahren nicht überschritten wer-<br />

den kann.<br />

Es gibt nun eine feste maximale Kapazität, die auf unverrauschte Weise er-<br />

reicht wird <strong>und</strong> die systemimmanent <strong>und</strong> gegeben ist. Wie sich diese Kapazität<br />

durch Rauschen erniedrigt, wird durch Shannons Maß für Information (auch<br />

Entropie genannt) mathematisch errechnet. Dies hat er in einer Formel wie<br />

folgt ausgedrückt 2 :<br />

H = −<br />

n�<br />

pi log pi<br />

i=1<br />

(5.4)<br />

Auf Information Retrieval übertragen lässt es sich derart, dass hierbei nach<br />

Wegen gesucht wird, so wenige Features (entsprechend Bits) wie möglich zu<br />

verwenden, um so viel Information wie möglich auszudrücken, um damit eine<br />

möglichst exakte Klassifizierung zu erreichen. Der Trick dabei ist, Rauschen (in<br />

Bezug auf die Klassifikation falsche Begriffe, Fehler, oder gleichmäßig verteilte<br />

Begriffe) herauszurechnen.<br />

Nun lässt sich die von Shannon ermittelte Formel für den Informationsge-<br />

halt verwenden, um den Informationsgewinn auszudrücken, den ein bestimmter<br />

Term t (bzw. ein bestimmtes Feature) für die Klassifikation des Dokuments<br />

2 Beweis siehe [Sha48], Seite 28ff

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!