31.07.2013 Aufrufe

Einführung in die Informationswissenschaft

Einführung in die Informationswissenschaft

Einführung in die Informationswissenschaft

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Textstatistik<br />

Textstatistik (Relevance Rank<strong>in</strong>g I). Fazit<br />

• Zuordnung von Gewichtungswerten bei Suchanfragen durch<br />

Nutzer (bei Google: durch Reihenfolge der Suchworte)<br />

• Der Übergang zum Relevance Rank<strong>in</strong>g ist sowohl aus Booleschen<br />

Systemen als auch aus <strong>in</strong>formationsl<strong>in</strong>guistischen Komponenten<br />

automatisch <strong>in</strong>dexierender Systeme möglich.<br />

• Historischer Ausgang: These von Luhn: Häufig vorkommende<br />

Worte s<strong>in</strong>d für e<strong>in</strong> Dokument auch wichtig (schlecht: zu häufige<br />

und zu seltene Worte)<br />

• Grunddaten für Textstatistik:<br />

– Position e<strong>in</strong>es Wortes im Text (im Titel wichtiger als <strong>in</strong> e<strong>in</strong>er Fußnote)<br />

– WDF (Gewichtung nach Auftretenshäufigkeit im Dokument: je häufiger,<br />

desto wichtiger)<br />

– IDF (Gewichtung nach Auftretenshäufigkeit <strong>in</strong> der gesamten<br />

Datenbank: je mehr Dokumente das Wort enthalten, desto unwichtiger)<br />

– „e<strong>in</strong>facher“ Gewichtungswert (Wort im Dokument): P * WDF * IDF<br />

HHU Düsseldorf, WS 2004/05 <strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Informationswissenschaft</strong> 283

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!