31.07.2013 Aufrufe

Einführung in die Informationswissenschaft

Einführung in die Informationswissenschaft

Einführung in die Informationswissenschaft

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Textstatistik<br />

• e<strong>in</strong>faches Zählen der Worte: Freq(i,j):<br />

untaugliches Verfahren (Grund: lange Texte haben viele Worte<br />

und würden zu Unrecht nach oben sortiert)<br />

• Gewichtung nach Position im Text (P)<br />

– Gewichtungsfaktor für Vorkommen <strong>in</strong> unterschiedlichen<br />

Textteilen (Bsp.: 1.Abschnitt: 1,5 - Mitte: 0,8)<br />

– Gewichtungsfaktor für Vorkommen <strong>in</strong> unterschiedlichen<br />

Feldern bzw. Meta-Tags (Bsp.: Titel: 2,5; - Abstract: 1,5 - Text:<br />

1; title-tag: 2,5 – keywords-tag: 1,5)<br />

– wenn das Wort mehr als e<strong>in</strong>mal vorkommt: Übernahme des<br />

größten Wertes (Maximum) als Gewichtungsfaktor<br />

– als alle<strong>in</strong>iger Wert untauglich (e<strong>in</strong> Vorkommen z.B. im Titel<br />

sagt alle<strong>in</strong> nichts über <strong>die</strong> Signifikanz des Wortes im<br />

gesamten Text aus); u.U. e<strong>in</strong>setzbar <strong>in</strong> Verb<strong>in</strong>dung mit WDF<br />

HHU Düsseldorf, WS 2004/05 <strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Informationswissenschaft</strong> 239

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!