31.07.2013 Aufrufe

Einführung in die Informationswissenschaft

Einführung in die Informationswissenschaft

Einführung in die Informationswissenschaft

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Textstatistik<br />

E<strong>in</strong>satz des Vektorraummodells bei SMART<br />

– (7) Errechnung von IDF und WDF (Variante: E<strong>in</strong>beziehen<br />

weiterer Gewichtungsfaktoren wie Position; im ursprünglichen<br />

SMART: b<strong>in</strong>äre Indexierung, also nur durch 1 bzw. 0)<br />

• für <strong>die</strong> „guten“ Worte mittlerer Häufigkeit<br />

• für <strong>die</strong> <strong>in</strong> Schritt 5 geformten Phrasen<br />

• für <strong>die</strong> <strong>in</strong> Schritt 6 geformten (Synonym-)Klassen<br />

– (8) Vektorbildung („E<strong>in</strong>hängen“ des Dokumentes <strong>in</strong> den<br />

Vektorraum)<br />

– (9) Zuordnung des neuen Dokuments zu e<strong>in</strong>em bestehenden<br />

Dokumentencluster; ggf. Kreation e<strong>in</strong>es neuen Clusters<br />

– dabei: Vergleich des neuen Dokuments mit den Zentroid-<br />

Vektoren der Cluster<br />

HHU Düsseldorf, WS 2004/05 <strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Informationswissenschaft</strong> 269

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!