26.09.2013 Aufrufe

Textindexierung durch beispielbasierte Termextraktion - Brennercom

Textindexierung durch beispielbasierte Termextraktion - Brennercom

Textindexierung durch beispielbasierte Termextraktion - Brennercom

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Voltmer/ Streiter<br />

Termfrequenz mal Länge, Ähnlichkeit von n-Grammen, weirdness ratio 14 (Brekke<br />

96) oder mutual information in Tabellen oder Absätzen erfolgen. 15 Wenn beim<br />

Indexieren nur einige Begriffe verwendet werden sollen, dann kann man die<br />

Ergebnisliste nach der gewünschten Anzahl abschneiden, womit nur die besten<br />

Termkandidaten verbleiben. Das Programm gibt die Möglichkeit zur Begrenzung<br />

auf eine Anzahl zwischen 5 und 30.000 Termen. Dann kommt dem Ranking<br />

besonderes Gewicht zu, das im Versuch gute Ergebnisse lieferte.<br />

14<br />

Die weirdness ratio verwendet relative Häufigkeiten für die Termfrequenz und die<br />

Frequenz in der Dokumentsammlung.<br />

15<br />

Für die wissenschaftliche Begründung und Berechnung dieser Maße siehe STREITER<br />

2002.<br />

22

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!