07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

7.2. TERM-DOKUMENT-MATRIX ERSTELLEN 84<br />

Häufigkeit<br />

160000<br />

140000<br />

120000<br />

100000<br />

80000<br />

60000<br />

40000<br />

20000<br />

0<br />

1 1392 2783 4174 5565 6956 8347 9738 11129 12520 13911 15302 16693 18084 19475 20866 22257 23648 25039 26430 27821<br />

Term Nr<br />

Abbildung 7.1.: Wort Häufigkeiten<br />

reißer zu ignorieren <strong>und</strong> somit nicht zu früh einzuschreiten, werden jeweils drei<br />

Steigungswerte gemittelt.<br />

Sodann hat man eine Liste von Stoppworten, die in der Datenbank abgelegt<br />

werden.<br />

7.2. Term-Dokument-Matrix erstellen<br />

Die später zu clusternden Texte werden zunächst vorbereitet. Die verfügbaren<br />

Daten bestehen bekanntlich aus den Liste von Deskriptoren <strong>und</strong> Sachgebieten<br />

<strong>und</strong> freien Begriffen, sowie aus den Kurzreferaten, die zu jedem Dokument ver-<br />

fasst werden. Während die Listen bereits in der gewünschten Form vorliegen,<br />

so dass jeweils ein Begriff ein Feature darstellt, muss der Text erst in seine<br />

Bestandteile aufgebrochen werden.<br />

Dies funktioniert folgendermaßen, dass jedes Dokument einzeln zunächst durch<br />

einen Lexer läuft, der anhand der Interpunktionszeichen im Text selbigen in ein-<br />

zelne Token aufteilt. Der Lexer ist in der Lage, E-Mails <strong>und</strong> WWW Adressen<br />

zu erkennen <strong>und</strong> als eigenständige Token zu behandeln.<br />

Die Token laufen danach durch einen SentenceDetector. Dies ist ein Ob-<br />

jekt, welches Beginn <strong>und</strong> Ende von Sätzen anhand einer einfachen Abschätzung<br />

(die zwar oft zutrifft, aber manchmal irrt) zu erkennen vermag. Derzeit wer-

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!