Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
7.2. TERM-DOKUMENT-MATRIX ERSTELLEN 84<br />
Häufigkeit<br />
160000<br />
140000<br />
120000<br />
100000<br />
80000<br />
60000<br />
40000<br />
20000<br />
0<br />
1 1392 2783 4174 5565 6956 8347 9738 11129 12520 13911 15302 16693 18084 19475 20866 22257 23648 25039 26430 27821<br />
Term Nr<br />
Abbildung 7.1.: Wort Häufigkeiten<br />
reißer zu ignorieren <strong>und</strong> somit nicht zu früh einzuschreiten, werden jeweils drei<br />
Steigungswerte gemittelt.<br />
Sodann hat man eine Liste von Stoppworten, die in der Datenbank abgelegt<br />
werden.<br />
7.2. Term-Dokument-Matrix erstellen<br />
Die später zu clusternden Texte werden zunächst vorbereitet. Die verfügbaren<br />
Daten bestehen bekanntlich aus den Liste von Deskriptoren <strong>und</strong> Sachgebieten<br />
<strong>und</strong> freien Begriffen, sowie aus den Kurzreferaten, die zu jedem Dokument ver-<br />
fasst werden. Während die Listen bereits in der gewünschten Form vorliegen,<br />
so dass jeweils ein Begriff ein Feature darstellt, muss der Text erst in seine<br />
Bestandteile aufgebrochen werden.<br />
Dies funktioniert folgendermaßen, dass jedes Dokument einzeln zunächst durch<br />
einen Lexer läuft, der anhand der Interpunktionszeichen im Text selbigen in ein-<br />
zelne Token aufteilt. Der Lexer ist in der Lage, E-Mails <strong>und</strong> WWW Adressen<br />
zu erkennen <strong>und</strong> als eigenständige Token zu behandeln.<br />
Die Token laufen danach durch einen SentenceDetector. Dies ist ein Ob-<br />
jekt, welches Beginn <strong>und</strong> Ende von Sätzen anhand einer einfachen Abschätzung<br />
(die zwar oft zutrifft, aber manchmal irrt) zu erkennen vermag. Derzeit wer-