Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
7. Dynamisches Modell<br />
Ohne im Klassenmodell zu stark in die Tiefe zu gehen, soll hier der Ablauf dar-<br />
gelegt werden. Ziel dieses Kapitels soll es sein zu zeigen, welche Komponenten<br />
welche Algorithmen ausführen. Die nun folgenden Abschnitte sind entsprechend<br />
des Ablaufes vom Rohdokument bis hin zum fertig benannten Cluster sortiert.<br />
7.1. Stoppworte finden<br />
Zunächst wird die Textmenge einmal auf der Suche nach Stoppworten durch-<br />
laufen. Dabei werden alle Begriffe so gezählt, dass ein Begriff pro Dokument<br />
nur einmal gezählt wird. Denn es ist hier vor allem interessant, in wievielen<br />
Dokumenten die Begriffe jeweils vorkommen. Wie oft sie in den Dokumenten<br />
vorkommen ist nicht relevant.<br />
Abbildung 7.1 zeigt die erzielte Wortverteilung im Reuters Korpus. Die Be-<br />
griffe wurden nach ihrer Häufigkeit sortiert, so dass eine Kurve sichtbar wird.<br />
Man kann sehen, dass die allergrößte Menge an Begriffen sehr selten vorkommt.<br />
Man kann auch sehen, dass ein paar wenige Begriffe extrem häufig vorkommen,<br />
in anderen Worten sieht man die Kurve nach langer Flaute sehr stark hoch-<br />
schnellen, so dass kaum noch eine Kurve zu erkennen ist, sondern das Gebilde<br />
eher nach einem leeren Graph mit etwas Schmutz in der rechten unteren Ecke<br />
aussieht. (Übrigens: Der am häufigsten auftretende Begriff ist hier ” the“.)<br />
Diese Form der Kurve ließ sich für eine einfache Abschätzung von Stoppwor-<br />
ten nutzen. Zunächst markiert der Algorithmus alle Worte als Stoppwort, die<br />
nur ein oder zwei Mal auftreten, da diese offenbar keine Aussagekraft in Bezug<br />
auf die Gemeinsamkeiten von Dokumenten besitzen, die im späteren Clustering<br />
relevant werden. Dann, um auch die häufigsten Worte als Stoppwort zu deklarie-<br />
ren, wird die Steigung der Kurve ermittelt. Zusammen mit einem definierbaren<br />
Schwellenwert (ein Wert von 2.0 erschien nach einigen Experimenten als sinn-<br />
voll) lassen sich dann alle Worte, die rechts von dem durch den Schwellenwert<br />
gekennzeichnetet Begriff liegen, als Stoppwort deklarieren. Um kurzfristige Aus-