07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

7. Dynamisches Modell<br />

Ohne im Klassenmodell zu stark in die Tiefe zu gehen, soll hier der Ablauf dar-<br />

gelegt werden. Ziel dieses Kapitels soll es sein zu zeigen, welche Komponenten<br />

welche Algorithmen ausführen. Die nun folgenden Abschnitte sind entsprechend<br />

des Ablaufes vom Rohdokument bis hin zum fertig benannten Cluster sortiert.<br />

7.1. Stoppworte finden<br />

Zunächst wird die Textmenge einmal auf der Suche nach Stoppworten durch-<br />

laufen. Dabei werden alle Begriffe so gezählt, dass ein Begriff pro Dokument<br />

nur einmal gezählt wird. Denn es ist hier vor allem interessant, in wievielen<br />

Dokumenten die Begriffe jeweils vorkommen. Wie oft sie in den Dokumenten<br />

vorkommen ist nicht relevant.<br />

Abbildung 7.1 zeigt die erzielte Wortverteilung im Reuters Korpus. Die Be-<br />

griffe wurden nach ihrer Häufigkeit sortiert, so dass eine Kurve sichtbar wird.<br />

Man kann sehen, dass die allergrößte Menge an Begriffen sehr selten vorkommt.<br />

Man kann auch sehen, dass ein paar wenige Begriffe extrem häufig vorkommen,<br />

in anderen Worten sieht man die Kurve nach langer Flaute sehr stark hoch-<br />

schnellen, so dass kaum noch eine Kurve zu erkennen ist, sondern das Gebilde<br />

eher nach einem leeren Graph mit etwas Schmutz in der rechten unteren Ecke<br />

aussieht. (Übrigens: Der am häufigsten auftretende Begriff ist hier ” the“.)<br />

Diese Form der Kurve ließ sich für eine einfache Abschätzung von Stoppwor-<br />

ten nutzen. Zunächst markiert der Algorithmus alle Worte als Stoppwort, die<br />

nur ein oder zwei Mal auftreten, da diese offenbar keine Aussagekraft in Bezug<br />

auf die Gemeinsamkeiten von Dokumenten besitzen, die im späteren Clustering<br />

relevant werden. Dann, um auch die häufigsten Worte als Stoppwort zu deklarie-<br />

ren, wird die Steigung der Kurve ermittelt. Zusammen mit einem definierbaren<br />

Schwellenwert (ein Wert von 2.0 erschien nach einigen Experimenten als sinn-<br />

voll) lassen sich dann alle Worte, die rechts von dem durch den Schwellenwert<br />

gekennzeichnetet Begriff liegen, als Stoppwort deklarieren. Um kurzfristige Aus-

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!