Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
85 7.2. TERM-DOKUMENT-MATRIX ERSTELLEN<br />
Dokumente<br />
einlesen<br />
DONE<br />
nächstes<br />
Dokument<br />
verarbeiten<br />
Token<br />
erkennen<br />
Roh-Matrix<br />
anlegen<br />
Dokument<br />
Vektoren aus den<br />
LSI Ergebnissen<br />
selektieren<br />
start<br />
Satzgrenzen<br />
erkennen<br />
Dokument analysieren<br />
Wortgruppen<br />
erkennen<br />
Term-Frequenz-Matrix aufbauen<br />
mittels TF-IDF<br />
gewichten<br />
Cluster erkennen<br />
EM Clustering<br />
anwenden<br />
auf<br />
Wortstämme<br />
reduzieren<br />
Abbildung 7.2.: Ablauf Text Analyse<br />
Stopp-<br />
Worte<br />
entfernen<br />
den schlicht beliebige Satzzeichen als Satzgrenzen interpretiert. Damit werden<br />
LSI anwenden<br />
auch Nebensätze zu eigenständigen Sätzen, ebenso wie eingeklammerte Sätze<br />
oder Wörter. Die Erkennung dieser Sätze oder Teilsätze ist lediglich für die<br />
Phrasen-Erkennung nötig, denn Wortfolgen mit Satzzeichen dazwischen wer-<br />
den generell nicht als Kandidaten für Phrasen angenommen. Dieser Detector<br />
erzeugt Sentence Objekte, die als Container für die Token des jeweiligen Satzes<br />
fungieren.<br />
Danach wiederum werden alle Sentence Objekte durchlaufen <strong>und</strong> auf wie-<br />
derkehrende Wortgruppen überprüft. Kommen in einem Dokument bestimmte<br />
Worte häufiger zusammen vor, wird für diese Wortgruppe ein Objekt Phrase<br />
angelegt, welches ebenso wie das Sentence Objekt als Container für die der<br />
Wortgruppe zugehörigen Worte gilt. Um zu erkennen, ob Worte mehrfach in<br />
Cluster benennen<br />
der gleichen Folge auftreten, werden Suffix-Arrays (ursprünglich beschrieben<br />
von [MM90], ähnlich verwendet von [ZD04]) für die Dokumente aufgebaut. Ein<br />
Suffix ist eine Zeichenfolge, mit der ein Text endet. Beispielsweise wären ati-