07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

85 7.2. TERM-DOKUMENT-MATRIX ERSTELLEN<br />

Dokumente<br />

einlesen<br />

DONE<br />

nächstes<br />

Dokument<br />

verarbeiten<br />

Token<br />

erkennen<br />

Roh-Matrix<br />

anlegen<br />

Dokument<br />

Vektoren aus den<br />

LSI Ergebnissen<br />

selektieren<br />

start<br />

Satzgrenzen<br />

erkennen<br />

Dokument analysieren<br />

Wortgruppen<br />

erkennen<br />

Term-Frequenz-Matrix aufbauen<br />

mittels TF-IDF<br />

gewichten<br />

Cluster erkennen<br />

EM Clustering<br />

anwenden<br />

auf<br />

Wortstämme<br />

reduzieren<br />

Abbildung 7.2.: Ablauf Text Analyse<br />

Stopp-<br />

Worte<br />

entfernen<br />

den schlicht beliebige Satzzeichen als Satzgrenzen interpretiert. Damit werden<br />

LSI anwenden<br />

auch Nebensätze zu eigenständigen Sätzen, ebenso wie eingeklammerte Sätze<br />

oder Wörter. Die Erkennung dieser Sätze oder Teilsätze ist lediglich für die<br />

Phrasen-Erkennung nötig, denn Wortfolgen mit Satzzeichen dazwischen wer-<br />

den generell nicht als Kandidaten für Phrasen angenommen. Dieser Detector<br />

erzeugt Sentence Objekte, die als Container für die Token des jeweiligen Satzes<br />

fungieren.<br />

Danach wiederum werden alle Sentence Objekte durchlaufen <strong>und</strong> auf wie-<br />

derkehrende Wortgruppen überprüft. Kommen in einem Dokument bestimmte<br />

Worte häufiger zusammen vor, wird für diese Wortgruppe ein Objekt Phrase<br />

angelegt, welches ebenso wie das Sentence Objekt als Container für die der<br />

Wortgruppe zugehörigen Worte gilt. Um zu erkennen, ob Worte mehrfach in<br />

Cluster benennen<br />

der gleichen Folge auftreten, werden Suffix-Arrays (ursprünglich beschrieben<br />

von [MM90], ähnlich verwendet von [ZD04]) für die Dokumente aufgebaut. Ein<br />

Suffix ist eine Zeichenfolge, mit der ein Text endet. Beispielsweise wären ati-

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!