Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
auf<br />
Wortstämme<br />
reduzieren<br />
Stopp-<br />
Worte<br />
entfernen<br />
87 7.3. MATRIX BERECHNUNGEN<br />
Roh-Matrix<br />
anlegen<br />
Analysen nicht auf.<br />
DONE<br />
Dokument<br />
Vektoren aus den<br />
LSI Ergebnissen<br />
selektieren<br />
Wortgruppen<br />
erkennen<br />
Term-Frequenz-Matrix aufbauen<br />
mittels TF-IDF<br />
gewichten<br />
Cluster erkennen<br />
EM Clustering<br />
anwenden<br />
LSI anwenden<br />
Abbildung 7.3.: Ablauf Matrix Berechnung<br />
Es bleiben also für das jeweilige betrachtete Dokument eine Menge von Token<br />
übrig, sowie möglicherweise die ein oder andere Phrase. Sowohl Token als auch<br />
Phrase nehmen die Stelle von Features ein, wie sie in Abschnitt 5.3 (Seite 56),<br />
eingeführt wurden. Token <strong>und</strong> Phrasen werden nun gleich behandelt <strong>und</strong> eins<br />
Cluster benennen<br />
nach dem anderen in eine Matrix einsortiert, die dynamisch wächst. Bei jedem<br />
neuen Feature (Token oder Phrase) wird eine Zeile hinzugefügt, während bei<br />
jedem neuen Dokument eine neue Spalte hinzugefügt wird. War ein Feature<br />
für das jeweilige Dokument bereits in der Matrix registriert, wird nur dessen<br />
Zähler um eins erhöht. Auf diese Weise enthält die Matrix nach dem Durchlauf<br />
des Algorithmus alle Häufigkeiten des Auftretens der jeweiligen Features in den<br />
jeweiligen Dokumenten.<br />
7.3. Matrix Berechnungen<br />
Der letzte Schritt des vorherigen Abschnittes, also das Sammeln <strong>und</strong> zählen<br />
der Terme <strong>und</strong> Phrasen <strong>eines</strong> Dokumentes, geht nahtlos in den ersten Schritt<br />
dieses Abschnittes über. Alle Terme werden direkt in eine dynamisch wachsende<br />
zweidimensionale Matrix einsortiert, so dass die Werte in den Zellen jeweils<br />
die Häufigkeit des Auftretens <strong>eines</strong> bestimmten Terms in einem bestimmten<br />
Dokument darstellen.<br />
Hier muss man bedenken, dass die Matrix generell extrem spärlich besetzt ist.<br />
Der größte Teil der Zellen beinhaltet den Wert 0. Das leuchtet ein, wenn man<br />
sich vor Augen führt, dass für jeden möglichen Term eine Zeile in der Matrix<br />
existieren muss, ebenso wie für jedes mögliche Dokument eine eigene Spalte<br />
vorhanden sein muss <strong>und</strong> dass jedes Dokument nur aus kurzen Zusammen-<br />
fassungen besteht. Dadurch werden nur eine vergleichsweise geringe Menge an<br />
unterschiedichen Begriffen in den jeweiligen Dokumenten verwendet. Es ist zum