07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

auf<br />

Wortstämme<br />

reduzieren<br />

Stopp-<br />

Worte<br />

entfernen<br />

87 7.3. MATRIX BERECHNUNGEN<br />

Roh-Matrix<br />

anlegen<br />

Analysen nicht auf.<br />

DONE<br />

Dokument<br />

Vektoren aus den<br />

LSI Ergebnissen<br />

selektieren<br />

Wortgruppen<br />

erkennen<br />

Term-Frequenz-Matrix aufbauen<br />

mittels TF-IDF<br />

gewichten<br />

Cluster erkennen<br />

EM Clustering<br />

anwenden<br />

LSI anwenden<br />

Abbildung 7.3.: Ablauf Matrix Berechnung<br />

Es bleiben also für das jeweilige betrachtete Dokument eine Menge von Token<br />

übrig, sowie möglicherweise die ein oder andere Phrase. Sowohl Token als auch<br />

Phrase nehmen die Stelle von Features ein, wie sie in Abschnitt 5.3 (Seite 56),<br />

eingeführt wurden. Token <strong>und</strong> Phrasen werden nun gleich behandelt <strong>und</strong> eins<br />

Cluster benennen<br />

nach dem anderen in eine Matrix einsortiert, die dynamisch wächst. Bei jedem<br />

neuen Feature (Token oder Phrase) wird eine Zeile hinzugefügt, während bei<br />

jedem neuen Dokument eine neue Spalte hinzugefügt wird. War ein Feature<br />

für das jeweilige Dokument bereits in der Matrix registriert, wird nur dessen<br />

Zähler um eins erhöht. Auf diese Weise enthält die Matrix nach dem Durchlauf<br />

des Algorithmus alle Häufigkeiten des Auftretens der jeweiligen Features in den<br />

jeweiligen Dokumenten.<br />

7.3. Matrix Berechnungen<br />

Der letzte Schritt des vorherigen Abschnittes, also das Sammeln <strong>und</strong> zählen<br />

der Terme <strong>und</strong> Phrasen <strong>eines</strong> Dokumentes, geht nahtlos in den ersten Schritt<br />

dieses Abschnittes über. Alle Terme werden direkt in eine dynamisch wachsende<br />

zweidimensionale Matrix einsortiert, so dass die Werte in den Zellen jeweils<br />

die Häufigkeit des Auftretens <strong>eines</strong> bestimmten Terms in einem bestimmten<br />

Dokument darstellen.<br />

Hier muss man bedenken, dass die Matrix generell extrem spärlich besetzt ist.<br />

Der größte Teil der Zellen beinhaltet den Wert 0. Das leuchtet ein, wenn man<br />

sich vor Augen führt, dass für jeden möglichen Term eine Zeile in der Matrix<br />

existieren muss, ebenso wie für jedes mögliche Dokument eine eigene Spalte<br />

vorhanden sein muss <strong>und</strong> dass jedes Dokument nur aus kurzen Zusammen-<br />

fassungen besteht. Dadurch werden nur eine vergleichsweise geringe Menge an<br />

unterschiedichen Begriffen in den jeweiligen Dokumenten verwendet. Es ist zum

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!