07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

7.5. CLUSTER BENENNUNG UND MATRIZEN 90<br />

werden.<br />

7.5. Cluster Benennung <strong>und</strong> Matrizen<br />

Zur Benennung der Cluster werden die LSI-Ergebnisse verwendet. Diese finden<br />

sich im Code in Form <strong>eines</strong> SvdResult-Objekts wieder. Man sieht in Abbildung<br />

7.6, dass das SvdResult Objekt Zugriff auf die Term- <strong>und</strong> Dokument-Matrizen<br />

bietet, so wie sie vom LSI Code erzeugt worden waren. Man sieht auf dem Dia-<br />

gramm leider nicht den Verweis auf die DiagonalMatrix Klasse. Daber handelt<br />

es sich um eine optimierte Subklasse von Matrix, die ausschließlich Werte auf<br />

der Diagonalen hält <strong>und</strong> zudem ihre Methoden auf die Besonderheiten von dia-<br />

gonalen Matrizen hin optimiert hat, <strong>und</strong> die hiermit immerhin erwähnt wurde.<br />

Um die Benennungen zu finden, wird zunächst aus den Dokumenten, die<br />

zu dem jeweiligen Cluster gehören, ein Pseudo-Dokument-Vektor erstellt. Die-<br />

ses ist der Cluster-Zentroid. Er errechnet sich als einfacher Mittelwert-Vektor.<br />

Daraufhin werden zu diesem Pseudo-Vektor die Terme gesucht, die ihm am<br />

Ähnlichsten sind. Dazu werden die Methoden (es gibt mehrere, daher Mehr-<br />

zahl) computeTermDocumentAssociation von SvdResult verwendet. Der er-<br />

zeugte Cluster befindet sich bereits im SVD-Raum <strong>und</strong> kann direkt anstatt<br />

<strong>eines</strong> Dokument-Vektors verwendet werden.<br />

Im Diagramm ist die Klasse SparseMatrix zu sehen. Diese ist hier der<br />

Vollständigkeit halber aufgeführt, denn sie wird nur für das Ausführen des LSI-<br />

Algorithmus benötigt. Dieser nimmt die Matrix nur in einem solchen Format<br />

entgegen. Daher wird die Matrix vor dem LSI-Durchlauf erst in eine solche<br />

SparseMatrix-Implementation gewandelt.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!