Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
7.5. CLUSTER BENENNUNG UND MATRIZEN 90<br />
werden.<br />
7.5. Cluster Benennung <strong>und</strong> Matrizen<br />
Zur Benennung der Cluster werden die LSI-Ergebnisse verwendet. Diese finden<br />
sich im Code in Form <strong>eines</strong> SvdResult-Objekts wieder. Man sieht in Abbildung<br />
7.6, dass das SvdResult Objekt Zugriff auf die Term- <strong>und</strong> Dokument-Matrizen<br />
bietet, so wie sie vom LSI Code erzeugt worden waren. Man sieht auf dem Dia-<br />
gramm leider nicht den Verweis auf die DiagonalMatrix Klasse. Daber handelt<br />
es sich um eine optimierte Subklasse von Matrix, die ausschließlich Werte auf<br />
der Diagonalen hält <strong>und</strong> zudem ihre Methoden auf die Besonderheiten von dia-<br />
gonalen Matrizen hin optimiert hat, <strong>und</strong> die hiermit immerhin erwähnt wurde.<br />
Um die Benennungen zu finden, wird zunächst aus den Dokumenten, die<br />
zu dem jeweiligen Cluster gehören, ein Pseudo-Dokument-Vektor erstellt. Die-<br />
ses ist der Cluster-Zentroid. Er errechnet sich als einfacher Mittelwert-Vektor.<br />
Daraufhin werden zu diesem Pseudo-Vektor die Terme gesucht, die ihm am<br />
Ähnlichsten sind. Dazu werden die Methoden (es gibt mehrere, daher Mehr-<br />
zahl) computeTermDocumentAssociation von SvdResult verwendet. Der er-<br />
zeugte Cluster befindet sich bereits im SVD-Raum <strong>und</strong> kann direkt anstatt<br />
<strong>eines</strong> Dokument-Vektors verwendet werden.<br />
Im Diagramm ist die Klasse SparseMatrix zu sehen. Diese ist hier der<br />
Vollständigkeit halber aufgeführt, denn sie wird nur für das Ausführen des LSI-<br />
Algorithmus benötigt. Dieser nimmt die Matrix nur in einem solchen Format<br />
entgegen. Daher wird die Matrix vor dem LSI-Durchlauf erst in eine solche<br />
SparseMatrix-Implementation gewandelt.