Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
65 5.3. REPRÄSENTATION VON DOKUMENTEN<br />
Term-Matrix T jeweils mit ihren Skalaren multipliziert werden, wodurch die<br />
Achsen im Raum ihrer allgemeinen Bedeutung entsprechend verzerrt werden<br />
(dies begründet den Faktor s 2 in der Formel).<br />
Dokument - Dokument<br />
|S|−1<br />
�<br />
k=0<br />
tiks 2 kktjk<br />
(5.13)<br />
Bei diesem Vergleich gilt das selbe wie bei dem Vergleich zweier Terme, nur<br />
dass in diesem Falle statt der Zeilen der Term-Matrix T die Spalten i <strong>und</strong> j der<br />
Dokument-Matrix D’ verwendet werden. Siehe Gleichung 5.14.<br />
Dokument - Pseudo-Dokument<br />
|S|−1<br />
�<br />
k=0<br />
dkis 2 kkdkj<br />
(5.14)<br />
Nun gibt es Situationen, in denen man auf Daten trifft, die in der Matrix X<br />
nicht verzeichnet waren. Falls man zum Beispiel auf ein neues unbekanntes<br />
Dokument mit dessen Vektor vneu trifft <strong>und</strong> dieses mit den bestehenden Termen<br />
oder Dokumenten vergleichen möchte, so muss man den Vektor vneu zunächst<br />
in den Raum der Matrix D hinein-transformieren.<br />
Auf diese Weise können zudem SVD Strukturen iterativ erweitert werden,<br />
ohne dass bei jeder Änderung des Datenbestandes die Matrizen komplett neu<br />
berechnet werden müssten. Es genügt in diesem Falle, das neue Dokument in<br />
den Vektor-Raum hineinzuprojizieren <strong>und</strong> den neuen Vektor zu der bestehenden<br />
Dokument-Matrix D hinzufügen. Falls das Dokument neue Terme beinhaltet,<br />
sind diese ebenfalls auf ähnliche Weise hinein zu projizieren <strong>und</strong> zu der Ma-<br />
trix T hinzuzufügen. Der Vorgang ist jedoch nicht ganz problemlos, denn bei<br />
jeder Änderung der D- oder T-Matrix ohne eine entsprechende Anpassung der<br />
Diagonalmatrix S stimmt die Zuordnung ein kl<strong>eines</strong> Stück weniger.<br />
Aber gehen wir zurück zur Berechnung des Projektions-Vorganges. Man neh-<br />
me an, es gäbe nun den besagten Dokument-Vektor vneu, welcher auf die selbe<br />
Weise konstruiert wurde wie jene der bestehenden Dokumente in der Origi-<br />
nalmatrix X. Er kennt somit für jeden einzelnen Term dessen gewichtete Fre-<br />
quenz oder Auftretenshäufigkeit. Gleichung 5.15 zeigt, wie sich eine passen-<br />
de Repräsentation dneu für den unbekannten Dokument-Vektor vneu errechnen<br />
lässt.<br />
−→ d neu = −→ v T neuT S −1<br />
(5.15)