07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

65 5.3. REPRÄSENTATION VON DOKUMENTEN<br />

Term-Matrix T jeweils mit ihren Skalaren multipliziert werden, wodurch die<br />

Achsen im Raum ihrer allgemeinen Bedeutung entsprechend verzerrt werden<br />

(dies begründet den Faktor s 2 in der Formel).<br />

Dokument - Dokument<br />

|S|−1<br />

�<br />

k=0<br />

tiks 2 kktjk<br />

(5.13)<br />

Bei diesem Vergleich gilt das selbe wie bei dem Vergleich zweier Terme, nur<br />

dass in diesem Falle statt der Zeilen der Term-Matrix T die Spalten i <strong>und</strong> j der<br />

Dokument-Matrix D’ verwendet werden. Siehe Gleichung 5.14.<br />

Dokument - Pseudo-Dokument<br />

|S|−1<br />

�<br />

k=0<br />

dkis 2 kkdkj<br />

(5.14)<br />

Nun gibt es Situationen, in denen man auf Daten trifft, die in der Matrix X<br />

nicht verzeichnet waren. Falls man zum Beispiel auf ein neues unbekanntes<br />

Dokument mit dessen Vektor vneu trifft <strong>und</strong> dieses mit den bestehenden Termen<br />

oder Dokumenten vergleichen möchte, so muss man den Vektor vneu zunächst<br />

in den Raum der Matrix D hinein-transformieren.<br />

Auf diese Weise können zudem SVD Strukturen iterativ erweitert werden,<br />

ohne dass bei jeder Änderung des Datenbestandes die Matrizen komplett neu<br />

berechnet werden müssten. Es genügt in diesem Falle, das neue Dokument in<br />

den Vektor-Raum hineinzuprojizieren <strong>und</strong> den neuen Vektor zu der bestehenden<br />

Dokument-Matrix D hinzufügen. Falls das Dokument neue Terme beinhaltet,<br />

sind diese ebenfalls auf ähnliche Weise hinein zu projizieren <strong>und</strong> zu der Ma-<br />

trix T hinzuzufügen. Der Vorgang ist jedoch nicht ganz problemlos, denn bei<br />

jeder Änderung der D- oder T-Matrix ohne eine entsprechende Anpassung der<br />

Diagonalmatrix S stimmt die Zuordnung ein kl<strong>eines</strong> Stück weniger.<br />

Aber gehen wir zurück zur Berechnung des Projektions-Vorganges. Man neh-<br />

me an, es gäbe nun den besagten Dokument-Vektor vneu, welcher auf die selbe<br />

Weise konstruiert wurde wie jene der bestehenden Dokumente in der Origi-<br />

nalmatrix X. Er kennt somit für jeden einzelnen Term dessen gewichtete Fre-<br />

quenz oder Auftretenshäufigkeit. Gleichung 5.15 zeigt, wie sich eine passen-<br />

de Repräsentation dneu für den unbekannten Dokument-Vektor vneu errechnen<br />

lässt.<br />

−→ d neu = −→ v T neuT S −1<br />

(5.15)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!