Latent Semantic Indexing und Matrixzerlegungen - ETH Zürich

Latent Semantic Indexing und 

Matrixzerlegungen 

Seminar “Google, Linear Algebra and Beyond“ 

bei Herrn Prof. Dr. Daniel Kressner 

Michael Stadelmann - Dienstag 4. Dezember 2007 - ETH Zürich 

Inhaltsverzeichnis 

1 Einführung 2 

2 Probleme beim Indexieren 2 

3 Latent Semantic Indexing 3 

3.1 Das Konzept von LSI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 

3.2 Vereinfachung durch QR-Zerlegung . . . . . . . . . . . . . . . . . . . . . . 5 

4 Singulärwertzerlegung 6 

4.1 Singulärwertzerlegung und ihre Eigenschaften . . . . . . . . . . . . . . . . 6 

4.2 Singulärwertzerlegung und LSI . . . . . . . . . . . . . . . . . . . . . . . . . 9 

5 Suchoptimierung 10 

5.1 Schlüsselwörtervergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

5.2 Revelanz-Rückmeldung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

6 Nicht-Negative Matrixzerlegung 11

1 Einführung 

Das Internet und die Digitalisierung ganzer Audio-, Video-, Grafik-Bibliotheken bilden. 

Daher ist es umso wichtiger Informationsabfragen zu ermöglichen, die möglichst genau 

und schnell sind. Wegen dem schnellen Zuwachs neuer Daten und der enorm grosse Datenmenge 

stösst die traditionelle Indexierung und Strukturierungen sehr schnell an ihre 

Grenzen. Im Folgenden möchten wir uns mit modernen Informationsabfrage (Information 

Retrieval, kurz IR) beschäftigen. 

2 Probleme beim Indexieren 

Beim traditionellen Indexieren von Forschungsarbeiten wurden Kriterien wie Titel, Autorenliste, 

Inhaltsangabe, Stichwort-Liste oder Thematikklassifizierung benützt. Als Beispiel 

betrachte man folgenden Ausschnitt einer wissenschaftlichen Publikation: 

Vor dem Zeitalter der modernen Computersysteme wurde die Suche lediglich durch 

einen Katalog ermöglicht, der von Hand erstellt wurde. Bei dieser manuellen Methode 

hatte man hauptsächlich zwei Probleme; Kapazität und Konsistenz. Betrachtet wir lediglich 

unsere ETH Bibliothek mit 6.8 Millionen Dokumenten, sieht man dass die Kapazität 

ein echtes Problem darstellte. 

2

Vor allem ist bei der manuellen Indexierung die Erhaltung der Konsistenz unmöglich, 

denn die Auswahl der Schlüsselwörter oder Einordnung des Dokumentes hängt von der 

Person und dessen Erfahrung ab. Daher ist es nahe liegend eine elektronische Indexierung 

einzuführen - was auch seine Tücken hat. 

Die Polysemie, also die Mehrdeutigkeit eines Wortes, oder auch Synonyme sind eine 

grosse Herausforderung für eine automatische Indexierung. Zum Beispiel im medizinischen 

Bereich, wo Herzattacke und Myocardial Infarktion dieselbe Bedeutung haben. Bei der 

automatischen Indexierung gibt es noch viele weitere Fragestellungen, zum Beispiel wie 

man Titel oder Inhaltsangaben gewichtet, ob man das ganze Dokument für die indexierung 

benützt oder lediglich die ersten Seiten, etc. 

Eine Indexierung wird schliesslich über ihre Precision und Recall gewertet. Der Recall 

ist das Verhältnis der Anzahl der gefundenen relevanten Dokumente zu allen relevanten 

Dokumenten. Die Precision ist das Verhältnis der gefunden relevanten Dokumente zu allen 

gefunden Dokumenten. 

3 Latent Semantic Indexing 

Das Latent Semantic Indexing, oder auch kurz LSI ist ein Verfahren für die Informationsabfrage. 

Dieses Konzept wurde 1990 zum ersten Mal von Susan Dumais et al. erwähnt 

und ist sogar patentgeschützt [WIK]. 

3.1 Das Konzept von LSI 

Das Konzept von LSI basiert auf einem Vektorraum-Modell. Man betrachte d Dokumente 

mit t Schlüsselwörtern. Weiter weisen wir jedem Dokument ein t × 1 Vektor zu, dessen 

Einträge Gewichtungen der Schlüsselwörter sind. Als Beispiel betrachten wir ein Buch 

mit den folgenden gewichteten Schlüsselwörtern: 

• Google - Gewichtung 0.9 

• Linear - Gewichtung 0.1 

• Algebra - Gewichtung 0.3 

Weiter nehmen wir an dass noch die Begriffe LaTeX und Befehl als Schlüsselwörter 

vorhanden sind und somit die Gewichtung 0 für unser Buch haben. Die Repräsentation 

des Buches wäre dann: 

⎛ ⎞ 

0.3 

0 

Befehl 

⎜0.9⎟ 

Google 

⎜ 

⎝ 

0 

0.1 

Algebra 

⎟ 

⎠ = LaTeX 

Linear 

3

Wenn wir nun eine ganze Datenbank von Dokumenten betrachten, haben wir als eine 

t × d Term mal Dokument Matrix A. Jeder Eintrag a ij gibt die gewichtete Wichtigkeit 

des Wortes i im Dokument j an. Wir nennen die Spalten die Dokumentvektoren und 

die Zeilen die Schlüsselwortvektoren. Für die Gewichtung gibt es verschiedene Modelle. 

Meistens wird a ij zerlegt in ein lokales Gewicht l ij und globales Gewicht g i : 

Wobei: 

a ij = l ij g i 

• g i gewichtet ein Schlüsselwort global, also für alle Dokumente. Wenn man zum 

Beispiel eine Datenbank von Dokumenten über Computer hat, könnte man das den 

Einfluss des Schlüsselworts Computer“ mit einem kleinen g ” i dämpfen. 

• l ij ist das lokale Gewicht, also das Gewicht des Schlüsselwortes i im Bezug zum 

Dokument j. Für die Festlegung von l ij gibt es viele verschiedene Möglichkeiten. 

Teilweise benützt man lediglich die Werte 0, 1 oder definiert diese über Funktionen, 

wie zum Beispiel der Logarithmus des Häufigkeit des Schlüsselwortes i im Dokument 

j. 

Die Dimensionen der Datenbank-Matrix A hängen vom Inhalt ab. Zum Beispiel würde 

man bei einer Enzyklopädie erwarten, dass t ≫ d, beim Internet dagegen ist d ≫ t. Des 

Weiteren werden jedem Dokumenten nur einige Schlüsselwörter zugeordnet, sodass die 

Datenbank-Matrix A eigentlich immer schwachbesetzt ( ” 

sparse“) ist. 

Wenn man nun eine Abfrage startet, muss man diese in ebenfalls in einen Abfragevektor 

übersetzen, optimalerweise mit Gewichten. In unserem Vektorraum-Modell wird nun 

der Abfragevektor mit allen Dokumentenvektoren verglichen. Um die Vektorlänge nicht 

zu berücksichtigen zu müssen, benützt man üblicherweise den Winkel (bzw. Kosinus des 

Winkels) zwischen dem Abfragvektor q und dem Dokumentenvektor a j als Ähnlichkeitsmass, 

der wie folgt berechnet wird: 

cos θ j = 

a T j q 

‖a j ‖ 2 ‖q‖ 2 

= 

∑ t 

i=1 a ijq i 

√ ∑t 

i=1 a2 ij 

√ ∑t 

i=1 q2 i 

Dabei bezeichnet ‖ · ‖ 2 die Euklidische Norm. 

Da die beiden Vektoren a j und q schwachbesetzt sind, ist das Skalarprodukt nicht so 

teuer zu berechnen, und ‖a j ‖ 2 kann bereis im Voraus einmal für jeden Dokumentenvektor 

berechnet werden. Weiter ist zu bemerken, dass cos θ j sich nicht ändert, wenn a j oder q 

mit einem Skalar verlängert werden. In der Praxis wird meistens cos θ j > 0.9 benützt, um 

das Suchergebnis zu bestimmen. 

4

3.2 Vereinfachung durch QR-Zerlegung 

Die Datenbankmatrix beinhaltet natürlich viel zu viel Informationen. Zum Beispiel hat 

man in einer Bibliothek mehrere Auflagen desselben Buches, sodass die verschieden Dokumentenvektoren 

a j linear abhängig sind. 

Um dieses Problem zu umgehen hat man zwei Vereinfachungskonzepte: 

1. Vereinfache die Berechnung des Ähnlichkeitsmasses 

2. Reduziere die ” 

Grösse“ der Matrix durch Rangreduktion 

Man betrachte als Beispiel QR-Zerlegung. Diese hat folgende Form: 

A = QR 

Hier ist Q eine orthogonale t×t Matrix und R eine t×d obere Dreiecksmatrix. Daraus interpretiert 

man die Dokumentenvektoren a j als lineare Kombination der Spaltenvektoren 

von Q, wobei die Spalten von R die Koeffizienten bilden. 

R ist eine obere Dreiecksmatrix mit gleichem Rang r A wie A hat. Mit der Pivotisierungmatrix 

P kann man R auch so schreiben, dass R lediglich Nullen in den untersten 

t − r A Zeilen stehen hat, sodass die ersten r A -Spalten von Q gerade den Spaltenraum vom 

A aufspannen. Wir bezeichnen mit Q A die entsprechende t × r A Matrix. Wir lassen die 

Permutationsmatrix P einfachheitshalber weg und können A wie folgt schreiben: 

A = QR = ( Q A 

Q ⊥ A 

) ( R A 

0 

) 

= Q A R A 

Somit ist der Winkel θ j zwischen der Abfrage und dem Dokumentvektor a j gleich: 

cos θ j = 

a T j q 

‖a j ‖ 2 ‖q‖ 2 

= 

(Q Ar j ) T q 

= (r j) T (Q T A q) . 

‖Q A r j ‖ 2 ‖q‖ 2 ‖r j ‖ 2 ‖q‖ 2 

wobei r j die j-te Spalte von R bezeichnet. Um dies weiter zu vereinfachen, kann man den 

Abfragevektor q in den Spaltenraum von A projizieren: 

q = Iq = QQ T q = ( Q A Q ⊥ A) ( 

QA Q ⊥ A) T 

q = QA Q T Aq + Q ⊥ A(Q ⊥ A) T q = q A + q ⊥ A 

Da q ⊥ A senkrecht auf den Spaltenraum von A steht, ist a jq ⊥ A 

= 0 und es gilt: 

cos θ j = 

aT j q A 

= (r j) T (Q T A q A) 

‖a j ‖ 2 ‖q‖ 2 ‖r j ‖ 2 ‖q‖ 2 

= (r j) T (Q T A (Q AQ T A q)) 

‖r j ‖ 2 ‖q‖ 2 

= (r j) T (Q T A q) 

‖a j ‖ 2 ‖q A ‖ 2 

‖q A ‖ 2 

‖q‖ 2 

} {{ } 

≤1 

da ‖q‖ 2 = √ ‖q A ‖ 2 2 + ‖qA ⊥‖2 2 ist. Wir könnten also anstatt cos θ j folgendes Ähnlichkeitsmass 

benützen: 

a T 

cos θ j ′ j q A 

= 

‖a j ‖ 2 ‖q A ‖ 2 

5

Da cos θ j ≤ cos θ j ′ ist, erhöht dieses Mass zwar den Recall, jedoch reduziert es die Precision. 

Als nächsten Schritt möchten wir die Matrix A nicht nur zerlegen, sondern auch mit einer 

Matrix A k approximieren, die einen tieferen Rang als A hat, sodass r A > r Ak gilt. Eine 

Möglichkeit wäre, bei der Matrix R den Rang zu verkleinern, d.h. einfach Zeilen weglassen 

und die Matrix R k zu benützen und A k = QR k setzen. Dies führt jedoch häufig zu sehr 

schlechten Ergebnissen. Um die bestmögliche Approximation zu finden, benötigt man die 

Singulärwertzerlegung. 

4 Singulärwertzerlegung 

4.1 Singulärwertzerlegung und ihre Eigenschaften 

Wir haben gesehen, dass die QR-Zerlegung zu einer Vereinfachung führen kann. Es wurde 

aber erwähnt, dass die Approximation der Matrix A durch eine rangreduzierte Matrix A k 

mit der QR-Zerlegung im Allgemeinen keine gute Resultate hervorbringt. Eine Zerlegung, 

die die beste rangreduzierte Approximation erlaubt, ist die folgende: 

Satz 4.1 (Singulärwertzerlegung) 

Zu jeder m × n Matrix A mit Rang r A existiert folgende Zerlegung: 

A = USV T . 

Dabei haben die Zerlegungsmatrizen folgende Eigenschaften: 

• U ist eine orthonormale m × m Matrix (nicht eindeutig) 

• V ist eine orthonormale n × n Matrix (nicht eindeutig) 

• S ist eine eindeutige m × n Diagonalmatrix mit Rang r A . Die Diagonalelemente 

sind der Grösse nach geordnet, also s 1 ≥ s 2 ≥ · · · ≥ s r . Diese Werte werden 

Singulärwerte genannt. 

Bemerkungen 

1. Für unsere Thematik genügt es lediglich die reellwertige Version zu betrachten. 

2. Mit der Frobeniusnorm ‖ · ‖ F = √ T r(AA T ) gilt, dass 

‖A‖ 2 F = 

∑r A 

s 2 i 

i=1 

3. Für Spektralnorm gilt: ‖A‖ 2 = s i 

Um nun eine Approximationsmatrix A k mit Rang k zu konstruieren, benützen wir die 

Diagonalmatrix und lassen alle s i mit i > k weg resp. setzen diese Null. Nun setzen wir 

A k = US k V T . Diese Approximation ist nicht nur gut, sondern, wie der folgende Satz zeigt 

die bestmögliche Approximation mit Rang k: 

6

Satz 4.2 (Satz von Schmidt-Mirsky) 

Mit den obigen Notationen gilt 

resp. 

‖A − A k ‖ 2 = 

‖A − A k ‖ F = 

min 

rang(X)=k ‖A − X‖ 2 = s k+1 

min ‖A − X‖ F = 

rang(X)=k 

√ 

r∑ 

i=k+1 

s 2 i 

Beweis 

Frobeniusnorm 

Man stellt fest, dass 

‖A − A k ‖ 2 F = ‖USV T − US k V T ‖ 2 F = ‖U(S − S k )V ‖ 2 F 

= 

r A 

∑ 

i=k+1 

s 2 i = 

r A 

∑ 

i=1 

s 2 i − 

k∑ 

s 2 i = ‖A‖ 2 F − 

i=1 

Betrachten wir nun beliebige x i und y i mit i ∈ {1, . . . , k}. Wir müssen also lediglich 

zeigen, dass 

k∑ 

k∑ 

‖A − x i yi T ‖ ≥ ‖A‖ 2 − 

i=1 

gilt, also dass A k die beste Approximation ist. O.B.d.A können wir annehmen, dass die 

Vektoren x 1 , . . . , x k orthonormal sind. Denn wenn nicht, können wir durch die Gram- 

Schmidt-Orthogonalisierung eine Basis finden, die x i als Linearkombination dieser Basis 

ausdrücken, in ∑ k 

i=1 x iyi T einsetzen und die Koordinaten in die y i übertragen. Nun gilt: 

( 

) 

k∑ 

k∑ 

k∑ 

‖A − x i yi T ‖ 2 F = spur (A − x i yi T ) T (A − x i yi T ) 

= spur 

i=1 

( 

A T A + 

i=1 

i=1 

s 2 i 

k∑ 

(y i − A T x i )(y i − A T x i ) T − 

i=1 

k∑ 

i=1 

s 2 i 

i=1 

) 

k∑ 

A T x i x T i A 

Da die spur ( (y i − A T x i )(y i − A T x i ) T ) ≥ 0 ist und spur(A T x i x T i A) = ‖A T x i ‖ 2 , müssen 

wir lediglich zeigen, dass 

k∑ 

‖A T x i ‖ 2 ≤ 

i=1 

k∑ 

s 2 i . 

Nun ersetzen wir A T mit der Singulärwertzerlegung USV T und teilen diese wie folgt auf: 

• V 1 = (v 1 . . . v k 0), wobei v i die Spalten von V sind resp. 

V 2 = (0 v k+1 . . . v n ). 

7 

i=1 

i=1

• S 1 und S 2 werden aus S gebildet, analog wie die V i . 

Somit gilt: 

‖A T x i ‖ 2 F = ‖USV T x i ‖ 2 F = ‖SV T x i ‖ 2 F = 

( ) 

‖S 1 V1 T x i ‖ 2 F + ‖S 2 V2 T x i ‖ 2 F + s 2 k − s 2 k + s 2 k ‖V T x 

} {{ } 

i ‖ 2 F − ‖V1 T x i ‖ 2 F − ‖V2 T x i ‖ 2 F 

} {{ } 

=0 

= s 2 k + ( ‖S 1 V1 T x i ‖ 2 F − s 2 k‖V1 T x i ‖ 2 F 

− ( ) 

s 2 k‖V2 T x i ‖ 2 F − ‖S 2 V2 T x i ‖ 2 F 

} {{ } 

(1) 

( ) 

− s 2 k 1 − ‖V T x i ‖ 2 F 

} {{ } 

(2) 

Da die Singulärwerte in S absteigend geordnet sind, können wir schliessen dass der Term 

(1) nicht negativ ist. Weiter ist nach Konstruktion x i ein orthonormaler Vektor und die 

Matrix V orthonormal, sodass der Term (2) sicher auch nicht negativ ist. Also können 

wir wie folgt abschätzen: 

) 

=0 

k∑ 

‖A T x i ‖ 2 ≤ ks 2 k + 

i=1 

k∑ 

i=1 

( 

‖S1 V T 

1 x i ‖ 2 − s 2 k‖V T 

1 x i ‖ 2) 

= ks 2 k + 

≤ ( 

k∑ 

i=1 

k∑ 

j=1 

(s 2 j − s 2 k) |v T j x i | 2 

} {{ } 

≤1 

k∑ ( 

s 

2 

k + (s 2 j − s 2 k) ) = 

j=1 

Euklidische Norm 

( ) S 0 

Sei B eine m × n Matrix mit Rang r B = k und sei A = U V 

0 0 

T eine Singulärwertzerlegung 

von A mit S = diag(s 1 , . . . , s r ). Setze D = diag(s 1 , . . . s k+1 ) und 

sei V = (F n×k+1 |G). 

Aus dem Satz r AB ≤ min{r A , r B } folgt dass r BF ≤ B = k. Da BF eine m × k + 1 Matrix 

ist, ist dim ker(BF ) = k + 1 − r BF ≥ 1. Also existiert ein x ∈ ker(BF ) mit ‖x‖ 2 = 1, 

sodass BF x = 0 gilt. Weiter gilt: 

⎛ ⎞ ⎛ ⎞ ⎛ ⎞ 

( ) 

D 0 0 x Dx 

S 0 

AF x = U V T F x = U ⎝ 0 ˜S 0 ⎠ ⎝0⎠ = U ⎝ 0 ⎠ . 

0 0 

0 0 0 0 0 

Da ‖A − B‖ 2 = max ‖y‖2 =1 ‖(A − B)y‖ 2 und ‖F x‖ 2 = ‖x‖ 2 = 1 gilt, schliesst man: 

∑k+1 

∑k+1 

‖A − B‖ 2 2 ≥ ‖(A − B)F x‖ 2 2 = ‖Dx‖ 2 2 = s 2 i x 2 i ≥ s 2 k+1 x 2 i . 

8 

k∑ 

j=1 

i=1 

s 2 j 

i=1

Die Gleichheit hält genau für B k = U 

( ) 

Sk 0 

V 

0 0 

T . 

□ 

Bemerkungen 

1. Der Beweis Frobenius-Norm ist nach [STE] und der Beweis mit der Euklidischen 

Norm ist nach [CDM]. 

2. Obwohl die Startmatrix A eine nicht-negative Matrix war, ist die rangreduzierte 

Approximationsmatrix A k nicht unbedingt nicht-negativ. 

4.2 Singulärwertzerlegung und LSI 

Bei einer Datenbank wird die optimale Rangreduktion empirisch ermittelt. Man führt diese 

durch und untersucht den relativen Fehler ‖A−A k‖ F 

‖A‖ F 

der neuen rangreduzierten Datenbank- 

Matrix. Ist diese genügend klein, wird die Approximation benützt. Jedoch bleibt dies eine 

offene Fragestellung, wie weit man die Datenbank-Matrix reduzieren soll. 

Sei nun e j der j-te kanonische Einheitsvektor der Dimension d, dann können wir die j-te 

Spalte von A k durch A k e j beschreiben. Somit gilt für den Winkel zwischen einer Abfrage 

und dem approximierten Dokumentenvektor: 

cos θ j = 

(A ke j ) T q 

‖A k e j ‖ 2 ‖q‖ 2 

= 

(U kS k Vk T e j) T q 

‖U k S k Vk T e = eT j V k S k (Uk T q) 

j‖ 2 ‖q‖ 2 ‖S k Vk T e j‖ 2 ‖q‖ 2 

für j ∈ {1, . . . , d}. Nun setzen wir x j = S k V T 

k e j, sodass sich die Formel wie folgt reduziert: 

cos θ j = xT j (U T k q) 

‖x j ‖ 2 ‖q‖ 2 

. 

Somit kann man das Ähnlichkeitsmass berechnen ohne die eigentliche Matrix A k zu kennen. 

Die Normen ‖x j ‖ 2 kann man einmal im Voraus berechnen und dann bei Anfragen 

direkt verwenden. 

Analog wie bei der QR-Zerlegung können wir nun noch den Abfragevektor q in den 

Spaltenraum von A k projizieren, sodass man q k erhält. Man stellt fest, dass q k = U k (U T k q) 

und somit dass U T k q k = U T k (U kU T k q) = U T k q. Weiter ist ‖U k(U T k q)‖ 2 = ‖U(U T k q)‖ 2 = 

‖(U T k q)‖ 2. Somit kann man wiederum mit demselben Argument den folgenden Winkel als 

Mass für die Ähnlichkeit benützen: 

cos θ ′ j = xT j (U T k q) 

‖x j ‖ 2 ‖U T k q‖ 2 

Mit diesem Mass benötigt die Berechnung lediglich einen k-dimensionalen Vektor nach 

der einmaligen Berechung von Uk T q. Da der Abfragevektor typischerweise sehr schwachbesetzt 

ist, ist diese Berechnung nicht teuer. Wiederum ist dadurch der Recall verbessert, 

jedoch leidet die Precision. 

9

Wie bei der QR-Zerlegung macht die Rangreduzierung die Kosten für die Abfrage- 

Berechnung günstiger. Sogar die Berechnung der Singulärwertzerlegung selbst ist günstiger, 

denn man muss nur die nötigen Singulärwerte und Vektoren berechnen und nicht die 

ganze Zerlegung von A. 

5 Suchoptimierung 

5.1 Schlüsselwörtervergleich 

Bis anhin haben wir uns mit der Methode beschäftigt, wie man eine Abfrage mit Dokumenten 

” 

vergleicht“. Mit einer kleinen Abänderung kann dasselbe Prinzip benützt werden, 

um Schlüsselwörter zu vergleichen. Dies kann man benützen um die Suche benutzerfreundlicher 

zu gestalten indem man als Benutzer sdie Suche fokussieren kann und so das 

Problem der Polysemie eines Wortes mindert. Anstelle von einer Abfrage vergleichen wir 

einen Schlüsselwortvektor mit den anderen Schlüsselwortvektoren: 

cos ω ij = (eT i A)(A T e j ) 

‖G T e i ‖ 2 ‖G T e j ‖ 2 

wobei e l die l-te Spalte der t × t Einheitsmatrix bezeichnet. Diese Winkel schreiben wir in 

eine Matrix C, wobei c ij = cos ω ij . Durch Analyse dieser Matrix kann man die verschiedenen 

Gruppierungen ablesen, die die verschiedenen Wortbedeutungen implizieren. Für 

die Verständlichkeit betrachte man das folgende Beispiel: 

Beispiel 

Betrachte die 7 = t Schlüsselwörter: 

S1: Integration 

S2: Mathematik 

S3: Funktionen 

S4: Physik 

S5: Informatik 

S6: Information 

S7: Soziologie 

Die d = 5 Dokumente haben folgende Schlüsselwörter-Liste: 

D1: Integration; Funktionen; Mathematik; Physik 

D2: Integration; Soziologie 

D3: Integration; Physik 

D4: Integration; Informationen; Informatik 

D5: Integration; Physik 

10

Die Datenbank-Matrix sieht nun wie folgt aus: 

⎛ 

⎞ 

0.5000 0.7071 0.7071 0.5774 0.7071 

0.5000 0 0 0 0 

0.5000 0 0 0 0 

0.5000 0 0.7071 0 0.7071 

⎜ 0 0 0 0.5774 0 

⎟ 

⎝ 0 0 0 0.5774 0 ⎠ 

0 0.7071 0 0 0 

Schliesslich hat die Matrix C folgende Form, wobei einfachheitshalber nur der obere Teil 

der symmetrischen Matrix abgebildet ist: 

⎛ 

⎞ 

1.0000 0.3464 0.3464 0.7745 0.4000 0.4000 0.4899 

1.0000 1.0000 0.4472 0 0 0 

1.0000 0.4472 0 0 0 

1.0000 0 0 0 

⎜ 

1.0000 1.0000 0 

⎟ 

⎝ 

1.0000 0 ⎠ 

1.0000 

Aus dieser Matrix kann man nun drei Gruppen ableiten, die gerade die verschiedenen 

Bedeutungen des Wortes ” 

Integration“ wiederspiegeln. Sucht nun ein Benutzer mit dem 

Schlüsselwort ” 

Integration“, kann man ihn anfragen, in welchem Zusammenhang sein 

Wort ” 

Integration“ stehen soll. 

5.2 Revelanz-Rückmeldung 

Bei der Informationssuche möchte man natürlich hohe Precision und einen guten Recall, 

wobei diese oft negativ korreliert sind. Vor allem durch die Vereinfachung der Berechnungen 

leidet häufig die Precision, welche durch Revelanz-Rückmeldung verbessert werden 

kann. Hier wird der Benutzer gefragt, welche von den gefundenen Dokumenten die Relevantesten 

seien. Die Vektoren dieser Dokumente werden dann zum Query-Vektor addiert 

und eine neue Anfrage wird gestartet. Es gibt empirische Untersuchungen, die zeigen dass 

man dadurch die Suche markant verbessern kann. 

6 Nicht-Negative Matrixzerlegung 

Wie wir gesehen haben ist zerlegt die Singulärwertzerlegung die Matrix in ” 

zwei“ Matrizen, 

d.h. man kann die Matrix S und V als eine Matrix zusammenfassen und als Koordinaten 

verstehen bezüglich der orthonormalen Spaltenvektoren von U. Durch die Rangreduzierung 

erhalten wir eine Approximation, die zwar sehr gut ist, jedoch nicht-negative 

Einträge haben kann und somit die ursprüngliche Struktur verliert. Dies versucht man bei 

der Nicht-negativen Matrixzerlegung zu verhindern, kurz NMF für ” 

Non-negative Matrix 

Factorization“. 

11

Definition 6.1 (NMF-Problem) 

Sei A ∈ R n×m eine nicht-negative Matrix und ein k mit k < min(m, n). Zu finden sind 

zwei ebenfalls nicht-negative Matrizen W ∈ R m×k und H ∈ R k×n sodass 

minimal ist. 

‖A − W H‖ 2 F 

Bemerkungen 

1. Da es sich um eine Approximation handelt, ist es keine Zerlegung resp. ” 

Factorization“ 

im eigentlichen Sinne. 

2. In den meisten Fällen wird verlangt, dass der Rank k ≪ min(m, n) ist. Dies kann 

man sich als eine Komprimierung der Datenmatrix A vorstellen. 

3. Dieses Problem wird auch in diversen anderen Versionen gestellt. Je nach Anwendung 

wird eine andere Norm für die Minimierung (zum Beispiel ‖ · ‖ 2 ) benützt oder 

eine andere Einschränkung für k verlangt (zum Beispiel (n + m)r < nm). 

Satz 6.2 

Die NMF ist nicht eindeutig. 

Beweis 

Nicht Eindeutigkeit Nehmen wir an wir haben zwei Matrizen W und H, sodass diese 

das NMF-Problem erfüllen. Betrachte eine verallgemeinerte Permutationsmatrix P , d.h. 

eine Matrix mit demselben Muster wie eine Permutationsmatrix, jedoch ist der Werte 

in jeder Zeile resp. Spalte nicht nur 1, sondern kann auch einen andere positiven Werte 

annehmen. Dadurch bleibt P −1 nicht-negativ. Weiter gilt: 

W H = W P −1 P H = (W P −1 ) (P H) 

} {{ } } {{ } 

˜W ˜H 

Daher ist die Darstellung nicht eindeutig. 

□ 

Bemerkungen 

1. Durch die Schwachbesetztheit kann man die Uneindeutigkeit einschränken. 

Literatur 

[BDJ] 

Michael W. Berry; Zlatko Drmac; Elizabeth R. Jessup, Matrices, vector spaces, 

and information retrieval (English Summary) SIAM rev. 41 (1999), no.2, 335-362 

12

[STE] 

G.W. Stewart; On the Early History of the SVD; University of Maryland; Departement 

of Computer Science; TR-28855 

[WIK] http://de.wikipedia.org/wiki/Latent Semantic Indexing 

[MIR] 

L.Mirsky, Symmetric gauge functions and unitarily invariant norms Quarterly 

Journal of Mathematics, 11:50-59, 1960 

[CDM] Carl D. Meyer; Matrix Analysis and Applied Linear Algebra; 

http://www.matrixanalysis.com/ 

13

Latent Semantic Indexing und Matrixzerlegungen - ETH Zürich

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?