Boolesche- und Vektorraum- Modelle Retrieval Modelle Klassen ...
Boolesche- und Vektorraum- Modelle Retrieval Modelle Klassen ...
Boolesche- und Vektorraum- Modelle Retrieval Modelle Klassen ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Das <strong>Vektorraum</strong>-Modell<br />
• Gehe davon aus, das t eindeutige Terme nach der<br />
Vorverarbeitung bleiben; nenne sie Indexterme oder das<br />
Vokabular.<br />
• Diese “orthogonalen” Terme spannen einen <strong>Vektorraum</strong><br />
mit Dimension t auf.<br />
• Jedem Term i in einem Dokument oder einer Anfrage j<br />
wird ein reellwertiges Gewicht w ij. zugeordnet (im<br />
einfachsten Fall die Anzahl des Auftretens von i in j).<br />
• Sowohl Dokumente als auch Anfragen werden als<br />
t-dimensionale Vektoren ausgedrückt:<br />
d j = (w 1j , w 2j , …, w tj )<br />
Grafische Darstellung<br />
Beispiel:<br />
D 1 = 2T 1 + 3T 2 + 5T 3<br />
T 3<br />
D 2 = 3T 1 + 7T 2 + T 3<br />
Q = 0T 1 + 0T 2 + 2T 5<br />
3<br />
D 1<br />
= 2T 1<br />
+ 3T 2<br />
+ 5T 3<br />
2 3<br />
T 1<br />
D 2<br />
= 3T 1<br />
+ 7T 2<br />
+ T 3<br />
Q = 0T 1<br />
+ 0T 2<br />
+ 2T 3<br />
T 2<br />
7<br />
•IstD 1<br />
oder D 2<br />
zu Q ähnlicher?<br />
• Wie messe ich den Grad der<br />
Ähnlichkeit? Abstand? Winkel?<br />
Projektion?<br />
13<br />
14<br />
Dokumentensammlung<br />
• Eine Sammlung von n Dokumenten kann im<br />
<strong>Vektorraum</strong>modell durch eine Term-Dokument-Matrix<br />
dargestellt werden.<br />
• Ein Eintrag in der Matrix entspricht dem “Gewicht” eines<br />
Terms in dem Dokument; Null heisst, dass der Term im<br />
Dokument keine Bedeutung hat oder dass er im Dokument<br />
einfach nicht vorkommt.<br />
T 1 T 2 …. T t<br />
D 1 w 11 w 21 … w t1<br />
D 2 w 12 w 22 … w t2<br />
: : : :<br />
: : : :<br />
Termgewichte: Termhäufigkeit<br />
• Häufigere Terme in einem Dokument sind<br />
wichtiger, d.h. indikativer für das Thema.<br />
f ij = Häufigkeit von Term i in Dokument j<br />
• Man kann Termhäufigkeit (tf) über den gesamten<br />
Korpus normalisieren mit:<br />
tf ij = f ij / max k,l {f kl }<br />
D n w 1n w 2n … w tn<br />
15<br />
16