19.03.2014 Aufrufe

Boolesche- und Vektorraum- Modelle Retrieval Modelle Klassen ...

Boolesche- und Vektorraum- Modelle Retrieval Modelle Klassen ...

Boolesche- und Vektorraum- Modelle Retrieval Modelle Klassen ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Das <strong>Vektorraum</strong>-Modell<br />

• Gehe davon aus, das t eindeutige Terme nach der<br />

Vorverarbeitung bleiben; nenne sie Indexterme oder das<br />

Vokabular.<br />

• Diese “orthogonalen” Terme spannen einen <strong>Vektorraum</strong><br />

mit Dimension t auf.<br />

• Jedem Term i in einem Dokument oder einer Anfrage j<br />

wird ein reellwertiges Gewicht w ij. zugeordnet (im<br />

einfachsten Fall die Anzahl des Auftretens von i in j).<br />

• Sowohl Dokumente als auch Anfragen werden als<br />

t-dimensionale Vektoren ausgedrückt:<br />

d j = (w 1j , w 2j , …, w tj )<br />

Grafische Darstellung<br />

Beispiel:<br />

D 1 = 2T 1 + 3T 2 + 5T 3<br />

T 3<br />

D 2 = 3T 1 + 7T 2 + T 3<br />

Q = 0T 1 + 0T 2 + 2T 5<br />

3<br />

D 1<br />

= 2T 1<br />

+ 3T 2<br />

+ 5T 3<br />

2 3<br />

T 1<br />

D 2<br />

= 3T 1<br />

+ 7T 2<br />

+ T 3<br />

Q = 0T 1<br />

+ 0T 2<br />

+ 2T 3<br />

T 2<br />

7<br />

•IstD 1<br />

oder D 2<br />

zu Q ähnlicher?<br />

• Wie messe ich den Grad der<br />

Ähnlichkeit? Abstand? Winkel?<br />

Projektion?<br />

13<br />

14<br />

Dokumentensammlung<br />

• Eine Sammlung von n Dokumenten kann im<br />

<strong>Vektorraum</strong>modell durch eine Term-Dokument-Matrix<br />

dargestellt werden.<br />

• Ein Eintrag in der Matrix entspricht dem “Gewicht” eines<br />

Terms in dem Dokument; Null heisst, dass der Term im<br />

Dokument keine Bedeutung hat oder dass er im Dokument<br />

einfach nicht vorkommt.<br />

T 1 T 2 …. T t<br />

D 1 w 11 w 21 … w t1<br />

D 2 w 12 w 22 … w t2<br />

: : : :<br />

: : : :<br />

Termgewichte: Termhäufigkeit<br />

• Häufigere Terme in einem Dokument sind<br />

wichtiger, d.h. indikativer für das Thema.<br />

f ij = Häufigkeit von Term i in Dokument j<br />

• Man kann Termhäufigkeit (tf) über den gesamten<br />

Korpus normalisieren mit:<br />

tf ij = f ij / max k,l {f kl }<br />

D n w 1n w 2n … w tn<br />

15<br />

16

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!