Boolesche- und Vektorraum- Modelle Retrieval Modelle Klassen ...

Weitere Magazine

Empfehlungen

Info

Das Vektorraum-Modell • Gehe davon aus, das t eindeutige Terme nach der Vorverarbeitung bleiben; nenne sie Indexterme oder das Vokabular. • Diese “orthogonalen” Terme spannen einen Vektorraum mit Dimension t auf. • Jedem Term i in einem Dokument oder einer Anfrage j wird ein reellwertiges Gewicht w ij. zugeordnet (im einfachsten Fall die Anzahl des Auftretens von i in j). • Sowohl Dokumente als auch Anfragen werden als t-dimensionale Vektoren ausgedrückt: d j = (w 1j , w 2j , …, w tj ) Grafische Darstellung Beispiel: D 1 = 2T 1 + 3T 2 + 5T 3 T 3 D 2 = 3T 1 + 7T 2 + T 3 Q = 0T 1 + 0T 2 + 2T 5 3 D 1 = 2T 1 + 3T 2 + 5T 3 2 3 T 1 D 2 = 3T 1 + 7T 2 + T 3 Q = 0T 1 + 0T 2 + 2T 3 T 2 7 •IstD 1 oder D 2 zu Q ähnlicher? • Wie messe ich den Grad der Ähnlichkeit? Abstand? Winkel? Projektion? 13 14 Dokumentensammlung • Eine Sammlung von n Dokumenten kann im Vektorraummodell durch eine Term-Dokument-Matrix dargestellt werden. • Ein Eintrag in der Matrix entspricht dem “Gewicht” eines Terms in dem Dokument; Null heisst, dass der Term im Dokument keine Bedeutung hat oder dass er im Dokument einfach nicht vorkommt. T 1 T 2 …. T t D 1 w 11 w 21 … w t1 D 2 w 12 w 22 … w t2 : : : : : : : : Termgewichte: Termhäufigkeit • Häufigere Terme in einem Dokument sind wichtiger, d.h. indikativer für das Thema. f ij = Häufigkeit von Term i in Dokument j • Man kann Termhäufigkeit (tf) über den gesamten Korpus normalisieren mit: tf ij = f ij / max k,l {f kl } D n w 1n w 2n … w tn 15 16
Termgewichte: Invertierte Dokumenthäufigkeit TF-IDF Gewichtung • Terme, die in vielen verschiedenen Dokumenten auftreten, sind weniger indikativ für das Gesamtthema. df i = Dokumenthäufigkeit des Terms i = Anzahl der Dokumente, die Term i enthalten (document frequency, df) idf i = Invertierte Dokumenthäufigkeit von Term i, = log 2 (N/ df i ) (N: gesamte Anzahl von Dokumenten) (inverted document frequency, idf) • Eine Angabe zur Unterscheidungsfähigkeit eines Terms. • Der Logorithmus wird benutzt, um die Auswirkung bezüglich tf zu dämpfen. 17 • Ein typischer zusammenhängender Indikator für die Wichtigkeit eines Terms ist tf-idf Gewichtung: w ij = tf ij idf i = tf ij log 2 (N/ df i ) • Einem Term, der häufig im Dokument, aber selten im Rest der Sammlung auftritt, wird hohes Gewicht gegeben. • Viele andere Wege zur Bestimmung von Termgewichten wurden vorgeschlagen. • Experimentell konnte gezeigt werden, dass tf-idf gut funktioniert. 18 Berechnung TF-IDF -- Ein Beispiel Anfragevektor • Gegeben sei ein Dokument, dass Terme mit den folgenden Häufigkeiten enthält: A(3), B(2), C(1) • Die Sammlung enthält 10,000 Dokumente und die Dokumenthäufigkeiten dieser Terme seien: A(50), B(1300), C(250) Dann ist: A: tf = 3/3; idf = log(10000/50) = 5.3; tf-idf = 5.3 B: tf = 2/3; idf = log(10000/1300) = 2.0; tf-idf = 1.3 C: tf = 1/3; idf = log(10000/250) = 3.7; tf-idf = 1.2 • Der Anfragevektor wird typischerweise als Dokument behandelt und ebenfalls mit tfidf gewichtet. • Eine Alternative für den Anwender ist, die Gewichte für die Anfrage direkt anzugeben. 19 20
Seite 1 und 2: Retrieval Modelle Boolesche- und Ve
Seite 3: Probleme Boolescher Modelle • Seh
Seite 7: Das Kosinus-Ähnlichkeitsmaß • K

Boolesche- und Vektorraum- Modelle Retrieval Modelle Klassen ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?