10.10.2013 Aufrufe

Kostenloser Download der gesamten Diplomarbeit - dotSource

Kostenloser Download der gesamten Diplomarbeit - dotSource

Kostenloser Download der gesamten Diplomarbeit - dotSource

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

KAPITEL 2. GRUNDLAGEN 15<br />

Verän<strong>der</strong>ungen zeigt, wird auf die inverse Dokumentfrequenz <strong>der</strong> Logarithmus angewendet.<br />

Dieser globale Faktor wird größer, umso weniger <strong>der</strong> Term global verteilt ist. Das<br />

impliziert, dass es sich eher um einen beschreibenden spezielleren Term handelt. Das Gegenteil<br />

passiert, wenn <strong>der</strong> Term oft vorkommt, in diesem Fall findet eine Abwertung statt.<br />

Es handelt sich also um Terme, welche nicht auszeichnend für die in dem Dokument befindliche<br />

Information sind. Solche Terme bewegen sich in die Richtung <strong>der</strong> Stoppworte,<br />

welche im Abschnitt 2.2.1 beschrieben wurden.<br />

Der zweite Faktor heißt Termfrequenz tf(t) und gibt die Anzahl <strong>der</strong> Vorkommnisse des<br />

Terms in dem Dokument an. Je häufiger ein Term in einem Dokument vorkommt, umso<br />

wichtiger ist es für das Dokument.<br />

Das Termgewicht w für den Term t nach <strong>der</strong> TF-IDF-Methode im VRM wird als Produkt<br />

aus <strong>der</strong> Termfrequenz mit <strong>der</strong> inversen Dokumentenfrequenz nach <strong>der</strong> folgenden Formel<br />

berechnet.<br />

<br />

N<br />

wt = tf(t)∗log<br />

df(t)<br />

Das VRM ist benutzerfreundlich, weil es die natürliche Sprache direkt für die Suche verwenden<br />

lässt und keine Sprachelemente erfor<strong>der</strong>t. Die Gewichtung <strong>der</strong> Terme erlaubt das<br />

Ranking nach <strong>der</strong> Relevanz <strong>der</strong> Ergebnisse und die Formulierung von gewichteten Anfragen.<br />

Neue Dokumentensammlungen können direkt nach dem Indizierungsprozess für den<br />

Retrieval Prozess eingesetzt werden. [Lew05, Fuh11]<br />

Da keine Operatoren existieren, erfor<strong>der</strong>t eine sinnvolle Anfrage relativ viele Suchbegriffe.<br />

Aus demselben Grund ist ein Ausschließen von Suchbegriffen nicht möglich, was in <strong>der</strong><br />

booleschen Logik mit dem Komplement einfach realisiert ist. [Lew05]<br />

Probabilistisches Modell<br />

Bei dem probabilistischen Retrieval Modell wird die Fragestellung, wie relevant das Dokument<br />

für dieAnfrage ist, beantwortet. Die Relevanz unter <strong>der</strong> Bedingung, dass die Anfrage<br />

unddas Dokument vorliegen, kann mithilfe <strong>der</strong> Formel von Bayes berechnet werden. Dafür<br />

muss die Unabhängigkeit <strong>der</strong> Dokumente untereinan<strong>der</strong> vorausgesetzt werden [Fer03]. Der<br />

Nutzer ordnet die Dokumente als relevant auf <strong>der</strong> Grundlage bereits angesehener Texte<br />

ein. Das probabilistische Modell berechnet stets die Relevanz, die <strong>der</strong> Algorithmus vorgibt,<br />

so dass <strong>der</strong> subjektive Einfluss durch die Unabhängigkeit nicht einbezogen werden kann<br />

[Sto07].<br />

Die Umsetzung dieses Modells erfor<strong>der</strong>t mindestens zwei Suchanfragen für das Generieren<br />

des Suchergebnisses. Der Algorithmus erfor<strong>der</strong>t für die Berechnungen die Wahrscheinlichkeit<br />

<strong>der</strong> Relevanz unter <strong>der</strong> Bedingung, dass das Dokument vorliegt. Diese Wahrscheinlichkeit<br />

liegt zunächst nicht vor und kann erst im initialen Durchlauf ermittelt werden. Im<br />

zweiten Schritt kann nach dem Feedback des Nutzer o<strong>der</strong> automatisiert durch Pseudo-<br />

Feedback des System <strong>der</strong> zweite Durchsuchungsschritt gestartet werden. Der Nachteil<br />

dabei ist, dass <strong>der</strong> Nutzer, die für ihn relevanten Dokumente nicht notwendig in den<br />

Top-Ergebnissen findet. Bei dem Feedback durch das System geht die subjektive Relevanz<br />

verloren, was zu stark verfälschten Ergebnissen aus <strong>der</strong> Sicht des Nutzers führen kann.<br />

[Sto07]<br />

In <strong>der</strong> Tabelle 2.5 sind die wichtigsten Kriterien <strong>der</strong> vorgestellten Modelle zusammenfassend<br />

dargestellt. Alle hier vorgestellten IRMs, bis auf das boolesche Modell, geben eine geordnete<br />

Dokumentenliste aus. Das bedeutet insbeson<strong>der</strong>e, dass das Ergebnis eines solchen

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!