Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
KAPITEL 2. GRUNDLAGEN 15<br />
Verän<strong>der</strong>ungen zeigt, wird auf die inverse Dokumentfrequenz <strong>der</strong> Logarithmus angewendet.<br />
Dieser globale Faktor wird größer, umso weniger <strong>der</strong> Term global verteilt ist. Das<br />
impliziert, dass es sich eher um einen beschreibenden spezielleren Term handelt. Das Gegenteil<br />
passiert, wenn <strong>der</strong> Term oft vorkommt, in diesem Fall findet eine Abwertung statt.<br />
Es handelt sich also um Terme, welche nicht auszeichnend für die in dem Dokument befindliche<br />
Information sind. Solche Terme bewegen sich in die Richtung <strong>der</strong> Stoppworte,<br />
welche im Abschnitt 2.2.1 beschrieben wurden.<br />
Der zweite Faktor heißt Termfrequenz tf(t) und gibt die Anzahl <strong>der</strong> Vorkommnisse des<br />
Terms in dem Dokument an. Je häufiger ein Term in einem Dokument vorkommt, umso<br />
wichtiger ist es für das Dokument.<br />
Das Termgewicht w für den Term t nach <strong>der</strong> TF-IDF-Methode im VRM wird als Produkt<br />
aus <strong>der</strong> Termfrequenz mit <strong>der</strong> inversen Dokumentenfrequenz nach <strong>der</strong> folgenden Formel<br />
berechnet.<br />
<br />
N<br />
wt = tf(t)∗log<br />
df(t)<br />
Das VRM ist benutzerfreundlich, weil es die natürliche Sprache direkt für die Suche verwenden<br />
lässt und keine Sprachelemente erfor<strong>der</strong>t. Die Gewichtung <strong>der</strong> Terme erlaubt das<br />
Ranking nach <strong>der</strong> Relevanz <strong>der</strong> Ergebnisse und die Formulierung von gewichteten Anfragen.<br />
Neue Dokumentensammlungen können direkt nach dem Indizierungsprozess für den<br />
Retrieval Prozess eingesetzt werden. [Lew05, Fuh11]<br />
Da keine Operatoren existieren, erfor<strong>der</strong>t eine sinnvolle Anfrage relativ viele Suchbegriffe.<br />
Aus demselben Grund ist ein Ausschließen von Suchbegriffen nicht möglich, was in <strong>der</strong><br />
booleschen Logik mit dem Komplement einfach realisiert ist. [Lew05]<br />
Probabilistisches Modell<br />
Bei dem probabilistischen Retrieval Modell wird die Fragestellung, wie relevant das Dokument<br />
für dieAnfrage ist, beantwortet. Die Relevanz unter <strong>der</strong> Bedingung, dass die Anfrage<br />
unddas Dokument vorliegen, kann mithilfe <strong>der</strong> Formel von Bayes berechnet werden. Dafür<br />
muss die Unabhängigkeit <strong>der</strong> Dokumente untereinan<strong>der</strong> vorausgesetzt werden [Fer03]. Der<br />
Nutzer ordnet die Dokumente als relevant auf <strong>der</strong> Grundlage bereits angesehener Texte<br />
ein. Das probabilistische Modell berechnet stets die Relevanz, die <strong>der</strong> Algorithmus vorgibt,<br />
so dass <strong>der</strong> subjektive Einfluss durch die Unabhängigkeit nicht einbezogen werden kann<br />
[Sto07].<br />
Die Umsetzung dieses Modells erfor<strong>der</strong>t mindestens zwei Suchanfragen für das Generieren<br />
des Suchergebnisses. Der Algorithmus erfor<strong>der</strong>t für die Berechnungen die Wahrscheinlichkeit<br />
<strong>der</strong> Relevanz unter <strong>der</strong> Bedingung, dass das Dokument vorliegt. Diese Wahrscheinlichkeit<br />
liegt zunächst nicht vor und kann erst im initialen Durchlauf ermittelt werden. Im<br />
zweiten Schritt kann nach dem Feedback des Nutzer o<strong>der</strong> automatisiert durch Pseudo-<br />
Feedback des System <strong>der</strong> zweite Durchsuchungsschritt gestartet werden. Der Nachteil<br />
dabei ist, dass <strong>der</strong> Nutzer, die für ihn relevanten Dokumente nicht notwendig in den<br />
Top-Ergebnissen findet. Bei dem Feedback durch das System geht die subjektive Relevanz<br />
verloren, was zu stark verfälschten Ergebnissen aus <strong>der</strong> Sicht des Nutzers führen kann.<br />
[Sto07]<br />
In <strong>der</strong> Tabelle 2.5 sind die wichtigsten Kriterien <strong>der</strong> vorgestellten Modelle zusammenfassend<br />
dargestellt. Alle hier vorgestellten IRMs, bis auf das boolesche Modell, geben eine geordnete<br />
Dokumentenliste aus. Das bedeutet insbeson<strong>der</strong>e, dass das Ergebnis eines solchen