Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
KAPITEL 2. GRUNDLAGEN 13<br />
• Viele Dokumente werden nicht gefunden, weil die Trennung zwischen relevant und<br />
nicht relevant streng ist. So werden beispielsweise bei einer UND-Verknüpfung von<br />
drei Termen, diejenigen Dokumente mit zwei übereinstimmenden Termen genauso<br />
nicht in das Suchergebnis aufgenommen wie solche mit keinen Treffern.<br />
• DasRankingvonDokumentenistnichtmöglich.Damitkannessehrschwierigwerden<br />
bei einem umfangreichen Ergebnis relevante Dokumente zu finden, weil diese nicht<br />
zwangsläufig vorne stehen müssen.<br />
• Die Formulierung <strong>der</strong> Suchanfragen ist für einen ungeübten Nutzer u.U. ein schwieriges<br />
Unterfangen.<br />
• Es gibt keine Möglichkeit die Tokens innerhalb des Indexes und <strong>der</strong> Anfrage zu<br />
gewichten.<br />
Fuzzy-Set-Modell<br />
Das Fuzzy-Set-Modell basiert auf <strong>der</strong> Fuzzylogik, die von L. A. Zadeh im Jahr 1965 erfunden<br />
wurde [Dre08]. Die Fuzzylogik nutzt die Theorie <strong>der</strong> unscharfen Mengen (englisch:<br />
Fuzzy Sets), welche die traditionelle Mengenlehre um den Grad <strong>der</strong> Mitgliedschaft in einer<br />
Menge verallgemeinert. Der Grad <strong>der</strong> Mitgliedschaft liegt im abgeschlossenem Intervall<br />
zwischen 0 und 1 und kann mithilfe <strong>der</strong> Zugehörigkeitsfunktion 1 bestimmt werden. [Fer03]<br />
DiesesModellverfolgtgenauwiedasboolescheModelldenmengentheoretischenAnsatzfür<br />
die Wissensrepräsentation. Jedes Dokument wird als eine unscharfeMenge, die aus Tupeln<br />
besteht, repräsentiert. Jedes Tupel besteht aus dem Token, <strong>der</strong> Dokumenten-ID und dem<br />
Grad seiner Zugehörigkeit, welche als eine reelle Zahl im Intervall [0,1] definiert ist, zu<br />
dem jeweiligen Dokument. Die Anfragen werden genauso wie bei dem booleschen Modell<br />
repräsentiert. Die Operatoren AND, OR und NOT sind im Vergleich zu dem booleschen<br />
Modell für die Auswertung <strong>der</strong> Gewichte erweitert und entsprechen den Definitionen des<br />
Durchschnitts, <strong>der</strong> Vereinigung und des Komplementes aus <strong>der</strong> Theorie <strong>der</strong> unscharfen<br />
Mengen. [Fuh11]<br />
Für die Bestimmung <strong>der</strong> Werte einzelner Terme innerhalb des Indexes werden in [CP99]<br />
nur Vorschläge gemacht. Die Werte sollen entwe<strong>der</strong> über eine manuelle Bewertung durch<br />
Experten o<strong>der</strong> automatisiert in Abhängigkeit von solchen Parametern wie <strong>der</strong> Typ des<br />
Dokumentes o<strong>der</strong> die Auftrittshäufigkeit des Terms innerhalb des Dokuments bestimmt<br />
werden. Ein konkrete Technik zur Bestimmung <strong>der</strong> Termwerte wird in [HCL03] beschrieben.<br />
Hier wird mithilfe <strong>der</strong> Termfrequenz und <strong>der</strong> inversen Dokumentenhäufigkeit die<br />
Relevanz von Dokumenten zu <strong>der</strong> Suchanfrage schrittweise, durch virtuelle Verschiebung<br />
<strong>der</strong> Suchanfrage in Richtung relevanter Dokumente, verbessert. In [Ver05] werden fürdiese<br />
Aufgabe drei Vorgehensweisen vorgestellt, welche die Werteerstellung direkt, indirekt und<br />
mithilfe von Zahlentransformationen umsetzen.<br />
Bei diesem Ansatz wird also <strong>der</strong> Nachteil von nur exakten Übereinstimmungen des booleschen<br />
Modells mit <strong>der</strong> Unschärfe <strong>der</strong> Zugehörigkeit zu einer Menge behoben, so dass ein<br />
Ranking<strong>der</strong>Dokumente im Suchergebnis möglich ist. Das gilt abernur fürdie Gewichtung<br />
<strong>der</strong> Dokumente. Die Formulierung von gewichteten Anfragen ist weiterhin nicht möglich.<br />
Der Nachteil mit <strong>der</strong> komplizierten Anfragesprache bleibt weiterhin bestehen.<br />
In gewissen Fällen kann die Auswertung des UND-Operators in dem Fuzzy-Set-Modell zu<br />
fraglichenErgebnissenführen.Wiebereitserwähnt,entsprichteinlogischerUND-Operator<br />
1 bei <strong>der</strong> booleschen Logik wird die Zugehörigkeit ausschließlich auf die Intervallgrenzen abgebildet