10.10.2013 Aufrufe

Kostenloser Download der gesamten Diplomarbeit - dotSource

Kostenloser Download der gesamten Diplomarbeit - dotSource

Kostenloser Download der gesamten Diplomarbeit - dotSource

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

KAPITEL 2. GRUNDLAGEN 13<br />

• Viele Dokumente werden nicht gefunden, weil die Trennung zwischen relevant und<br />

nicht relevant streng ist. So werden beispielsweise bei einer UND-Verknüpfung von<br />

drei Termen, diejenigen Dokumente mit zwei übereinstimmenden Termen genauso<br />

nicht in das Suchergebnis aufgenommen wie solche mit keinen Treffern.<br />

• DasRankingvonDokumentenistnichtmöglich.Damitkannessehrschwierigwerden<br />

bei einem umfangreichen Ergebnis relevante Dokumente zu finden, weil diese nicht<br />

zwangsläufig vorne stehen müssen.<br />

• Die Formulierung <strong>der</strong> Suchanfragen ist für einen ungeübten Nutzer u.U. ein schwieriges<br />

Unterfangen.<br />

• Es gibt keine Möglichkeit die Tokens innerhalb des Indexes und <strong>der</strong> Anfrage zu<br />

gewichten.<br />

Fuzzy-Set-Modell<br />

Das Fuzzy-Set-Modell basiert auf <strong>der</strong> Fuzzylogik, die von L. A. Zadeh im Jahr 1965 erfunden<br />

wurde [Dre08]. Die Fuzzylogik nutzt die Theorie <strong>der</strong> unscharfen Mengen (englisch:<br />

Fuzzy Sets), welche die traditionelle Mengenlehre um den Grad <strong>der</strong> Mitgliedschaft in einer<br />

Menge verallgemeinert. Der Grad <strong>der</strong> Mitgliedschaft liegt im abgeschlossenem Intervall<br />

zwischen 0 und 1 und kann mithilfe <strong>der</strong> Zugehörigkeitsfunktion 1 bestimmt werden. [Fer03]<br />

DiesesModellverfolgtgenauwiedasboolescheModelldenmengentheoretischenAnsatzfür<br />

die Wissensrepräsentation. Jedes Dokument wird als eine unscharfeMenge, die aus Tupeln<br />

besteht, repräsentiert. Jedes Tupel besteht aus dem Token, <strong>der</strong> Dokumenten-ID und dem<br />

Grad seiner Zugehörigkeit, welche als eine reelle Zahl im Intervall [0,1] definiert ist, zu<br />

dem jeweiligen Dokument. Die Anfragen werden genauso wie bei dem booleschen Modell<br />

repräsentiert. Die Operatoren AND, OR und NOT sind im Vergleich zu dem booleschen<br />

Modell für die Auswertung <strong>der</strong> Gewichte erweitert und entsprechen den Definitionen des<br />

Durchschnitts, <strong>der</strong> Vereinigung und des Komplementes aus <strong>der</strong> Theorie <strong>der</strong> unscharfen<br />

Mengen. [Fuh11]<br />

Für die Bestimmung <strong>der</strong> Werte einzelner Terme innerhalb des Indexes werden in [CP99]<br />

nur Vorschläge gemacht. Die Werte sollen entwe<strong>der</strong> über eine manuelle Bewertung durch<br />

Experten o<strong>der</strong> automatisiert in Abhängigkeit von solchen Parametern wie <strong>der</strong> Typ des<br />

Dokumentes o<strong>der</strong> die Auftrittshäufigkeit des Terms innerhalb des Dokuments bestimmt<br />

werden. Ein konkrete Technik zur Bestimmung <strong>der</strong> Termwerte wird in [HCL03] beschrieben.<br />

Hier wird mithilfe <strong>der</strong> Termfrequenz und <strong>der</strong> inversen Dokumentenhäufigkeit die<br />

Relevanz von Dokumenten zu <strong>der</strong> Suchanfrage schrittweise, durch virtuelle Verschiebung<br />

<strong>der</strong> Suchanfrage in Richtung relevanter Dokumente, verbessert. In [Ver05] werden fürdiese<br />

Aufgabe drei Vorgehensweisen vorgestellt, welche die Werteerstellung direkt, indirekt und<br />

mithilfe von Zahlentransformationen umsetzen.<br />

Bei diesem Ansatz wird also <strong>der</strong> Nachteil von nur exakten Übereinstimmungen des booleschen<br />

Modells mit <strong>der</strong> Unschärfe <strong>der</strong> Zugehörigkeit zu einer Menge behoben, so dass ein<br />

Ranking<strong>der</strong>Dokumente im Suchergebnis möglich ist. Das gilt abernur fürdie Gewichtung<br />

<strong>der</strong> Dokumente. Die Formulierung von gewichteten Anfragen ist weiterhin nicht möglich.<br />

Der Nachteil mit <strong>der</strong> komplizierten Anfragesprache bleibt weiterhin bestehen.<br />

In gewissen Fällen kann die Auswertung des UND-Operators in dem Fuzzy-Set-Modell zu<br />

fraglichenErgebnissenführen.Wiebereitserwähnt,entsprichteinlogischerUND-Operator<br />

1 bei <strong>der</strong> booleschen Logik wird die Zugehörigkeit ausschließlich auf die Intervallgrenzen abgebildet

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!