Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
KAPITEL 2. GRUNDLAGEN 7<br />
• Polysemie ist das Gegenstück zu Synonymie und steht für die Mehrdeutigkeit eines<br />
Ausdrucks. Ein repräsentatives Beispiel stellt das Wort ” Bank“ dar. Dieses Wort<br />
kann ohne weiteren Kontext beispielsweise als Sitzmöbel o<strong>der</strong> als Kreditinstitut interpretiert<br />
werden.<br />
Es muss also dafür gesorgt werden, dass verschiedene Formulierungen auf die gleiche Repräsentation<br />
abbilden und unklare Formulierungen identifiziert werden. [Fuh11]<br />
Die im Folgenden vorgestellten Texttransformationen bieten Lösungsansätze für das oben<br />
beschriebene Problem.<br />
In Abhängigkeit von <strong>der</strong> gegebenen Dokumentensammlung ist u.U. eine Vorverarbeitung<br />
wie die Bestimmung <strong>der</strong> Kodierung, des Dateiformates sowie <strong>der</strong> Sprache notwendig. Im<br />
nächsten Schritt <strong>der</strong> Tokenisierung wird <strong>der</strong> Volltext in Worte zerlegt und von Ziffern,<br />
Bindestrichen, Satzzeichen undStoppwörtern befreitsowie dieGroß-/Kleinschreibung vereinheitlicht.<br />
Anschließend werden die einzelnen Zeichenketten weiteren Normalisierungsund<br />
Filterprozessen wie z.B. die Stammwortreduzierung sowie Anwendung <strong>der</strong> Thesauren<br />
undphonetischer Analyse unterworfen. Das Resultat <strong>der</strong>vorgenommenen Texttransformationen<br />
ist eine Ansammlung von einzelnen Zeichenketten, welche als Tokens bzw. Terme<br />
bezeichnet werden und in dieser Form in den Index aufgenommen werden. [Got10]<br />
Stoppwortliste<br />
Die Stoppwortliste enthält die Stoppwörter, diese wird bei <strong>der</strong> Texttransformation geladen<br />
und auf den Volltext angewendet. Stoppwörter kommen i.d.R. in allen Dokumenten vor<br />
undhabendemzufolgenursehrgeringen Identifikationspotenzial fürdenRetrieval Prozess,<br />
weil sie in relevanten Dokumenten genauso oft vorkommen können wie in nicht relevanten.<br />
Die Stoppwörter tragen also einen geringen auszeichnenden Charakter und bringen aus<br />
diesem Grund keinen bedeutenden Informationsgewinn für das IRS. [Sto07]<br />
Die typischen Vertreter von Stoppwörtern sind Artikel o<strong>der</strong> Präpositionen. Diese sind<br />
sprachspezifisch und sollten <strong>der</strong> Übersichtlichkeit wegen separiert gespeichert und gepflegt<br />
werden. Ein Beispiel ist die Zeichenkette ” die“, welche in deutsche, aber keinesfalls eine<br />
englische Stoppwortliste gehört. [Fer03]<br />
In gewissen Anwendungsfällen kann es jedoch sinnvoll sein die Stoppwörter mit in die<br />
Suche einzubeziehen. Ein Beispiel ist das berühmte Zitat aus Hamlet ” Sein o<strong>der</strong> nicht<br />
Sein“. Intuitiv bieten sich die Zeichenketten ” o<strong>der</strong>“ und ” nicht“ für die Aufnahme in die<br />
Stoppwortliste an, was in diesem konkreten Beispiel die Tragödie von William Shakespeare<br />
mit hoher Wahrscheinlichkeit als nicht relevant für das Zitat zuordnen würde. Dieses<br />
Beispiel zeigt, dass die Stoppwörter in einem gewissen Kontext nicht vollkommen informationsleer<br />
sind. So ist es denkbar die Stoppwörter in Abhängigkeit von <strong>der</strong> Thematik<br />
<strong>der</strong> Dokumentensammlung mit in den Index aufzunehmen und bei dem Retrieval Prozess<br />
mit einer gewissen Abwertung einzubeziehen. [Sto07]<br />
Stoppwörter bieten keine direkte Lösung für das zur Einleitung dieses Abschnittes beschriebene<br />
Problem <strong>der</strong> Wissensrepräsentation an. Sie dienen vielmehr als ein Teil <strong>der</strong><br />
Vorverarbeitungsschritte vor den eigentlichen Filteroperationen. Der positive Effekt neben<br />
<strong>der</strong> Beseitigung nicht auszeichnen<strong>der</strong> Tokens ist ein nicht unnötig aufgeblähter Umfang<br />
des Indexes, was einen effizienteren Retrieval Prozess zur Folge hat.<br />
Stammwortreduzierung<br />
Die Stammwortreduzierung (engl. stemming) ist ein Vertreter <strong>der</strong> Freitextsuche, bei <strong>der</strong>