10.10.2013 Aufrufe

Kostenloser Download der gesamten Diplomarbeit - dotSource

Kostenloser Download der gesamten Diplomarbeit - dotSource

Kostenloser Download der gesamten Diplomarbeit - dotSource

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

KAPITEL 2. GRUNDLAGEN 7<br />

• Polysemie ist das Gegenstück zu Synonymie und steht für die Mehrdeutigkeit eines<br />

Ausdrucks. Ein repräsentatives Beispiel stellt das Wort ” Bank“ dar. Dieses Wort<br />

kann ohne weiteren Kontext beispielsweise als Sitzmöbel o<strong>der</strong> als Kreditinstitut interpretiert<br />

werden.<br />

Es muss also dafür gesorgt werden, dass verschiedene Formulierungen auf die gleiche Repräsentation<br />

abbilden und unklare Formulierungen identifiziert werden. [Fuh11]<br />

Die im Folgenden vorgestellten Texttransformationen bieten Lösungsansätze für das oben<br />

beschriebene Problem.<br />

In Abhängigkeit von <strong>der</strong> gegebenen Dokumentensammlung ist u.U. eine Vorverarbeitung<br />

wie die Bestimmung <strong>der</strong> Kodierung, des Dateiformates sowie <strong>der</strong> Sprache notwendig. Im<br />

nächsten Schritt <strong>der</strong> Tokenisierung wird <strong>der</strong> Volltext in Worte zerlegt und von Ziffern,<br />

Bindestrichen, Satzzeichen undStoppwörtern befreitsowie dieGroß-/Kleinschreibung vereinheitlicht.<br />

Anschließend werden die einzelnen Zeichenketten weiteren Normalisierungsund<br />

Filterprozessen wie z.B. die Stammwortreduzierung sowie Anwendung <strong>der</strong> Thesauren<br />

undphonetischer Analyse unterworfen. Das Resultat <strong>der</strong>vorgenommenen Texttransformationen<br />

ist eine Ansammlung von einzelnen Zeichenketten, welche als Tokens bzw. Terme<br />

bezeichnet werden und in dieser Form in den Index aufgenommen werden. [Got10]<br />

Stoppwortliste<br />

Die Stoppwortliste enthält die Stoppwörter, diese wird bei <strong>der</strong> Texttransformation geladen<br />

und auf den Volltext angewendet. Stoppwörter kommen i.d.R. in allen Dokumenten vor<br />

undhabendemzufolgenursehrgeringen Identifikationspotenzial fürdenRetrieval Prozess,<br />

weil sie in relevanten Dokumenten genauso oft vorkommen können wie in nicht relevanten.<br />

Die Stoppwörter tragen also einen geringen auszeichnenden Charakter und bringen aus<br />

diesem Grund keinen bedeutenden Informationsgewinn für das IRS. [Sto07]<br />

Die typischen Vertreter von Stoppwörtern sind Artikel o<strong>der</strong> Präpositionen. Diese sind<br />

sprachspezifisch und sollten <strong>der</strong> Übersichtlichkeit wegen separiert gespeichert und gepflegt<br />

werden. Ein Beispiel ist die Zeichenkette ” die“, welche in deutsche, aber keinesfalls eine<br />

englische Stoppwortliste gehört. [Fer03]<br />

In gewissen Anwendungsfällen kann es jedoch sinnvoll sein die Stoppwörter mit in die<br />

Suche einzubeziehen. Ein Beispiel ist das berühmte Zitat aus Hamlet ” Sein o<strong>der</strong> nicht<br />

Sein“. Intuitiv bieten sich die Zeichenketten ” o<strong>der</strong>“ und ” nicht“ für die Aufnahme in die<br />

Stoppwortliste an, was in diesem konkreten Beispiel die Tragödie von William Shakespeare<br />

mit hoher Wahrscheinlichkeit als nicht relevant für das Zitat zuordnen würde. Dieses<br />

Beispiel zeigt, dass die Stoppwörter in einem gewissen Kontext nicht vollkommen informationsleer<br />

sind. So ist es denkbar die Stoppwörter in Abhängigkeit von <strong>der</strong> Thematik<br />

<strong>der</strong> Dokumentensammlung mit in den Index aufzunehmen und bei dem Retrieval Prozess<br />

mit einer gewissen Abwertung einzubeziehen. [Sto07]<br />

Stoppwörter bieten keine direkte Lösung für das zur Einleitung dieses Abschnittes beschriebene<br />

Problem <strong>der</strong> Wissensrepräsentation an. Sie dienen vielmehr als ein Teil <strong>der</strong><br />

Vorverarbeitungsschritte vor den eigentlichen Filteroperationen. Der positive Effekt neben<br />

<strong>der</strong> Beseitigung nicht auszeichnen<strong>der</strong> Tokens ist ein nicht unnötig aufgeblähter Umfang<br />

des Indexes, was einen effizienteren Retrieval Prozess zur Folge hat.<br />

Stammwortreduzierung<br />

Die Stammwortreduzierung (engl. stemming) ist ein Vertreter <strong>der</strong> Freitextsuche, bei <strong>der</strong>

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!