10.10.2013 Aufrufe

Kostenloser Download der gesamten Diplomarbeit - dotSource

Kostenloser Download der gesamten Diplomarbeit - dotSource

Kostenloser Download der gesamten Diplomarbeit - dotSource

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

KAPITEL 2. GRUNDLAGEN 6<br />

welcher die Webseiten analysiert und so die Informationen bereitstellt, vor die Dokumentensammlung<br />

geschaltet [Lew05]. Die Dokumentensammlung ist auf einem Speicher<br />

abgelegt, welches ein DBMS o<strong>der</strong> ein einfaches File-System sein kann. Um die Retrievalund<br />

Ranking- Prozesse effizient zu gestalten, muss die Dokumentensammlung als ein Index<br />

vorliegen. Der Index wird aus <strong>der</strong> Dokumentensammlung durch den Indexer entwe<strong>der</strong><br />

direkt o<strong>der</strong> nach Texttransformationen, welche im Abschnitt 2.2.1 vorgestellt werden, aufgebaut.<br />

Der Index wird oft als eine invertierte Liste, <strong>der</strong>en Beschreibung im Abschnitt<br />

2.2.2 stattfindet, implementiert. Der Indizierungsprozess ist aufgrund <strong>der</strong> Indexerstellung<br />

aus i.d.R. großen Dokumentensammlungen ein ressourcenintensiver Prozess, welcher im<br />

Offline-Modus durchgeführt werden sollte.<br />

Nachdem <strong>der</strong> Indizierungsprozess vollzogen ist, kann <strong>der</strong> Retrieval Prozess ausgeführt<br />

werden. Initial stell <strong>der</strong> Nutzer eine Anfrage an das IRS, welche zunächst mithilfe von<br />

Texttransformationen für die Weiterverarbeitung aufbereitet wird. Im nächsten Schritt<br />

findet die Modifikation statt, wobei die Anfrage z.B. mit an<strong>der</strong>en Wortformen o<strong>der</strong> den<br />

Systemvorschlägen, welche bei <strong>der</strong> Eingabe gebracht wurden, erweitert wird. Die modifizierte<br />

Anfrage und <strong>der</strong> Index werden als Parameter in die Retrieval-Funktion <strong>der</strong> Retrieval<br />

Komponente eingegeben. Als Rückgabelwert wird eine Liste von Tupeln, die aus dem Dokument<br />

und zugehörigem Retrieval Status Value (RSV) bestehen, generiert [Fuh11]. RSV<br />

ist das Maß für die Relevanz, welche die Beziehung zwischen dem Dokument und <strong>der</strong> Anfrage<br />

beschreibt. Nach dem Retrieval Prozess werden die Dokumente mithilfe <strong>der</strong> Ranking<br />

Komponente anhand <strong>der</strong> berechneten Relevanz geordnet.<br />

Anschließend werden geordnete Dokumente einer Formatierung unterworfen unddem Nutzer<br />

präsentiert. Bei <strong>der</strong> Formatierung besteht <strong>der</strong> Zugriff auf die Dokumentensammlung,<br />

sodassdieSuchergebnissedaraufabgebildetundbeispielsweisemithervorgehobenenFundstellen<br />

präsentiert werden.<br />

Bei denRetrieval- undRanking-Komponentenfindetdieeigentliche SucheundAnordnung<br />

<strong>der</strong> Dokumente statt. Diese Komponenten sind grundlegend für den eigentlichen Suchprozess<br />

und sind durch das verwendete Information Retrieval Modell (IRM) weitestgehend<br />

definiert.IRM beschreibtweiterhin wiedie Repräsentation <strong>der</strong> Dokumentensammlung und<br />

<strong>der</strong> Anfrage auszusehen hat und ist somit fundamental für die Implementierung eines IRS.<br />

EinÜberblicküberdiewichtigsten ModelledesInformationRetrieval werdenim Abschnitt<br />

2.2.3 gegeben.<br />

Aus dem Grund <strong>der</strong> Übersichtlichkeit wurde in <strong>der</strong> Abbildung 2.1 die Rolle des Administrators<br />

nicht dargestellt. Im praktischen Umfeld konfiguriert dieser die Indizierungs- sowie<br />

Retrieval- und Ranking-Komponenten für den konkreten Anwendungsfall.<br />

2.2.1 Texttransformationen<br />

IRweistbei<strong>der</strong>Wissensrepräsentation <strong>der</strong>inVolltext vorliegenden Dokumentensammlung<br />

ein zentrales Problem auf. Die im Text vorkommenden Worte können im Text auf unterschiedlichste<br />

Weise formuliert werden, was in <strong>der</strong> Literatur als Synonymie und Polysemie<br />

bekannt ist.<br />

• Synonymie ist die Ähnlichkeit <strong>der</strong> Bedeutung von Ausdrücken, welche sprachlich<br />

verschieden sind. Beispielsweise sind ” Notebook“ und ” Laptop“ synonym.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!