Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
KAPITEL 2. GRUNDLAGEN 6<br />
welcher die Webseiten analysiert und so die Informationen bereitstellt, vor die Dokumentensammlung<br />
geschaltet [Lew05]. Die Dokumentensammlung ist auf einem Speicher<br />
abgelegt, welches ein DBMS o<strong>der</strong> ein einfaches File-System sein kann. Um die Retrievalund<br />
Ranking- Prozesse effizient zu gestalten, muss die Dokumentensammlung als ein Index<br />
vorliegen. Der Index wird aus <strong>der</strong> Dokumentensammlung durch den Indexer entwe<strong>der</strong><br />
direkt o<strong>der</strong> nach Texttransformationen, welche im Abschnitt 2.2.1 vorgestellt werden, aufgebaut.<br />
Der Index wird oft als eine invertierte Liste, <strong>der</strong>en Beschreibung im Abschnitt<br />
2.2.2 stattfindet, implementiert. Der Indizierungsprozess ist aufgrund <strong>der</strong> Indexerstellung<br />
aus i.d.R. großen Dokumentensammlungen ein ressourcenintensiver Prozess, welcher im<br />
Offline-Modus durchgeführt werden sollte.<br />
Nachdem <strong>der</strong> Indizierungsprozess vollzogen ist, kann <strong>der</strong> Retrieval Prozess ausgeführt<br />
werden. Initial stell <strong>der</strong> Nutzer eine Anfrage an das IRS, welche zunächst mithilfe von<br />
Texttransformationen für die Weiterverarbeitung aufbereitet wird. Im nächsten Schritt<br />
findet die Modifikation statt, wobei die Anfrage z.B. mit an<strong>der</strong>en Wortformen o<strong>der</strong> den<br />
Systemvorschlägen, welche bei <strong>der</strong> Eingabe gebracht wurden, erweitert wird. Die modifizierte<br />
Anfrage und <strong>der</strong> Index werden als Parameter in die Retrieval-Funktion <strong>der</strong> Retrieval<br />
Komponente eingegeben. Als Rückgabelwert wird eine Liste von Tupeln, die aus dem Dokument<br />
und zugehörigem Retrieval Status Value (RSV) bestehen, generiert [Fuh11]. RSV<br />
ist das Maß für die Relevanz, welche die Beziehung zwischen dem Dokument und <strong>der</strong> Anfrage<br />
beschreibt. Nach dem Retrieval Prozess werden die Dokumente mithilfe <strong>der</strong> Ranking<br />
Komponente anhand <strong>der</strong> berechneten Relevanz geordnet.<br />
Anschließend werden geordnete Dokumente einer Formatierung unterworfen unddem Nutzer<br />
präsentiert. Bei <strong>der</strong> Formatierung besteht <strong>der</strong> Zugriff auf die Dokumentensammlung,<br />
sodassdieSuchergebnissedaraufabgebildetundbeispielsweisemithervorgehobenenFundstellen<br />
präsentiert werden.<br />
Bei denRetrieval- undRanking-Komponentenfindetdieeigentliche SucheundAnordnung<br />
<strong>der</strong> Dokumente statt. Diese Komponenten sind grundlegend für den eigentlichen Suchprozess<br />
und sind durch das verwendete Information Retrieval Modell (IRM) weitestgehend<br />
definiert.IRM beschreibtweiterhin wiedie Repräsentation <strong>der</strong> Dokumentensammlung und<br />
<strong>der</strong> Anfrage auszusehen hat und ist somit fundamental für die Implementierung eines IRS.<br />
EinÜberblicküberdiewichtigsten ModelledesInformationRetrieval werdenim Abschnitt<br />
2.2.3 gegeben.<br />
Aus dem Grund <strong>der</strong> Übersichtlichkeit wurde in <strong>der</strong> Abbildung 2.1 die Rolle des Administrators<br />
nicht dargestellt. Im praktischen Umfeld konfiguriert dieser die Indizierungs- sowie<br />
Retrieval- und Ranking-Komponenten für den konkreten Anwendungsfall.<br />
2.2.1 Texttransformationen<br />
IRweistbei<strong>der</strong>Wissensrepräsentation <strong>der</strong>inVolltext vorliegenden Dokumentensammlung<br />
ein zentrales Problem auf. Die im Text vorkommenden Worte können im Text auf unterschiedlichste<br />
Weise formuliert werden, was in <strong>der</strong> Literatur als Synonymie und Polysemie<br />
bekannt ist.<br />
• Synonymie ist die Ähnlichkeit <strong>der</strong> Bedeutung von Ausdrücken, welche sprachlich<br />
verschieden sind. Beispielsweise sind ” Notebook“ und ” Laptop“ synonym.