10.10.2013 Aufrufe

Kostenloser Download der gesamten Diplomarbeit - dotSource

Kostenloser Download der gesamten Diplomarbeit - dotSource

Kostenloser Download der gesamten Diplomarbeit - dotSource

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

KAPITEL 2. GRUNDLAGEN 11<br />

Phonetik“ vorgeschlagen. Derangepasste Algorithmusnutzt einan<strong>der</strong>esErsetzungsschema<br />

und beachtet die umliegenden Buchstaben. [Hof10]<br />

Da Soundex den ersten Buchstaben unverän<strong>der</strong>t übernimmt, können nur Fehler <strong>der</strong> darauffolgenden<br />

Buchstaben korrigiert werden. Der weitere Nachteil von auf Soundex basierten<br />

Verfahren ist, dass ausschließlich eine Aussage, ob Ähnlichkeit gegeben ist o<strong>der</strong> nicht,<br />

geliefert wird. Das hat zur Folge, dass die Ergebnisse nicht nach <strong>der</strong> Ähnlichkeit angeordnet<br />

werden können. Aus diesem Grund ist die Kombination mit an<strong>der</strong>en Verfahren im<br />

praktischen Umfeld die Regel. [Sto07]<br />

2.2.2 Invertierte Liste<br />

Nach <strong>der</strong> Vorverarbeitung <strong>der</strong> Dokumentensammlung mithilfe von Texttransformationen<br />

liegt die dabei extrahierte Information, in Form von Tupeln vor. Jedes Tupel ist aus dem<br />

Tokenund<strong>der</strong>InformationinwelchemDokumentesvorkommt,wiez.B.eineDokumenten-<br />

ID, aufgebaut. Für die Überprüfung <strong>der</strong> Relevanz <strong>der</strong> Dokumente müssen die Terme <strong>der</strong><br />

Anfrage mit den <strong>der</strong> einzelnen Dokumente verglichen werden. Wenn Übereinstimmungen<br />

mit einer <strong>der</strong> Listen festgestellt werden, so wird das entsprechende Dokument in das Suchergebnis<br />

aufgenommen. Ohne weitere Strukturierung <strong>der</strong> Tupel ist bei je<strong>der</strong> Suchanfrage<br />

ein Vergleich zwischen jedem Token <strong>der</strong> Suchanfrage mit jedem Token <strong>der</strong> Dokumentensammlungerfor<strong>der</strong>lich.BeidiesernaivenVorgehensweiseist<strong>der</strong>Retrieval<br />

Prozessaufgrund<br />

fehlen<strong>der</strong> Organisation <strong>der</strong> Tupel sehr ineffizient.<br />

Invertierte Listen bzw. invertierte Indizes sind in IRS eine <strong>der</strong> meist eingesetzten Datenstrukturen,<br />

welche die Tupel für den Retrieval Prozess geeignet organisieren und dadurch<br />

die Suche auf <strong>der</strong> Dokumentensammlung effizient umsetzen. Die invertierte Liste besteht<br />

aus alphabetisch sortierten Termen <strong>der</strong> Dokumentensammlung. Der effiziente Zugriff auf<br />

die einzelnen Tokens wird über einen Baum o<strong>der</strong> eine Hash-Tabelle realisiert. Je<strong>der</strong> Eintrag<br />

in <strong>der</strong> invertierten Liste enthält eine Posting Liste, welche auf alle Dokumente, die<br />

den jeweiligen Token enthalten, verweist. Die Dokumente innerhalb <strong>der</strong> Posting Liste sind<br />

aufsteigend sortiert. [Got10]<br />

Das schrittweise Vorgehen beim Aufbau einer invertierten Liste wird beispielhaft in <strong>der</strong><br />

Abbildung 2.2 gezeigt, wobei die Wortzerlegung bereits erfolgt ist.<br />

Information d1<br />

ist d1<br />

nutzbares d1<br />

Information d1<br />

Schritt 1<br />

Wissen d1<br />

Schritt 2<br />

ist<br />

nutzbares<br />

d1<br />

d1<br />

Schritt 3<br />

Daten d2<br />

und d2<br />

Wissen d2<br />

unterscheiden d2<br />

sich d2<br />

Daten d2<br />

sich d2<br />

und d2<br />

unterscheiden d2<br />

Wissen d1<br />

Wissen d2<br />

Daten d2<br />

Information d1<br />

ist d1<br />

nutzbares d1<br />

sich d2<br />

und d2<br />

unterscheiden d2<br />

Wissen d1 d2<br />

Abbildung 2.2: Beispielaufbau einer invertierten Liste in Anlehnung an [Got10]

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!