Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Kostenloser Download der gesamten Diplomarbeit - dotSource
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
KAPITEL 2. GRUNDLAGEN 11<br />
Phonetik“ vorgeschlagen. Derangepasste Algorithmusnutzt einan<strong>der</strong>esErsetzungsschema<br />
und beachtet die umliegenden Buchstaben. [Hof10]<br />
Da Soundex den ersten Buchstaben unverän<strong>der</strong>t übernimmt, können nur Fehler <strong>der</strong> darauffolgenden<br />
Buchstaben korrigiert werden. Der weitere Nachteil von auf Soundex basierten<br />
Verfahren ist, dass ausschließlich eine Aussage, ob Ähnlichkeit gegeben ist o<strong>der</strong> nicht,<br />
geliefert wird. Das hat zur Folge, dass die Ergebnisse nicht nach <strong>der</strong> Ähnlichkeit angeordnet<br />
werden können. Aus diesem Grund ist die Kombination mit an<strong>der</strong>en Verfahren im<br />
praktischen Umfeld die Regel. [Sto07]<br />
2.2.2 Invertierte Liste<br />
Nach <strong>der</strong> Vorverarbeitung <strong>der</strong> Dokumentensammlung mithilfe von Texttransformationen<br />
liegt die dabei extrahierte Information, in Form von Tupeln vor. Jedes Tupel ist aus dem<br />
Tokenund<strong>der</strong>InformationinwelchemDokumentesvorkommt,wiez.B.eineDokumenten-<br />
ID, aufgebaut. Für die Überprüfung <strong>der</strong> Relevanz <strong>der</strong> Dokumente müssen die Terme <strong>der</strong><br />
Anfrage mit den <strong>der</strong> einzelnen Dokumente verglichen werden. Wenn Übereinstimmungen<br />
mit einer <strong>der</strong> Listen festgestellt werden, so wird das entsprechende Dokument in das Suchergebnis<br />
aufgenommen. Ohne weitere Strukturierung <strong>der</strong> Tupel ist bei je<strong>der</strong> Suchanfrage<br />
ein Vergleich zwischen jedem Token <strong>der</strong> Suchanfrage mit jedem Token <strong>der</strong> Dokumentensammlungerfor<strong>der</strong>lich.BeidiesernaivenVorgehensweiseist<strong>der</strong>Retrieval<br />
Prozessaufgrund<br />
fehlen<strong>der</strong> Organisation <strong>der</strong> Tupel sehr ineffizient.<br />
Invertierte Listen bzw. invertierte Indizes sind in IRS eine <strong>der</strong> meist eingesetzten Datenstrukturen,<br />
welche die Tupel für den Retrieval Prozess geeignet organisieren und dadurch<br />
die Suche auf <strong>der</strong> Dokumentensammlung effizient umsetzen. Die invertierte Liste besteht<br />
aus alphabetisch sortierten Termen <strong>der</strong> Dokumentensammlung. Der effiziente Zugriff auf<br />
die einzelnen Tokens wird über einen Baum o<strong>der</strong> eine Hash-Tabelle realisiert. Je<strong>der</strong> Eintrag<br />
in <strong>der</strong> invertierten Liste enthält eine Posting Liste, welche auf alle Dokumente, die<br />
den jeweiligen Token enthalten, verweist. Die Dokumente innerhalb <strong>der</strong> Posting Liste sind<br />
aufsteigend sortiert. [Got10]<br />
Das schrittweise Vorgehen beim Aufbau einer invertierten Liste wird beispielhaft in <strong>der</strong><br />
Abbildung 2.2 gezeigt, wobei die Wortzerlegung bereits erfolgt ist.<br />
Information d1<br />
ist d1<br />
nutzbares d1<br />
Information d1<br />
Schritt 1<br />
Wissen d1<br />
Schritt 2<br />
ist<br />
nutzbares<br />
d1<br />
d1<br />
Schritt 3<br />
Daten d2<br />
und d2<br />
Wissen d2<br />
unterscheiden d2<br />
sich d2<br />
Daten d2<br />
sich d2<br />
und d2<br />
unterscheiden d2<br />
Wissen d1<br />
Wissen d2<br />
Daten d2<br />
Information d1<br />
ist d1<br />
nutzbares d1<br />
sich d2<br />
und d2<br />
unterscheiden d2<br />
Wissen d1 d2<br />
Abbildung 2.2: Beispielaufbau einer invertierten Liste in Anlehnung an [Got10]