Kostenloser Download der gesamten Diplomarbeit - dotSource

Weitere Magazine

Empfehlungen

Info

KAPITEL 2. GRUNDLAGEN 10 Soundex generiert für die gegebene Zeichenkette eine Zahlenkombination, welche den phonetischen Klang des Wortes repräsentiert. Bei diesem Algorithmus werden alle Vokale gleich gewichtet, sodass der Klang von Konsonanten als das Maß für die Ähnlichkeit angenommen wird. Die Buchstaben werden in Gruppen zusammengefasst, indem ähnlich klingende Konsonanten derselben Gruppe zugeordnet werden. [Hof10] Code Buchstaben 0 a, e, i, o, u, y, h, w 1 b, p, f, v 2 c, g, j, k, q, s, x, z 3 d, t 4 l 5 m, n 6 r Tabelle 2.2: Regelsatz von Soundex aus [Hof10] BeidemAblaufwirdderersteBuchstabeohneÄnderungübernommen,alleweiterenBuchstaben werden nach dem Ersetzungsschema aus der Tabelle 2.2 mit Beachtung folgender Regel kodiert. [Sto07] 1. Ignoriere Groß- und Kleinschreibung. 2. Wenn ein Buchstabe in einem Wort mehrmals nacheinander auftritt, wird nur das erste Auftreten kodiert und alle weiteren Vorkommen ignoriert. 3. Entferne alle Nullen aus der Kodierung. 4. Gib die ersten vier kodierten Zeichen zurück, fülle gegebenenfalls mit Nullen auf. Zur Veranschaulichung der Arbeitsweise von Soundex werden im Folgenden zwei Beispiele (vgl. Tabellen 2.3 und 2.4) angegeben. Regel ” Meier“ ” Meyer“ 1 Meier Meyer 2 M06 M06 3 M6 M6 4 M600 M600 Tabelle 2.3: positives Beispiel Regel ” Spears“ ” Superzicke“ 1 Spears Superzicke 2 S1062 S01062020 3 S162 S1622 4 S162 S162 Tabelle 2.4: negatives Beispiel DasErsetzungsschemainderTabelle2.2unddasBeispiel inderTabelle2.4mitdenBegriffen ” Spears“ und ” Superzicke“ machen deutlich, dass der Soundex in seiner Ursprungsform für den englischsprachigen Raum gedacht war und nicht ohne weitere Modifikationen für alle Sprachen anwendbar ist. Man müsste beispielsweise für die Anwendung in der deutschen Sprache die Umlaute und ß hinzufügen. Eine mögliche Spezialisierung von Soundex für die deutsche Sprache wurde im Jahr 1969 von H. J. Postel unter den Namen ” Kölner
KAPITEL 2. GRUNDLAGEN 11 Phonetik“ vorgeschlagen. Derangepasste Algorithmusnutzt einanderesErsetzungsschema und beachtet die umliegenden Buchstaben. [Hof10] Da Soundex den ersten Buchstaben unverändert übernimmt, können nur Fehler der darauffolgenden Buchstaben korrigiert werden. Der weitere Nachteil von auf Soundex basierten Verfahren ist, dass ausschließlich eine Aussage, ob Ähnlichkeit gegeben ist oder nicht, geliefert wird. Das hat zur Folge, dass die Ergebnisse nicht nach der Ähnlichkeit angeordnet werden können. Aus diesem Grund ist die Kombination mit anderen Verfahren im praktischen Umfeld die Regel. [Sto07] 2.2.2 Invertierte Liste Nach der Vorverarbeitung der Dokumentensammlung mithilfe von Texttransformationen liegt die dabei extrahierte Information, in Form von Tupeln vor. Jedes Tupel ist aus dem TokenundderInformationinwelchemDokumentesvorkommt,wiez.B.eineDokumenten- ID, aufgebaut. Für die Überprüfung der Relevanz der Dokumente müssen die Terme der Anfrage mit den der einzelnen Dokumente verglichen werden. Wenn Übereinstimmungen mit einer der Listen festgestellt werden, so wird das entsprechende Dokument in das Suchergebnis aufgenommen. Ohne weitere Strukturierung der Tupel ist bei jeder Suchanfrage ein Vergleich zwischen jedem Token der Suchanfrage mit jedem Token der Dokumentensammlungerforderlich.BeidiesernaivenVorgehensweiseistderRetrieval Prozessaufgrund fehlender Organisation der Tupel sehr ineffizient. Invertierte Listen bzw. invertierte Indizes sind in IRS eine der meist eingesetzten Datenstrukturen, welche die Tupel für den Retrieval Prozess geeignet organisieren und dadurch die Suche auf der Dokumentensammlung effizient umsetzen. Die invertierte Liste besteht aus alphabetisch sortierten Termen der Dokumentensammlung. Der effiziente Zugriff auf die einzelnen Tokens wird über einen Baum oder eine Hash-Tabelle realisiert. Jeder Eintrag in der invertierten Liste enthält eine Posting Liste, welche auf alle Dokumente, die den jeweiligen Token enthalten, verweist. Die Dokumente innerhalb der Posting Liste sind aufsteigend sortiert. [Got10] Das schrittweise Vorgehen beim Aufbau einer invertierten Liste wird beispielhaft in der Abbildung 2.2 gezeigt, wobei die Wortzerlegung bereits erfolgt ist. Information d1 ist d1 nutzbares d1 Information d1 Schritt 1 Wissen d1 Schritt 2 ist nutzbares d1 d1 Schritt 3 Daten d2 und d2 Wissen d2 unterscheiden d2 sich d2 Daten d2 sich d2 und d2 unterscheiden d2 Wissen d1 Wissen d2 Daten d2 Information d1 ist d1 nutzbares d1 sich d2 und d2 unterscheiden d2 Wissen d1 d2 Abbildung 2.2: Beispielaufbau einer invertierten Liste in Anlehnung an [Got10]
Seite 1 und 2: Vergleich von FACT-Finder und Solr
Seite 3 und 4: Danksagung Ganz besonders Bedanken
Seite 5 und 6: INHALTSVERZEICHNIS iv 4 FACT-Finder
Seite 7 und 8: Kapitel 1 Einleitung Dieses Kapitel
Seite 9 und 10: Kapitel 2 Grundlagen Das Grundlagen
Seite 11 und 12: KAPITEL 2. GRUNDLAGEN 5 aller Daten
Seite 13 und 14: KAPITEL 2. GRUNDLAGEN 7 • Polysem
Seite 15: KAPITEL 2. GRUNDLAGEN 9 In IRS wird
Seite 19 und 20: KAPITEL 2. GRUNDLAGEN 13 • Viele
Seite 21 und 22: KAPITEL 2. GRUNDLAGEN 15 Veränderu
Seite 23 und 24: KAPITEL 2. GRUNDLAGEN 17 Das Hauptp
Seite 25 und 26: KAPITEL 2. GRUNDLAGEN 19 Abbildung
Seite 27 und 28: KAPITEL 2. GRUNDLAGEN 21 Abbildung
Seite 29 und 30: KAPITEL 3. ANFORDERUNGEN AN SUCHPLA
Seite 35 und 36: KAPITEL 4. FACT-FINDER UND SOLR 29
Seite 57 und 58: Kapitel 5 Integration in SCOOBOX Di
Seite 59 und 60: KAPITEL 5. INTEGRATION IN SCOOBOX 5
Seite 67 und 68:
KAPITEL 5. INTEGRATION IN SCOOBOX 6
Seite 69 und 70:
Seite 71 und 72:
Seite 73 und 74:
Seite 75 und 76:
KAPITEL 6. ZUSAMMENFASSUNG UND AUSB
Seite 77 und 78:
Anhang A Implementierung 1 3 SELEC
Seite 79 und 80:
ANHANG A. IMPLEMENTIERUNG 73 Listin
Seite 81 und 82:
ANHANG A. IMPLEMENTIERUNG 75 90 @Ov
Seite 83 und 84:
ANHANG A. IMPLEMENTIERUNG 77 80 if
Seite 85 und 86:
Anhang B Messwerte FACT-Finder Beit
Seite 87 und 88:
Literaturverzeichnis [Int11a] Inter
Seite 89 und 90:
LITERATURVERZEICHNIS 83 [Hau10] Mat
Seite 91 und 92:
Abbildungsverzeichnis 2.1 IRS-Archi
Seite 93:
Erklärung Ich erkläre, dass ich d
Alle anzeigen

Kostenloser Download der gesamten Diplomarbeit - dotSource

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?