16.12.2012 Aufrufe

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

6.2 Approximative Stringsuche mittels dynamischer Programmierung<br />

Abbildung 6.4: Beispiel einer Distanzmatrix D der Größe 244 × 6809; oben die Matrixzeile<br />

Dm als Graph und unten die gesamte Matrix, dargestellt durch Farbwerte<br />

anzeigen, deren Editierähnlichkeit einen zu wählenden Schwellwert τ nicht unterschreiten:<br />

S j ≥ τ (6.19)<br />

Dieser Schwellwert τ beeinflusst die Suchgenauigkeit; je größer τ gewählt wird, desto strikter<br />

ist die Suche, das heißt, desto weniger Treffer gibt es.<br />

Von besonderem Interesse sind jedoch nicht sämtliche dieser beschriebenen Werte j, die die<br />

Ungleichung 6.19 erfüllen; in der unmittelbaren Umgebung ε einer Position j mit optimaler<br />

Ähnlichkeit (similarityedit = 1) befindet sich auch stets eine Anzahl weiterer Positionen j ′<br />

( j − ε ≤ j ′ ≤ j + ε), deren Ähnlichkeit mit wachsender Entfernung <strong>von</strong> j zwar abnimmt,<br />

die dennoch zunächst den Schwellwert τ überschreiten, also die Ungleichung 6.19 erfüllen.<br />

Diesem Problem kann begegnet werden, indem für die Ergebnismenge H einer Suchanfrage<br />

nur solche Treffer h (engl. hit) berücksichtigt werden, die keine Überlappung mit anderen<br />

berücksichtigten Treffern haben. Ein Treffer h ist ein 4-Tupel der Gestalt:<br />

h = (ID, j b , j e ,σ) mit ID ∈ N, σ ∈ [0,1], 0 < j b ≤ j e ≤ n, h ∈ H (6.20)<br />

Hierbei ist ID der Bezeichner des Dokumentes, welches den Treffer enthält, jb und je sind die<br />

Indices, die Beginn und Ende des Treffers in der Dokumentzeichenkette s (n = |s|) anzeigen<br />

und σ ist die Ähnlichkeitsbewertung (σ = S je) des Treffers, das bedeutet, die Ähnlichkeit<br />

zwischen der Teilzeichenkette sib ...ie und der Suchzeichenkette r.<br />

Algorithmus 6 realisiert solch eine Suche nach einer Zeichenkette r in einer Menge {s1,s2,<br />

s3,...,sl} <strong>von</strong> l Dokumentzeichenketten s1 bis sl. Die minimal erlaubte Ähnlichkeit der Treffer<br />

ist durch den Schwellwertparameter τ angegeben. Wenn eine Zuordnung der Indices j<br />

79

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!