16.12.2012 Aufrufe

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

6 Suche mit Fehlern<br />

⎛<br />

⎜<br />

D = ⎜<br />

⎝<br />

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21<br />

d i e e r z e u g u n g s p r i n c i p e<br />

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0<br />

1 p 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1<br />

2 r 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 0 1 2 2 2 1 1<br />

3 i 3 3 2 3 3 2 3 3 3 3 3 3 3 3 2 1 0 1 2 3 2 2<br />

4 n 4 4 3 4 4 3 4 4 4 4 4 3 4 4 3 2 1 0 1 2 3 3<br />

5 z 5 5 4 5 5 4 3 4 5 5 5 4 5 5 4 3 2 1 1 2 3 4<br />

6 i 6 6 5 6 6 5 4 4 5 6 6 5 6 6 5 4 3 2 2 1 2 3<br />

7 p 7 7 6 7 7 6 5 5 5 6 7 6 7 7 6 5 4 3 3 2 1 2<br />

Abbildung 6.3: Beispiel einer Distanzmatrix für die Suche eines Wortes in einem Text<br />

Abbildung 6.4 (unten) zeigt die Distanzmatrix D für die exemplarische Suche nach einer<br />

Merkmalssequenz der Länge 224 innerhalb einer Dokumentsequenz der Länge 6808. Die Elemente<br />

Di, j sind hierbei als Farbwerte dargestellt. Die Farbzuordnung zu den jeweiligen Werten<br />

ist in der Farbskala in Abbilding 6.4 (unten links) zu sehen. Die Farbe korrespondiert hier direkt<br />

mit der durch die jeweilige Stelle in der Matrix D ausgedrückte Anzahl der Fehler, das<br />

heißt, der nötigen Editieroperationen; kleine Matrixelemente sind durch eine Farbe im grünen<br />

Bereich der Farbskala dargestellt, große Matrixelement im roten Bereich. Als Merkmalstyp<br />

der Sequenzen wird hier die in Abschnitt 5.2.1 beschriebene quadratische Gitterquantisierung<br />

verwendet, das bedeutet, die Alphabetgröße beträgt 8. Gesucht wird nach einem Wort, welches<br />

im durchsuchten Dokumenttext dreimal vorkommt. Diese drei Wortvorkommen sind in<br />

Abbildung 6.4 als Streifen zu erkennen. Diese Streifenbildung ist dadurch zu erklären, dass<br />

ein Wortvorkommen durch einen geringeren Editierabstand erkannt wird, welcher sich in einem<br />

eher grünen Farbton äußert.<br />

Im oberen Teil der Abbildung 6.4 ist die Matrixzeile i = 224 (D224,0...6808) als Funktion<br />

des Index j der Dokumentsequenz für dieselbe Suche dargestellt. Wie leicht zu erkennen ist,<br />

korrespondieren die Minima der Kurve mit den erwähnten Streifen der Matrixdarstellung im<br />

unteren Teil derselben Abildung.<br />

Die Bestimmung der Distanzmatrix D mit den Gleichungen 6.14 bis 6.17 kann mit einer<br />

Zeitkomplexität <strong>von</strong> O(m · n) erfolgen. Wenn D spaltenweise berechnet wird, so ist der<br />

Speicherbedarf während der Berechnung O(m), da für die j-te Spalte D0...m, j lediglich die<br />

Werte des jeweiligen Vorgängers, also der ( j − 1)-ten Spalte D0...m, j−1 benötigt werden.<br />

Da die unterste Matrixzeile Dm die Editierabstände zwischen der Zeichenkette r und den<br />

Teilen der Zeichenkette s enthält, können in Anlehnung an Gleichung 6.9 mithilfe dieser Zeile<br />

Ähnlichkeiten in Form eines Vektors S = (S1,S2,...,Sn) T bestimmt werden mit<br />

S j = 1 − Dm, j<br />

m<br />

⎞<br />

⎟<br />

⎠<br />

mit 1 ≤ j ≤ n (6.18)<br />

Das eigentliche Ziel einer approximativen Stringsuche, wie sie hier beschrieben wurde, ist<br />

die Bestimmung jener Werte j mit 1 ≤ j ≤ n, die das Ende solcher Teilzeichenketten s j−k+1... j<br />

78

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!