16.12.2012 Aufrufe

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

6 Suche mit Fehlern<br />

similarityedit(r,s) = 1 − distanceedit(r,s)<br />

max{m,n}<br />

(6.9)<br />

Der durchschnittliche Ähnlichkeitswert zweier zufälliger Zeichenketten r und s ist abhängig<br />

<strong>von</strong> der relativen Häufigkeit für das Auftreten der einzelnen Elemente des Alphabetes<br />

A in den Zeichenketten r und s. Sei A ein Alphabet, bestehend aus l Elementen 0,1,2,...:<br />

A = {0,1,2,...}. Seien weiterhin p0,p1,p2,... die Auftrittswahrscheinlichkeiten der Elemente<br />

aus A gleichverteilt: p0,p1,p2,... = 1 /l+1. Der Zusammenhang zwischen der Länge des<br />

Alphabetes A und dem durchschnittlichen Ähnlichkeitswert zweier beliebiger Zeichenketten<br />

r und s der selben Länge mit r,s ∈ A ∗ ist in Abbildung 6.2 zu sehen. Erkennbar ist, dass die<br />

durchschnittliche Ähnlichkeit <strong>von</strong> zufälligen Zeichenketten derselben Länge umso kleiner ist,<br />

je größer der Zeichenvorrat des Alphabetes A ist.<br />

Ähnlichkeit<br />

1<br />

0.9<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

5 10 15 20 25 30 35 40 45 50 55 60 64<br />

Alphabetlänge l<br />

Abbildung 6.2: Zusammenhang zwischen der Alphabetlänge und der durchschnittlichen Ähnlichkeit<br />

zweier Zeichenketten derselben Länge<br />

Klassische Einsatzgebiete des Editierabstandes für Zeichenketten sind das Aufspüren <strong>von</strong><br />

Schreibfehlern in Textverarbeitungssystemen [Mor70, CB04] und die Analyse <strong>von</strong> Gensequenzen<br />

oder Ketten <strong>von</strong> Aminosäuren in der Bioinformatik [GSR + 02][Gus97, S. 212ff][SK99,<br />

S. 45ff, 93ff][CR03, S.7f]. Daneben wurde der Editierabstand bereits unter anderem für die<br />

biometrische Authentifikation mittels der Unterschrift [SVD04] oder zur Erkennung <strong>von</strong> handgeschriebenen<br />

Zeichen [Ven05, JS06] und handgezeichneten Formen [Jon05, CSVV07] verwendet.<br />

Auch hierbei wurden Merkmale in Form <strong>von</strong> Zeichenketten aus den Schreibdaten<br />

extrahiert, welche im Fall der Unterschriftsanalyse die Dynamik (Schreibdruck, Geschwindigkeit<br />

und Beschleunigung) und im Fall der Zeichen- und Formenerkennung die geometrische<br />

Gestalt der Stifteingabe berücksichtigten.<br />

Die Idee, die Distanz zweier Zeichenketten (also eindimensionaler Strukturen) darüber zu<br />

definieren, wieviele Editieroperationen benötigt werden, die eine Zeichenkette in die andere<br />

74

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!