30.10.2013 Aufrufe

Bildklassifikation unter Verwendung kompressionsbasierter Methoden

Bildklassifikation unter Verwendung kompressionsbasierter Methoden

Bildklassifikation unter Verwendung kompressionsbasierter Methoden

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

4.2. Standardmaße<br />

können aber beliebig lang sein. Deshalb nimmt die Kodierung der Positionen<br />

den meisten Platz in Anspruch. Die minimal <strong>unter</strong>schiedliche Kodierungslänge<br />

der Operationen können wir darum ignorieren. Analog zum Hammingabstand<br />

fassen wir diese Kodierung als Approximation der Informationsdistanz auf (siehe<br />

Definition 2.10).<br />

Die Levenshtein-Distanz erlaubt im Vergleich zum Hammingabstand jedoch eine<br />

verbesserte Approximation der Kolmogorov-Komplexität. Erstens ermöglicht<br />

sie die Bestimmung einer Ähnlichkeit von Strings verschiedener Länge. Zweitens<br />

ist der Hammingabstand bei Strings gleicher Länge immer eine Obergrenze für<br />

die Levenshtein-Distanz. Ist nämlich der Hammingabstand d H (x, y) = k, dann<br />

ist eine Korrektur von y nach x mit k Ersetzungen möglich. Durch den geschickten<br />

Einsatz von Lösch- und Einfügeoperationen könnte eine Korrektur<br />

aber auch in weniger Schritten möglich sein. Also ist d L (x, y) k.<br />

Satz 4.7. Die Levenshtein-Distanz ist eine Metrik.<br />

Beweis. Für die Identitätsbedinung d L (x, x) = 0 ist das unmittelbar klar, denn<br />

es sind keine Korrekturoperationen erforderlich.<br />

Die Invertierung einer Ersetzungsoperation (z.B. 0 für 1) erfolgt mittels der gegenteiligen<br />

Ersetzung (hier dann 1 für 0). Eine kürzere Variante kann es nicht<br />

geben, da die einzige Alternative eine Kombination aus Löschen und Einfügen<br />

und damit mindestens doppelt so lang ist. Wir bezeichnen im Folgenden die<br />

Transformation von y nach x als Hinweg und die Inverse als Rückweg. Ist eine<br />

Löschoperation Teil des kürzesten Hinwegs, so bedarf es für die Invertierung einer<br />

Einfügeoperation. Könnte man auf dem Rückweg auf diese Einfügeoperation<br />

verzichten, da sie Teil einer Kombination aus Löschen- und Einfügen ist, dann<br />

hätte man auf dem Hinweg bereits auf die Löschoperation verzichten können, da<br />

sie ebenfalls Teil einer Löschen- und Einfügen-Kombination sein muss. Stattdessen<br />

hätte man die Ersetzungsoperation gewählt. Dann wäre aber der Hinweg<br />

nicht der kürzeste gewesen, was ein Widerspruch zur Annahme ist.<br />

Gleiches gilt für die Invertierung einer Einfügeperation auf dem Hinweg. Damit<br />

ist auch die Symmetriebedingung d L (x, y) = d L (y, x) erfüllt. Die Erfüllung<br />

der Dreiecksungleichung ergibt sich implizit aus der Definition. Jeder explizit<br />

geforderte Zwischenschritt liegt entweder auf einem kürzesten Weg oder erhöht<br />

die Anzahl der Operatoren.<br />

Wir haben bereits argumentiert, dass die Levenshtein-Distanz als Approximation<br />

der Informationsdistanz besser geeignet ist als der Hammingabstand. Ob<br />

sich diese theoretischen Überlegungen in der Praxis bestätigen, werden wir nun<br />

experimentell überprüfen. Die Laufzeit des Algorithmus zur Berechnung der<br />

Distanz d L (x, y) liegt in O(mn), wobei m und n die Längen der Strings x und y<br />

bezeichnen [WF74]. Bei gleich langen Strings ist die Laufzeit also O(n 2 ). Zwar<br />

ist polynomielle Laufzeit gleichbedeutend mit effizienter Berechenbarkeit, diese<br />

Definition von Effizienz ist in der Praxis aber mit Vorsicht zu genießen. Ein<br />

Klassifikationstest mit vertretbarem Rechenaufwand ist mit der Levenshtein-<br />

39

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!