30.10.2013 Aufrufe

Bildklassifikation unter Verwendung kompressionsbasierter Methoden

Bildklassifikation unter Verwendung kompressionsbasierter Methoden

Bildklassifikation unter Verwendung kompressionsbasierter Methoden

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Kapitel 2. Kompressionsbasierte Ähnlichkeitsdistanz<br />

Desweiteren ist die Informationsdistanz ein zulässiges und universelles Maß<br />

[BGL + 98].<br />

Bei der Definition der Informationsdistanz wird bewusst auf eine konkrete Programmiersprache<br />

verzichtet. So syntaktisch verschieden die vielen realen universellen<br />

Programmiersprachen (z.B. Java, C++) auch sind, haben sie in der<br />

Regel gemein, dass das Programmende durch ein individuelles Symbol oder<br />

einen speziellen Befehl kenntlich gemacht wird.<br />

Definition 2.11. Ein Code wird als Präfixcode oder präfixfreier Code bezeichnet,<br />

wenn die Menge der Codewörter präfixfrei ist. Es ist also kein Codewort<br />

Präfix eines anderen Codeworts (vgl. [Say00]).<br />

Offensichtlich sind die universellen Programmiersprachen, in denen das Ende<br />

eines Programms mittels Symbol oder Befehl markiert wird, präfixfrei. Durch<br />

eben diese Markierung kann kein Programm Präfix eines anderen sein. Da<br />

nun die Informationsdistanz als kürzeste binäre Kodierung eines Programms<br />

definiert ist, bietet es sich in Anlehnung an diese Programmiersprachen an<br />

Präfixcodes zu verwenden. Diese Einschränkung bietet einige praktische Vorteile,<br />

die wir im Folgenden näher <strong>unter</strong>suchen.<br />

Li und Vitányi zeigen in [LV08], <strong>unter</strong> welchen Bedinungen ein Präfixcode<br />

überhaupt existiert.<br />

Theorem 2.12. Für jede (un-)endliche Sequenz l 1 , l 2 , ... natürlicher Zahlen<br />

existiert ein Präfixcode mit Codewörtern, deren Längen exakt dieser Sequenz<br />

entsprechen genau dann, wenn gilt<br />

∑<br />

2 −ln 1. (2.23)<br />

n<br />

Beweis. (Genau dann:) Wir zeigen zunächst, dass jeder Präfixcode diese nach<br />

Leon G. Kraft benannte Kraft-Ungleichung (2.23) erfüllt. Sei x ein Binärstring<br />

der Länge l(x). Dann ist x ↔ Γ x = [0, x; 0, x + 2 l(x) ) eine bijektive Abbildung<br />

zwischen x und einem reellen Subintervall aus [0; 1). Das Intervall Γ x beinhaltet<br />

damit genau die reellen Zahlen, deren binäre Darstellung der Nachkommastellen<br />

mit x beginnt. Das Wörterbuch eines Präfixcodes entspricht letztlich<br />

einer Menge solcher Binärstrings x für die in der o.g. Weise eine Abbildung auf<br />

disjunkte Subintervalle aus [0; 1) möglich ist. Kein Codewort ist Präfix eines<br />

anderen, deshalb sind auch die Intervalle disjunkt. Folglich kann die Summe der<br />

Länge all dieser Intervalle höchstens 1 sein. Damit erfüllt jeder Präfixcode die<br />

Ungleichung.<br />

(Wenn:) Jetzt zeigen wir durch Konstruktion, dass bei gegebenen Codelängen<br />

l 1 , l 2 , ..., welche die Ungleichung erfüllen, stehts ein Präfixcode mit diesen Längen<br />

existiert. Nehmen wir ohne Einschränkung der Allgemeingültigkeit an, die Co-<br />

12

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!