Bildklassifikation unter Verwendung kompressionsbasierter Methoden
Bildklassifikation unter Verwendung kompressionsbasierter Methoden
Bildklassifikation unter Verwendung kompressionsbasierter Methoden
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Kapitel 2. Kompressionsbasierte Ähnlichkeitsdistanz<br />
Desweiteren ist die Informationsdistanz ein zulässiges und universelles Maß<br />
[BGL + 98].<br />
Bei der Definition der Informationsdistanz wird bewusst auf eine konkrete Programmiersprache<br />
verzichtet. So syntaktisch verschieden die vielen realen universellen<br />
Programmiersprachen (z.B. Java, C++) auch sind, haben sie in der<br />
Regel gemein, dass das Programmende durch ein individuelles Symbol oder<br />
einen speziellen Befehl kenntlich gemacht wird.<br />
Definition 2.11. Ein Code wird als Präfixcode oder präfixfreier Code bezeichnet,<br />
wenn die Menge der Codewörter präfixfrei ist. Es ist also kein Codewort<br />
Präfix eines anderen Codeworts (vgl. [Say00]).<br />
Offensichtlich sind die universellen Programmiersprachen, in denen das Ende<br />
eines Programms mittels Symbol oder Befehl markiert wird, präfixfrei. Durch<br />
eben diese Markierung kann kein Programm Präfix eines anderen sein. Da<br />
nun die Informationsdistanz als kürzeste binäre Kodierung eines Programms<br />
definiert ist, bietet es sich in Anlehnung an diese Programmiersprachen an<br />
Präfixcodes zu verwenden. Diese Einschränkung bietet einige praktische Vorteile,<br />
die wir im Folgenden näher <strong>unter</strong>suchen.<br />
Li und Vitányi zeigen in [LV08], <strong>unter</strong> welchen Bedinungen ein Präfixcode<br />
überhaupt existiert.<br />
Theorem 2.12. Für jede (un-)endliche Sequenz l 1 , l 2 , ... natürlicher Zahlen<br />
existiert ein Präfixcode mit Codewörtern, deren Längen exakt dieser Sequenz<br />
entsprechen genau dann, wenn gilt<br />
∑<br />
2 −ln 1. (2.23)<br />
n<br />
Beweis. (Genau dann:) Wir zeigen zunächst, dass jeder Präfixcode diese nach<br />
Leon G. Kraft benannte Kraft-Ungleichung (2.23) erfüllt. Sei x ein Binärstring<br />
der Länge l(x). Dann ist x ↔ Γ x = [0, x; 0, x + 2 l(x) ) eine bijektive Abbildung<br />
zwischen x und einem reellen Subintervall aus [0; 1). Das Intervall Γ x beinhaltet<br />
damit genau die reellen Zahlen, deren binäre Darstellung der Nachkommastellen<br />
mit x beginnt. Das Wörterbuch eines Präfixcodes entspricht letztlich<br />
einer Menge solcher Binärstrings x für die in der o.g. Weise eine Abbildung auf<br />
disjunkte Subintervalle aus [0; 1) möglich ist. Kein Codewort ist Präfix eines<br />
anderen, deshalb sind auch die Intervalle disjunkt. Folglich kann die Summe der<br />
Länge all dieser Intervalle höchstens 1 sein. Damit erfüllt jeder Präfixcode die<br />
Ungleichung.<br />
(Wenn:) Jetzt zeigen wir durch Konstruktion, dass bei gegebenen Codelängen<br />
l 1 , l 2 , ..., welche die Ungleichung erfüllen, stehts ein Präfixcode mit diesen Längen<br />
existiert. Nehmen wir ohne Einschränkung der Allgemeingültigkeit an, die Co-<br />
12