Bildklassifikation unter Verwendung kompressionsbasierter Methoden

Weitere Magazine

Empfehlungen

Info

Kapitel 2. Kompressionsbasierte Ähnlichkeitsdistanz Desweiteren ist die Informationsdistanz ein zulässiges und universelles Maß [BGL + 98]. Bei der Definition der Informationsdistanz wird bewusst auf eine konkrete Programmiersprache verzichtet. So syntaktisch verschieden die vielen realen universellen Programmiersprachen (z.B. Java, C++) auch sind, haben sie in der Regel gemein, dass das Programmende durch ein individuelles Symbol oder einen speziellen Befehl kenntlich gemacht wird. Definition 2.11. Ein Code wird als Präfixcode oder präfixfreier Code bezeichnet, wenn die Menge der Codewörter präfixfrei ist. Es ist also kein Codewort Präfix eines anderen Codeworts (vgl. [Say00]). Offensichtlich sind die universellen Programmiersprachen, in denen das Ende eines Programms mittels Symbol oder Befehl markiert wird, präfixfrei. Durch eben diese Markierung kann kein Programm Präfix eines anderen sein. Da nun die Informationsdistanz als kürzeste binäre Kodierung eines Programms definiert ist, bietet es sich in Anlehnung an diese Programmiersprachen an Präfixcodes zu verwenden. Diese Einschränkung bietet einige praktische Vorteile, die wir im Folgenden näher <strong>unter</strong>suchen. Li und Vitányi zeigen in [LV08], <strong>unter</strong> welchen Bedinungen ein Präfixcode überhaupt existiert. Theorem 2.12. Für jede (un-)endliche Sequenz l 1 , l 2 , ... natürlicher Zahlen existiert ein Präfixcode mit Codewörtern, deren Längen exakt dieser Sequenz entsprechen genau dann, wenn gilt ∑ 2 −ln 1. (2.23) n Beweis. (Genau dann:) Wir zeigen zunächst, dass jeder Präfixcode diese nach Leon G. Kraft benannte Kraft-Ungleichung (2.23) erfüllt. Sei x ein Binärstring der Länge l(x). Dann ist x ↔ Γ x = [0, x; 0, x + 2 l(x) ) eine bijektive Abbildung zwischen x und einem reellen Subintervall aus [0; 1). Das Intervall Γ x beinhaltet damit genau die reellen Zahlen, deren binäre Darstellung der Nachkommastellen mit x beginnt. Das Wörterbuch eines Präfixcodes entspricht letztlich einer Menge solcher Binärstrings x für die in der o.g. Weise eine Abbildung auf disjunkte Subintervalle aus [0; 1) möglich ist. Kein Codewort ist Präfix eines anderen, deshalb sind auch die Intervalle disjunkt. Folglich kann die Summe der Länge all dieser Intervalle höchstens 1 sein. Damit erfüllt jeder Präfixcode die Ungleichung. (Wenn:) Jetzt zeigen wir durch Konstruktion, dass bei gegebenen Codelängen l 1 , l 2 , ..., welche die Ungleichung erfüllen, stehts ein Präfixcode mit diesen Längen existiert. Nehmen wir ohne Einschränkung der Allgemeingültigkeit an, die Co- 12
2.4. Ähnlichkeitsmetriken delängen seien aufsteigend sortiert. Wähle nun die Intervallgrenzen ⎧ ⎪⎨ [0; 2 −l i ), wenn i = 1 Γ i = ⎪⎩ [2 −l i−1 ; 2 −l i ), sonst. (2.24) Durch die aufsteigende Sortierung der Codelängen stellen wir die Präfixfreiheit sicher. Wählen wir als i-tes Codewort gerade den zum Intervall Γ i gehörigen Binärstring x, so ist der resultierende Code präfixfrei. Mit Beginn des Intervalls Γ i+1 ändert sich in der Binärdarstellung der Nachkommastellen mindestens das l i -te Bit. Die Obergrenze des Intervalls Γ i ist nämlich gerade die Zahl 0.x + 2 l i = 0.x1111111 . . .. Mit der aufsteigenden Reihenfolge der Intervallgrenzen ist auch sichergestellt, dass der Gesamtwert aller höherwertigen Bits (links vom l i -ten Bit) monoton steigt. Folglich können diese Bits keine Kombination mehr annehmen, die bereits als Codewort aus einem früheren Intervall resultierte. Damit haben wir für die Sequenz l 1 , l 2 , ..., welche die Ungleichung erfüllt, einen Präfixcode konstruiert. Betrachten wir nun noch einmal die durch die Ungleichung (2.20) definierte Restriktion für zulässige Distanzmaße. Wenn wir ein Distanzmaß d(x, y) nur zulassen, wenn ∑ 2 −d(x,y) < 1 (2.25) y:y≠x erfüllt wird, dann existiert nach Theorem 2.12 ein Präfixcode, dessen Wortlängen diesen Distanzen entsprechen. Die Ungleichung (2.25) schließt den Fall x = y, also d(x, y) = d(x, x) = 0, explizit aus. Nehmen wir diesen Fall jedoch mit auf, so erhalten wir ∑ 2 −d(x,y) < 1 + 2 −d(x,x) = 1 + 2 0 = 2. (2.26) y Die Längen d präfix (x, y) eines Präfixcodes erfüllen die Kraft-Ungleichung und sind damit restriktiver als Ungleichung 2.26. Folglich halten die Wortlängen von Präfixcodes allen Anforderungen an ein adäquates Distanzmaß stand. Wir gehen also im Folgenden von präfixfreier Kodierung aus. Wir wollen der Einschränkung auf präfixfreie Kodierung auch formal Rechnung tragen. Die Präfixversion der Kolmogorov-Komplexität bezeichnen wir mit K. Sei U präfix eine universelle 1-Band-Turingmaschine, die aufgrund der Präfixfreiheit der Eingabe selbst entscheiden kann, wo die Codierung des zu simulierenden Programms p endet. Alle auf dem Eingabeband der Codierung von p folgenden Zeichen werden von U präfix als Eingabe für p betrachtet. Damit ergeben sich für die Präfixversion entsprechend kleine Änderungen zu Definition 2.1 Definition 2.13. Sei p ein präfixfreier Code, dann nennen wir K(x) := min {|p| | p ∈ {0, 1} ∗ , U präfix (p) = x} . (2.27) 13
Seite 1: Universität zu Lübeck Institut f
Seite 5: Aufgabenstellung v
Seite 8 und 9: Inhaltsverzeichnis 5.1 Adaption aus
Seite 10 und 11: Kapitel 1. Einleitung so doch zumin
Seite 12 und 13: Kapitel 2. Kompressionsbasierte Äh
Seite 28 und 29: Kapitel 3. Grundlagen der maschinel
Seite 36 und 37: Kapitel 4. Klassifikation mit Hilfe
Seite 70 und 71:
Kapitel 4. Klassifikation mit Hilfe
Seite 73 und 74:
5 Negative Selection 5.1 Adaption a
Seite 75 und 76:
5.1. Adaption aus der Immunologie D
Seite 77 und 78:
5.2. Anwendung mit Hammingabstand A
Seite 79 und 80:
5.2. Anwendung mit Hammingabstand d
Seite 81 und 82:
5.2. Anwendung mit Hammingabstand t
Seite 83:
5.2. Anwendung mit Hammingabstand W
Seite 86 und 87:
Kapitel 6. Zusammenfassung, Fazit u
Seite 89 und 90:
Abbildungsverzeichnis 3.1 Beispiel
Seite 91 und 92:
Bibliographie [BGL + 98] Charles H.
Alle anzeigen

Bildklassifikation unter Verwendung kompressionsbasierter Methoden

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?