Bildklassifikation unter Verwendung kompressionsbasierter Methoden

Universität zu Lübeck 

Institut für theoretische Informatik (ITCS) 

Masterarbeit 

Bildklassifikation unter Verwendung 

kompressionsbasierter Methoden 

von 

Oliver Kleine 

Betreuung: 

PD Dr. Maciej Liśkiewicz 

Lübeck, den 8. Juli 2010

Erklärung 

Ich versichere, die vorliegende Arbeit selbstständig und nur unter Benutzung 

der angegebenen Hilfsmittel angefertigt zu haben. 

Lübeck, den 8. Juli 2010 

iii

Aufgabenstellung 

v

Inhaltsverzeichnis 

1 Einleitung 1 

2 Kompressionsbasierte Ähnlichkeitsdistanz 3 

2.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 

2.2 Turingmaschinen . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

2.2.1 Berechenbarkeit als Äquivalent zur Modellierbarkeit . . . 4 

2.2.2 Simulation mittels universeller Turingmaschine . . . . . . 5 

2.3 Kolmogorov-Komplexität . . . . . . . . . . . . . . . . . . . . . . 6 

2.3.1 Berechenbarkeit . . . . . . . . . . . . . . . . . . . . . . . . 8 

2.3.2 Schrittweise Approximation . . . . . . . . . . . . . . . . . 9 

2.4 Ähnlichkeitsmetriken . . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.4.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.4.2 Informationsdistanz . . . . . . . . . . . . . . . . . . . . . 11 

2.4.3 Normalisierte Informationsdistanz . . . . . . . . . . . . . 14 

2.4.4 Normalisierte Kompressionsdistanz . . . . . . . . . . . . . 16 

3 Grundlagen der maschinellen Klassifikation 19 

3.1 Der k-NN Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . 19 

3.2 Bestimmung der Klassifikationsgüte . . . . . . . . . . . . . . . . 21 

3.3 Normierung und Invarianzen . . . . . . . . . . . . . . . . . . . . 24 

4 Klassifikation mit Hilfe verschiedener Ähnlichkeitsmetriken 27 

4.1 Handgeschriebene Ziffern . . . . . . . . . . . . . . . . . . . . . . 27 

4.2 Standardmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

4.2.1 Hammingabstand . . . . . . . . . . . . . . . . . . . . . . . 29 

4.2.2 Levenshtein-Distanz . . . . . . . . . . . . . . . . . . . . . 38 

4.2.3 Euklidischer Abstand . . . . . . . . . . . . . . . . . . . . 42 

4.2.4 Mittlerer quadratischer Fehler . . . . . . . . . . . . . . . . 46 

4.2.5 Spitzenwert des Signal-/Rauschverhältnisses . . . . . . . . 47 

4.3 PPM -basierter Abstand . . . . . . . . . . . . . . . . . . . . . . . 48 

4.3.1 Entropiekodierung . . . . . . . . . . . . . . . . . . . . . . 48 

4.3.2 Arithmetische Kodierung . . . . . . . . . . . . . . . . . . 49 

4.3.3 Prediction with Partial Matching . . . . . . . . . . . . . . 52 

4.3.4 PPM -Kodierungslänge als Distanzmaß . . . . . . . . . . . 53 

4.3.5 Zweidimensionaler Kontext . . . . . . . . . . . . . . . . . 55 

4.3.6 Eindimensionaler Kontext auf Gradientenbilder . . . . . . 56 

4.4 Ergebnisvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 

5 Negative Selection 65 

vii

Inhaltsverzeichnis 

5.1 Adaption aus der Immunologie . . . . . . . . . . . . . . . . . . . 65 

5.2 Anwendung mit Hammingabstand . . . . . . . . . . . . . . . . . 68 

6 Zusammenfassung, Fazit und Ausblick 77 

Verzeichnisse 81 

Abbildungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 

Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 

viii

1 Einleitung 

Maschinelle Bildverarbeitung im weitesten Sinne ist mitterweile aus dem Alltag 

nicht mehr wegzudenken. Wie selbstverständlich benutzen wir papierlose Bahnund 

Flugtickets und zeigen zum Check-In lediglich den entsprechenden Barcode 

auf dem Display des Mobiltelefons in eine Art Kamera. Genauso verwenden wir 

Pfandautomaten oder Obst- und Gemüsewaagen, die ganz nebenbei auch per 

Kamera erkennen, dass wir Bananen kaufen möchten. Neben dem Gewicht erfahren 

wir so ohne weiteres Zutun gleich den Preis. Zwar passieren dabei immer 

wieder auch Fehler, mit fortschreitender Entwicklung der zugrunde liegenden 

Algorithmen ist das aber immer seltener der Fall. 

Die Anwendungsmöglichkeiten im Bereich der Klassifikation von Bildern sind 

freilich nicht auf solche relativ simplen Anwendungsfälle beschränkt. So bietet 

das freie Programm Picasa seit einigen Versionen die Möglichkeit, die eigene 

Fotosammlung automatisch nach abgebildeten Personen zu kategorisieren. Die 

Software erkennt also nicht nur, dass eine Person abgebildet ist, sondern auch, 

um wen es sich dabei handelt. 

Ein aktueller Forschungsgegenstand liegt darin eine abgebildete Szene vollständig 

semantisch zu interpretieren [LSFF09]. Es geht also beispielsweise nicht nur um 

die Frage, ob Personen abgebildet sind und um wen es sich dabei handelt. Genauso 

ist von Interesse, was die abgebildeten Personen da gerade tun. 

Ein häufig gewählter Ansatz ist die Extraktion spezifischer Merkmale. Um z.B. 

auf einem Foto eine Wiese zu erkennen, könnte die Farbe Grün eine wichtige 

Rolle spielen. Für die Entscheidung, ob es sich bei einem abgebildeten 

Objekt um ein bestimmtes Auto handelt oder nicht, ist die Farbe hingegen 

nebensächlich. Klassifikation setzt in jedem Fall eine irgendwie geartete Definition 

von Ähnlichkeit voraus. Diese Ähnlichkeit könnte man eben über das 

Vorhandensein bestimmter Merkmale definieren. Es geht aber auch anders. 

Wir wollen im Rahmen dieser Arbeit eine noch relativ junge Idee verfolgen, 

die zumindest in der Theorie völlig unspezifisch ist. Farben und Formen spielen 

keine Rolle. Stattdessen betrachten wir bei der Bestimmung der Ähnlichkeit 

zweier Bilder deren Informationsdistanz. Wie lang ist die kürzeste mögliche 

vollständige Beschreibung des Bildes A, wenn das andere Bild B als bekannt 

vorausgesetzt werden kann? Dieser theoretische Ansatz von Charles Bennett 

geht auf das Jahr 1998 zurück [BGL + 98]. Nun ist die Menge an Information, 

die in einem Bild enthalten ist, nicht berechenbar. Gleiches gilt damit auch 

für die Informationsdistanz zwischen zwei Bildern. Ming Li und Paul Vitanyi 

waren schon an der Idee von 1998 beteiligt. 6 Jahre später veröffentlichten sie 

ein Distanzmaß, mit dem diese Informationsdistanz, wenn auch nicht berechnet, 

1

Kapitel 1. Einleitung 

so doch zumindest innerhalb gewisser Schranken approximiert werden kann 

[LCL + 04]. 

Die Entwicklung dieses Distanzmaßes werden wir in Kapitel 2 nachvollziehen. 

Nach dieser ausführlichen Betrachtung der Theorie und kurzer Erläuterung einiger 

Grundbegriffe maschineller Klassifikation in Kapitel 3 wenden wir uns der 

prakischen Anwendung zu. In Kapitel 4 vergleichen wir verschiedene Ansätze, 

die alle mehr oder weniger dem Prinzip von Li und Vitányis Distanzmaß folgen. 

Wir klassifizieren dabei Bilder handgeschriebener Ziffern. 

Zum Abschluß beinhaltet Kapitel 5 noch etwas vollkommen Neues. Die ständige 

Verbesserung und Verbreitung von Bildbearbeitungssoftware wie z.B. Photoshop 

oder GIMP führt in den Medien zu einer Flut manipulierter Bilder. So 

ist es mittlerweile vollkommen üblich, dass bei den in Zeitungen oder im Internet 

veröffentlichten Fotos unerwünschte Details einfach digital retouchiert 

wurden. Für das menschliche Auge ist dies praktisch nicht erkennbar. Ein 

prominentes Beispiel aus der jüngeren Vergangenheit ist ein Urlaubsfoto des 

französchischen Präsidenten Sarkozy. Eine regierungsfreundliche Zeitung hatte 

vor der Veröffentlichung eine unschöne präsidiale Speckrolle retouchiert. Andere 

Blätter zeigten das originale und damit weniger sportlich wirkende Bild. 

In diesem Zusammenhang stellt sich unmittelbar auch die weit weniger banale 

Frage nach der Verwendbarkeit von Beweisfotos vor Gericht, wenn Fälschungen 

so einfach und preiswert zu erstellen sind. 

Hany Farid veröffentlichte im Jahr 2009 einige Methoden, mittels derer eine 

derartige Manipulation unter Umständen aufgedeckt werden kann [Far09]. Basierend 

auf Spiegelungen und Schattenbildung kann beispielsweise die Beleuchtungsrichtung 

zum Zeitpunkt der Aufnahme rekonstruiert werden. Ist diese 

nicht für alle abgebildeten Objekte konsistent, dann ist das zumindest verdächtig. 

Entscheidend für die Erkennung von Manipulation ist jedoch eine Vermutung 

über die Art und Weise der Veränderung. Nehmen wir an, darüber sei nichts 

bekannt. Wir wissen lediglich von einer gewissen Anzahl von Bildern, dass sie 

noch unverändert sind. Kapitel 5 geht der Frage nach, ob es möglich ist, nur 

mittels dieser Originalbilder einen Klassifikator so zu trainieren, dass er in der 

Lage ist, manipulierte Bilder als solche zu erkennen. Beim verwendeten Algorithmus 

Negative-Selection handelt es sich um eine Adaption des natürlichen 

Immunsystems. Dieses ist in der Lage lediglich auf Basis eines unvollständigen 

Wissens über körpereigene Zellen zielsicher die körperfremden zu zerstören, ohne 

dabei die körpereigenen anzugreifen. 

Soweit wir wissen, existieren bisher noch keine Anwendungen dieses Algorithmus 

für die Bildklassifikation. Wir werden aber mittels der Bilder handgeschriebender 

Ziffern die grundsätzliche Eignung von Negative-Selection für diese Zwecke 

feststellen. 

2

2 Kompressionsbasierte 

Ähnlichkeitsdistanz 

2.1 Motivation 

In [LCL + 04] veröffentlichten Ming Li und Paul Vitányi ein theoretisches Ähnlichkeitsmaß 

zwischen zwei Strings, die normalisierte Informationsdistanz (Nid). 

Ohne hier die Begriffe Information“ und Ähnlichkeit“ konkret zu definieren 

” ” 

gilt: Sind die Strings ähnlich, so beinhalten sie ähnliche Information und ihr 

Abstand zueinander im Sinne der Nid ist klein. Nicht ähnliche Strings beinhalten 

verschiedene Informationen und haben eine entsprechend große Distanz. 

Die zentrale Eigenschaft der Nid ist ihre Universalität, d.h. sie impliziert alle 

sinnvollen berechenbaren Distanzen, ohne dass diese explizit bekannt sein 

müssen. Wir bezeichnen Ähnlichkeitsdistanzen auf zwei Strings x, y ∈ {0, 1} ∗ 

wie z.B. 

⎧ 

⎪⎨ 

1 falls x ≠ y 

d binär (x, y) = 

(2.1) 

⎪⎩ 0 sonst 

als nicht sinnvoll, da sich innerhalb eines endlichen Ähnlichkeitsradius unendlich 

viele Strings befinden können. Für alle sinnvollen berechenbaren Distanzen d 

gilt: 

Nid(x, y) d(x, y) + O(1). 

Mit größer werdendem Ähnlichkeitsradius wächst bei der Nid also die Anzahl 

der Strings innerhalb dieses Radius höchstens so stark, wie bei jeder anderen 

sinnvollen berechenbaren Distanz. Leider ist die Nid nur ein theoretisches 

Konstrukt und damit praktisch nicht unmittelbar brauchbar. Sie basiert auf 

der nicht berechenbaren Kolmogorov-Komplexität und ist damit selbst ebenfalls 

nicht berechenbar. Trotzdem ist sie die Basis etlicher wissenschaftlicher 

Veröffentlichungen, in denen sich die Autoren erfolgreich an berechenbaren 

kompressionsbasierten Approximationen versucht haben (z.B. [CV05], [CV06], 

[LH05], [LZ06]). Eben diesen kompressionbasierten Ansatz entwickelten Li und 

Vitányi und verwendeten dafür die Bezeichnung normalisierte Kompressionsdistanz 

(Ncd). 

In diesem Kapitel wollen wir die Entwicklung der Ncd nachvollziehen. Darum 

definieren wir zunächst, wann ein Problem eigentlich als berechenbar zu bezeichnen 

ist. Daraufhin widmen wir uns der Kolmogorov-Komplexität und zeigen, 

3

Kapitel 2. Kompressionsbasierte Ähnlichkeitsdistanz 

dass sie nicht berechenbar ist. Wir können sie jedoch durch stetige Verbesserung 

einer oberen Schranke immer genauer approximieren. Basierend auf der 

Kolmogorov-Komplexität definieren wir dann die Informationsdistanz zwischen 

zwei Strings und ihre normalisierte Variante Nid. Schlußendlich entwickeln wir 

mit der Ncd eine reale Möglichkeit der Approximation. 

2.2 Turingmaschinen 

2.2.1 Berechenbarkeit als Äquivalent zur Modellierbarkeit 

Intuitiv kann man ein Problem als berechenbar bezeichnen, wenn es prinzipiell 

von einem Menschen auf einem Blatt Papier schriftlich gelöst werden könnte. 

Die dafür benötigte Zeit und die Größe des Papierblatts spielen keine Rolle. Es 

muß lediglich sicher sein, dass die Berechnung irgendwann mit einem Ergebnis 

endet. Dieser Definition folgend besagt die Churchsche These, dass die Menge 

der im intuitiven Sinne berechenbaren Funktionen der Menge der von einer 

Turingmaschine berechenbaren Funktionen entspricht (vgl. [Rei99, S.16]). 

Die Turingmaschine ist ein bereits im Jahr 1936 von Alan Turing veröffentlichtes 

abstraktes Modell eines Rechners. Die einfachste Form ist die 1-Band-Turingmaschine. 

Sie wird vollständig definiert über ein Tupel 

M = (Σ, Q, q 0 , Q f , ∆) . (2.2) 

Σ bezeichnet dabei ein endliches Alphabet und Q eine Menge abstrakter Zustände 

mit q 0 ⊆ Q als ausgezeichnetem Startzustand sowie Q f ⊆ Q als ausgezeichneter 

Menge von Endzuständen, bei denen die Maschine stoppt. Die 

Übergänge zwischen den Zuständen werden über die Übergangsrelation ∆ mit 

∆ ⊆ Q × Σ × Q × Σ × R (2.3) 

definiert. Anschaulicher ist die Darstellung als partielle und möglicherweise 

mehrdeutige Abbildung 

∆ : Q × Σ → Q × Σ × R. (2.4) 

Ein- und Ausgabe erfolgen über ein unendliches Band, welches in Speicherzellen 

unterteilt ist. Jede dieser Zellen bietet Speicherplatz für ein Symbol aus 

Σ. In jedem Zustand wird mittels des Schreib-/Lesekopfes der Turingmaschine 

zunächst das Symbol an der aktuellen Bandposition eingelesen. Die Kombination 

aus aktuellem Zustand und eingelesenem Symbol bestimmt einen odere 

mehrere parallele Folgezustände, in denen dann das Symbol an der aktuellen 

Bandposition zunächst überschrieben wird. Danach bewegt sich der Kopf in 

die angegebene Richtung r ∈ R. Ist die o.g. Abbildung ∆ rechtseindeutig, so 

spricht man von einer deterministischen Turingmaschine (DTM), sonst von einer 

nichtdeterministischen (NTM). 

4

2.2. Turingmaschinen 

Eine NTM kann also gleichzeitig mehrere Zustände annehmen und der Kopf 

kann sich gleichzeitig an mehreren verschiedenen Positionen befinden. Bei einer 

realen Maschine ist das natürlich unmöglich. Aber es handelt sich hier ja nur um 

ein theoretisches Modell. Die Turingmaschine hält, wenn mindestens einer der 

aktuellen Zustände ein ausgezeichneter Endzustand ist. Dann ist das Problem 

gelöst. 

Es existieren Variationen von Turingmaschinen mit mehreren Ausgabebändern, 

Köpfen und mehr oder weniger komplexen Zwischenspeicherstrukturen. Letztlich 

lassen sich aber alle diese Variationen auf eine 1-Band-TM reduzieren 

(vgl. [Rei99, S.11,27,28]). Bezüglich der Entscheidung über die Berechenbarkeit 

einer Funktion macht es keinen Unterschied, ob sie mittels einer DTM oder 

einer NTM modelliert wird. Sobald eine solche Modellierung existiert, gilt sie 

als berechenbar. 

Da die Turingmaschine mit endlichen Alphabeten arbeitet, bedeutet es keine 

Einschränkung, wenn wir im Folgenden lediglich mit dem binären Alphabet 

Σ = {0, 1} arbeiten. Jedes andere endliche Alphabet kann sehr einfach mittels 

einer bijektiven Abbildung in eine Menge von Binärstrings überführt werden. 

Wenn wir also im Folgenden kurz von einem String x sprechen, dann meinen 

wir eigentlich einen String x ∈ {0, 1} ∗ . 

2.2.2 Simulation mittels universeller Turingmaschine 

Jede Turingmaschine kann vollständig und eindeutig binär kodiert werden. Eine 

anschauliche Kodierungsvariante für 1-Band-Turingmaschinen ist in [Rei99] 

beschrieben. Für die Turingmaschine M = (Σ, Q, q 1 , Q f , ∆) mit den möglichen 

Kopfbewegungen R = {r −1 , r 0 , r 1 }, für links, neutral und rechts, mit dem Alphabet 

Σ = { σ 1 , ..., σ |Σ| 

} 

sowie mit den Zustandsmengen Q = 

{ 

q1 , ..., q |Q| 

} 

und 

Q f = {q f1 , ..., q fs } kann jeder Übergang 

∆(q i , σ j ) = (q i ′, σ j ′, r l ) als 0 i 1 0 j 1 0 i′ 1 0 j′ 1 0 l+2 (2.5) 

kodiert werden. Die 1 dient nur als Trennsymbol zwischen den Komponenten 

der Relation (bzw. des Übergangs). Mit 11 als Trennsymbol zwischen den 

Komponenten der Maschine und 111 als Abschlußsymbol ist folgende binäre 

Darstellung von M möglich: 

ϕ M = 0 |Σ| 11 0 |Q| 11 

Akzept. Zustände 

{ }} { 

0 f 1 

1 0 f 2 

1 ... 1 0 fs 11 ... 0} i 1 0 j 1 0 i′ {{ 1 0 j′ 1 0 l+2 

} 11 ... 111 

Übergangsrelation 

(2.6) 

σ i und q i werden dabei beide als 0 i kodiert. Da die Positionen von Symbolen 

und Zuständen innerhalb der Relationen fix sind, ist diese vermeintliche 

Uneindeutigkeit unproblematisch. 

Diese Kodierung von M dient als Eingabe für eine universelle Turingmaschine 

U. Damit kann U dann das Verhalten von M auf eine Eingabe E simulieren. 

5


Die Eingabe für U ist ϕ M #E (vgl. [Rei99, S.29]), wobei wir mit ϕ M #E die 

Konkatenation von ϕ M und E bezeichnen. 

2.3 Kolmogorov-Komplexität 

Intuitiv geht die Komplexität eines Objekts mit der Länge seiner vollständigen 

Beschreibung einher. Können wir etwas in sehr kurzer Weise vollständig beschreiben, 

also definieren, so würden wir dessen Komplexität als eher gering 

einstufen. Komplexere Objekte bedürfen einer ausführlicheren Beschreibung. 

Im Richard-Berry-Paradoxon geht es um die Definition einer bestimmten natürlichen 

Zahl [WR17]. Konkret handelt es sich um die kleinste Zahl, die in der 

englischen Sprache nicht mit weniger als 19 Silben beschrieben werden kann 1 . 

Die Definition als “The least in-te-ger not name-a-ble in few-er than nine-teen 

syl-la-bles” hat aber 18 Silben. Folglich gibt es keine kleinste Zahl, die nicht 

mit weniger als 19 Silben beschrieben werden kann. Denn wir haben ja eine 

Beschreibung mit 18 Silben gefunden. Eine genauere Betrachtung der Beschreibungsqualität 

löst diesen scheinbaren Widerspruch auf. 

Li und Vitányi formalisieren den Begriff der Definition in [LV08, S.177]. Eine 

effektive Beschreibung einer Zahl ist demnach eine Beschreibung, die einer Referenzmaschine 

(z.B. Turingmaschine) als Eingabe zur Ausgabe der beschriebenen 

Zahl dient. Die o.g. 18-silbige Beschreibung ist nach dieser Definition nicht 

effektiv. 

In [Kol65] definierte Kolmogorov bereits im Jahre 1965 eine Funktion, welche die 

in einem Objekt y über ein anderes Objekt x enthaltene Information zumindest 

theoretisch quantitativ erfassbar macht. Die relative Komplexität von x bei 

gegebenem y ist die Länge |p| eines Programms p mit der folgenden Eigenschaft: 

Sei ϕ eine partiell rekursive zweistellige Funktion, dann ist 

⎧ 

⎪⎨ min 

C ϕ (x|y) = 

⎪⎩ 

∞ 

ϕ(p,y)=x |p|) 

,falls kein p mit ϕ(p, y) = x existiert. 

(2.7) 

Die Hilfsfunktion ϕ simuliert das Programm p auf Eingabe y. Sie ist per Definition 

partiell rekursiv und damit im Allgemeinen nicht überall bestimmt. Hier 

bedeutet das konkret, dass ein Programm p auf Eingabe y möglicherweise nicht 

terminiert. Die Funktionsdefinition (2.7) macht aber keine Einschränkungen 

bezüglich der Laufzeit, so dass es zu Endlosschleifen kommen kann. Wegen der 

Unentscheidbarkeit des Halteproblems (vgl. [LV08]) kann auch nicht bestimmt 

werden, bei welchen Eingaben für ϕ es zu solchen Endlosschleifen kommt. 

Darauf basierend zeigt Kolmogorov, dass eine partiell rekursive Funktion A 

1 Das die Zahl 111777 (One-hun-dred-and-e-le-ven-thou-sand-se-ven-hun-dred-and-se-ven-tyse-ven) 

mit genau 19 Silben 

6

2.3. Kolmogorov-Komplexität 

existiert, so dass für jede andere partiell rekursive Funktion ϕ gilt 

C A (y|x) C ϕ (y|x) + c ϕ . (2.8) 

Die Konstante c ϕ ist dabei unabhängig von x und y. Kolmogorov definiert ferner 

C A (y) = C A (y|1). (2.9) 

Dieses Maß ist heute als Kolmogorov-Komplexität bekannt. 

Die oben genannte Funktion A können wir durch eine universelle 1-Band- 

Turingmaschine modellieren [Rei99, S.195]. 

Definition 2.1. Die Kolmogorov-Komplexität entspricht der Länge der kürzesten 

Eingabe p für eine universelle 1-Band-Turingmaschine U, die als Ausgabe 

eben diesen String x erzeugt. Sei U(p) die Ausgabe von U auf Eingabe p, dann 

gilt 

Ferner ist in Analogie zu (2.7) 

C(x) := min {|p| | p ∈ {0, 1} ∗ , U(p) = x} . (2.10) 

C(x|y) := min {|p| | p ∈ {0, 1} ∗ , U(p#y) = x} (2.11) 

die Kolmogorov-Komplexität von x gegeben y. 

Definition 2.2. Ein String x wird als zufällig oder auch als nichtkomprimierbar 

bezeichnet, wenn für seine Kolmogorov-Komplexität C(x) |x| − log |x| gilt. Er 

heißt zufällig gegeben y wenn C(x|y) |x| − log |x|. 

Lemma 2.3. Bis auf o(2 n ) viele Strings sind alle Strings der Länge n zufällig. 

Beweis. Bekanntermaßen existieren 2 n verschiedene Strings der Länge n. Um 

einen dieser Strings x zu erzeugen, benötigt eine UTM einen Eingabestring p. 

Wenn x nicht zufällig ist, dann ist |p| < n − log n. Sei m die Anzahl der Strings 

p, die das Kriterium erfüllen. Offensichtlich ist 

m = |{p | |p| < n − log n}| = 2 n−log n = 

2n 

2 log n = 2n n 2n . 

Damit ist die Anzahl möglicher Eingaben zur Erzeugung eines nichtzufälligen 

Strings durch o(2 n ) beschränkt. 

Für die bedingte Kolmogorov-Komplexität C(x|y) gilt das Gleiche. Die Komplexität 

reduziert sich im Vergleich zu C(x) drastisch, wenn man y = x wählt. 

Die UTM hält dann sofort, da die Eingabe bereits der gewünschten Ausgabe 

entspricht. In diesem Fall gilt C(x|x) O(1). Trotzdem können nur höchstens 

2 n−log n = 2n n 

nichtzufällige Strings gegeben x existeren. Es gibt einfach nicht 

mehr mögliche Eingabestrings p#x, die das Nichtzufälligkeitskriterium erfüllen 

(vgl. [Rei99, S.196]). Genau diese Eigenschaft kann man nutzen, um die Nichtberechenbarkeit 

der Kolmogorov-Komplexität zu beweisen. 

7


2.3.1 Berechenbarkeit 

Lemma 2.4. Sei L eine entscheidbare Sprache und A L ein Programm, das 

L entscheidet. Für i ∈ N sei x i das i-te Wort in L nach Reihenfolge der 

Gödelnummerierung. Dann gilt: C(x i ) ⌈log(i + 1)⌉ + c. 

Beweis. Dazu muss ein weiteres Programm, welches A L als Abbruchkriterium 

in einer Schleife aufruft, lediglich alle Binärstrings aufzählen bis x i gefunden 

ist: 

1. setze y = ε , k = 1 

2. wenn y ∈ L (d.h. A L (y) == true) 

2.1 wenn k = i: gib y aus 

2.2 sonst k = k + 1 

3. y = nachfolgender Binärstring gemäß Gödelnummerierung 

4. gehe zu Schritt 2 

Die Länge der binären Kodierung dieses Programms als obere Schranke für 

C(x i ) hängt von der Länge des eingebetteten Programms A L und von i ab. 

A L hat konstante Länge. Dessen Eingabe ist y und damit ebenfalls konstant 

(Man beachte, dass hier nicht der Wert von y, sondern nur der Name kodiert 

werden muss!). Einzige Variable für die Länge der binären Kodierung des gesamten 

Programms ist folglich die Länge der binären Kodierung von i. Damit 

die Ungleichung auch für i = 1 gilt, muss vor der Logarithmierung die 1 addiert 

werden. 

Unter Zuhilfenahme von Lemma 2.4 können wir nun folgende Aussage ableiten. 

Satz 2.5. Die Kolmogorov-Komplexität ist nicht berechenbar. 

Beweis. Nehmen wir an, die Menge der Kolmogorov-Komplexitäten sei entscheidbar, 

d.h. zu einem gegebenen String kann entschieden werden, ob er eine 

bestimmte Kolmogorov-Komplexität hat oder nicht. Die entsprechende charakteristische 

Funktion, sprich die Kolmogorov-Komplexität selbst, ist dann 

berechenbar. A sei das entsprechende Programm zur Berechnung. 

Sei i ∈ N und x i das binäre Wort mit der kleinsten Gödelnummer mit der 

Eigenschaft C(x i ) i − log i. Aus den Vorüberlegungen zur Kolmogorov-Komplexität 

wissen wir bereits, dass für jedes i ein solches x i existiert. Folgender 

Algorithmus findet x i : 

1. setze y = ε 

2. berechne C(y) mit Hilfe des Programms A 

3. wenn C(y) 

3.1 y = nachfolgender Binärstring gemäß Gödelnummerierung 

3.2 gehe zu Schritt 2 

4. sonst gib y aus 

8

2.3. Kolmogorov-Komplexität 

Die Ausgabe y entspricht dem gesuchten x i . Die Länge der binären Kodierung 

des oben beschriebenen Programms ist ⌈log(i + 1)⌉ + c (siehe Beweis zu Lemma 

2.1). Folglich gilt 

∀i ∈ N : C(x i ) ⌈log(i + 1)⌉ + c 

und damit auch 

∀i ∈ N : ⌈log(i + 1)⌉ + c C(x i ) i − log i. 

Offensichtlich ist diese Aussage falsch. Für jede Konstante c kann leicht ein 

hinreichend großes i gefunden werden mit ⌈log(i + 1)⌉ + c i − log i. 

2.3.2 Schrittweise Approximation 

Einige Funktionen können, obwohl sie wie im Fall der Kolmogorov-Komplexität 

nachweislich nicht berechenbar sind, trotzdem entweder von oben oder von unten 

angenähert werden [BGL + 98]. Wir nennen diese Funktionen halbberechenbar 

von oben bzw. halbberechenbar von unten. 

Definition 2.6. Eine Funktion f(x, y) ist halbberechenbar von oben, wenn die 

Menge der Tripel 

{(x, y, d) : f(x, y) < d, d ∈ Q} (2.12) 

rekursiv aufzählbar ist. Sie ist halbberechenbar von unten, wenn −f(x, y) halbberechenbar 

von oben ist. 

Satz 2.7. Die Kolmogorov-Komplexität C(x|y) ist halbberechenbar von oben. 

Beweis. In Absatz 2.2.2 wurde bereits eine Möglichkeit zur Kodierung von 1- 

Band-Turingmaschinen beschrieben. Da jede TM nur ein endliches Alphabet Σ, 

endliche Zustandsmengen Q und Q f und endlich viele Bewegungsrichtungen des 

Kopfes kennt, ist die Menge der 1-Band-Turingmaschinen rekursiv aufzählbar. 

Damit kann auch jeder TM ein eindeutiger Index zugeordnet werden, aus dem 

dann die entsprechende TM rekonstruiert werden kann. 

Ferner lassen sich auch alle Binärstrings {0, 1} ∗ rekursiv aufzählen. Jedes Element 

der folgenden Aufzählung ist ein 2-Tupel aus Index und zugehörigem 

Binärstring in lexikographischer Ordnung und der Länge nach aufsteigend sortiert 

[BGL + 98]: 

(0, ε), (1, 0), (2, 1), (3, 00), (4, 01), (5, 10), (6, 11), (7, 000), (8, 001), . . . . (2.13) 

Damit sind nun sowohl die Turingmaschinen, als auch die möglichen Ein- und 

Ausgaben mittels ihres jeweiligen Index eindeutig bestimmbar. 

Die Cantorsche Paarungsfunktion π definiert eine bijektive Abbildung zwischen 

einer natürlichen Zahl und einem n-Tupel natürlicher Zahlen. Sie ist definiert 

9


als 

π (2) (x 1 , x 2 ) := 

x∑ 

1 +x 2 

Die Erweiterung auf n-Tupel lässt sich induktiv definieren als 

i=0 

i + x 2 . (2.14) 

π (1) (x) = x (2.15) 

π (n) (x 1 , x 2 , ..., x n ) = π (2) (π (n−1) (x 1 , x 2 , ..., x n−1 ), x n ). (2.16) 

Im Folgenden verwenden wir für π (n) (x 1 , ..., x n ) die Schreibweise 〈x 1 , ..., x n 〉. 

Die Cantorsche Paarungsfunktion ist umkehrbar, die zugehörigen Tupel können 

folglich bei Angabe des Index und der Anzahl der Tupelelemente n eindeutig 

rekonstruiert werden. 

Auf diese Weise können wir also alle Indexkombinationen von TM, Eingabe und 

Ausgabe wiederum indizieren und damit aufzählen. Seien nun i M , i y und i x die 

Indizes der TM M, der Eingabe y und der Ausgabe x. Sei ferner t die Anzahl 

an Rechenschritten. Dann ist 

⎧ 

⎪⎨ 

1, wenn U(ϕ M #y) = x nach t Rechenschritten 

h(i M , i y , i x , t) = 

(2.17) 

⎪⎩ 0, sonst 

ein Prädikat, welches bestimmt, ob eine universelle TM U auf Eingabe von 

ϕ M #y nach t Schritten hält und die Ausgabe x erzeugt. 

Damit ist 

⎧ 

⎪⎨ 

〈y, x, |ϕ M |〉 , wenn h(i M , i y , i x , t) = 1 

f(〈〈i M , i y , i x 〉 , t〉) = 

⎪⎩ ε, sonst 

(2.18) 

die gesuchte Aufzählfunktion. 

2.4 Ähnlichkeitsmetriken 

2.4.1 Grundlagen 

Da wir in dieser Arbeit häufig von Ähnlichkeitsmetriken sprechen, wollen wir 

zunächst den Begriff der Metrik formalisieren. 

Definition 2.8. Eine Funktion d wird dann als Metrik über der Menge X 

(dem Metrikraum) bezeichnet, wenn für alle x, y, z ∈ X folgende Eigenschaften 

gelten: 

1. d(x, y) = 0 ⇔ x = y (Identitätsaxion) 

2. d(x, y) + d(y, z) d(x, z) (Dreiecksungleichung) 

10

2.4. Ähnlichkeitsmetriken 

3. d(x, y) = d(y, x) (Symmetrieaxiom). 

Die eingangs dieses Kapitels erwähnte Ähnlichkeitsdistanz d binär (siehe Gleichung 

(2.1)) ist demnach eine Metrik. Jedoch erscheint es nur natürlich, die 

Anzahl der Strings y, die sich innerhalb eines bestimmten Umgebungsradius 

um einen String x befinden, zu limitieren [BGL + 98]. Bei d binär ist das offensichtlich 

nicht der Fall. Hier liegen nämlich alle von x verschiedenen Strings 

im Metrikraum exakt auf der Oberfläche der Hyperkugel mit Radius 1 um x. 

Jedoch befinden sich beispielsweise beim Hammingabstand d H nur 2 r Objekte 

im Umgebungsradius r um x (siehe ggf. Definition 4.1). 

|{y|d H (x, y) r}| = 2 r . (2.19) 

So ist die Obergrenze für die Anzahl von Nachbarn innerhalb des Radius r um 

x explizit für jeden Radius bestimmt. Eine solche explizite Beschränkung ist 

ist aber gar nicht nötig. Wir wollen lediglich eine unbestimmte aber endliche 

Obergrenze festlegen. Deshalb führen wir eine Restriktion ein, die die Anzahl 

der Elemente in der Umgebung eines Strings x unabhängig von einem bestimmten 

Radius beschränkt. Damit sind alle Distanzmaße, die diese Eigenschaft nicht 

erfüllen, unzulässig. 

∑ 

2 −d(x,y) < 1. (2.20) 

y:y≠x 

Bennett et al bezeichnen dies als Normalisierungseigenschaft. Erfüllt eine Ähnlichkeitsmetrik 

diese Normalisierungseigenschaft, nennen wir sie zulässig. 

Definition 2.9. Ein zulässiges Distanzmaß d u (x, y) heißt universell, wenn für 

alle zulässigen Distanzmaße d z (x, y) und eine Konstante c gilt: 

d u (x, y) < d z (x, y) + c. (2.21) 

Diese Universalität ist eine zentrale Eigenschaft der Informationsdistanz, der 

wir uns im folgenden Abschnitt widmen werden. 

2.4.2 Informationsdistanz 

Die Kolmogorov-Komplexität eines Strings entspricht der Menge an Information, 

die der String beinhaltet. Konsequenterweise setzt die Informationsdistanz 

zwischen zwei Strings auf deren Kolmogorov-Komplexitäten auf. 

Definition 2.10. Bei zwei Strings x, y ∈ {0, 1} ∗ entspricht deren Informationsdistanz 

der Länge E(x, y) des kürzesten binären Programms, welches die 

beiden Strings ineinander überführt. 

Dieses kürzeste Programm erzeugt also auf Eingabe x die Ausgabe y und umgekehrt. 

Nach Bennett et al gilt 

E(x, y) = max {C(y|x), C(x|y)} + O(log max {C(y|x), C(x|y)}). (2.22) 

11


Desweiteren ist die Informationsdistanz ein zulässiges und universelles Maß 

[BGL + 98]. 

Bei der Definition der Informationsdistanz wird bewusst auf eine konkrete Programmiersprache 

verzichtet. So syntaktisch verschieden die vielen realen universellen 

Programmiersprachen (z.B. Java, C++) auch sind, haben sie in der 

Regel gemein, dass das Programmende durch ein individuelles Symbol oder 

einen speziellen Befehl kenntlich gemacht wird. 

Definition 2.11. Ein Code wird als Präfixcode oder präfixfreier Code bezeichnet, 

wenn die Menge der Codewörter präfixfrei ist. Es ist also kein Codewort 

Präfix eines anderen Codeworts (vgl. [Say00]). 

Offensichtlich sind die universellen Programmiersprachen, in denen das Ende 

eines Programms mittels Symbol oder Befehl markiert wird, präfixfrei. Durch 

eben diese Markierung kann kein Programm Präfix eines anderen sein. Da 

nun die Informationsdistanz als kürzeste binäre Kodierung eines Programms 

definiert ist, bietet es sich in Anlehnung an diese Programmiersprachen an 

Präfixcodes zu verwenden. Diese Einschränkung bietet einige praktische Vorteile, 

die wir im Folgenden näher untersuchen. 

Li und Vitányi zeigen in [LV08], unter welchen Bedinungen ein Präfixcode 

überhaupt existiert. 

Theorem 2.12. Für jede (un-)endliche Sequenz l 1 , l 2 , ... natürlicher Zahlen 

existiert ein Präfixcode mit Codewörtern, deren Längen exakt dieser Sequenz 

entsprechen genau dann, wenn gilt 

∑ 

2 −ln 1. (2.23) 

n 

Beweis. (Genau dann:) Wir zeigen zunächst, dass jeder Präfixcode diese nach 

Leon G. Kraft benannte Kraft-Ungleichung (2.23) erfüllt. Sei x ein Binärstring 

der Länge l(x). Dann ist x ↔ Γ x = [0, x; 0, x + 2 l(x) ) eine bijektive Abbildung 

zwischen x und einem reellen Subintervall aus [0; 1). Das Intervall Γ x beinhaltet 

damit genau die reellen Zahlen, deren binäre Darstellung der Nachkommastellen 

mit x beginnt. Das Wörterbuch eines Präfixcodes entspricht letztlich 

einer Menge solcher Binärstrings x für die in der o.g. Weise eine Abbildung auf 

disjunkte Subintervalle aus [0; 1) möglich ist. Kein Codewort ist Präfix eines 

anderen, deshalb sind auch die Intervalle disjunkt. Folglich kann die Summe der 

Länge all dieser Intervalle höchstens 1 sein. Damit erfüllt jeder Präfixcode die 

Ungleichung. 

(Wenn:) Jetzt zeigen wir durch Konstruktion, dass bei gegebenen Codelängen 

l 1 , l 2 , ..., welche die Ungleichung erfüllen, stehts ein Präfixcode mit diesen Längen 

existiert. Nehmen wir ohne Einschränkung der Allgemeingültigkeit an, die Co- 

12


delängen seien aufsteigend sortiert. Wähle nun die Intervallgrenzen 

⎧ 

⎪⎨ 

[0; 2 −l i 

), wenn i = 1 

Γ i = 

⎪⎩ [2 −l i−1 

; 2 −l i 

), sonst. 

(2.24) 

Durch die aufsteigende Sortierung der Codelängen stellen wir die Präfixfreiheit 

sicher. Wählen wir als i-tes Codewort gerade den zum Intervall Γ i gehörigen 

Binärstring x, so ist der resultierende Code präfixfrei. Mit Beginn des Intervalls 

Γ i+1 ändert sich in der Binärdarstellung der Nachkommastellen mindestens das 

l i -te Bit. Die Obergrenze des Intervalls Γ i ist nämlich gerade die Zahl 0.x + 

2 l i 

= 0.x1111111 . . .. Mit der aufsteigenden Reihenfolge der Intervallgrenzen ist 

auch sichergestellt, dass der Gesamtwert aller höherwertigen Bits (links vom 

l i -ten Bit) monoton steigt. Folglich können diese Bits keine Kombination mehr 

annehmen, die bereits als Codewort aus einem früheren Intervall resultierte. 

Damit haben wir für die Sequenz l 1 , l 2 , ..., welche die Ungleichung erfüllt, einen 

Präfixcode konstruiert. 

Betrachten wir nun noch einmal die durch die Ungleichung (2.20) definierte 

Restriktion für zulässige Distanzmaße. Wenn wir ein Distanzmaß d(x, y) nur 

zulassen, wenn 

∑ 

2 −d(x,y) < 1 (2.25) 

y:y≠x 

erfüllt wird, dann existiert nach Theorem 2.12 ein Präfixcode, dessen Wortlängen 

diesen Distanzen entsprechen. Die Ungleichung (2.25) schließt den Fall x = y, 

also d(x, y) = d(x, x) = 0, explizit aus. Nehmen wir diesen Fall jedoch mit auf, 

so erhalten wir 

∑ 

2 −d(x,y) < 1 + 2 −d(x,x) = 1 + 2 0 = 2. (2.26) 

y 

Die Längen d präfix (x, y) eines Präfixcodes erfüllen die Kraft-Ungleichung und 

sind damit restriktiver als Ungleichung 2.26. Folglich halten die Wortlängen 

von Präfixcodes allen Anforderungen an ein adäquates Distanzmaß stand. Wir 

gehen also im Folgenden von präfixfreier Kodierung aus. 

Wir wollen der Einschränkung auf präfixfreie Kodierung auch formal Rechnung 

tragen. Die Präfixversion der Kolmogorov-Komplexität bezeichnen wir 

mit K. Sei U präfix eine universelle 1-Band-Turingmaschine, die aufgrund der 

Präfixfreiheit der Eingabe selbst entscheiden kann, wo die Codierung des zu 

simulierenden Programms p endet. Alle auf dem Eingabeband der Codierung 

von p folgenden Zeichen werden von U präfix als Eingabe für p betrachtet. Damit 

ergeben sich für die Präfixversion entsprechend kleine Änderungen zu Definition 

2.1 

Definition 2.13. Sei p ein präfixfreier Code, dann nennen wir 

K(x) := min {|p| | p ∈ {0, 1} ∗ , U präfix (p) = x} . (2.27) 

13


die Präfixversion der Kolmogorov-Komplexität von x. Für die Präfixversion der 

Kolmogorov-Komplexität von x gegeben y gilt entsprechend 

K(x|y) := min {|p| | p ∈ {0, 1} ∗ , U präfix (p#y) = x} . (2.28) 

Die Verwendung der Präfixversion bietet im Vergleich zur ursprünglichen Version 

einige Vorteile und Vereinfachungen im Umgang. Zunächst einmal bedarf 

es keiner besonderen Kennzeichnung der Grenze zwischen der Kodierung des zu 

simulierenden Programms und der Eingabe für dieses Programm. Im Folgenden 

wird die Präfixeigenschaft aber auch noch von weiterem Nutzen sein. 

2.4.3 Normalisierte Informationsdistanz 

Die in Ungleichung (2.20) beschriebene Normalisierungseigenschaft normalisiert 

die Codelängen und damit die Distanzen innerhalb eines Metrikraums. Mittels 

präfixfreier Kodierung können wir diese Eigenschaft realisieren. 

Bennett et al zeigen in [BGL + 98] eine solche präfixfreie Kodierung auf Basis 

des Hammingabstands 2 . Haben 2 Strings x, y ∈ {0, 1} n den Hammingabstand 

d und sind i 1 , . . . , i d die Positionen, an denen sich x und y unterscheiden, dann 

kann das Tupel (n, d, i 1 , . . . , i d ) mit H n (x, y) = 2 log n + 4 log log n + 2 + d log n 

Bits kodiert werden und beinhaltet alle Informationen zur Rekonstruktion von 

x bei gegebenem y und umgekehrt. 

Letztlich bleibt das resultierende Distanzmaß absolut, ist also mit Abständen 

aus anderen Metrikräumen nicht unmittelbar vergleichbar. Dieses wollen wir 

zunächst kurz mit Hilfe der beiden Metrikräume {0, 1} 1025 und {0, 1} 2048 illustrieren. 

Beispiel 2.14. Seien x 1 , y 1 ∈ {0, 1} 1025 und ihr Hammingabstand D H (x 1 , y 1 ) = 

1025, dann unterscheiden sich x 1 und y 1 an allen Positionen und könnten damit 

verschiedener nicht sein. Nehmen wir nun x 2 , y 2 ∈ {0, 1} 2048 und ebenfalls 

D H (x 2 , y 2 ) = 1025 an, dann sind nur etwa die Hälfte der Bits von x 2 und y 2 

verschieden. 

Intuitiv würden wir sagen, dass x 2 und y 2 zueinander ähnlicher sind als x 1 und 

y 1 . Wegen log 1025 = log 2048 = 11 gilt aber für die Längen der Kodierungen 

H 1025 (x 1 , y 1 ) = 2 log 1025 + 4 log log 1025 + 2 + 1025 log 1025 

= H 2048 (x 2 , y 2 ) = 2 log 2048 + 4 log log 2048 + 2 + 1025 log 2048 

= 11315. 

Die Kodierungslängen H 1025 (x 1 , y 1 ) und H 2048 (x 2 , y 2 ) sind also gleich. Das widerspricht 

der o.g. intuitiven Ähnlichkeit. 

2 An dieser Stelle genügt es die Präfixfreiheit einer Kodierung anzunehmen. Wie genau diese 

Kodierung funktioniert, zeigen wir in Abschnitt 4.2.1. 

14


Damit ergibt sich die Notwendigkeit einer Normalisierung, die Vergleiche auch 

über die Grenzen von Metrikräumen hinaus zulässt. Li et al definieren in [LCL + 04] 

Bedingungen für eine in diesem Sinne normalisierte Distanz: 

Definition 2.15. Eine normalisierte Distanz oder Ähnlichkeitsdistanz ist eine 

Funktion d : Ω × Ω → [0, 1], die symmetrisch ist (d(x, y) = d(y, x)) und bei der 

für jedes x ∈ {0, 1} ∗ und jede Konstante e ∈ [0, 1] gilt: 

|{y : d(x, y) e 1}| < 2 eK(x)+1 . (2.29) 

Die Anzahl der Strings innerhalb des Ähnlichkeitsradius e um x hängt damit 

direkt von K(x) ab. Eine geringe Komplexität von x geht mit einer geringen 

Anzahl von Strings mit d(x, y) e einher. Bei höherer Komplexität werden 

entsprechend mehr Strings innerhalb des gleichen Radius zugelassen. Ferner 

schreibt Ungleichung (2.29) eine Normalisierung der Distanz auf d(x, y) ∈ [0, 1] 

vor, wobei d(x, y) = 0 maximale Ähnlichkeit und d(x, y) = 1 maximale Verschiedenheit 

bedeutet. Offenbar erfüllt die in Beispiel 2.14 verwendete Kodierung 

diese Kriterien nicht. 

Wir zeigen nun, dass eine normalisierte Variante der Kraft-Ungleichung diese 

Eigenschaften entsprechend Ungleichung (2.29) impliziert [LCL + 04]. 

Lemma 2.16. Sei Ω ein beliebiger Metrikraum. Wenn die Funktion d : Ω×Ω → 

[0, 1] 

∑ 

2 −d(x,y)K(x) 1 (2.30) 

y 

erfüllt, dann erfüllt d ebenfalls die in Ungleichung (2.29) definierte Bedingung 

für Ähnlichkeitsdistanzen. 

Beweis. Wir beginnen mit Ungleichung (2.30). Unter der Annahme, es gäbe ein 

e ∈ [0, 1], so dass die Ungleichung (2.29) nicht erfüllt ist, erzeugen wir einen 

Widerspruch. 

1 ∑ y 

 

2 −d(x,y)K(x) 

∑ 

y:d(x,y)e1 

2 eK(x)+1 2 −eK(x) > 1 

2 eK(x) (unter Verwendung von (2.29):) 

Basierend auf dieser Erkenntnis leiten Li et al die normalisierte Informationsdistanz 

Nid ab. 

15


Satz 2.17. Seien x und y zwei beliebige Sequenzen und x ∗ bzw. y ∗ deren maximal 

komprimierte Darstellung (d.h. K(x) = |x ∗ | und K(y) = |y ∗ |. Dann erfüllt 

die Funktion 

Nid(x, y) = max {K(x|y∗ ), K(y|x ∗ )} 

max {K(x), K(y)} 

die Kriterien für eine normalisierte Distanz. 

(2.31) 

Die Nid besitzt alle hinreichenden Eigenschaften einer Metrik mit Genauigkeit 

O(1/ max {K(x), K(y)}). Die Normalisierungseigenschaft entsprechend 

Ungleichung (2.29) wird präzise erfüllt. Ferner ist sie universell mit Genauigkeit 

O(1/ max {K(x), K(y)}) [LCL + 04]. 

Die Nid basiert auf der Kolmogorov-Komplexität. Wie bereits gezeigt wurde, 

ist diese jedoch nicht berechenbar. Folglich können wir die zu einem beliebigen 

String x gehörige ultimativ komprimierte Version x ∗ nicht erzeugen, denn es 

gilt K(x) = |x ∗ |. Deshalb sei an dieser Stelle darauf hingewiesen, dass es bei 

diesen theoretischen Betrachtungen lediglich erforderlich ist, x aus x ∗ zu rekonstruieren. 

Eine konkrete Möglichkeit zur Kompression von x nach x ∗ ist nicht 

erforderlich (vgl. [LCL + 04]). 

2.4.4 Normalisierte Kompressionsdistanz 

Alle bisherigen Überlegungen basieren auf der Kolmogorov-Komplexität. Da 

diese bekanntlich die Länge der ultimativ komprimierten Version eines Objekts 

entspricht, bietet es sich an, bekannte reale Kompressionsverfahren zur 

Approximation einzusetzen. Um ein Ähnlichkeitsmaß auf Basis solcher Kompressionsverfahren 

zu entwickeln, stellen wir zunächst einige Vorüberlegungen 

an. 

Definition 2.18. Seien x, y ∈ {0, 1} ∗ , dann ist die Information über x, welche 

in y enthalten ist definiert als 

I(x : y) = K(x) − K(x|y ∗ ). (2.32) 

Wir bezeichnen mit K(x, y) die Länge des kürzesten Präfixrogramms, welches x 

und y erzeugen und voneinander separieren kann. Wegen K(y, K(y)) = K(y) = 

K(y ∗ ) gilt nach Gač [Gač74] auch 

I(x : y) = K(x) − K(x|y). (2.33) 

Gač zeigt ferner, dass eine Konstante c 0 unabhängig von x und y existiert, 

so dass folgende Gleichungen mit Genauigkeit c gelten. Li und Vitányi führen 

den Beweis in [LV08] etwas ausführlicher. 

Theorem 2.19. Für die Präfixversion der Kolmogorov-Komplexität gilt: 

K(x, y) = K(x) + K(y|x) + O(1) = K(y) + K(x|y) + O(1). 

16


Beweis. (:) Sei p das kürzeste Programm, das auf der Präfix-Referenzmaschine 

A die Ausgabe x erzeugt. Sei ferner q das kürzeste Programm, das auf Maschine 

A mit Eingabe (x, K(x)) die Ausgabe y erzeugt. Dann können wir eine andere 

Präfixmaschine B finden, die auf Eingabe eines Programms p#q zunächst 

mittels p den String x erzeugt. Wegen K(x) = |p| ist implizit auch K(x) bekannt. 

Damit kann q dann y erzeugen und die zusätzliche explizite Eingabe von 

(x, K(x)) ist überflüssig. 

(:) Wir betrachten x und K(x) als feste Konstanten. Sei X die Menge der 

rekursiv aufzählbaren Funktionen f x (y) mit ∑ y f x(y) < ∞. Dann existiert eine 

Funktion g(x) ∈ X, so dass für alle f x ∈ X gilt f x (y) = O(g(y)). Nach [LV08] 

darf g(y) = 2 K(y|x,K(x)) gesetzt werden. 

Die Funktion h x (y) = 2 K(x)−K(x,y) ist rekursiv aufzählbar. Da x und K(x) 

fix sind, ist {K(x, y) : y ∈ N} die Menge der Längen eines Präfixcodes. Dessen 

Ausführung auf der Präfix-Referenzmaschine U erzeugt die Ausgabe 〈x, y〉. Da 

Präfixcodes die Kraft-Ungleichung (2.23) erfüllen gilt 

∑ 

h x (y) = ∑ 2 K(x)−K(x,y) = 2 ∑ K(x) 2 −K(x,y) 2 K(x) < ∞. (2.34) 

y 

y 

y 

} {{ } 

1 

Damit gilt h x (y) ∈ X und folglich auch 

2 K(x)−K(x,y) = O 

(2 K(y|x,K(x))) 

⇔ 2 K(x)−K(x,y) c 2 K(y|x,K(x)) 

Durch Logarithmierung zur Basis 2 und Umformung ergibt sich dann 

K(x, y) K(x) − K(y|x, K(x)) + O(1) 

Analog lässt sich auch der Beweis für K(x, y) K(y) − K(x|y, K(y)) + O(1) 

führen. 

Sei K(x#y) die Länge des kürzesten Programms, welches die Konkatenation 

von x und y erzeugt. Man sieht leicht, dass K(x, y) = K(x#y) ± O(log x) gilt. 

Die zur Trennung zwischen x und y erforderliche Information (z.B. Länge von 

x) kann in O(log x) kodiert werden. Somit ist K(x|y) ≈ K(x#y) − K(y). 

Allgemeine Kompressionsprogramme (z.B. gzip) komprimieren die Eingabedaten 

ohne Kenntnis separater Information. Die entsprechende Kompressionsfunktion 

Comp(x) erhält deshalb auch lediglich eine Eingabe. Dieser Ansatz wird 

von Li et al verfolgt [LCL + 04]. 

Definition 2.20. Sei Comp ein reales Programm zur Kompression, dann ist 

die normalisierte Kompressionsdistanz 

NCD(x, y) = 

Comp(x#y) − min {Comp(x), Comp(y)} 

. (2.35) 

max {Comp(x), Comp(y)} 

17


Die Idee, die Ähnlichkeit zweier Strings basierend auf Ihrer Informationsdistanz 

über Kompressionsalgorithmen zu approximieren, ist damit theoretisch untermauert. 

Den Ansatz der kompressionsbasierten Approximation werden wir im 

Rahmen dieser Arbeit weiterentwickeln und in verschiedenen Anwendungsbereichen 

auf Praxistauglichkeit hin untersuchen. 

18

3 Grundlagen der maschinellen 

Klassifikation 

3.1 Der k-NN Algorithmus 

Der k-NN-Algorithmus ist ein sehr häufig eingesetzter Klassifikator. Trotz seines 

denkbar einfachen Prinzips, lassen sich damit in vielen Bereichen überaus gute 

Ergebnisse erzielen. Für die Entsscheidung über die Klassenzugehörigkeit eines 

Objekts spielen nur die k nächsten Nachbarn des zu klassifizierenden Objekts 

eine Rolle. In diesem Fall ist also der Name im wahrsten Sinne des Wortes Programm. 

Es wird aus dieser Gruppe der k Nachbarn einfach die Klasse gewählt, 

die am häufigsten vertreten ist. 

Beispiel 3.1. Abbildung 3.1 zeigt das Prinzip einer k-NN Klassifikation. Dabei 

muss der Klassifikator entscheiden, ob eine unbekannte Person (hier dargestellt 

als schwarzer Punkt in der Mitte des Bildes) männlich oder weiblich ist. Unter 

den drei nächsten Nachbarn befinden sich zwei Frauen und ein Mann. Entsprechend 

würde der ein 3-NN-Klassifikator die unbekannte Person als Frau klassifizieren. 

Der Umgebungsradius für die 3 nächsten Nachbarn ist als durchgezogener 

Kreis um die unbekannte Person gezogen. Ein 5-NN-Klassifikator würde 

die Nachbarn im gestrichelten Radius berücksichtigen. In diesem Fall würde die 

Person als Mann klassifiziert. 

In der Praxis tauchen an dieser Stelle unmittelbar drei Probleme auf. Zunächst 

einmal müssen die nächsten Nachbarn identifiziert werden. Außerdem müssen 

die Klassenzugehörigkeiten dieser Nachbarn bekannt sein. Nicht zuletzt ist auch 

die Wahl eines geeigneten k entscheidend für die Klassifikationsgüte. Wir haben 

im Beispiel gesehen, dass verschiedene Werte für k leicht zu unterschiedlichen 

Gewicht 

? 

Größe 

Abbildung 3.1: Beispiel für eine einfache k-NN-Klassifikaton 

19

Kapitel 3. Grundlagen der maschinellen Klassifikation 

Ergebnissen führen können. In der Regel wird das beste k experimentell bestimmt. 

In vielen Fällen bringt die Wahl eines relativ kleinen k < 10 bereits 

sehr gute Ergebnisse. 

Datenklassifikation ist ein zweistufiger Prozess [HK06]. Dem eigentlichen Klassifizieren 

geht ein Prozess des Lernens voraus. Der Klassifikatonsalgorithums lernt 

in dieser Phase, wie die verschiedenen Klassen unterschieden werden können. 

Beim k-NN-Algorithmus geschieht das in einer überwachten Trainingsphase. 

Überwachung bedeutet hier, dass für die Objekte, welche in der Trainingsphase 

zur Verfügung stehen, die jeweilige Klassenzugehörigkeit bekannt ist. Einige 

Klassifikationsalgorithmen mit überwachter Lernphase, wie z.B. Support- 

Vektor-Maschinen oder neuronale Netze, lernen auf unterschiedliche Weise eine 

oder mehrere Hyperebenen, die die verschiedenen Klassen räumlich voneinander 

trennen. Der k-NN-Algorithmus macht so etwas nicht. Er merkt sich einfach 

die Positionen und Klassen der Trainingsobjekte im Raum. 

Die Positionierung erfolgt mittels der Attribute der Objekte. Attribute sind 

letztlich bestimmte Eigenschaften. Im Beispiel aus Abbildung 3.1 könnten das 

” Größe“ und Gewicht“ sein. Deren Werte geben dann die Koordinaten im 

” 

2-dimensionalen Raum vor, der durch diese Attribute aufgespannt wird. In unserem 

Beispiel sind Frauen tendenziell kleiner und leichter als Männer. 

Es existieren verschiedene Varianten des k-NN-Algorithmus, in denen beispielsweise 

nicht alle Nachbarn gleichermaßen in die Bewertung eingehen. So können 

Nachbarn in Abhängigkeit von ihrer Distanz gewichtet werden. Nahe Nachbarn 

erhalten ein entsprechend höheres Gewicht. Wir werden im Verlauf dieser Arbeit 

jedoch ausschließlich mit dem ungewichteten Algorithmus arbeiten. So ist 

es sogar relativ wahrscheinlich, dass unter den nächsten Nachbarn zwei oder 

mehr Klassen in gleicher Häufigkeit auftreten. Ist aus diesem Grund keine eindeutige 

Klassifikation mittels k-NN möglich, so muss die Entscheidung zwischen 

den möglichen Kandidaten auf andere Art und Weise getroffen werden. Bei den 

Experimenten im weiteren Verlauf dieser Arbeit werden wir uns in einem solchen 

Fall immer für die Klasse entscheiden, bei der die Summe der Distanzen 

am kleinsten ist. 

Nicht zuletzt ist auch die Auswahl des Distanzmaßes ein entscheidender Faktor 

für die Qualität der Klassifikation. Es ist längst nicht immer unmittelbar klar, 

wie ein solches Maß auszusehen hat. In unserem Beispiel müssten wir den Abstand 

in einem Raum bestimmen, dessen zwei Dimensionen Gewicht in kg und 

Größe in cm völlig verschieden sind. Der k-NN-Klassifikator ist aber dahingehend 

universell, dass er zumindest syntaktisch mit jeglicher Art von Abstand 

funktioniert. Ob ein Distanzmaß geeigent ist oder nicht, hängt maßgeblich von 

der Art der zu klassifizierenden Objekte ab. 

20

3.2. Bestimmung der Klassifikationsgüte 

3.2 Bestimmung der Klassifikationsgüte 

Um die Qualität eines Klassifikators zu überprüfen, kann auf eine Vielzahl 

bekannter Methoden zurückgegriffen werden. Von zentraler Bedeutung sind 

zunächst einmal die möglichen Bewertungen der Zwei-Klassen-Klassifikation. 

Dabei muss der Klassifikator lediglich entscheiden, ob ein Objekt zu einer 

Klasse gehört (positiv) oder eben nicht (negativ). Damit ergeben sich vier 

Möglichkeiten: 

richtig-positiv: Ein Objekt wird als richtig-positiv gewertet, wenn es tatsächlich 

zur Klasse gehört und als positiv klassifiziert wurde. 

falsch-positiv: Gehört ein Objekt tatsächlich nicht zur Klasse, wird aber 

trotzdem als positiv klassifiziert, dann geht es als falsch-positiv in die 

Bewertung ein. 

richtig-negativ: Ein als negativ klassifiziertes Objekt, das auch tatsächlich 

nicht zur Klasse gehört, wird als richtig-negativ gewertet. 

falsch-negativ: Ein als falsch-negativ bewertetes Objekt wurde trotz tatsächlicher 

Klassenzugehörigkeit als negativ klassifiziert. 

Auf Basis dieser individuellen qualitativen Bewertung der Klassifikation je Objekt, 

können verschiedene statistische Kennwerte für die Klassifikationsgüte abgeleitet 

werden. Die Korrektheit eines Klassifikators ergibt sich als Anteil der 

korrekt klassifizierten Objekte. Intuituv würde man einen Klassifikator mit einer 

Korrektheit von 90% durchaus als brauchbar einstufen. Betrachten wir einmal 

folgendes Beispiel mit besonders ungleicher Verteilung der Klassen. 

Beispiel 3.2. Nehmen wir an, wir hätten einen Klassifikator zur Erkennung 

von Krebs trainiert. Dieser entscheidet für ein gegebenes Bild, ob sich darauf 

ein Tumor befindet oder nicht. Dieser Klassifikator habe eine Korrektheit 

von 90%. Leider zeigten nur 5% der Trainingsbilder einen Tumor. Alle Nicht- 

Tumor-Bilder wurden korrekt als solche erkannt. Viele der Tumor-Bilder aber 

fälschlicherweise auch. Eine Korrektheit des Klassifikators von 90% dürfte in 

diesem Fall nicht akzeptabel sein. 

Es existiert also Bedarf an Kennzahlen, die auch die Verteilung der Klassen 

innerhalb der Trainingsmenge berücksichtigen. Einige davon wollen wir folgend 

vorstellen. 

Definition 3.3. Sei |richtig-positiv| die Anzahl der richtig-positiv klassifizierten 

Objekte und |positiv| die Anzahl aller tatsächlich positiven Objekte, dann 

ist 

die Sensitivität des Klassifikators K. 

Sens(K) = |richtig-positiv| 

|positiv| 

Die Sensitivität eines Klassifikators gibt also an, welcher Anteil der tatsächlich 

positiven Objekte auch als solche klassifiziert wurden. Das allein gibt aber noch 

21


Tatsächliche Klasse 

Klassifikationsergebnis 

positiv negativ 

positiv richtig-positiv falsch-positiv 

negativ falsch-negativ richtig-negativ 

Tabelle 3.1: Schema einer Konfusionsmatrix [HK06] 

keinen Aufschluß über die Klassifikationsgüte. Ein Klassifkator, der einfach alle 

eingegebenen Objekte als positiv klassifiziert, erreicht mit dieser Strategie offenbar 

eine optimale Sensitivität. Die Sensitivität kann also nur in Verbindung 

mit weiteren Kennzahlen aufschlußreich sein. 

Definition 3.4. Sei |richtig-negativ| die Anzahl der richtig-negativ klassifizierten 

Objekte und |negativ| die Anzahl aller tatsächlich negativen Objekte, 

dann ist 

die Spezifität des Klassifikators K. 

Spez(K) = |richtig-negativ| 

|negativ| 

Die Spezifizität ist aus ähnlichem Grund wie die Sensitivität kein Maß mit 

dem für sich genommen eine hinreichend gute Aussage über die Klassifikationsgüte 

getroffen werden kann. Die Akkuratheit berücksichtigt beide Maße in 

unterschiedlicher Gewichtung [HK06]. 

Definition 3.5. Die gewichtete Summe von Sensitivität und Spezifität 

|positiv| 

Akk(K) = Sens(K) 

|positiv| + |negativ| + Spez(K) |negativ| 

|positiv| + |negativ| . 

ist die Akkuratheit eines Klassifikators K. 

Für den Fall der Klassifikationsentscheidung zwischen mehreren Klassen gibt 

die Konfusionsmatrix einen guten und schnellen Überblick über die Klassifikationsgüte. 

Die Konfusionsmatrix ist quadratisch und enthält jeweils so viele Zeilen 

und Spalten, wie es mögliche Klassen gibt. Sei M eine solche Konfusionsmatrix, 

dann entspricht der Wert m i,j der Anzahl von Objekten der tatsächlichen 

Klasse j, die als i klassifiziert wurden. Die Werte auf der Hauptdiagonalen der 

Konfusionsmatrix entsprechen also der Anzahl der richtig-positiv klassifizierten 

Objekte. Tabelle zeigt das Schema einer Konfusionsmatrix eines Zwei-Klassen- 

Klassifikators. Die Summe aller Werte der Konfusionsmatrix entspricht der Anzahl 

der klassifizierten Objekte. 

Im allgemeinen Fall mit n Klassen kann man für jede dieser Klassen eine individuelle 

Klassifikationsgüte aus der Konfusionmatrix M ablesen. Für die i-te 

22

3.2. Bestimmung der Klassifikationsgüte 

Klasse finden wir die Anzahl der richtig-positiv klassifizierten Objekte an Position 

m i,i . Die Summe aller anderen Werte der Spalte i entspricht der Häufigkeit 

falsch-negativ klassifizierter Objekte. Die Summe aller Werte von Zeile i ergibt 

die Häufigkeit von falsch-negativ-Klassifikation. Alle übrigen Werte, also 

alle außerhalb von Zeile i und Spalte i, entsprechen addiert der Anzahl von 

richtig-negativ klassifizierten Objekten. 

Es existiert noch eine Vielzahl weiterer Kennzahlen zur Ermittlung der Klassifikatonsgüte. 

So können z. B. mit Hilfe einer Kostenfunktion Klassifikationsfehler 

(falsch-positiv oder falsch-negativ) unterschiedlich gewichtet werden. Bei einem 

Klassifikator für das Szenario aus Beispiel 3.2 ist ein falsch-negativ-Ergebnis 

deutlich kritischer als falsch-positiv. So ist es zweifelsfrei schwerwiegender einen 

vorhandenen Tumor nicht zu erkennen. Die falsch-negativ-Rate sollte deshalb 

bei der Beurteilung des Klassifikators ein höheres Gewicht bekommen. Für die 

im Rahmen dieser Arbeit behandelten Szenarien ist eine solche Gewichtung 

jedoch nicht erforderlich. Wir gehen deshalb nicht weiter darauf ein. 

Ist die Kardinalität aller Klassen in der Testmenge ungefähr gleich groß und 

sind die Gewichtungen der Fehler annähernd identisch, dann ist die einfache 

Fehlerrate bereits ein guter Indikator. 

Definition 3.6. Sei |alle| die Anzahl aller klassifizierten Objekt, dann ist 

Err(K) = 

|falsch − positiv| + |falsch − negativ| 

|alle| 

(3.1) 

die Fehlerrate des Klassifikators K. 

Die o. g. Bedinungen sind in den im Rahmen dieser Arbeit behandelten Anwendungsfälle 

erfüllt. Aus diesem Grund werden wir für die Beurteilung des 

Klassifikators bei mehr als zwei möglichen Klassen in der Regel zunächst die 

Fehlerrate heranziehen. Im Falle der Notwendigkeit klassenspezifischer Beurteilung 

greifen wir auch auf die anderen hier vorgestellten Kennzahlen zurück. 

Häufig hängt die Klassifikationgüte von Parametern des Klassifikators ab. Beim 

k-NN-Algorithmus steckt ein solcher Parameter bereits im Namen. Wir werden 

später noch sehen, dass die Auswahl eines Wertes für k erheblichen Einfluss 

auf die Fehlerrate haben kann. Ein verbreitetes Verfahren zur Visualisierung 

einer entsprechenden Parameteroptimierung ist die ROC-Kurve 1 [HK06]. Eine 

ROC-Kurve wird in einem zweidimensionelen kartesischen Koordinatensystem 

dargestellt. Die horizontale Achse beschreibt falsch-positiv-Rate (1−Spezifität), 

während auf der vertikalen Achse die Sensitivität (richtig-positiv-Rate) aufgetragen 

wird. Ein optimales Klassifikationsergebnis ist dann erreicht, wenn die 

Sensitivität gleich 1 ist, während die falsch-positiv-Rate bei 0 liegt. In der Praxis 

wird das aber eher selten erreicht. 

Abbildung 3.2 zeigt eine solche ROC-Kurve. Die rote Linie entspricht der Klassifikationsgüte 

mit zufälligem Raten. Im Falle einer Klassifikation als positiv ist 

1 Abk. für Receiver Operating Characteristics 

23


richtig−positiv−Rate 

1 

Klassifikation → 

0.8 

0.6 

← Distanz 

0.4 

0.2 ← Zufallsentscheidung 

0 

0 0.2 0.4 0.6 0.8 1 

falsch−positiv−Rate 

Abbildung 3.2: Schema einer ROC-Kurve 

die Wahrscheinlichkeit gerade 0, 5, dass es sich tatsächlich um ein Objekt der 

Klasse handelt. Genauso wahrscheinlich ist es, dass ein als positiv klassifiziertes 

Objekt eigentlich nicht zur Klasse gehört. Je weiter ein Klassifikationsergebnis 

(hier als blaue Kurve dargestellt) oberhalb der roten Linie liegt, desto besser 

ist dieses Ergebnis. Im absolut optimalen Fall liegt dieser Punkt exakt in der 

linken oberen Ecke. 

Um mit Hilfe der Kurve den für den Klassifikator besten Parameterwert zu 

ermitteln, müssen alle in Frage kommenden Möglichkeiten getestet werden. Bei 

jedem Test wird das erzielte Ergebnis als Punkt der ROC-Kurve eingetragen. 

Der Wert, dessen zugehöriger Punkt auf der Kurve am weitesten entfernt vom 

zufälligen Raten liegt, ist in diesem Sinne optimal. 

3.3 Normierung und Invarianzen 

Manchmal bedürfen die Klassifikatoren einer gewissen Vorverarbeitung der zu 

klassifizierenden Objekte. Diese Notwendigkeit ergibt sich aus verschiedenen 

Gründen. Das kann im Fall des k-NN-Klassifikator z. B. das verwendete Distanzmaß 

d sein. 

Beispiel 3.7. Nehmen wir an, x und y seien zwei Bilder, die jeweils ein geometrisches 

Objekt zeigen. Die Distanz sei d(x, y). Nun erfährt das Objekt auf 

Bild x eine Translation. Das resultierende Bild nennen wir Trans(x) = x T . 

Gilt nun d(x, y) ≈ d(x T , x), dann nennen wir das verwendete Distanzmaß d 

translationsinvariant. 

Distanzmaße werden häufig qualitativ nach ihrer Invarianz bezüglich der affinen 

Transformationen ” 

Translation“, ” 

Rotation“ und ” 

Skalierung“ beurteilt. 

Ist eine solche Invarianz nicht gegeben, dann müssen sowohl die Traingsmenge 

als auch die zu klassifizierenden Objekte vorab normiert werden. Ist im Szena- 

24

3.3. Normierung und Invarianzen 

Abbildung 3.3: Der SIFT -Algorithmus findet mittels invarianter Merkmale im rechten 

Bild den Frosch (rot umrandet) und zweimal die Lokomotive (grün und gelb) obwohl 

diese teilweise verdeckt sind 

rio aus Beispiel 3.7 beispielsweise die Translationsinvarianz nicht gegeben, so 

sollten die Objekte auf den Bildern vorab zentriert werden. 

Diesen Prozess der Vorverarbeitung, der der Invarianz bezüglich bestimmter 

Transformationen geschuldet ist, bezeichnen wir als Normierung. Im Rahmen 

der experimentellen Untersuchungen im folgenden Kapitel sind wir sowohl an 

einer niedrigen Fehlerrate also auch an hoher Invarianz des verwendeten Klassifikators 

interessiert. Wir beschränken uns bei unseren Betrachtungen auf die 

Translationsinvarianz. 

Das grundsätzliche Interesse an Invarianz ist in der Praxis nicht nur auf Distanzmaße 

beschränkt. Es gilt auch für Objektmerkmale. So haben wir uns 

im Rahmen der Vorüberlegungen zu dieser Arbeit unter anderem mit merkmalsbasierten 

Ansätzen zur Objekterkennung auf Fotos befasst. Beispielsweise 

extrahiert der SIFT -Algorithmus 2 aus einem gegeben Foto eines beliebigen 

Objekts bestimmte Merkmale [Low04]. Diese Merkmale, die sogenannten Keypoints, 

sind die Bildpunkte, die für die Wiedererkennung des Objekts relevant 

sind. Auf einem zweiten Foto, welches das selbe Objekt aber vielleicht etwas 

verdeckt oder aus anderer Perspektive zeigt, kann der Algorithmus das Objekt 

finden und markieren. Dazu werden auf dem zweiten Bild ebenfalls Keypoints 

extrahiert. Im Wesentlichen entscheidet nun die Anzahl identischer Keypoints 

darüber, ob ein Objekt erkannt werden kann oder nicht. 

Dem Namen nach zu urteilen sind die Merkmale nach Transformation mit 

SIFT skalierungsinvariant. In bestimmten Grenzen gilt diese Invarianz auch 

bezüglich anderer affiner Transformationen und sogar 3D-Rotation sowie Ausleuchtung 

des Objekts. Der dreidimensionalen Rotationsinvarianz sind jedoch 

bereits natürliche Grenzen gesetzt. Wird beispielsweise ein Würfel aus zwei 

Perspektiven aufgenommen, und stehen die Blickrichtungen der Kameras rechtwinklig 

zueinander, dann ist bereits keiner der Bildpunkte aus der ersten Perspektive 

auch im zweiten Bild zu sehen. 

2 Abk. für ” 

Scale Invariant Feature Transform“ 

25


Abbildung 3.3 zeigt einen Anwendungsfall des SIFT-Algorithmus. Dabei sollen 

die links abgebildeten Motive ” 

Frosch“ und ” 

Lokomotive“ im Bild rechts wiedergefunden 

und umrahmt werden. Die farbigen Umrandungen entsprechen den 

durch den Algorithmus berechneten Rahmen zur Lokalisierung des Objekts. Die 

kleinen Quadrate innerhalb der Rahmen geben die Position der Keypoints an. 

Unsere Experimente beziehen sich auf die Klassifikation handgeschriebener Ziffern. 

Es stellte sich heraus, dass die Verwendung des SIFT -Algorithmus für diese 

Zwecke nicht geeignet ist. In den Bildern der Ziffern können einfach nicht ausreichend 

viele Keypoints gefunden werden. Aus diesem Grund verfolgen wir den 

Ansatz, dass ähnliche Bilder auch ähnliche Keypoints erzeugen, im Rahmen dieser 

Arbeit nicht weiter. Trotzdem wollen wir die Idee von SIFT nicht unerwähnt 

lassen, vermittelt sie doch einen guten Eindruck von Einsatzmöglichkeiten invarianter 

Merkmale. 

26

4 Klassifikation mit Hilfe verschiedener 

Ähnlichkeitsmetriken 

4.1 Handgeschriebene Ziffern 

Das National Institute of Standards and Technology (NIST) bietet eine Datenbank 

mit tausenden handgeschriebene Ziffern als schwarz/weiss-Bilder an [ST]. 

Diese Datenbank beinhaltet im wesentlichen zwei Teile. Die Special Database 

3 war von der NIST ursprünglich als Trainingsmenge gedacht, während der 

Inhalt von Special Database 1 die Testmenge darstellen sollte. LeCunn et al 

stellten in [LBBH98] jedoch fest, dass die Handschriften beider Datenbanken 

nicht ausreichend heterogen sind. SD-3 ist demnach deutlich leichter zu klassifizieren 

als SD-1. Um aussagekräftige Ergebnisse zu erzielen, muss jedoch die 

Auswahl der Trainingsmenge unerheblich für die Klassifikationsgüte sein. Le- 

Cunn et al fassten deshalb aus beiden Datenbanken jeweils 30000 Datensätze 

heterogener Herkunft zu einer neuen Trainingsmenge von 60000 Ziffern zusammen. 

Jeweils 5000 Datensätze aus beiden Datenbanken dienen als Testmenge. 

Training- und Testmenge sind bezüglich der insgesamt ca. 250 Schreiber disjunkt. 

Die von einer Person geschriebenen Ziffern befinden sich also entweder 

alle in der Trainings- oder alle in der Testmenge. 

Die originalen schwarz/weiß-Bilder des NIST wurden auf eine Größe von 20×20 

Pixeln skaliert, ohne dabei die Seitenverhältnisse zu verändern. Die resultierenden 

Bilder wurden zusätzlich jeweils mit ihrem Schwerpunkt in einem 28 × 28- 

Bild zentriert. Man beachte, dass der Schwerpunkt im allgemeinen nicht dem 

Mittelpunkt des die Ziffer gerade einrahmenden Rechtecks entspricht. Die in 

den neuen Bildern vorhandenen Grauwerte sind der o.g. Skalierung geschuldet. 

Die Bilder liegen demnach in bezüglich Skalierung und Translation normierter 

Form vor. 

Die genaue Zusammensetzung des MNIST-Datenbestands ist der Tabelle 4.1 zu 

entnehmen. Dort ist genau verzeichnet, wie viele Trainings- und Testbilder der 

0 1 2 3 4 5 6 7 8 9 

Training 5923 6742 5958 6131 5842 5421 5918 6265 5851 5949 

Test 980 1135 1032 1010 982 892 958 1028 974 1009 

Tabelle 4.1: Anzahl der einzelnen Ziffern in Trainings- und Testmenge der MNIST- 

Datenbank 

27

Kapitel 4. Klassifikation mit Hilfe verschiedener Ähnlichkeitsmetriken 

Abbildung 4.1: 10 Beispielbilder je Ziffer aus dem MNIST-Datenbestand 

einzelnen Ziffern vorhanden sind. Abbildung 4.1 zeigt eine zufällige Auswahl 

von 10 Beispielbildern je Ziffer. 

Um ihre eigenen Ergebnisse mit der Qualität anderer Methoden vergleichbar zu 

machen, stellen sie die modifizierte Datenbasis öffentlich unter dem Namen The 

MNIST Database of handwritten digits zur Verfügung [LC98]. An gleicher Stelle 

sind auch bereits etliche Ergebnisse anderer Autoren aufgeführt. Dabei kamen 

bereits eine Vielzahl verschiedenartiger Klassifikationsverfahren wie k-NN oder 

neuronale Netze und Support-Vektor-Maschinen in diversen Variationen zum 

Einsatz. Die Fehlerrate der dort veröffentlichten Klassifikationsergebnisse liegt 

im Bereich zwischen 0, 4 und 12%. Die meisten dieser Klassifikatoren erreichen 

eine Fehlerrate unter 3%. Einige der Verfahren mit besonders geringen Fehlerraten 

bedürfen allerdings einer weiteren Vorverarbeitung der Daten. 

4.2 Standardmaße 

Wir stellen nun zunächst einige allgemein bekannte Distanzmaße vor. Exemplarisch 

zeigen wir einen Präfixcode, dessen Länge proportional zum Hammingabstand 

wächst. Die daraus resultierenden Kodierungen können als Programm p 

28

4.2. Standardmaße 

für eine universelle Turingmaschine U aufgefasst werden. Dieses Programm p 

überführt eine Eingabe y ∈ {0, 1} n in eine gleichlange Ausgabe x ∈ {0, 1} n . Also 

ist die Länge von p eine obere Schranke für die Präfixversion der Kolmogorov- 

Komplexität von x gegeben y (siehe Gleichung 2.28). Damit können wir nun 

auch die Informationsdistanz zwischen x und y nach Definition 2.10 approximieren. 

Für die weiteren Distanzmaße verzichten wir auf die explizite Herleitung einer 

solchen Kodierung. Hier zeigen wir lediglich, dass sie jeweils die Eigenschaften 

einer Metrik erfüllen und damit grundsätzlich als Distanzmaß geeignet sind. 

In zweiten Teil dieses Kapitels definieren und entwickeln wir ein neues kompressionsbasiertes 

Abstandsmaß speziell für Bilder und zeigen einige Vorteile dieses 

Abstadsmaßes gegenüber den zuvor beschriebenen Standardmaßen auf. 

4.2.1 Hammingabstand 

Definition 4.1. Für zwei Strings x, y ∈ {0, 1} ∗ gleicher Länge ist der Hammingabstand 

d H (x, y) = |{ i | x i ≠ y i , 1 

Die Strings werden also komponentenweise miteinander verglichen. Der Hammingabstand 

entspricht dann der Anzahl der voneinander verschiedenen Elemente. 

Man sieht leicht, dass es sich hier vermutlich um ein für Translation 

anfälliges Maß handelt. Intuitiv sind die beiden Strings x = 10101010101 und 

y = 01010101010 ähnlich, trotzdem ist ihr Hammingabstand d H (x, y) = |x| = 

|y|, also maximal. Um dem intuitiven Ähnlichkeitsempfinden nahe zu kommen, 

scheint also vorab eine präzise Normierung bezüglich der Translation notwendig 

zu sein. Am Ende dieses Abschnittes werden wir diese Vermutung experimentell 

bestätigen. 

Wir wollen nun zunächst zeigen, dass der Hamminabstand eine Metrik ist. Offensichtlich 

sind 

1. die Identitätsbedingung d H (x, y) = 0 ⇔ x = y sowie 

2. die Symmetriebedingung d H (x, y) = d H (y, x) 

erfüllt. Nicht unmittelbar klar ist die Erfüllung der Dreiecksungleichung. 

Lemma 4.2. Der Hammingabstand erfüllt die Dreiecksungleichung. 

Beweis. Wir führen den Beweis mittels vollständiger Induktion: 

(Ia:) d H (x, z) = 0 

Der Hammingabstand kann nicht negativ sein, da sich zwei Strings nicht an 

weniger als null Stellen unterscheiden können. Es gilt also d H (x, y) 0 und 

d H (y, z) 0 und damit offensichtlich d H (x, y) + d H (y, z) 0. 

29


(Iv:) Die Dreiecksungleichung gilt für d H (x, z) = n. 

(Is:) Die Dreicksungleichung gilt auch für d H (x, z) = n + 1 

Nach Iv gilt d H (x, y) + d H (y, z) n. Bei d H (x, z) = n + 1 unterscheiden sich x 

und z an einer Stelle mehr. Folglich wurde entweder in x oder in z genau ein Bit 

verändert. Damit erhöht sich entweder d H (x, y) oder d H (y, z) um 1, nicht aber 

beide. Entsprechend erhöhen sich beide Seiten der Ungleichung gleichermaßen 

um 1. Also gilt die Dreiecksungleichung auch für d H (x, z) = n + 1. 

Damit sind alle Kriterien für eine Metrik erfüllt und es gilt 

Satz 4.3. Der Hammingabstand ist eine Metrik. 

Aus der Definition des Hammingabstands ist leicht ersichtlich, dass die Funktion 

zur Berechnung nicht bijektiv ist. Sind x und d H (x, y) bekannt, dann kann y 

nicht eindeutig rekonstruiert werden. Dazu müsste zusätzlich bekannt sein, an 

welchen Stellen sich die beiden Strings unterscheiden. 

Sei n die Länge zweier Strings mit Hammingabstand d und seien i 1 , ..., i d die 

Stellen, an denen sie sich unterscheiden. Dann beinhaltet das Tupel (n, d, i 1 , ..., i d ) 

alle relevanten Informationen zur Rekonstruktion von x aus y. Bennett et al zeigen 

in [BGL + 98] eine präfixfreie Codierung für genau dieses Tupel. Wir benutzen 

die Aufzählung der Binärstrings in lexikographischer Reihenfolge, folgend 

dargestellt als 2-Tupel aus Index und entsprechendem String: 

(0, ε), (1, 0), (2, 1), (3, 00), (4, 01), (5, 10), (6, 11), (7, 000), (8, 001), . . . 

Bei der Anwendung der Codierungsfunktion unterscheiden wir nicht zwischen 

der Zahl und dem zugehörigen String entsprechend der o.g. Aufzählung. Mit 

l(k) als Länge des Strings mit Index k für alle k ∈ N gilt also beispielsweise 

l(7) = 00. Unter diesen Voraussetzungen definieren wir die Codierungsfunktion 

als 

⎧ 

⎪⎨ 

1 x #0, wenn i = 0 

λ i (k) = 

(4.2) 

⎪⎩ λ i−1 (l(k)) #k, sonst. 

Setzen wir nun i = 2, dann ist 

λ 2 (k) = λ 1 (l(k))#k 

= λ 0 (l(l(k)))#l(k)#k 

= 1 l(l(k)) #0#l(k)#k. (4.3) 

Offensichtlich ist l(k) log k. Für die Länge dieser Codierung gilt darum 

l(λ 2 (k)) = l(1 l(l(k)) ) + l(0) + l(l(k)) + l(k) 

1 + log k + 2 log log k. (4.4) 

30


Basierend auf λ 2 können wir nun das Tupel (n, d, i 1 , . . . , i d ) mit Länge 2 log n + 

4 log log n+2+d log n kodieren. Zunächst kodieren wir n und d jeweils präfixfrei 

mittels λ 2 auf Länge log n + 2 log log n + 1. Es folgen die d Positionen, an denen 

sich x und y unterscheiden, mit jeweils log n Bits. Diese Kodierung nennen wir 

Trans H (x, y), da sie alle Informationen zur Transformation von x nach y und 

umgekehrt enthält und sich bezüglich ihrer Länge proportional zum Hammningabstand 

verhält. 

Theorem 4.4. |Trans H | erfüllt die Eigenschaften einer Metrik mit Genauigkeit 

O(log n) 

Beweis. Unabhängig von einer eventuellen Gleichheit der Strings x und y wird 

mindestens deren Länge n kodiert. Dafür sind mit λ 2 eben log n +2 log log n +1 

Bits nötig. Die Kodierung des Hammingabstand d = 0 benötigt konstant 1 Bit. 

Damit gilt 

|Trans H (x, x)| = log n + 2 log log n + 2 = 0 + O(log n). (4.5) 

Wegen |x| = |y| = n ist das Tupel (n, d, i 1 , . . . , i d ) unabhängig von der Richtung. 

Es gilt also Trans H (x, y) = Trans H (y, x). Folglich ist die Symmetriebedinung 

präzise erfüllt. 

Um zu zeigen, dass die Dreiecksungleichung ebenfalls erfüllt ist, nehmen wir 

1. d H (x, z) d H (x, y) + d H (y, z) aber 

2. Trans H (x, z) > Trans H (x, y) + Trans H (y, z) 

an und erzeugen einen Widerspruch. 

Seien d H (x, z) = a, d H (x, y) = b und d H (y, z) = c, dann gilt mit Annahme 1: 

⇒ 

a b + c 

log a + 2 log log a + a log n log b + 2 log log b + b log n 

+ log c + 2 log log c + c log n (4.6) 

Mit Annahme 2 und log n + 2 log log n + 1 = k gilt: 

⇒ 

k + log a + 2 log log a + 1 + a log n > k + log b + 2 log log b + 1 + b log n 

+ k + log c + 2 log log c + 1 + c log n 

log a + 2 log log a + a log n > log b + 2 log log b + b log n 

+ log c + 2 log log c + c log n 

(4.7) 

Damit wiedersprechen sich die Ungleichungen (4.6) und (4.7) als Folgerungen 

aus den beiden Annahmen. Die Dreiecksungleichung wird also erfüllt. 

Wir haben nun gezeigt, dass der Hamminabstand eine Metrik ist, dass es eine 

präfixfreie Kodierung Trans H mit zum Hammingabstand proportionaler Länge 

31


gibt und dass die Länge von Trans H mit Genauigkeit O(log n) ebenfalls eine 

Metrik ist. Auf diese Weise konnten wir einen Zusammenhang zwischen dem 

Hammingabstand und der Länge eines Programms herleiten, das einen String 

y in einen String x überführt. 

Wir fassen die Länge von Trans H (x, y) als Approximation der Präfixversion 

der Kolmogorov-Komplexität auf. Damit ergibt sich eine Approximation der 

Informationsdistanz zwischen x und y analog zu Gleichung (2.22) als 

d Trans = max {|Trans H (x, y)|, |Trans H (y, x)} . (4.8) 

Aufgrund der präzisen Symmetrieeigenschaft ist 

d Trans = |Trans H (x, y)|. (4.9) 

Dieses Ähnlichkeitsmaß wollen wir nun für die Klassifikation der in Abschnitt 

4.1 vorgestellten Bilder handgeschriebener Ziffern verwenden. Definition 4.1 beschreibt 

den Hammingabstand für binäre Strings. Im Gegensatz zu unseren 

Graubildern sind Binärstrings eindimensional. Außerdem beinhalten die Graubilder 

Pixelwerte zwischen 0 und 255 und nicht nur 0 oder 1. Schreiben wir 

einfach die Zeilen der ursprünglich 28 × 28 Elemente großen Grauwertmatrix 

hintereinander, so erhalten wir einen 784-elementigen Zeilenvektor. Den nach 

Definition 4.1 notwendigen Binärstring erhalten wir mit Hilfe eines Grenzwerts 

α. Sei x ∈ {0, . . . , 255} ∗ , dann ist für alle x i 

⎧ 

x binär 

i = 

⎪⎨ 

0, wenn x i α 

⎪⎩ 1, wenn x i > α. 

(4.10) 

Auf diese Weise können wir nun Graubilder in Binärstrings überführen und 

diese mit Hilfe des Hammingabstands klassifizieren. Als Klassifikator wählen 

wir den bereits vorgestellen k-NN-Algorithmus. 

Die Klassifikationsgüte hängt hier nun von zwei Parametern ab. Neben dem k als 

Parameter für den Klassifikator ist auch der optimale Wert für den Grenzwert 

α herauszufinden, um die Graubilder in schwarz-/weiss-Bilder zu überführen. 

Dazu müssten wir eigentlich alle möglichen Kombinationen testen. Wir wählen 

stattdessen eine Art Greedy-Strategie, setzen zunächst α = 120 und testen mit 

diesem Grenzwert alle k ∈ [3; 9]. Da die Trainingsmenge annähernd gleich viele 

Elemente aller Klassen enthält, verwenden wir als Qualitätsindex die Fehlerrate, 

also einfach den prozentualen Anteil der falsch klassifizierten Ziffern. Auf diese 

Weise wird k = 4 als bester Wert identifiziert (siehe Abbildung 4.2). 

Basierend auf dieser Erkenntnis ermitteln wir nun den besten Wert für α wobei 

k = 4 fix ist. Da es 254 verschiedene Möglichkeiten gibt und eine vollständige 

Überprüfung lange Zeit in Anspruch nehmen würde, reduzieren wir für dieses 

Experiment die Datenmenge. Dazu wählen wir zufällig je Ziffer 300 Trainingsbilder 

und 50 Testbilder aus und ermitteln die Fehlerrate. Diese zufällige Auswahl 

mitsamt anschließender Testklassifikation wiederholen wir für jeden Wert 

32


Fehlerrate in % 

4.4 

4.2 

4 

3.8 

3 4 5 6 7 8 9 

k 

Abbildung 4.2: Entwicklung der Fehlerrate mit variablem k und fixem Grenzwert 

α = 120 (Bestes Ergebnis: k = 4 mit 3, 9%) 

30 


20 

10 

0 

0 50 100 150 200 250 

α 

Abbildung 4.3: Entwicklung der Fehlerrate mit variablem Grenzwert α und 4-NN- 

Klassifikator (Bestes Ergebnis: α = 41 mit 6, 1%) 

α ∈ [1; 254] 10 mal. Für jedes α bestimmen wir dann den Mittelwert der 10 

ermittelten Fehlerraten. Auf diese Weise wollen wir Fehler aufgrund statistischer 

Abweichungen möglichst gering halten. Es zeigt sich, dass α = 41 die 

beste Wahl ist. Die mittlere Fehlerrate liegt hier bei etwa 6, 1%. Abbildung 4.3 

illustriert das Testergebnis. Man sieht sehr schön den immer stärkeren Anstieg 

der Fehlerrate mit wachsendem k. Bis etwa k = 70 ist sie annähernd konstant. 

Die anschließende Validierung mit α = 41 und variablem k auf dem gesamten 

Datenbestand ergibt für k = 3 und k = 4 die besten Ergebnisse. Die Fehlerrate 

liegt hier bei 3, 2%. Auf eine weitere grafische Darstellung verzichten wir. Der 

Verlauf ist dem in Abbildung 4.2 sehr ähnlich, wobei die Fehlerraten um etwa 

0, 6 bis 0, 9% besser liegen. Tabelle 4.2 zeigt die Konfusionsmatrix des Klassifikationsergebnisses 

mit k = 4 und α = 41 auf dem gesamten Datenbestand. 

Betrachten wir die Tabelle 4.2 einmal etwas genauer. Es fällt auf, dass die 

Klassifikationsfehler sich auch an den Positionen in der Tabelle häufen, wo man 

intuitiv eine Ähnlichkeit der Ziffern vermuten würde. Beispielsweise wurden 

33


Tatsächlich abgebildete Ziffer 


0 1 2 3 4 5 6 7 8 9 

0 975 0 11 0 1 2 4 0 10 5 

1 1 1131 5 2 12 3 3 17 5 7 

2 1 2 995 2 0 0 0 4 1 2 

3 0 0 4 969 0 13 0 2 18 6 

4 0 1 1 1 936 2 0 3 4 7 

5 1 0 0 14 0 852 2 0 6 2 

6 1 1 1 1 5 12 948 0 4 1 

7 1 0 12 10 3 1 0 991 7 7 

8 0 0 3 7 0 1 1 0 913 3 

9 0 0 0 4 25 6 0 11 6 969 

Tabelle 4.2: Konfusionsmatrix der 4-NN-Klassifikation mit Hammingabstand (α = 

41) auf dem gesamten MNIST-Datenbestand (Fehlerrate: 3, 2%) 

17 Testbilder, die de facto eine 7 darstellen, als 1 klassifiziert. Gerät bei etwas 

unsauberer Handschrift der eigentlich annähernd diagonal gedachte lange Strich 

der 7 etwas zu senkrecht und außerdem der wagerechte Strich etwas zu kurz, ist 

auch der Mensch beim Lesen nicht vor einer Verwechslung gefeit. Ähnliches kann 

passieren, wenn der untere waagerechte Strich der 2 sehr kurz ist. Eine gewisse 

Ähnlichkeit zur 7 ist dann leicht einzusehen. 12 mal hat unser Klassifikator eine 

2 für eine 7 gehalten. Ganze 25 mal wurde eine 4 als 9 klassifiziert, anders herum 

ist das 18 mal passiert. In der Tat sehen sich 4 und 9 recht ähnlich. Davon kann 

man sich mit Hilfe von Abbildung 4.1 leicht noch einmal überzeugen. 

Im Verlauf dieser Arbeit werden wir noch eine Reihe weiterer Ähnlichkeitsmetriken 

zur Klassifikation einsetzen. Diese sind jedoch teilweise mit erheblich 

höherem Rechenaufwand verbunden. Mit den uns zur Verfügung stehenden Kapazitäten 

würde eine Berechnung auf dem gesamten MNIST-Datenbestand mit 

60.000 Trainings- und 10.000 Testbildern für einige dieser Metriken mehrere Tage 

bis Wochen in Anspruch nehmen. Aus diesem Grund führen wir die Tests auf 

einem reduzierten Datenbestand durch. Wie bereits bei der Ermittlung des optimalen 

Grenzwerts α verwenden wir in dazu je Ziffer 300 Bilder als Trainingsund 

50 als Testmenge. Die Auswahl der Datensätze für diese reduzierten Mengen 

erfolgt stets zufällig. 

Ein repräsentatives Klassifikationsergebnis, welches im Verlauf der Bestimmung 

des besten Wertes für α auf dem so reduzierten Datenbestand ermittelt wurde, 

ist als Konfusionsmatrix in Tabelle 4.3 verzeichnet. Wie bereits zuvor erwähnt 

konnte durchschnittlich eine Fehlerrate von 6, 2% erzielt werden. Aufgrund 

der deutlichen Verkleinerung der Trainingsmenge war eine Verschlechterung 

34




0 1 2 3 4 5 6 7 8 9 

0 50 0 2 0 0 0 0 0 0 0 

1 0 50 0 0 1 0 0 0 0 0 

2 0 0 44 1 0 1 0 0 0 0 

3 0 0 1 44 0 1 0 0 0 1 

4 0 0 0 0 46 0 0 0 1 0 

5 0 0 0 3 0 44 0 0 3 0 

6 0 0 0 0 1 1 50 0 0 0 

7 0 0 1 0 0 0 0 49 1 2 

8 0 0 1 2 0 2 0 0 45 0 

9 0 0 1 0 2 1 0 1 0 47 

Tabelle 4.3: 4-NN-Klassifikation mit Hammingabstand (α = 41) auf dem reduzierten 

MNIST-Datenbestand (Fehlerrate: 6, 2%). 

der Klassifikationsgüte zu erwarten. Beim vollständigen Datenbestand konnten 

96, 8% der Bilder korrekt klassifiziert werden. Hier waren es immerhin noch 

93, 8%, der Unterschied ist mit gerade einmal 3% nicht signifikant, zumal die 

Größenverhältnisse der Klassen etwa gleich geblieben sind. Damit haben wir 

experimentell gezeigt, dass bereits die k-NN-Klassifikation auf dem reduzierten 

Datenbestand eine Aussage über die Qualität der verwendeten Ähnlichkeitsdistanz 

zulässt. 

Durch die Transformation auf Binärstrings verlieren wir offensichtlich Information 

über das ursprüngliche Graubild. Dieser Informationsverlust könnte sich 

negativ auf das Klassifikationsergebnis auswirken. Um dies zu überprüfen, erweitern 

wir zunächst die Definition des Hammingabstands auf Strings eines 

beliebigen endlichen Alphabets. 

Definition 4.5. Sei Σ ein endliches Alphabet. Für zwei Strings x, y ∈ Σ ∗ 

gleicher Länge ist der Hammingabstand 

d H (x, y) = |{ i | x i ≠ y i , 1 

Damit können wir nun den Hammingabstand zweier Graubilder ermitteln. Im 

Experiment zeigt sich jedoch, dass das Ergebnis deutlich hinter der zuvor beschriebenen 

Klassifikationsgüte auf Binärbildern mit Grenzwert zurück bleibt. 

In mehreren Testdurchläufen wurden Fehlerraten im Bereich zwischen 30 und 

35% ermittelt. Das führen wir darauf zurück, dass es beim Vergleich der Grauwerte 

in den MNIST-Bildern keine Abstufung der Ähnlichkeiten gibt. So wirkt 

sich beispielsweise der Unterschied der Grauwerte x 1 = 254 und y 1 = 255 genauso 

auf den Hammingabstand aus wie bei x 2 = 0 und y 2 = 255. Aufgrund 

35


100 


50 

0 

1 2 3 4 5 6 7 8 9 10 

Durchgang 

Abbildung 4.4: Fehlerrate der 4-NN-Klassifikation mit Hammingabstand auf zufällig 

verschobenen Bildern in 10 unabhängigen Durchgängen 

der erheblich schlechteren Klassifikationsgüte verzichten wir sowohl auf weitere 

Untersuchungen als auch auf grafische Darstellung dieser Ergebnisse. 

Zum Abschluß wollen wir die Qualität des Hammingabstands als Ähnlichkeitsdistanz 

für k-NN-Klassifikation noch auf seine Translationsinvarianz hin 

überprüfen. Die bisher getesten Daten sind bekanntlich bezüglich der Translation 

normiert. Der Schwerpunkt der Grauwerte befindet sich im Zentrum des 

Bildes. Wie aber wirkt es sich auf die Klassifikationsgüte aus, wenn die Bilder 

nicht so genau zentriert sind? Um diese Frage zu beantworten, haben wir 100 

mal zufällig je Ziffer 300 Trainings- und 50 Testbilder ausgewählt. Vor der anschließenden 

4-NN-Klassifikation mit Hammingabstand (α = 41) wurden die 

ausgewählten Bilder einzeln und zufällig um −4 bis +4 Pixel horizontal und 

vertikal verschoben. Damit ergeben sich in jede Richtung 9 mögliche Translationswerte, 

insgesamt also 81 Kombinationen. 

Die Auswirkung ist in Abbildung 4.4 deutlich zu sehen. Die Fehlerrate liegt einigermaßen 

konstant um 24%. Dies deutet bereits an, dass das eingangs vermutete 

Nichtvorhandensein von Translationsinvarianz auch experimentell bestätigt 

wird. Tabelle 4.4 zeigt eine entsprechende Konfusionsmatrix. 

Noch schlechter stellt sich die Situation bei gegenläufig verschobenen Trainingsund 

Testmengen dar. Werden vor der Klassifikation alle Trainingsbilder um 4 

Pixel nach links und alle Testbilder um 4 Pixel nach rechts verschoben, so liegt 

die Fehlerrate im Bereich um 88% (siehe Abbildung 4.5). Das entspricht dem 

ersten Anschein nach in etwa noch der Qualität des zufälligen Ratens. 

Es fällt jedoch auf, dass sich mit Zunahme der Fehlerrate aufgrund der Translation 

insbesondere die falsch-positiv-Rate der 1 erhöht (Zeile eins in allen Spalten 

außer der zweiten). Mit dieser gegenläufigen Verschiebung von Trainings- und 

Testmenge neigt der k-NN-Algorithmus mit Hammingabstand dazu, einfach alle 

Bilder als 1 zu klassifizieren. Würde die Testmenge gar keine Einsen beinhalten, 

ginge die Fehlerrate gegen 100%. 

Tabelle 4.5 zeigt ein exemplarisches Klassifikationsergebnis mit gegenläufiger 

Verschiebung um 4 Pixel. 230 der 500 Testbilder wurden darin als 1 klassifi- 

36




0 1 2 3 4 5 6 7 8 9 

0 44 0 0 1 0 1 1 0 0 0 

1 1 50 8 2 12 3 0 8 8 3 

2 0 0 33 0 0 0 0 0 1 0 

3 0 0 0 41 0 4 0 0 9 0 

4 0 0 1 1 28 0 1 0 2 7 

5 2 0 0 1 0 37 1 0 4 1 

6 3 0 0 1 0 4 47 0 3 0 

7 0 0 7 0 1 1 0 39 0 3 

8 0 0 1 3 0 0 0 0 23 0 

9 0 0 0 0 9 0 0 3 0 36 

Tabelle 4.4: 4-NN-Klassifikation mit Hammingabstand auf zufällig verschobenen Ziffern 

(Fehlerrate: 24, 4%). 

100 


50 

0 

1 2 3 4 5 6 7 8 9 10 

Durchgang 

Abbildung 4.5: Fehlerrate der 4-NN-Klassifikation auf horizontal gegenläufig um 4 

Pixel verschobener Trainings- und Testmenge in 10 unabhängigen Durchgängen 

ziert, für 196 davon ist das falsch. Dieser Trend ist tendenziell bereits in der 

Konfusionsmatrix bei zufälliger Translation zu erkennen (Tabelle 4.4). 

Im Vergleich mit den zentrierten binären Bildern liegt die Klassifikationsgüte 

bei verschobenen binären Bildern also weitaus schlechter. Bereits die zufällige 

horizontale und vertikale Translation im Bereich −4 bis +4 Pixel erhöht die Fehlerrate 

erheblich. Bei gegenläufiger Verschiebung von Trainings- und Testmenge 

nimmt die Klassifikationsgüte sehr schnell massiv ab. Translationsinvarianz ist 

also offensichtlich nicht gegeben. 

Die Verwendung des Hammingabstands als Ähnlichkeitsdistanz für k-NN-Klassifikation 

setzt folglich eine präzise Normierung der Bilder voraus, denn eben 

37




0 1 2 3 4 5 6 7 8 9 

0 0 0 0 2 0 0 0 0 0 0 

1 26 34 22 29 29 28 20 10 14 18 

2 5 2 5 5 12 3 4 0 1 11 

3 0 0 0 0 0 1 0 0 1 0 

4 9 3 2 2 6 3 22 0 14 2 

5 3 1 11 6 1 7 0 35 3 14 

6 1 0 9 0 0 0 1 0 0 0 

7 6 10 1 6 2 8 3 4 17 3 

8 0 0 0 0 0 0 0 1 0 2 

9 0 0 0 0 0 0 0 0 0 0 

Tabelle 4.5: Konfusionsmatrix der 4-NN-Klassifikation mit Hammingabstand auf gegenläufig 

um 4 Pixel verschobener Trainings- und Testmenge (Fehlerrate: 88, 6%. 

diese Normierung hat hier offenbar erheblichen Einfluß auf die Klassifikationsgüte. 

4.2.2 Levenshtein-Distanz 

Bereits im Jahre 1965 veröffentlichte V. I. Levenshtein eine Arbeit zur eindeutigen 

Korrektur von fehlerhaft übertragenen Strings [Lev65]. Jeder Fehler ist 

demnach durch genau eine der Operationen ” 

Löschen“, ” 

Einfügen“ oder ” 

Ersetzen“ 

zu korrigieren. Die Anzahl der Fehler entspricht also genau der Anzahl 

der zur Korrektur notwendigen Operationen. 

Definition 4.6. Seien x, y ∈ {0, 1} ∗ , dann entspricht die Levenshtein-Diszanz 

d L (x, y) der minimalen Anzahl von Operationen Löschen, Einfügen und Ersetzen 

auf einzelne Symbole von y um daraus x zu erzeugen. 

Man kann also y als fehlerbehaftete Darstellung von x ansehen. Ein kürzestes 

Programm, das die Korrekturoperationen entsprechend Definition 4.6 ausführt, 

transformiert dann die Eingabe y nach x. Die Länge dieses Programms verhält 

sich im Wesentlichen proportional zur Levenshtein-Distanz, da die Operationen 

einfach in kodierter Form hintereinander aufgelistet werden können. Alle drei 

Operationen benötigen als zusätzliche Information die Position im String, an 

der sie ausgeführt werden sollen. Einfügen und Ersetzen brauchen als Eingabe 

zusätzlich das an die enstprechende Position zu schreibende Symbol. Da unser 

Alphabet aber nur aus zwei Symbolen besteht und lediglich drei Operationen 

zur Verfügung stehen, sind deren Kodierungen entsprechend kurz. Die Strings 

38


können aber beliebig lang sein. Deshalb nimmt die Kodierung der Positionen 

den meisten Platz in Anspruch. Die minimal unterschiedliche Kodierungslänge 

der Operationen können wir darum ignorieren. Analog zum Hammingabstand 

fassen wir diese Kodierung als Approximation der Informationsdistanz auf (siehe 

Definition 2.10). 

Die Levenshtein-Distanz erlaubt im Vergleich zum Hammingabstand jedoch eine 

verbesserte Approximation der Kolmogorov-Komplexität. Erstens ermöglicht 

sie die Bestimmung einer Ähnlichkeit von Strings verschiedener Länge. Zweitens 

ist der Hammingabstand bei Strings gleicher Länge immer eine Obergrenze für 

die Levenshtein-Distanz. Ist nämlich der Hammingabstand d H (x, y) = k, dann 

ist eine Korrektur von y nach x mit k Ersetzungen möglich. Durch den geschickten 

Einsatz von Lösch- und Einfügeoperationen könnte eine Korrektur 

aber auch in weniger Schritten möglich sein. Also ist d L (x, y) k. 

Satz 4.7. Die Levenshtein-Distanz ist eine Metrik. 

Beweis. Für die Identitätsbedinung d L (x, x) = 0 ist das unmittelbar klar, denn 

es sind keine Korrekturoperationen erforderlich. 

Die Invertierung einer Ersetzungsoperation (z.B. 0 für 1) erfolgt mittels der gegenteiligen 

Ersetzung (hier dann 1 für 0). Eine kürzere Variante kann es nicht 

geben, da die einzige Alternative eine Kombination aus Löschen und Einfügen 

und damit mindestens doppelt so lang ist. Wir bezeichnen im Folgenden die 

Transformation von y nach x als Hinweg und die Inverse als Rückweg. Ist eine 

Löschoperation Teil des kürzesten Hinwegs, so bedarf es für die Invertierung einer 

Einfügeoperation. Könnte man auf dem Rückweg auf diese Einfügeoperation 

verzichten, da sie Teil einer Kombination aus Löschen- und Einfügen ist, dann 

hätte man auf dem Hinweg bereits auf die Löschoperation verzichten können, da 

sie ebenfalls Teil einer Löschen- und Einfügen-Kombination sein muss. Stattdessen 

hätte man die Ersetzungsoperation gewählt. Dann wäre aber der Hinweg 

nicht der kürzeste gewesen, was ein Widerspruch zur Annahme ist. 

Gleiches gilt für die Invertierung einer Einfügeperation auf dem Hinweg. Damit 

ist auch die Symmetriebedingung d L (x, y) = d L (y, x) erfüllt. Die Erfüllung 

der Dreiecksungleichung ergibt sich implizit aus der Definition. Jeder explizit 

geforderte Zwischenschritt liegt entweder auf einem kürzesten Weg oder erhöht 

die Anzahl der Operatoren. 

Wir haben bereits argumentiert, dass die Levenshtein-Distanz als Approximation 

der Informationsdistanz besser geeignet ist als der Hammingabstand. Ob 

sich diese theoretischen Überlegungen in der Praxis bestätigen, werden wir nun 

experimentell überprüfen. Die Laufzeit des Algorithmus zur Berechnung der 

Distanz d L (x, y) liegt in O(mn), wobei m und n die Längen der Strings x und y 

bezeichnen [WF74]. Bei gleich langen Strings ist die Laufzeit also O(n 2 ). Zwar 

ist polynomielle Laufzeit gleichbedeutend mit effizienter Berechenbarkeit, diese 

Definition von Effizienz ist in der Praxis aber mit Vorsicht zu genießen. Ein 

Klassifikationstest mit vertretbarem Rechenaufwand ist mit der Levenshtein- 

39


9.5 


9 

8.5 

8 

7.5 

3 4 5 6 7 8 9 

k 

Abbildung 4.6: Entwicklung der durchschnittlichen Fehlerrate aus jeweils 5 Durchgängen 

bei variablem k für k-NN-Klassifikation mit Levenshtein-Distanz (Bestes Ergebnis: 

k = 4 mit 8, 2%) 

Distanz nur auf einem reduzierten MNIST-Datenbestand möglich. Wie schon 

zuvor beim Hammingabstand wählen wir zufällig 300 Trainings- und 50 Testbilder 

je Ziffer aus und führen die Klassifizierung mit k-NN durch. Für jedes 

k ∈ [3; 9] wiederholen wir diesen Vorgang 5 mal, um statistische Abweichungen 

aufzufangen. 

Beim Hammingabstand haben wir gezeigt, dass die einfache Prüfung auf Gleichheit 

der Grauwerte die Klassifikationsgüte deutlich reduziert. Stattdessen wurden 

die Grauwerte mittels eines Grenzwerts α in das binäre Alphabet überführt 

(siehe Gleichung (4.10). Genauso gehen wir auch hier vor und übernehmen den 

beim Hammingabstand ermittelten Grenzwert α = 41. 

Im Verlauf der experimentellen Untersuchungen lieferte die k-NN Klassifikation 

mit k = 4 die beste durchschnittliche Fehlerrate. Diese liegt bei 8, 2%. Wir 

haben bei diesem Test für jedes k ∈ [3; 9] jeweils 5 mal zufällig 300 Trainingsund 

50 Testbilder je Ziffer zufällig ausgewählt und die Klassifikation mit der 

Levenshtein-Distanz durchgeführt. Abbildung 4.6 zeigt die Entwicklung der 

durchschnittlichen Fehlerrate bei variablem k. 

Eine repräsentative Konfusionsmatrix für die 4-NN-Klassifikation mit eben dieser 

besten Fehlerrate von 8, 2% ist in Tabelle 4.6 verzeichnet. Die Klassifikationsgüte 

mit der Levenshtein-Distanz liegt also im Vergleich zum Hammingabstand 

leicht schlechter. 

Deutlich besser als der Hammingabstand schneidet die Levenshtein-Distanz bei 

der Klassifikation von horizontal und vertikal verschobenen Ziffern ab. Im Experiment 

wurden wiederum die verwendeten Ziffern von Trainings- und Testmenge 

gegenläufig um 4 Pixel verschoben. Im den Experimenten konnten wir mit k = 5 

die besten Ergebnisse erzielen. Dazu wurden wiederum für jedes k ∈ [3; 9] 5 

Testdurchgänge durchgeführt. Die Entwicklung der durchschnittlichen Fehlerrate 

bei variablem k ist in Abbildung 4.7 ersichtlich. Sie liegt für k = 5 bei 

gerade einmal 10, 4%. 

Die zugehörige Konfusionsmatrix in Tabelle 4.7 weist keine Auffälligkeiten auf. 

40


Tatsächliche Ziffer 


0 1 2 3 4 5 6 7 8 9 

0 48 0 1 0 0 0 0 0 0 0 

1 0 49 0 2 1 2 2 2 1 1 

2 0 0 42 1 0 0 0 0 0 0 

3 0 0 1 45 0 7 0 0 0 0 

4 0 0 0 0 48 0 0 0 0 2 

5 1 0 0 1 0 38 0 0 0 0 

6 0 0 5 0 0 2 48 0 1 0 

7 0 0 1 1 0 1 0 47 0 0 

8 1 1 0 0 0 0 0 0 47 0 

9 0 0 0 0 1 0 0 1 1 47 

Tabelle 4.6: Konfusionsmatrix der 4-NN-Klassifikation mit Levenshtein-Distanz (Fehlerrate: 

8, 2%) 

9.5 


9 

8.5 

8 

7.5 

3 4 5 6 7 8 9 

k 

Abbildung 4.7: Durchschnittliche Fehlerrate bei 5 Durchgängen je k für k-NN- 

Klassifikation mit Levenshtein-Distanz auf gegenläufig horizontal um 4 Pixel verschobener 

Trainigs- und Testmenge 

Für einige Ziffern zeigt sich die Anzahl der richtig-positiv klassifizierten Bilder 

sogar verbessert. 

Aufgrund der Ergebnisse unserer Experimente können wir für die Levenshtein- 

Distanz eine gute Translationsinvarianz feststellen. Zwar erhöht sich die Fehlerrate 

leicht von 8, 2 auf 10, 2%, dieser Unterschied ist aber nicht signifikant. 

41




0 1 2 3 4 5 6 7 8 9 

0 50 0 2 1 0 0 0 0 1 0 

1 0 50 1 1 0 0 1 3 1 1 

2 0 0 38 1 0 0 0 0 1 0 

3 0 0 2 37 0 3 0 0 1 0 

4 0 0 0 0 48 1 0 0 0 0 

5 0 0 0 8 0 44 0 0 1 0 

6 0 0 5 0 0 0 49 0 2 0 

7 0 0 2 0 0 1 0 43 0 2 

8 0 0 0 0 0 0 0 0 43 2 

9 0 0 0 2 2 1 0 4 0 45 

Tabelle 4.7: Konfusionsmatrix einer 5-NN-Klassifikation mit Levenshtein-Distanz auf 

gegenläufig horizontal um 4 Pixel verschobenen Ziffern (Fehlerrate: 10, 6%) 

4.2.3 Euklidischer Abstand 

Der Euklidische Abstand zweier Punkte x, y ∈ R 3 ist anschaulich genau die 

Streckenlänge zwischen x und y. Für höhere Dimensionen ist das jedoch nicht 

mehr so plastisch vorstellbar. Im allgemeinen Fall R n entpricht der Euklidische 

Abstand der 2-Norm 1 des Differenzvektors zwischen x und y. 

Definition 4.8. Der Euklidische Abstand zwischen zwei Punkten x, y ∈ R n ist 

∑ 

d E (x, y) = ‖ x − y ‖ 2 = √ n (x i − y i ) 2 . (4.12) 

Die Definition beschränkt sich also wie beim Hammingabstand auf Strings gleicher 

Länge. Die Erfüllung der Metrikeigenschaften Identität“ und Symmetrie“ 

” ” 

sind leicht einzusehen. Mit 

∑ 

d E (x, x) = √ n (x i − x i ) 2 = 0 (4.13) 

i=1 

ist zunächst die Identitätseigenschaft unmittelbar gezeigt. Wegen (x i − y i ) 2 = 

(y i −x i ) 2 gilt das auch für die Symmetriebedingung. Bei der Dreiecksungleichung 

ist das nicht unmittelbar klar. Trotzdem gilt 

Theorem 4.9. Der Euklidische Abstand erfüllt die Dreicksungleichung. 

i=1 

1 Die 2-Norm wird auch als Euklidische Norm bezeichnet. 

42


Beweis. Dies leiten wir direkt aus der Minkowskischen Ungleichung ab. Sei 

|x| = |y| = n, dann ist 

∑ 

d E (x, z) = √ n ‖x i − z i ‖ 2 

i=1 

∑ 

= √ n ‖(x i − y i ) + (y i − z i )‖ 2 

i=1 

∑ 

√ n ∑ 

‖x i − y i ‖ 2 + √ n ‖y i − z i ‖ 2 

i=1 

i=1 

= d E (x, y) + d E (y, z) 

Die Dreicksungleichung ist also erfüllt. 

Daraus folgt dann unmittelbar 

Satz 4.10. Der Euklidische Abstand ist eine Metrik. 

In gewisser Weise handelt es sich beim Euklidischen Abstand um eine Verallgemeinerung 

des Hammingabstands. Die Summanden zur Berechnung nach 

Definition 4.8 haben bei Binärstrings immer dann den Wert 1, wenn die beiden 

entsprechenden korrespondierenden Komponenten x i und y i verschieden 

sind ((0 − 1) 2 = (1 − 0) 2 = 1). Bei Gleichheit ist der Wert des Summanden 

(0 − 0) 2 = (1 − 1) 2 = 0. Die Summe entspricht also dem Hammingabstand. 

Seien x 1 , x 2 , y ∈ {0, 1} n , dann gilt 

d H (x 1 , y) > d H (x 2 , y) ⇔ √ d H (x 1 , y) 

> √ d H (x 2 , y) ⇔ d E (x 1 , y) > d E (x 2 , y). 

Im Rahmen der Klassifikation interessieren wir uns weniger für die absoluten 

Distanzen als für paarweise Vergleiche. Darum ist es für die Klassifikationsgüte 

bei Binärstrings unerheblich, ob wir den Hammingabstand oder den Euklidischen 

Abstand verwenden. Das Ergebnis ist identisch. 

Bei der Anwendung auf die Graubilder zeigen sich jedoch signifikante Unterschiede. 

Im Gegensatz zum Hammingabstand gewichtet der Euklidische Abstand 

die absoluten Differenzen der korrespondierenden Pixel implizit, d.h. kleine 

Differenzen zwischen korrespondierenden Pixeln wirken sich weniger auf den 

Euklidischen Abstand aus als große Differenzen. Dieser vermeintliche Vorteil 

bestätigt sich auch im Experiment. Mit k = 3 konnten wir bei der Klassifikation 

des gesamten MNIST-Datenbestands eine Fehlerrate von 2, 8% erreichen. 

Alle anderen Werte für k erzielten schlechtere Ergebnisse (siehe Abbildung 4.8). 

Die zugehörige Konfusionsmatrix ist in Tabelle 4.8 verzeichnet. 

Wie auch beim Hammingabstand befinden sich die häufigsten Klassifikationsfehler 

an den Stellen, die man auch intuitiv vermuten würde. So werden wiederum 

relativ viele Bilder der Ziffer 4 als 9 klassifiziert und Bilder der 7 als 

43


3.4 


3.2 

3 

2.8 

3 4 5 6 7 8 9 

k 

Abbildung 4.8: Entwicklung der Fehlerrate mit k-NN-Klassifikation und Euklidischer 

Distanz bei variablem k auf dem vollständigen MNIST-Datenbestand (Bestes Ergebnis: 

k = 3 mit 2.8%) 



0 1 2 3 4 5 6 7 8 9 

0 974 0 9 0 0 4 4 0 7 3 

1 1 1133 7 1 5 1 3 18 0 4 

2 1 2 997 4 0 0 0 4 3 2 

3 0 0 2 975 0 12 0 0 13 7 

4 0 0 0 1 948 2 4 2 5 9 

5 1 0 0 13 0 860 3 0 11 4 

6 2 0 1 1 5 5 944 0 3 1 

7 1 0 14 7 4 1 0 994 4 8 

8 0 0 2 4 1 3 0 0 923 2 

9 0 0 0 4 19 4 0 10 5 969 

Tabelle 4.8: Konfusionsmatrix für 3-NN-Klassifikation mit Euklidischem Abstand auf 

die Graubilder (Fehlerrate: 2, 8%). 

1. Absolut betrachtet, ist das jedoch sehr selten der Fall und die Fehlerrate 

entsprechend klein. 

Auf dem reduzierten Datenbestand zeigt sich ein ähnliches Bild. Entsprechend 

der in Abbildung 4.9 zusammengefassten Testergebnisse erreicht k = 4 die 

durchschnittlich beste Fehlerrate von 7, 7%. Für diesen Versuch haben wir jedes 

k ∈ [3; 9] 10 mal getestet, die Fehlerraten ermittelt und über jedes k 

den Durchschnitt gebildet. Tabelle 4.9 zeigt eine diesem Testergebnis entsprechende 

Konfusionsmatrix mit einer Fehlerrate von 7, 8%. Wie auch schon beim 

Hammingabstand ist die Klassifikationsgüte im Vergleich zum vollständigen Datensatz 

um einige Prozentpunkte schlechter. Das führen wir auch hier auf die 

44



9 

8.5 

8 

7.5 

3 4 5 6 7 8 9 

k 

Abbildung 4.9: Entwicklung der Fehlerrate mit k-NN-Klassifikation und Euklidischer 

Distanz auf dem reduzierten Datenbestand (Bestes Ergebnis: k = 4 mit 7.7%) 



0 1 2 3 4 5 6 7 8 9 

0 49 0 3 0 0 0 0 0 1 1 

1 0 50 1 1 1 1 0 1 1 0 

2 0 0 41 0 0 0 0 0 0 0 

3 0 0 0 46 0 2 0 0 1 0 

4 0 0 0 0 45 0 0 0 0 1 

5 0 0 0 0 0 44 0 0 1 0 

6 1 0 0 0 0 2 50 0 0 0 

7 0 0 5 1 0 0 0 46 1 0 

8 0 0 0 2 0 0 0 0 42 0 

9 0 0 0 0 4 1 0 3 3 48 

Tabelle 4.9: Konfusionsmatrix der 4-NN-Klassifikation mit Euklidischem Abstand 

(Fehlerrate: 7, 8%) 

deutlich reduzierte Trainingsmenge zurück. 

Bezüglich der Translationsinvarianz zeigt die Euklidische Distanz ein ähnlich 

schlechtes Verhalten, wie der Hammingabstand. Sowohl bei zufälliger, als auch 

bei gegenläufiger Translation von Trainings- und Testbildern, sind die Fehlerraten 

auf vergleichbarem Niveau. Auch das Phänomen des Anstiegs der falschpositiv-Rate 

der 1 findet sich in sehr ähnlicher Höhe wieder. Wir verzichten 

daher für die Euklidische Distanz auf die Darstellung weiterer Ergebnisse. 

45


4.2.4 Mittlerer quadratischer Fehler 

Der mittlere quadratische Fehler Mse 2 kommt häufig im Rahmen der Bildkodierung 

zum Einsatz. Dort dient er als Maß für den Rekonstruktionsehler nach 

verlustbehafteter Kodierung, z.B. bei der Vektorquantisierung [RH96]. 

Definition 4.11. Seien x, y ∈ R M×N zwei Graubilder der Größe M ×N. Seien 

x (m,n) und y (m,n) die jeweiligen Grauwerte der Pixel an Position (m, n). Dann 

ist 

Mse(x, y) = 1 

MN 

M∑ 

m=1 n=1 

der mittlere quadratische Fehler zwischen x und y. 

N∑ ( ) 2 x(m,n) − y (m,n) , (4.14) 

Möglicherweise erscheint die Bezeichnung als Fehler im Zusammenhang mit 

Bildklassifikation auf den ersten Blick unpassend. Stellen wir uns analog zur 

exemplarischen Demonstration beim Hammingabstand (siehe Abschnitt 4.2.1) 

einen Präfixcode vor, dessen Länge sich proportional zum Mse verhält. Eine 

solche Kodierung fassen wir als Programm p auf, das auf Eingabe y die Ausgabe 

x erzeugt und umgekehrt. Gewissermaßen korrigiert p die Eingabe so, dass 

das Ergebnis der gewünschten Ausgabe entspricht. Insofern können wir y als 

fehlerbehaftete Variante von x ansehen und umgekehrt. 

Satz 4.12. Der mittlere quadratische Fehler Mse ist eine Metrik. 

Beweis. Die Identitätsbedingung ist wegen 

Mse(x, x) = 1 

MN 

∑ ∑ 

m 

n 

( 

x(m,n) − x (m,n) 

) 2 = 

0 

MN = 0 (4.15) 

erfüllt. Aufgrund von (x (m,n) − y (m,n) ) 2 = (y (m,n) − x (m,n) ) 2 ist die Symmetrie 

für alle Summanden in der Mse-Formel und damit auch für die Mse selbst 

gegeben. 

Um zu zeigen, dass die Dreiecksungleichung ebenfalls erfüllt wird, erzeugen wir 

einen Widerspruch. Die Situation Mse(x, z) > Mse(x, y) + Mse(y, z) erfordert 

mindestens eine Position mit Pixelkoordinaten (m, n), an der 

( 

x(m,n) − z (m,n) 

) 2 > 

( 

x(m,n) − y (m,n) 

) 2 + 

( 

y(m,n) − z (m,n) 

) 2 

gilt. Nehmen wir an, eine solche Position existiert und wir nennen sie i. Aufgrund 

der Symmetrieeigenschaft können wir ohne Einschränkung der Allgemeingültigkeit 

x i z i annehmen. Ferner ist zu berücksichtigen, dass Pixelwerte 

2 Abk. für engl. Mean Square Error 

46


nicht negativ sind. Damit ist 

⇔ 

⇔ 

⇔ 

⇔ 

(x i − z i ) 2 > (x i − y i ) 2 + (y i − z i ) 2 

x 2 i − 2x i z i + z 2 i > x 2 i − 2x i y i + y 2 i + y 2 i − 2y i z i + z 2 i 

x i z i − x 2 i 

} {{ } 

< 0 (wegen z i x i ) 

0 > y 2 i − x i y i + x i z i − y i z i 

0 > yi 2 − x i y i + x 2 i − (z i − x i )x i − y i x 

}{{} i 

wegen z i x i 

> (x i − y i ) 2 

} {{ } 

0 

Die Mse erfüllt also die Dreiecksungleichung und damit alle alle Eigenschaften 

einer Metrik. 

Der Mse ist in unserer Auflistung der Standardmaße nur deshalb vertreten, weil 

er, wie bereits eingangs erwähnt, häufig im Rahmen der Bildkodierung zum Einsatz 

kommt. Bezüglich der Klassifikationsergebnisse mit dem k-NN-Algorithmus 

und Mse als Ähnlichkeitsdistanz sind aufgrund seiner Proportionalität zur Euklidischen 

Distanz keine Verbesserungen zu erwarten. Da wir keine gewichtende 

Variante des k-NN-Algorithmus verwenden, sind letztlich für die Klassifikation 

nur relative und nicht die absoluten Distanzen entscheidend. So können proportionale 

Ähnlichkeitsdistanzen keine unterschiedlichen Ergebnisse erzielen. 

4.2.5 Spitzenwert des Signal-/Rauschverhältnisses 

Der Spitzenwert des Signal-/Rauschverhältnisses Psnr 3 ist ein Maß für den 

maximalen Fehler zwischen zwei Bildern. 

Definition 4.13. Sei I max der insgesamt höchste Grauwert der Bilder I A und 

I K . Sei ferner I K eine Rekonstruktion von Bild I A nach verlustbehafteter Kompression. 

Dann ist 

I 2 max 

Psnr(I A , I K ) = 10 ∗ log 10 

Mse(I A , I K ) 

der Spitzenwert des Signal-/Rauschverhältnisses zwischen Bild I A und I K . 

(4.16) 

Letztlich führen wir diesen Wert ebenfalls nur der Vollständigkeit halber auf, da 

er in der Literatur häufig im Zusammenhang mit Bildkompression zu finden ist. 

Bei den im Rahmen dieser Arbeit zu klassifizierenden Bildern ist I max immer 

gleich 255. Ferner beinhaltet die Definition neben diesem I max nur den mittleren 

quadratischen Fehler als Variable. Für den haben wir im vorherigen Abschnitt 

bereits die Proportionalität zum Euklidischen Abstand diskutiert und festgestellt, 

dass keine verbesserten Ergebnisse zu erwarten sind. Gleiches gilt darum 

auch für den Spitzenwert des Signal-/Rauschverhältnisses. 

3 Abk. für engl. Peak Signal Noise Ratio 

47


4.3 PPM-basierter Abstand 

4.3.1 Entropiekodierung 

Jedes einzelne Symbol eines zu kodierenden Strings enthält eine bestimmte Menge 

an Information über den gesamten String. Was genau wir in diesem Sinne 

unter Information verstehen, werden wir in Kürze erläutern. Bei Entropiekodiererungen 

spiegelt sich die in einem Symbol enthaltene Menge an Information 

proportional in seiner Kodierungslänge wieder. Der Informationsgehalt eines 

Symbols verhält sich umgekehrt proportional zu seiner Auftrittswahrscheinlichkeit. 

Definition 4.14. Sei X ein endliches Alphabet und sei p(x) für alle x ∈ X 

deren Auftrittswahrscheinlichkeit. Dann ist 

der Informationsgehalt des Symbols x. 

I(p(x)) = − log 2 p(x) 

Der Informationsgehalt wird in Bits gemessen. Je Bit kann also genau eine 

Einheit ” 

Information“ gespeichert werden. Damit ist zunächst einmal die in 

jedem Symbol eines Strings enthaltene Information quantitativ erfassbar. 

Definition 4.15. Sei X ein endliches Alphabet und sei p(x) für alle x ∈ X 

deren Auftrittswahrscheinlichkeit. Dann ist 

H(X) = ∑ x∈X 

p(x)I(p(x) = − ∑ x∈X 

p(x) log 2 p(x) (4.17) 

die Entropie von X. 

Letztlich beinhaltet ein String implizit ein Alphabet und eine Wahrscheinlichkeitsverteilung 

der Symbole. Bei der Entropie handelt es sich um den Erwartungswert 

des Informationsgehalts für die Symbole. Nach dem Satz von 

L’Hospital gilt lim p(x)→0 p(x) log 2 p(x) = 0. Summanden mit geringer Wahrscheinlichkeit 

spielen für die Summe also nur eine untergeordnete Rolle. Die 

Entropie bleibt klein. Gleiches gilt auch für große Wahrscheinlichkeiten, denn 

lim p(x)→1 p(x) log 2 p(x) = 0. Damit tragen auch große Wahrscheinlichkeiten wenig 

zur Summe bei. Abbildung 4.10 zeigt den entsprechenden Kurvenverlauf. 

Wenig wahrscheinliche Symbole haben zwar einen hohen Informationsgehalt, 

kommen aber selten vor. Darum sorgen sie insgesamt nicht für eine wesentliche 

Erhöhung des mittleren Informationsgehalts. Häufig vorkommende Symbole 

tragen aufgrund Ihres geringen Informationsgehalts ebenfalls nicht signifikant 

zu höherer Entropie bei. Relevant sind die Symbole mit mittleren Wahrscheinlichkeiten. 

Gibt es davon viele, so ist die Entropie relativ hoch. 

Übertragen wir dies auf einen Entropiekodierer, ist ein niedriger Informationsgehalt 

eines Symbols gleichbedeutend mit einem kurzem Codewort. Ein hoher 

48

4.3. PPM -basierter Abstand 

0.6 

−p(s)log 2 

(p(s) 

0.4 

0.2 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

p(s) 

Abbildung 4.10: Kurvenverlauf der Funktion f(p(x)) = −p(x) log 2 p(x) 

Informationsgehalt entspricht einem langen Codewort, welches aber nur selten 

vorkommt. Auch für die Länge des gesamten kodierten Strings sind also die 

Symbole mit mittlerer Wahrscheinlichkeit hauptverantwortlich. 

Ein gegebener String enthält die Symbole eines Alphabets mit einer bestimmten 

Wahrscheinlichkeit. Die Kodierungslänge ist bei Entropiekodierung also zumindest 

proportional zur Entropie des Strings. Im Idealfall sind Länge und Entropie 

identisch. Da die Entropie im Allgemeinen jedoch nicht ganzzahlig ist, kann ein 

wirklich optimaler Kodierer nicht realisiert werden. Je länger der zu kodierende 

String aber ist, desto besser ist eine Approximation möglich. 

4.3.2 Arithmetische Kodierung 

Die arithmetische Kodierung gehört zur Familie der Entropiekodierer. Der Name 

ist darauf zurückzuführen, dass für Kodierung und Dekodierung lediglich 

arithmetische Oprationen verwendetet werden. 

Das Intervall der reellen Zahlen zwischen 0 und 1, [0, 1] = {x ∗ ∈ R|0 x ∗ 1} 

beinhaltet unendlich viele Elemente 4 . Die arithmetische Kodierung nutzt genau 

diesen Umstand aus. Einem beliebig langen endlichen String x, bestehend aus 

Symbolen eines beliebig großen endlichen Alphabets Σ wird ein Suberintervall 

von [0; 1] zugeordnet. Der Repräsentant x ∗ ist ein beliebiges Element dieses 

Subintervalls, z.B. seine untere Grenze. Sind dem Dekoder Σ und x ∗ bekannt, 

so kann daraus x eindeutig rekonstruiert werden 5 . 

Die Qualität der arithmetischen Kodierung basiert auf dem zugrunde liegenden 

Wahrscheinlichkeitsmodell. Prinzipiell generiert ein Symbol s, das im zu 

kodierenden String x mit höherer Wahrscheinlichkeit P x (s) vorkommt, weniger 

Bits in der Kodierung. Wenig wahrscheinliche, also seltene Symbole sorgen für 

eine größere Verlängerung der Kodierung. Das Verfahren basiert jedoch nicht 

4 Genau genommen sind es sogar überabzählbar unendlich viele. 

5 Die Bezeichnung des Repräsentanten mit x ∗ ist im Rahmen der Nomenklatur dieser Arbeit 

nur konsequent, denn letztlich handelt es sich dabei um eine komprimierte Darstellung des 

Strings x. 

49


0, 0 

0, 7 

0, 8 

0, 0 

x 1 

0, 49 

x 2 

0, 56 

x 3 

0, 49 

x 1 

0, 539 

x 2 

0, 546 

x 3 

0, 546 

x 1 

0, 5558 

x 2 

0, 5572 

x 3 

x 1 

x 2 

x 3 

1, 0 

0, 7 

0, 56 

0, 56 

Abbildung 4.11: Entwicklung der Subintervalle bei arithmetischer Kodierung des 

Strings x 1 x 2 x 3 [Say00]. 

auf einem statischen Wörterbuch. Die Kodierung eines Symbols s ∈ Σ erzeugt 

dementsprechend nicht immer die gleiche Bitfolge. Arithmetische Kodierung ist 

in dieser Hinsicht dynamisch. Dies wollen wir nun durch ein Beispiel verdeutlichen 

[Say00]. 

Beispiel 4.16. Sei Σ = {x 1 , x 2 , x 3 } mit P (x 1 ) = 0, 7, P (x 2 ) = 0, 1 und 

P (x 3 ) = 0, 2. Entsprechend dieser Wahrscheinlichkeiten partitionieren wir nun 

das Intervall [0; 1). Dem Symbol x 1 wird das Subintervall [0; 0, 7) zugeordnet, 

x 2 erhält das Subintervall [0, 7; 0, 8) und x 3 entsprechend [0, 8 1). Die jeweilge 

Obergrenze der Subintervalle entspricht also der kumulierten Wahrscheinlichkeit. 

Da es sich um rechtsoffene Subintervalle handelt, überschneiden sie sich 

nicht. 

Nun wollen wir den String x 1 x 2 x 3 kodieren. Das erste Symbol ist x 1 und das 

zugehörige Subintervall ist [0; 0, 7). Dieses Subintervall teilen wir nun analog 

zur ursprünglichen Partitionierung wiederum basierend auf den Wahrscheinlichkeiten 

neu auf. In dieser neuen Partitionierung gilt dann x 1 ̂= [0; 0, 49), 

x 2 ̂= [0, 49; 0, 56) und x 3 ̂= [0, 56; 0, 7). Das zweite Symbol des zu kodierenden 

Strings ist x 2 . Das zugehörige Subintervall ist [0, 49; 0, 56). Nach erneuter Partitionierung 

ergibt sich für das dritte zu kodierende Symbol x 3 das Subintervall 

[0, 546; 0, 56). 

Damit ist 0, 546 als Untergrenze ein möglicher Repräsentant des Strings x 1 x 2 x 3 

unter der gegebenen Wahrscheinlichkeitsverteilung. Abbildung 4.11 illustriert 

die Subintervallbildung in anschaulicher Weise. 

Symbole mit geringer Auftrittswahrscheinlichkeit resultieren zunächst also in 

kleinen Intervallen. Das führt wiederum in der Regel zu mehr Nachkommastellen 

der neuen Subintervallgrenzen. Zwar ist es im manchen Fällen möglich, 

auch innerhalb eines kleinen Intervalls Repräsentanten mit kurzer Darstellung 

zu finden. Im Allgemeinen ist das aber nicht der Fall. Symbole mit hoher Auf- 

50


trittswahrscheinlichkeit werden durch große Intervalle dargestellt, was am Ende 

zu weniger Nachkommastellen des Repräsentanten führt. Tendenziell gilt also, 

dass wenig wahrscheinliche Symbole den Repräsentanten stärker verlängern, als 

Symbole mit höherer Wahrscheinlichkeit. 

Ist dem Dekoder die Wahrscheinlichkeitsverteilung bekannt, dann kann dieser 

den ursprünglichen String eindeutig und fehlerfrei rekonstuieren. Betrachten 

wir dazu die Dekodierung zu Beispiel 4.16. 

Beispiel 4.17. Die 0, 546 ist unter der gegebenen Wahrscheinlichkeitsverteilung 

aus Beispiel 4.16 die Kodierung des Strings x 1 x 2 x 3 . Zur Rekonstruktion 

nutzen wir die gegebene Wahrscheinlichkeitsverteilung und dekodieren zunächst 

das erste Symbol wie folgt. Der Wert 0, 546 liegt offensichtlich im Subintervall 

[0; 0, 7). Dieses repäsentiert im Einheitsintervall [0; 1) das Symbol x 1 . Darum 

kann das erste Symbol des kodierten Strings nur x 1 sein. Analog zum Enkoder 

wird das Intervall [0; 0, 7) entsprechend der Wahrscheinlichkeiten der Symbole 

neu partitioniert. Die 0, 546 liegt im neuen Subintervall [0, 49; 0, 56), welches 

das Symbol x 2 repräsentiert. Zweites Symbol des kodierten Strings ist also x 2 . 

Nach erneuter Partionierung von [0, 49; 0, 56) stellt man fest, dass es sich beim 

dritten kodierten Symbol zweifelsfrei um x 3 handelt. 

Jetzt ist aber nicht unmittelbar klar, dass der kodierte String zu Ende ist. 

Deshalb wird in der Praxis am Ende des Strings ein Terminalsymbol kodiert, 

welches dem Dekoder dann als Abbruchkriterium dient. 

Je länger der zu kodierende String ist, desto enger rücken die absoluten Grenzen 

der Subintervalle im Verlauf der Kodierung zusammen. Das war in der Praxis 

aufgrund der beschränkten Darstellungsgenauigkeit der Zahlen im Rechner für 

lange Zeit ein Problem. Die inkrementelle Implementierung bietet nunmehr die 

entsprechende Lösung [SS08]. 

Die Subintervallgrenzen nach Kodierung des dritten Symbols in Beispiel 4.16 

sind 0, 546 und 0, 56. Nehmen wir an, der zu kodierende String wäre noch nicht 

zu Ende. Unabhängig davon, wie viele Symbole noch folgen, beginnen alle neuen 

Subintervallgrenzen mit 0.5 . . .. Es gibt also keinen Grund, diese Information 

während des gesamten Kodierungsprozesses durchzuschleifen. Schreiben wir also 

die 0.5 als initiale kumultative Ausgabe und rechnen ausschließlich mit den 

verbleibenden Nachkommastellen weiter (hier: 46 und 60). Diese kumultative 

Ausgabe wird immer dann um neue Nachkommastellen erweitert, wenn diese 

für den weiteren Verlauf der Kodierung fix sind. 

An die Stelle der Gleitkommaarithmetik tritt somit die ganzzahlige Arithmetik. 

Zu beachten ist, dass die ganzzahligen Intervallgrenzen so dargestellt werden, 

dass die folgenden neuen Subintervallgrenzen ebenfalls ganzzahlig sind. Im Beispiel 

wären 46 und 60 ungeeignet, stattdessen sind 460 und 600 zu verwenden. 

Das neue Subintervall für x 2 ist dann [558; 572). Ist x 2 auch das nächste zu 

kodierende Symbol, kann die kumultative Ausgabe auf 0, 55 erweitert werden 

(siehe auch Abbildung 4.11). Die beschränkte Gleitkommagenauigkeit ist also 

mittlerweile unproblematisch. Zwar ist auch die Größe der ganzzahligen Werte 

51


im Rechner beschränkt, diese Schranke ist jedoch so groß, dass sie in der Praxis 

kaum eine Rolle spielt. 

4.3.3 Prediction with Partial Matching 

Die arithmetische Kodierung, wie sie im vorherigen Abschnitt erläutert wurde, 

berücksichtigt in der gegebenen Wahrscheinlichkeitsverteilung die Häufigkeit 

der einzelnen Symbole. Dazu muss diese Wahrscheinlichkeitsverteilung dem Kodierer 

vorab bekannt sein. Das kann aber nicht immer vorausgesetzt werden. 

Prediction with Partial Matching (PPM ) setzt letztlich zwar auch auf arithmetische 

Kodierung, baut aber eine Art von Wahrscheinlichkeitsverteilung erst 

im Verlauf des Kodierungsprozesses auf [Say00]. Diese berücksichtigt mehr als 

lediglich die einfache Häufigkeit der Symbole im String. Wir bezeichnen sie im 

Folgenden als Statistik. 

Die Symbole des Strings werden einzeln und der Reihe nach arithmetisch kodiert. 

Prinzipiell wird dazu jeweils eine Statistik verwendet, die alle zuvor 

kodierten Symbole berücksichtigt. Ein Symbol, welches letztlich im gesamten 

String relativ häufig vorkommt, erhält also tendenziell im Verlauf der Kodierung 

immer kürzere Codewörter. 

Definition 4.18. Sei x = x 1 x 2 . . . x i . . . x n der zu kodierende String der Länge 

n, dann bezeichnet man den Teilstring x i−l x i−l+1 . . . x i−1 als Kontext der Ordnung 

l für das Symbol x i . 

PPM berücksichtigt diesen Kontext eines Symbols wie folgt. Die Statistik beinhaltet 

für jeden Kontext eine eigene Wahrscheinlichkeitsverteilung aller Symbole 

des Alphabets. Vor Beginn der Kodierung wird initial eine maximale Kontextordnung 

l festgelegt. Für jedes zu kodierende Symbol x i wird dann zunächst 

der maximale Kontext der Länge l ermittelt 6 . PPM prüft dann, ob x i für genau 

diesen Kontext in der Statistik bereits existiert. Ist das der Fall, dann wird 

x i entsprechend seiner bisherigen Wahrscheinlichkeit im Kontext arithmetisch 

kodiert. Anschließend werden in der Statistik noch die Häufigkeit von x i in dem 

Kontext um 1 erhöht und die Wahrscheinlichkeiten entsprechend angepasst. 

Für den Fall, dass x i in dem Kontext noch nicht vorhanden ist, wird es mit 

Häufigkeit 1 in die kontextspezifische Wahrscheinlichkeitsverteilung eingefügt. 

Dann wird ein sogenanntes Escape-Symbol esc kodiert. Dieses Symbol ist mit 

einer festen Häufigkeit von 1 in den Wahrscheinlichkeitsverteilungen aller Kontexte 

vorhanden. Nach der Kodierung von esc reduziert der Algorithmus die 

Kontextordnung um 1 und wiederholt das beschriebene Prozedere in dem nun 

kürzeren Kontext. Diese Wiederholung mit Reduzierung der Kontextordnung 

findet so häufig statt, bis x i in einem Kontext gefunden wurde und entsprechend 

kodiert werden kann. 

Damit dieses Verfahren in jedem Fall terminiert, ist die Statistik mit einer 

6 Für die ersten l Elemente ist der maximale Kontext natürlich entsprechend kleiner. 

52


Wahrscheinlichkeitsverteilung für die sogenannte Kontextordnung −1 initialisiert. 

Diese beinhaltet alle Symbole des Alphabets mit gleicher Wahrscheinlichkeit. 

Letztlich wird jedes Symbol, dass im String vorkommt, genau einmal in 

der Kontextordnung −1 kodiert. Ist das einmal passiert, wird das Symbol bei 

erneutem Erscheinen im String spätestens bei Kontextordnung 0 gefunden. So 

erhalten wir am Ende die Kodierung x ∗ des ursprünglichen Strings x. 

Die Dekodierung läuft im Prinzip analog zur Kodierung. Ähnlich der einfachen 

arithmetischen Dekodierung kann x unter Kenntnis von x ∗ und dem Alphabet 

eindeutig rekonstruiert werden [Say00]. 

4.3.4 PPM-Kodierungslänge als Distanzmaß 

Betrachten wir zunächst noch einmal die normalisierte Kompressionsdistanz 

Ncd nach Definition 2.20 in Kapitel 2. Für zwei Strings x, y ∈ {0, 1} ∗ gilt 

NCD(x, y) = 

Comp(x#y) − min {Comp(x), Comp(y)} 

. (4.18) 

max {Comp(x), Comp(y)} 

Ein wesentlicher Aspekt der Funktionsweise liegt darin, dass der verwendete 

Kompressionsalgorithmus für alle x, y ∈ Σ ∗ die Eigenschaften 

1. Idempotenz (Comp(x#x) = Comp(x) ) und 

2. Monotonie (Comp(x#x) = Comp(x)) 

möglichst gut erfüllt. Je ähnlicher sich x und y sind, desto mehr tendiert der 

Wert im Zähler und damit auch Ncd(x, y) gegen 0. Für den Fall der Gleicheit 

(x = y) ist dann 

Comp(x#x) − min {Comp(x), Comp(x)} = 0. (4.19) 

Die Erfüllung der Idempotenz-Eigenschaft basiert bei realen Kompressionsalgorithmen 

häufig darauf, dass bereits einmal kodierte Sequenzen in sehr kurzer 

Weise erneut kodiert werden können. Der Lempel-Ziv-Algorithmus macht das 

beispielsweise wie folgt. Taucht eine bereits kodierte Sequenz im String erneut 

auf, dann wird vereinfacht ausgedrückt lediglich ein Verweis auf die erste Position 

und die Länge dieser Sequenz kodiert. 

Je weniger solcher Wiederholungen von Sequenzen aus x in y vorhanden sind, 

desto mehr nähert sich Comp(x#y) der Summe beider Einzelkodierung Comp(x)+ 

Comp(y) an. In diesem Fall geht Ncd(x, y) gegen 1. 

Die arithmetische Kodierung und damit auch PPM erfüllen die Idempotenzbedingung 

nicht. Zwar ist arithmetische Kodierung bezüglich des Informationsgehalts 

einzelner Symbole nah an der Optimalität. Das sagt aber nichts über 

die Informationsmenge im Sinne der Kolmogorov-Komplexität des gesamten 

Strings. Diese kann deutlich geringer sein, als die Summe der Informationen 

53


aller Symbole. So gilt für die Länge der arithmetischen Kodierung A zweier 

Strings x und y unabhängig von Ihrer Ähnlichkeit 

A(x#y) ≈ A(x) + A(y) (4.20) 

Trotzdem wollen wir auf der Basis von PPM eine Approximation der Informationsdistanz 

der Bilder zweier Ziffern entwickeln. Unser Ansatz basiert auf der 

Überlegung, dass ähnliche Bilder im Verlauf der Kodierung mittels PPM auch 

ähnliche Statistiken erzeugen. 

Zum Vergleich zweier solcher Bilder x und y generieren wir zunächst nur deren 

Statistiken. Diese nennen wir s x und s y . Eigentlich würde PPM zusammen mit 

den Statistken auch gleich die Kodierungen erzeugen. Diese nutzen wir jedoch 

nicht. Stattdessen führen wir die arithmetische Kodierung mit den fertigen Statistiken 

durch. Wir bezeichnen im Folgenden die arithmetische Kodierung eines 

Strings y unter der Verwendung der Statistik s x mit A x (y). Bei s x handelt es 

sich um die für den String x optimale Statistik. Es gilt also 

∀x, y ∈ Σ ∗ : |A y (x)| |A x (x)|. (4.21) 

Nehmen wir an, unsere ursprüngliche Annahme, dass ähnliche Bilder auch 

ähnliche Statistiken erzeugen, sei zutreffend. Sind dann zwei Bilder x und y 

und folglich auch die Statistiken s x und s y ähnlich, dann ist 

d(x, y) = |A y (x)| − |A x (x)| (4.22) 

kleiner als bei stark unterschiedlichen Bildern aber nie kleiner als 0. Diese Differenz 

könnte bereits als nicht normierte Ähnlichkeitsdistanz dienen. Wir können 

dem Kodierungsalgorithmus A also eine Statistik s y vorgeben. Durch diese Statistik 

übergeben wir dem Algorithmus indirekt Information über das Bild y. 

Das Ausmaß der Verschiedenheit der Statistiken s x und s y wirkt sich unmittelbar 

auf die Differenz aus. Wir wollen also die Informationsdistanz zwischen 

x und y durch Anwendung arithmetischer Kodierung mittels der Statistiken s x 

und s y approximieren. 

Genau genommen handelt es sich hier um eine spezifische Variante der arithmetischen 

Kodierung. Die übliche Variante, so wie wir sie in Abschnitt 4.3.2 

vorgestellt haben, kennt keine kontextspezifischen Wahrscheinlichkeiten. Für die 

PPM -Statistik gilt das aber sehr wohl. Wir möchten an dieser Stelle erwähnen, 

dass bei einer Kodierung A x (x) niemals ein esc kodiert wird. Die Statistik s x 

enthält für jeden im Bild x vorkommenden Kontext maximaler Ordnung alle 

tatsächlich vorkommenden Symbole. 

Das führt uns zu der Annahme, dass die Kodierung von A y (x) bei x ≠ y 

aus zwei Gründen länger ist als |A x (x)|. Zunächst sind die kontextspezifischen 

Wahrscheinlichkeitsverteilungen in s y nicht optimal für x. Zum anderen ist mehr 

oder weniger häufig auch die Kodierung von esc notwendig. Diese Vermutung 

wird insbesondere bei der Anwendung in Kapitel 5 noch von zentraler Bedeutung 

sein. 

54


k 5 

k 6 

k 3 

k 7 

p k 1 k 2 

k 8 

k 4 

Abbildung 4.12: 2D-Kontext für Pixel p mit Kontextordnung 8 

Offensichtlich ist diese Ähnlichkeitsdistanz nicht auf das Intervall [0; 1] normiert. 

Wie bei der Ncd wollen wir aber genau diese Normalisierung erreichen. Bei 

maximaler Verschiedenheit der Bilder soll die Distanz möglichst nahe bei 1 

liegen. Je ähnlicher sich die Bilder sind, desto näher rücken sie zusammen. 

Bei Gleichheit von x und y möchten wir einen Abstand von 0 erreichen. Die 

Ähnlichkeitsdistanz 

d A (x, y) = 1 − |A x(x)| 

|A y (x)| 

(4.23) 

erfüllt alle diese Bedingungen. Sind s x und s y ähnlich und die Kodierungslängen 

annähernd gleich, dann liegt der Wert des Bruchs nahe bei 1 aber nie darüber 

und damit die Distanz bei 0. Je ungeeigneter die Statistik s y für die Kodierung 

von x ist, desto größer wird der Zähler im Bruch und die Distanz geht gegen 1. 

Um Symmetrie der Distanz zu garantieren, wählen wir analog zur Informationsdistanz 

das Maximum beider Richungen: 

d Asym (x, y) = max {d A (x, y), d A (y, x)} (4.24) 

Dieses Maß für Ähnlichkeitsdistanz wollen wir nun mit verschiedenartigen Kontexten 

testen. Wir verwenden es, wie auch schon die im ersten Teil dieses Kapitels 

beschriebenen Standardmaße, als Abstandsmaß für k-NN-Klassifikation. 

4.3.5 Zweidimensionaler Kontext 

Die augenscheinliche Schwäche eines eindimensionalen Kontextes ist eben genau 

seine Eindimensionalität. Durch die Nichtberücksichtigung der zweiten Dimension 

geht zweifelsfrei Information über die vertikale Struktur des Bildes verloren. 

Diesen Verlust wollen wir mittels einer zweideimensionalen Kontextdefinition 

zu verhindern versuchen. 

Unser 2D-Kontext berücksichtigt alle 8 direkten Nachbarn des jeweils aktuellen 

Pixels p in horizontaler, vertikaler und diagonaler Richtung. Abbildung 4.12 

zeigt die Reihenfolge der Nachbarpixel im 2D-Kontext. Ein Kontext der Ordnung 

l besteht aus den Pixeln k 1 . . . k l in eben dieser Reihenfolge. Entsprechend 

55



46 

44 

42 

40 

3 4 5 6 7 8 9 

k 

Abbildung 4.13: Entwicklung der Fehlerrate mit k-NN-Klassifikation und PPMbasiertem 

Abstand mit 2D-Kontext 

beinhaltet der Kontext der Ordnung 8 alle Nachbarpixel. Bei Kontextordnung 

7 fehlt der Pixel links unterhalb von p, bei Kontextordnung 6 fehlt zusätzlich 

der Pixel rechts oberhalb, usw.. 

Wir verwenden im folgenden Test die maximale Kontextordnung 8. Das beruht 

auf der Idee, daraus maximale zweidimensionale Nachbarschaftsinformation zu 

erhalten. In insgesamt 5 Durchgängen für jedes k ∈ [3; 9] konnte in keinem 

Fall ein zufriedenstellendes Ergebnis erreicht werden. Wie auch schon in den 

vorherigen Experimenten besteht die Trainingsmenge aus 300 Bildern je Ziffer 

und die Testmenge aus 50. Eine repräsentative Konfusionsmatrix in Tabelle 4.10 

zeigt auf, dass die Verwendung der binären zweidimensionalen Kontexte keine 

gute Stratgie ist. Die Fehlerrate liegt bei etwa 40, 6%. Aus Abbildung 4.13 ist 

außerdem ersichtlich, dass auch mit verändertem k keine besseren Ergebnisse 

erzielt werden können. 

Veränderungen der Reihenfolge im Kontext bringen ebenfalls keine signifikante 

Veränderung der Klassifikationsgüte mit sich. Gleiches gilt für eine Reduzierung 

der maximalen Kontextordnung auf 4. Dies ist unabhängig davon, ob die horizontalen 

und vertikalen oder die diagonalen Kontexte betrachtet werden. Das 

Ergebnis bleibt auf ähnlichem Niveau. 

Es bedarf also einer anderen Strategie, zweidimensionale Strukturinformation 

zu erhalten. Eine solche wollen wir im folgenden Abschnitt untersuchen. 

4.3.6 Eindimensionaler Kontext auf Gradientenbilder 

Die Verwendung des zweidimensionalen Kontexts bringt zwar im Vergleich zum 

eindimensionalen schon eine deutliche Verbesserung, jedoch wollen wir noch eine 

weitere Variante entwickeln. Sie ist in gewisser Weise eine Verallgemeinerung 

des 2D-Kontextes. Die Repräsentation der Graubilder als 28 × 28 große Matrix 

m, entsprecht den Werten einer zweistelligen Funktion m(x, y) = m x,y für alle 

56




0 1 2 3 4 5 6 7 8 9 

0 40 0 5 2 0 2 10 2 8 4 

1 0 50 0 0 1 0 0 3 0 0 

2 0 0 11 7 1 5 2 2 3 3 

3 1 0 10 34 0 12 2 1 3 3 

4 0 0 0 0 31 0 4 5 0 2 

5 1 0 7 4 0 25 2 0 2 0 

6 4 0 1 0 2 0 18 0 4 4 

7 0 0 5 2 7 2 6 34 0 9 

8 1 0 4 1 1 0 0 0 28 0 

9 3 0 7 0 7 4 6 3 2 25 

Tabelle 4.10: Klassifikation mit 7-NN und PPM-basiertem Abstand mit maximalem 

2D-Kontext der Ordnung 8 auf Binärbildern (Fehlerrate: 40, 8%) 

x, y ∈ {1, 2, 3, . . . , 28}. Wir bestimmen nun die Gradienten der Funktion m mit 

⎛ ⎞ ⎛ ⎞ 

∇m = 

⎝ δm 

δx 

δm 

δy 

⎠ = 

⎝ m′ x 

m ′ y 

⎠ (4.25) 

Die erste Komponente des Spaltenvektors entspricht der partiellen Ableitung 

von m in x-Richtung, die zweite Komponente der in y-Richtung. So können 

wir nun für jede Pixelposition die partiellen Ableitungen in beide Richtungen 

ermitteln. Jede Komponente der so entstehenden Gradientenmatrix beinhaltet 

einen zweidimensionalen Vektor, der die Helligkeitsveränderung in x- und y- 

Richtung beschreibt. 

Würden wir nun die Kontexte direkt auf der Gradientenmatrix definieren, so 

wäre jedes Element des Alphabets ein 2-Tupel. Da die Helligkeitswerte im ganzzahligen 

Intervall [0; 255] liegen, befinden sich beide Kompentenen der Gradienten 

im doppelt so großen ganzzahligen Intervall [−255; 255]. Das sind in x- und 

y-Richtung jeweils 511 Möglichkeiten, also insgesamt 511 2 = 261121 verschiedene 

Kombinationen. Diese Größenordnung ist für ein Alphabet einer P P M- 

Kodierung allein aus Effizienzgründen vollkommen ungeeignet. Des Weiteren 

ist der Nutzen einer auf diese Weise erstellten Statistik zumindest fragwürdig. 

Die Wahrscheinlichkeit, dass ein Symbol innerhalb eines bestimmten Kontextes 

mehrfach auftaucht, ist sehr gering. Deshalb reduzieren wir nun die Größe des 

Alphabets massiv. 

Die abgebildeten Ziffern haben trotz der vorhandenen Grauwerte noch immer 

eine relativ scharfe Kontur. Fließende Übergänge von Schwarz zu Weiss sind 

selten, wenn sie denn überhaupt vorkommen. Wir nehmen deshalb an, dass die 

Euklidische Norm des Gradientenvektors und damit die Intensität der Hellig- 

57


keitsveränderung für die Ähnlichkeit der Bilder eine eher untergeordnete Rolle 

spielt. Wir richten unsere Aufmerksamkeit also nur noch auf die Gradientenrichtungen. 

Unter Verwendung beiden Komponenten des Gradientenvektors können 

wir mit Hilfe der Funktion 

⎧ 

( m ′ 

) 

arctan y 

m 

falls m ′ ′ x > 0 

x 

( m ′ 

) 

π + arctan y 

m 

falls m ′ ′ y 0, m ′ x < 0 

x 

( ⎪⎨ 

m ′ 

) 

−π + arctan y 

atan2(m x , m y ) = 

m 

falls m ′ ′ y < 0, m ′ x < 0 

x 

(4.26) 

π 

2 

falls m ′ y > 0, m ′ x = 0 

− π 2 

falls m ′ y < 0, m ′ x = 0 

⎪⎩ 

undefiniert falls m ′ y = 0, m ′ x = 0 

dessen Richtung im Bogenmaß bestimmen. Die Funktion atan2 hat gegenüber 

dem normalen arctan den Vorteil, tatsächlich den Winkel im Vollkreis zu bestimmen. 

Das sind aber noch immer sehr viele Möglichkeiten. Darum diskretisieren 

wir die Gradientenrichtungen auf insgesamt 8 gleichmäßig verteilte Werte 

zwischen 0 und 2π. So beschränken wir den Wertebereich für alle Elemente des 

diskretisierten Gradientenbildes g. Es gilt 

∀x, y ∈ {1, 2, . . . , 28} : g(x, y) ∈ 

{ 

0, π 4 , π 2 , 3π 4 , π, 5π 4 , 3π 2 , 7π 4 

} 

. (4.27) 

Diesen Wertebereich mit lediglich noch 8 Elementen verwenden wir als Alphabet 

für die P P M-basierte Kodierung. 

Nun wollen wir zunächst einmal überprüfen, ob die P P M-basierte Ähnlichkeitsdistanz 

auf den Gradientenbildern proportional zu einer bestimmten Form intuitiver 

Ähnlichkeit ist. Dazu wählen wir zufällg ein Bild aus dem MNIST-Datenbestand 

aus. Dieses Bild versehen wir durch mehr und mehr zufällige und unabhängige 

Bitflips mit einem immer größer werdenden Rauschen. Aufgrund der genannten 

Unabhängigkeit kann eine Position auch mehrfach verändert werden. Wir 

erwarten, dass sich mit Zunahme des Rauschens auch die Ähnlichkeitsdistanz 

erhöht. 

Wir haben bereits bei der Herleitung der normalisierten Kompressionsdistanz 

in Kapitel 2 festgestellt, dass die Anzahl der möglichen Bilder innerhalb eines 

kleinen Ähnlichkeitsradius ebenfalls relativ klein ist. Je größer wir diesen 

Ähnlichkeitsradius zulassen, desto stärker ist auch der Zuwachs an Bildern innerhalb 

des Radius. Deshalb erwarten wir hier trotz weniger Bitflips zunächst 

eine relativ starke Vergrößerung der Distanz. Je weiter sich das verrauschte 

Bild vom Original entfernt, desto weniger verändert weiteres zufälliges Rauschen 

die absolute Distanz. Abbildung 4.14 zeigt unser Testergebnis, welches 

die Erwartungen vollständig erfüllt. Die Bezeichnung R-Bild n in der Abbildung 

bedeuetet, dass das Original an n zufällig und unabhängig ausgewählten Stellen 

verrauscht wurde. Die Distanz zum Original steht jeweils unter dem Bild und 

ist mit d bezeichnet. 

58


Original 

R−Bild 2 

R−Bild 5 

R−Bild 10 

R−Bild 20 

d: 0 

d: 0.069 

d: 0.132 

d: 0.188 

d: 0.331 

R−Bild 50 

R−Bild 100 

R−Bild 200 

R−Bild 500 

Negativ 

d: 0.439 

d: 0.560 

d: 0.706 

d: 0.760 

d: 0.518 

Abbildung 4.14: Entwicklung der PPM -basierten Distanz mit zufälligem Rauschen 

(d entspricht jeweils der Distanz zum Original) 

So beträgt der Abstand zum lediglich durch Veränderung an 2 Positionen erzeugten 

R-Bild 2 0, 069. R-Bild 10 hat bereits eine Distanz von 0, 188 zum Original. 

Die Veränderung von 8 Pixeln mehr, hat hier also zu einer Vergrößerung der 

Distanz um 0, 119 geführt. In einer sehr ähnlichen Größenordnung bewegt sich 

der Unterschied zwischen den jeweiligen Distanzen zum Original von R-Bild 50 

und R-Bild 100 , obwohl hier 50 Veränderungen mehr stattgefunden haben. Die 

Differenz der Distanzen von R-Bild 200 und R-Bild 500 liegt mit 0, 054 sogar deutlich 

darunter. 

Die Distanz von Original und dessen Negativ ist jedoch geringer, als beim stark 

verrauschten Bild. Wir vermuten, dass das auf die nach wie vor im Bild vorhandene 

Struktur zurückzuführen ist. Das Negativ eines Bildes mit Struktur 

ist letztlich auch wieder ein Bild mit Struktur. In so einem Bild gibt es dann 

mit größerer Wahrscheinlichkeit auch Kontexte, die häufiger vorkommen als andere. 

Entsprechend wird die Statistik des P P M-Algorithmus weniger zufällig 

aussehen. 

Im weiteren Verlauf der Experimente mit diesem Distanzmaß wird auch diese 

Vermutung bekräftigt. So bewegt sich die Distanz zwischen zwei Bildern, die 

jeweils eine Ziffer zeigen, nie deutlich über 0, 5. Dieses Phänomen ist unabhängig 

davon feststellbar, ob die abgebildeten Ziffern semantisch gleich sind oder nicht. 

Das wiederum führt jedoch dazu, dass die Distanzunterschiede zwischen den 

Bildern des MNIST-Datenbestands absolut betrachet sehr klein sind. Trotzdem 

zeigt der k-NN-Algorithmus unter Verwendung des PPM -basierten Abstandsmaßes 

ein relativ gutes Ergebnis. 

Die Entwicklung der Fehlerrate (siehe Abbildung 4.15) lässt diese Annahme 

zunächst nicht zu. Im besten Fall mit k = 6 liegt die Fehlerrate noch immer bei 

19, 8%. Die zugehörige Konfusionsmatrix in Tabelle 4.11 zeigt lediglich, dass 

59


21.5 


21 

20.5 

20 

19.5 

3 4 5 6 7 8 9 

k 


Abstand auf diskretisierte Gradientenbilder (Bestes Ergebnis: k = 6 mit 

19, 8%) 



0 1 2 3 4 5 6 7 8 9 

0 47 0 3 2 0 1 3 0 7 4 

1 0 49 0 0 2 0 0 3 0 1 

2 0 0 28 0 0 1 1 0 1 0 

3 0 0 3 46 0 1 1 0 2 0 

4 0 0 0 0 45 1 7 1 0 5 

5 1 0 5 1 0 42 2 2 1 0 

6 1 0 1 0 0 1 35 0 6 0 

7 0 0 6 0 1 2 0 44 0 5 

8 0 1 1 0 0 0 0 0 30 0 

9 1 0 3 1 2 1 1 0 3 35 

Tabelle 4.11: Klassifikation mittel 6-NN und PPM-basiertem Abstand auf diskretisierte 

Gradientenbilder (Fehlerrate: 19, 8%) 

die hohe Fehlerrate im Wesentlichen auf Falschklassifikationen der Ziffern 2, 6, 

8 und 9 zurückzuführen sind. Ein auffälliger Anstieg der falsch-positiv-Rate ist 

jedoch bei keiner Ziffer erkennbar. 

Die Stärke der gradientenbasierten Kontexte zeigt sich bei der gegenläufigen 

Verschiebung von Trainings- und Testbildern um 4 Pixel in horizontaler Richtung. 

Hier ist kein signifikanter Anstieg der Fehlerrate zu verzeichnen. Die Verlaufskurve 

der Fehlerrate für unterschiedliche k in Abbildung 4.16 bezieht sich 

auf diese verschobenen Bilder. Im Vergleich zu den zentrierten Daten ist sie lediglich 

um etwa 1, 4% erhöht. In der Konfusionsmatrix (siehe Tabelle 4.12) hat 

sich eine leichte Verschiebung der Klassifikationsgüte zwischen den Ziffern ergeben. 

Nach wie vor können die 2, die 6 und die 8 relativ schlecht erkannt werden, 

60

4.4. Ergebnisvergleich 


24 

23 

22 

21 

3 4 5 6 7 8 9 

k 


Abstand auf diskretisierten und um 4 Pixel gegenläufig verschobenen Gradientenbildern 

(Bestes Ergebnis: k = 7 mit 21, 5%) 



0 1 2 3 4 5 6 7 8 9 

0 45 0 3 0 0 2 3 0 12 0 

1 1 50 0 0 1 0 2 2 0 0 

2 1 0 24 1 0 0 1 0 1 0 

3 0 0 8 40 0 5 0 0 5 0 

4 1 0 0 0 46 0 9 2 0 1 

5 1 0 7 5 0 40 1 0 3 2 

6 1 0 0 0 1 0 33 0 1 0 

7 0 0 7 2 0 3 1 46 2 1 

8 0 0 0 0 0 0 0 0 24 0 

9 0 0 1 2 2 0 0 0 2 46 

Tabelle 4.12: Klassifikation mittel 7-NN und PPM-basiertem Abstand auf diskretisierten 

und um 4 Pixel gegenläufig horizonal verschobenen Gradientenbildern (Fehlerrate: 

21, 2%) 

während sich das Ergebnis der 9 deutlich verbessert zeigt. Insgesamt bewegt 

sich die Klassifikationsgüte auf den zentrierten und den gegenläufig verschobenenen 

Bildern auf derart gleichwertigem Niveau, dass wir der Verwendung des 

PPM-basierten Distanzmaßes auf Gradientenbildern zweifelsfrei Translationsinvarianz 

bescheinigen können. 

4.4 Ergebnisvergleich 

Wir haben im Verlauf dieses Kapitels eine Reihe verschiedener Distanzmaße 

vorgestellt und bezüglich Ihrer Eignung zur k-NN-Klassifikation getestet. Sie 

61


Standardmaße 

PPM-basiert 

d H d L d E d P P M2D d grad 

zentriert binär 6, 2% 8, 2% (6, 2%) 40, 8% - 

zentriert grau 30% - 7, 8% - 19, 8% 

verschoben binär 88, 6% 10, 6% (88, 6%) - - 

verschoben grau - - - - 21, 8% 

Tabelle 4.13: Übersicht über die Fehlerraten bei der k-NN-Klassifikation aller getesten 

Distanzmaße (Hammingabstand d H , Levenshtein-Distanz d L , Euiklidische Distanz d E 

und zwei PPM-basierte Abstände) 

alle haben spezifische Vor- und Nachteile, die wir nun noch einmal abschließend 

beleuchten wollen. 

In Tabelle 4.13 sind die erzielten Klassifikationsergebnisse auf den zufällig reduzierten 

Datenbeständen in Form der Fehlerraten zusammengefasst. Hammingabstand, 

sowie Levenshtein- und Euklidische Distanz sind demnach gerade 

bei den bezüglich Translation normierten Bildern mit Abstand besser geeignet. 

Aufgrund der Möglichkeit, Hammingabstand und Euklidische Distanz 

verhältnismäßig schnell zu berechnen, konnten wir damit auch Experimente auf 

dem vollständigen MNIST-Datenbestand durchführen. Beide zeigten dabei ein 

noch deutlich besseres Ergebnis mit Fehlerraten von lediglich 3, 2% (Hammingabstand 

auf Binärbildern) bzw. 2, 8% (Euklidische Distanz auf Graubildern). 

Für die Levenshtein-Distanz war dies aufgrund der zu langen Berechnungszeit 

nicht möglich. Gleiches gilt für den PPM-basierten Abstand. Dieser zeigte sich 

sowohl bezogen auf die Fehlerrate, als auch auf die Laufzeit wenig performant. 

Untersuchungen auf den vollständigen Daten würden mit den uns im Rahmen 

dieser Arbeit zur Verfügung stehenden Kapazitäten mehrere Wochen dauern. 

Die Qualität der Klassifikation mit dem zweidimensionalen Kontext stellte sich 

als vergleichsweise schlecht heraus. Es bleibt jedoch festzuhalten, daß auch die 

vermeintlich schlechten Ergebnisse immer noch deutlich über der Qualität eines 

Zufallsklassifikators liegen. Dieser entscheidet sich bei jedem Objekt mit 

gleichverteilter Wahrscheinlichkeit für eine Klasse. Die Fehlerrate läge aufgrund 

deshalb bei genau 90%. Keins der eingesetzten Verfahren erreicht diese Quote 

auch nur annähernd. 

Die Stärke von Levenshtein-Distanz und dem PPM-basierten Verfahren auf 

Gradientenbilder zeigt sich in der Translationsinvarianz. Im Gegensatz zum 

Hamminabstand hat die gegenläufige Translation von Trainings- und Testmenge 

keinen signifikanten Einfluss auf die Fehlerrate. 

Das im Rahmen dieser Arbeit entwickelte PPM-basierte Abstandsmaß entspricht 

nicht allen Anforderungen, die die Definition der normalisierten Kompressionsdistanz 

an den Kompressionsalgorithmus stellt. Insbesondere aufgrund 

der nicht erfüllten Idempotenzbedingung war ein gutes Verhalten nicht unbe- 

62

4.4. Ergebnisvergleich 

dingt zu erwarten. Trotzdem wurde eine korrekte Klassifikation von über 80% 

erreicht. Aufgrund der verhältnismäßig langen Laufzeit für die Distanzberechnung 

ist dieses Maß für einen Einsatz in der Praxis jedoch eher nicht geeigenet. 

Die Klassifikationsergebnisse mit dem PPM-basiertn Distanzmaß liegen in allen 

untersuchten Fällen deutlich über der Qualität zufälligen Ratens. Wir können 

zum Abschluss dieses Kapitels also festhalten, dass unsere neue Approximation 

der Informationsdistanz ein valider Ansatz ist. 

63

5 Negative Selection 

5.1 Adaption aus der Immunologie 

Bereits vor über 100 Jahren machte der deutsche Mikrobiologe Paul Ehrlich eine 

erstaunliche Entdeckung. Im Rahmen von Experimenten mit eigentlich völlig 

anderem Ziel, indizierte er Ziegen das Blut von Schafen. Das Immunsystem der 

Ziegen erkannte sogleich die fremdartigen Zellen und vernichtete sie. Gleiches 

geschah in späteren Versuchen auch, wenn das Blut von der gleichen Tierart 

stammte. Ohne derlei Abwehrreaktion verlief jedoch die Indizierung von eigenem 

Blut. Ehrlich stellte daraufhin das Prinzip der Horror autoxicus auf, was 

soviel wie Furcht vor Selbstzerstörung bedeutet. Der Körper erkennt demnach, 

ob es sich um eigene oder fremde Zellen handelt. Fremde Zellen lösen eine Abwehrreaktion 

aus, eigene Zellen tun das nicht 1 . 

Vereinfacht funktioniert das Immunsystem in etwa wie folgt. Für die Abwehr der 

körperfremden Zellen oder auch körperfremden Antigene, sind die T-Lymphozyten 

verantwortlich. Diese werden im Thymus, einem nur bei Wirbeltieren 

vorhandenen Organ, aus T-Zellen entwickelt. Allerdings müssen die T-Zellen 

während des Reifeprozesses zu T-Lymphozyten ihre Eignung beweisen. Dazu 

werden im Thymus zufällige körpereigene Proteine gebildet, die letztlich als sogenannte 

Selbstantigene auf Thymus-Epithelzellen der T-Zelle präsentiert werden. 

Geht der Rezeptor der T-Zelle eine Verbindung mit dem präsentierten 

Protein nicht ein, so muss die Zelle sterben. Ist die Bindung zu stark, kommt es 

zu einer Überaktivierung der T-Zelle und sie stirbt ebenfalls. Eine T-Zelle wird 

dann zum T-Lymphozyten, wenn sie mit allen so präsentierten Selbstantigenen 

eine Verbindung mit begrenzter Affinität eingeht. 

Für die Immunabwehr durch T-Lymphozyten ist letztlich die Intensität der 

Aktivierung entscheidend. Ist die Aktivierung des T-Lymphozyten durch die 

Verbindung mit einem Anitgen stark genug, dann wird die das Antigen tragende 

Zelle zerstört. Während des Selektionsprozesses im Thymus hat die T-Zelle 

gezeigt, dass bei Selbstantigenen keine Aktivierung mit dieser Intensität stattfindet. 

Alle körpereigenen Zellen tragen Selbstantigene. Leider können jedoch 

im Thymus nicht alle möglichen Selbstantigene präsentiert werden. So ist eine 

gewisse Toleranz notwendig. 

Letztlich bestimmt die Aktivierungsintensität der T-Lymphozyten für eine Zelle 

unbekannter Herkunft über die Klassifikation als körperfremd oder nicht 

1 Falls körpereigene Zellen eine Abwehrreaktion auslösen, spricht man von einer Autoimmunkrankheit 

65

Kapitel 5. Negative Selection 

körperfremd. Eine in diesem Sinne als positiv, also körperfremd, klassifizierte 

Zelle, hat eine Überaktivierung des T-Lymphozyten ausgelöst und wird deshalb 

getötet. Eine als negativ klassifizierte Zelle wird als körpereigen angesehen 

und bleibt unbeschadet. Dem Immunsystem steht zur Generierung der 

T-Lymphozyten jedoch nur eine unvollständige Menge von Antigenen, also negativen 

Beispielen, zur Verfügung. Trotzdem funktioniert ein gesundes Immunsystem 

zielsicher. 

Der Negative Selction Algorithmus basiert auf genau diesem Szenario. Seinen 

Ursprung findet er im Bereich der künstlichen Immunsysteme. Dabei handelt es 

sich um lernende Systeme, mittels derer die Erkenntnisse der biologischen Immunologie 

auf die Problemlösung in möglicherweise vollkommen anderen Bereichen 

angewendet werden können. Hier geht es konkret um die Frage, wie 

das Immunsystem in der Lage ist, trotz der notwendigen Toleranz körpereigene 

Zellen von den körperfremden zu unterscheiden. 

Ein wesentlicher Schritt bei Negative Selection ist die Generierung von sogenannten 

Detektoren während einer Lernphase. Diese Detektoren übernehmen 

praktisch die Funktion der T-Lymphozyten im Immunsystem. Sie entscheiden 

also darüber, ob das zu klassifizierende Objekt als positiv angesehen wird oder 

nicht. Bei positiver Klassifikation spricht man davon, dass ein Detektor zum 

Objekt passt. Gibt es keinen passenden Detekor, dann wird das Objekt als 

negativ klassifiziert. 

In Anlehnung an die Herkunft aus der Immunologie bezeichnet man die Klasse 

der negativen Elemente als Self und die der postiven Elemente als Non-Self. 

Betrachten wir nun den prinzipellen Ablauf des Algorithmus [THSC08]. 

generiere eine Menge D von Detektoren, von denen keiner zu einem Element von S pa 

Teil 1: 

Eingabe: S ⊆ Self 

Ausgabe: D 

Teil 2: 

Eingabe: I ⊆ Self ∪ Non-Self 

für alle i ∈ I 

wenn ∃ d ∈ D : d passt zu i 

klassifiziere i als positiv 

sonst 

klassifiziere i als negativ 

Ausgabe: Klassifikationsergebnisse 

Zur Entscheidung darüber, ob ein Detektor d zu einem Objekt i passt, findet 

häufig die r-contigous-Regel Anwendung. Dabei werden sowohl d als auch i als 

String repräsentiert. 

Definition 5.1. Ein Detektor d = d 1 d 2 . . . d l der Länge l passt im Sinne der 

r-contigous-Regel genau dann zu einem Objekt i = i 1 i 2 . . . i l der Länge l, wenn 

eine Position p exitiert mit d n = i n für n = p, . . . , p + r − 1, p l − r + 1. 

66

5.1. Adaption aus der Immunologie 

Der Detektor und das zu klassifizierende Objekt müssen also an r aufeinanderfolgenden 

Positionen übereinstimmen. 

Vorher sind jedoch eine Reihe von Problemen zu lösen. Der erste Teil des vorgestellten 

Algorithmus beinhaltet derer gleich zwei. Erstens sind keine Angaben 

bezüglich der Anzahl zu generierender Detektoren gemacht. Eine sinnvolle 

Anzahl muss in der Regel experimentell ermittelt werden. Des Weiteren ist 

auch das Verfahren zur Generierung der Detektoren frei. Eine Art Brute-Force- 

Strategie wäre beispielsweise die initiale Generierung aller möglichen Detektoren. 

Z. B. durch Anwendung der r-contigious-Regel, werden dann sukzessive 

alle ungeeigneten Detektoren entfernt. Ungeeignet sind alle die Detektoren, die 

auf mindestens ein Objekt der Menge S passen. 

Im Rahmen dieser Arbeit wollen wir erstmalig den Negative Selection-Algorithmus 

zur Klassifikation von Bildern einsetzen. Wir greifen dazu wiederum 

auf die handgeschriebenen Ziffern der MNIST-Datenbank zurück. Offensichtlich 

ist der o. g. Brute-Force-Ansatz zur Detektorgenerierung hier nicht geeignet. 

Bekanntlich bestehen die Bilder aus 784 Pixeln. Bei 256 möglichen Grauwerten 

je Pixel ergeben sich 256 784 Möglichkeiten. Allein diese Anzahl von Detektoren 

zu generieren würde viele Millarden Jahre beanspruchen. In der Regel steht so 

viel Zeit nicht zur Verfügung. Auch die Transformation auf Binärbilder, wie 

wir sie bereits häufig verwendet haben, reduziert die Anzahl von Möglichkeiten 

lediglich auf 2 784 = 256 776 und damit nicht signifikant. 

Daraus ergibt sich die Notwendigkeit, eine bessere Strategie zur Generierung 

von Detektoren zu entwickeln. Außerdem benötigen wir eine geeignete Möglichkeit 

herauszufinden, ob ein Detektor zu einem Objekt passt. Idealerweise 

tragen beide Teile zur Reduzierung der notwendigen Detektorzahl bei. 

Bezüglich der Darstellung von Detektoren wollen wir eine Strategie verfolgen, 

die möglichst wenig explizit ist. Ein Detektor soll also nicht die Repräsentation 

eines einzelnen Bildes sein, sondern eine möglichst große geeignete Menge von 

Bildern implizieren. 

Jede beliebige Menge K von Detektoren beschreibt ein sogenanntes Konzept. In 

unserem Fall ist ein Konzept die Menge aller Bilder, die zu mindestens einem der 

Detektoren in K passen. Während der Generierungsphase der Detektoren lernt 

der Algorithmus also ein Konzept auf Basis einer Menge S negativer Beispiele. 

Dieses Konzept heißt konsistent zur Trainingsmenge, da am Ende keiner der 

Detektoren zu einem der negativen Beispiele passt. Gleichzeitig soll es aber 

auch konsistent zur praktisch unbekannten Menge der positiven Bilder sein. 

Dazu muss es für möglichst viele der positiven Bilder einen passenden Detektor 

beinhalten. 

Ji und Dasgupta verfolgen in [JD04] erstmals die Idee, Hyperkugeln als Detektoren 

zu verwenden. Ein Detektor passt nach dieser Strategie zu allen Objekten, 

die sich innerhalb der Hyperkugel befinden. Diesen Ansatz werden wir ebenfalls 

verfolgen. Der Abstand eines in diesem Sinne positiven Objekts zum Mittelpunkt 

der Hyperkugel ist offenbar höchstens so groß, wie ihr Radius. Ist dieser 

67


Mittelpunkt bekannt, so können wir mit Hilfe eines geeigneten Distanzmaßes 

feststellen, ob der Detektor zu einem Objekt passt. Wir werden zur Bestimmung 

des Abstands zwei bereits bei der k-NN-Klassifikation verwendete Distanzmaße 

einsetzen. 

Im Rahmen dieses Kapitels geht es um die Frage, ob der Negative Selection- 

Ansatz zur Bildklassifikation grundsätzlich geeigent ist. Deshalb investieren wir 

verhältnismäßig wenig Aufwand in die Optimierung von Paramtern. So werden 

wir zwar deren Auswahl begründen, und in einigen Fällen auch Konsequenzen 

von Änderungen aufzeigen, jedoch wollen wir keinen Anspruch auf Optimalität 

erheben. 

5.2 Anwendung mit Hammingabstand 

Wir haben im vorherigen Abschnitt bereits die Verwendung von Bildern als 

Detektoren diskutiert und aufgrund absolut unzulänglicher Performanz als ungeeignet 

verworfen. Der Hammingabstand zweier Bilder beruht jedoch auf dem 

direkten Vergleich korrespondierender Pixelwerte. Deshalb entwickeln wir nunmehr 

einen Detektor, der eine größere Menge von Bildern beinhaltet. Diese 

könnte man als implizite Subdetektoren auffassen. 

Wir beziehen uns hier wiederum auf die binäre Darstellung der Bilder mit 

Grenzwert 41. Alle Pixel, im Graustufenbild einen Wert von über 41 aufweisen, 

erhalten in der Binärdarstellung den Wert 1 (schwarz). Alle anderen Pixel 

erhalten den Wert 0 (weiss). Der Grenzwert von 41 stellte sich im Rahmen 

der Experimente zur k-NN-Klassifikation als besonders geeignet heraus (siehe 

Abschnitt 4.2.1). 

Zur Darstellung eines solchen Detektors verwenden wir ein Monom. Jedes Literal 

eines solchen Monoms korrespondiert zu genau einer Position im Bild. 

Diese Darstellung ist insbesondere aufgrund der Größengleichheit aller Bilder 

unpropblematisch. Ein nicht negiertes Literal betrachten wir als erfüllt, wenn 

das korrespondierende Pixel den Wert 1 aufweist. Entsprechend ist ein negiertes 

Literal bei Pixelwert 0 erfüllt. Der wesentliche Aspekt dieser Darstellung ist, 

dass der Detektor nicht für alle möglichen Pixelpositionen ein Literal beinhaltet. 

Alle Positionen ohne korrespondierendes Literal spielen bei der Klassifikation 

keine Rolle. 

Beispiel 5.2. Gegeben sei der Detektor m = m 52 m 54 m 78 m 82 für binäre Bilder 

mit 784 Pixeln. Dieser Detektor passt zu allen Bildern, die an den Pixelpositionen 

52 und 82 eine 1 und an den den Positonen 54 und 78 eine 0 aufweisen. 

Der Detektor m legt die Pixelwerte lediglich an 4 Positonen im Bild fest. Alle 

anderen 780 Pixel haben keinen Einfluss auf das Klassifikationsergebnis. Damit 

passt m zu insgesamt 2 780 Bildern. 

Die Experimente im Verlauf dieses Kapitels werden zwar zeigen, dass statt 

4 etwa 100 Literale benötigt werden. Trotzdem passt ein einzelner Detektor, 

68

5.2. Anwendung mit Hammingabstand 

Abbildung 5.1: Aufteilung der Pixelpositionen in Regionen basierend auf 300 

zufälligen Bildern der Ziffer 2 (Grenzwerte: g 1 = 0, 7, g 2 = 0, 3) 

dargestellt als Monom mit 100 Literalen, noch immer zu einer unvorstellbar 

großen Zahl von Bildern. Wir werden auf anderem Weg die Anzahl disjunkter 

Detektoren noch weiter reduzieren. Dazu kommen wir aber erst später. 

Zur Generierung der Detektoren stehen lediglich Information über die negative 

Klasse, gegeben durch die Menge S, zur Verfügung. Basierend auf der Annahme, 

dass die Pixel an den verschiedenen Position unterschiedlichen Einfluss auf 

das Klassifikationsergebnis nehmen, teilen wir zunächst die 784 Pixel in 3 Kategorien 

auf. In Kategorie 3 fallen alle die Pixel, die innerhalb der Menge S 

nur sehr selten oder nie den Wert 1 (schwarz) haben. Die Pixel in Kategorie 2 

sind innerhalb der Bilder aus S häufiger schwarz. Bei Pixelkategorie 1 ist das 

dann sehr häufig oder immer der Fall. Zur konkreten Definition dieser Regionen 

müssen 2 Paramter g 1 und g 2 festgelegt werden. 

Definition 5.3. Sei p(i = 1) die Wahrscheinlichkeit dafür, dass ein Bild s ∈ S 

an Position i den Wert 1 hat. Mit g 1 und g 2 als Grenzwerte sind dann 

1. R 1 = {i | p(i = 1) > g 1 } 

2. R 2 = {i | g 2 

3. R 3 = {i | p 1 (i = 1) g2} 

die nach Einfluss auf die Klassifikationsentscheidung kategorisierten Regionen. 

Abbildung 5.1 zeigt exemplarisch die Aufteilung in Regionen bei einer zufällig 

ausgewählten Menge von 300 Bildern der Ziffer 2. Als Grenzwerte wurden hier 

g 1 = 0, 7 und g 2 = 0, 3 gewählt. R 1 ist in schwarz dargestellt und beinhaltet 

40 Positionen. Die hier aus insgesamt 177 Positionen bestehende Region R 2 

erscheint grau. R 3 macht in weiss dargestellt im Wesentlichen den Hintergrund 

aus. Prinzipiell entspricht diese tatsächliche Beschaffenheit der Regionen in etwa 

den intuitiven Erwartungen. 

Wir wollen nun die Experimente exemplarisch für zwei Klassen von Ziffern 

durchführen. Wir beginnen mit der Ziffer 2, für die wir mit den Grenzwerten 

g 1 = 0, 7 und g 2 = 0, 3 bereits eine mögliche Aufteilung nach Pixelregionen 

vorgenommen haben. Die Entscheidung für die 2 liegt letztlich auch darin begründet, 

dass sie bei der k-NN-Klassifikation relativ hohe Fehlerquoten aufwies. 

Mit Hilfe dieser Regionen generieren wir nun die Detektoren. Dies geschieht 

mehr oder weniger zufällig basierend auf einem vorgegebenen Wahrscheinlichkeitsmodell. 

Dieses enthält für jede Region R τ die jeweiligen Wahrscheinlich- 

69


keiten für schwarze Pixel p τ (i = 1), weisse Pixel p τ (i = 0) und solche, die bei 

der Distanzberechnung keine Rolle spielen sollen p τ (i = 0, 5). 

Wir gehen davon aus, dass die schwarzen Pixel in Region R 1 für die Klassifizierung 

als self, also als Ziffer 2, besonders entscheidend sind. Entsprechend 

setzen wir p 1 (i = 1) als die Wahrscheinlichkeit für schwarze Pixel in R 1 niedrig. 

Gleichzeitig wählen wir p 1 (i = 0) relativ hoch, damit in R 1 insgesamt 

eine möglichst große Differenz zu den Bildern der Ziffer 2 entsteht. Um aber 

eine Überanpassung an die Beispiele aus S zu vermeiden, wählen wir auch 

p r (i = 0, 5) nicht zu gering. Bekanntlich spielen diese Pixel dann für die Klassifizierung 

keine Rolle. 

Region R 2 ist auch noch in gewissen Grenzen entscheidend für das Klassifikationsergebnis. 

Die negativen Beispielbilder der Menge S haben innerhalb dieser 

Region auch noch relativ häufig schwarze Pixel. Jedoch gilt das vermutlich 

auch für die Klasse Non-Self der anderen Ziffern. Um die Wahrscheinlichkeit zu 

erhöhen, dass ein zufälliger Detektor eine größere Distanz zu den Elementen der 

Self-Klasse hat, verfahren wir ähnlich, wie schon in R 1 . Jedoch erlauben wir in 

R 2 eine etwas höhere Anzahl schwarzer Pixel und setzen p 2 (i = 1) > p 1 (i = 1). 

Für die weissen Pixel in R 2 wählen wir p 2 (i = 0) ≈ p 1 (i = 0). Auch hier möchten 

wir aber eine Überanpassung an S vermeiden und halten die Wahrscheinlichkeit 

für irrelavante Pixel p 2 (i = 0, 5) ebenfalls relativ hoch. 

Region R 3 spielt praktisch keine Rolle. Sie stellt im Wesentlichen den Hintergrund 

dar. Darum setzten wir p 3 (i = 0, 5) = 1 − ε sehr hoch und mit 

p 3 (i = 1) + p 3 (i = 0) = ε die Wahrscheinlichkeit für konkrete Vorgaben in 

R 3 sehr klein. 

Dieser Strategie folgend wählen wir folgende Wahrscheinlichkeiten: 

R 1 : p 1 (i = 1) = 0, p 1 (i = 0) = 0, 5, p 1 (i = 0, 5) = 0, 5 

R 2 : p 2 (i = 1) = 0, 2, p 2 (i = 0) = 0, 5, p 2 (i = 0, 5) = 0, 3 

R 3 : p 3 (i = 1) = 0, p 3 (i = 0) = 0, p 3 (i = 0, 5) = 1 

Damit gilt für die Länge der Darstellung der Detektoren als Monome m in 

konkreten Fall 

|m| ≈ |R 1 | (p 1 (i = 1) + p 1 (i = 0)) + |R 2 | (p 2 (i = 1) + p 2 (i = 0)) 

= 40 (0 + 0, 5) + 177 (0, 2 + 0, 5) 

= 20 + 123 = 143. 

Die hier verwendeten Kardinaliäten |R 1 | und |R 2 | sind dem Beispiel in Abbildung 

5.1 entnommen. Ein auf diese Weise definierter Detektor passt zu allen 

2 784−143 = 2 641 Bildern, deren Pixelwerte alle Literale des Monoms erfüllen. 

An dieser Stelle kommen wir auf die bereits erwähnte Idee Hyperkugeln als 

Detektoren einzusetzen zurück. Wir fordern nun keine exakte Erfüllung, sondern 

erlauben maximal r nicht erfüllte Literale. Damit befinden sich zu jedem 

70


der 2 784−|m| ohne Toleranz passenden Bilder weitere 2 r Bilder im erlaubten 

Ähnlichkeitsradius. So passt jeder unserer Detektoren nunmehr zu allen Bildern 

in 2 784−|m| Hyperkugeln mit dem Ähnlichkeitsradius r. 

Um zu überprüfen, ob ein zu klassifizierendes Bild zu einem solchen Detektor 

passt, müssen wir lediglich den Hammingabstand über alle relevanten Pixelpositionen 

bilden. Relevant sind nur die Positionen, die durch ein Literal im 

Monom vertreten sind. Ist der Hammingabstand höchstens so groß, wie der tolerierte 

Ähnlichkeitsradius r, dann passt der Detektor zum Bild. Entsprechend 

wird es als Non-Self klassifiziert. 

Da wir Detektoren generieren wollen, die zu möglichst wenigen self -Objekten 

passen, müssen wir bei deren zufälliger Generierung die Ähnlichkeitsdistanz zu 

den Beispielen der Menge S berücksichtigen. Dazu generieren wir zunächst 100 

potentielle Detektoren und ermitteln jeweils deren kürzeste Distanz zu einem 

Element aus S. Die auf diese Weise generierten 100 Distanzen, sortieren wir in 

aufsteigender Reihenfolge und wählen aus der sortierten Liste die Distanz an 

Position t aus. Diese nennen wir im Folgenden d t . 

Die 100 potentiellen Detektoren werden nun verworfen und stattdessen neue 

generiert. Nur die neuen Detektoren, deren kürzeste Distanz zu einem Bild in S 

mindestens d t beträgt, werden akzeptiert. Alle anderen werden verworfen. Damit 

entspricht d t dem einleitend mit r bezeichneten Ähnlichkeitsradius. Diesen 

Prozess wiederholen wir so lange, bis die zuvor definierte Anzahl an Detektoren 

erreicht ist. Die Menge dieser akzeptierten Detektoren bezeichnen wir mit D. 

Ein guter Wert für die Kardinalität von D ist experimentell zu ermitteln. 

Nach Abschluß der Detektorgenerierung dient d t auch als Grenzwert für die 

nun folgende Klassifikation. So werden alle die Objekte als Non-self klassifiziert, 

die innerhalb des Distanzradius d t um einen Detektor liegen. Damit bestimmt 

die Auswahl von d t implizit auch die tolerierte falsch-positiv-Rate des 

Klassifikators. Wählen wir beispielsweise d 5 aus, so läge die falsch-positiv-Rate 

für die Klassifikation der Elemente in S bei 5%. Gehen wir bei S von einer 

repräsentativen Auswahl der Klasse Self aus, dann erwarten wir eine ähnliche 

falsch-positiv-Rate auch für die gesamte Klasse. 

Es ist unmittelbar einzusehen, daß mit der Auswahl eines kleinen Toleranzradius 

d t sehr wahrscheinlich eine größere Menge an Detektoren benötigt wird. Ein 

einzelner Detektor passt dann einfach zu weniger Objekten. Andererseits wollen 

wir mit den generierten Detektoren aber eine möglichst vollständige Abdeckung 

der Non-Self -Objekte erzielen. 

Der Algorithmus beinhaltet damit eine beachtliche Anzahl experimentell zu optimierender 

Parameter. Zu allererst ist das die Kardinalität der Menge S von 

negativen Beispielen. Es folgen g 1 und g 2 als Grenzwerte für die Regionszugehörigkeit 

der Pixelpositionen. Dann benötigen wir für jede Region 3 Wahrscheinlichkeiten, 

von denen jeweils 2 unabhängig voneinander gewählt werden 

können. Bei 3 Regionen sind das also weitere 6 Parameter. Ferner müssen wir 

ein geeignetes d t definieren und mit der Kardinalität von D die Anzahl der 

71


gewünschen Detektoren. Das sind insgesamt 11 Stellschrauben für den Algorithmus, 

wobei für alle 11 eine nicht unerhebliche Anzahl an Auswahlmöglichkeiten 

besteht. 

Da unser Algorithmus, um Überanpassung an die Menge S zu vermeiden, immer 

wieder neue zufällige Bilder aus der großen Menge der MNIST-Daten auswählt, 

sind insbesondere kleinere Auswirkungen von Parameteränderungen nicht auf 

Anhieb feststellbar. Ohne den Anspruch auf Optimalität zu erheben, verwenden 

wir im Folgenden eine experimentell ermittelte Konfiguration, die unabhängig 

von der zufälligen Bildauswahl reproduzierbar sehr gute Ergebnisse liefert. 

Zu dieser Konfiguration gehören die bereits erwähnten Grenzwerte g 1 = 0, 7 

und g 2 = 0, 3 für die Regionen und die weiter oben aufgelisteten Wahrscheinlichkeiten. 

Als die Kardinalität von S wählen wir 500, die Detektoren werden 

also auf Basis von 500 Bildern der 2 generiert. Ferner starten wir mit t = 10, 

so daß der tolerierte Ähnlichkeitsradius der Distanz d 1 0 enstpricht. Da diese 

Distanz und damit auch der Radius der das Konzept beschreibenden Hyperkugeln 

relativ klein ist, vermuten wir einen hohen Bedarf an Detektoren. Für die 

Kardinalität von D als Anzahl der Detektoren legen wir uns also vorerst auf 

30000 fest. 

Die Klassifikationsgüte bestimmen wir im Anschluss an die Detektorgenerierung 

mittels 50 zufällig ausgewählter Bilder je Ziffer. Tabelle 5.1 zeigt die 

Entwicklung von falsch-positiv- und richtig-positiv-Rate für die Ziffer 2 unter 

Veränderung des Parameters t. Der besseren Übersicht wegen ist die Klasse Self 

der Ziffer 2 durch zusätzliche vertikale Striche optisch abgetrennt. 

In der ersten Zeile mit t = 0 erlauben wir gar keine Distanz. Ein Detektor passt 

nur dann zu einem Bild, wenn alle Literale erfüllt werden. Aufgrund der Größen 

der Regionen R 1 und R 2 (zusammen etwa 150 Pixel) ergibt sich zusammen mit 

unserer Wahrscheinlichkeitsverteilung für die Monome eine Anzahl von etwa 100 

Literalen. Jeder derartige Detektor passt entsprechend auf ungefähr 2 784−100 = 

2 684 Bilder. Mit der gewählten Detektoranzahl von 30000 ≈ 2 15 können alle 

Detektoren zusammen selbst bei perfekter Disjunktheit lediglich zu 2 684 2 15 = 

2 699 Bildern passen. Das sind zwar unvorstellbar viele Bilder, jedoch verglichen 

mit dem gesamten Raum von 2 784 noch immer verschwindend wenige. 

Je größer wir den Radius erlauben, desto eher können wir eine Abdeckung 

des gesamten Non-Self-Raums erreichen. Insbesondere bei sehr hohen Werten 

für t erhöht sich die Wahrscheinlichkeit für hohe Abdeckung. Die gegebene 

Wahrscheinlichkeitsverteilung für die Detektorgenerierung ist speziell auf die 

Abdeckung der Non-Self -Bereiche ausgerichtet. Deshalb erwarten wir für die 

Self -Bereiche eine entsprechend schlechtere Abdeckung. Diese Vermutung wird 

duch die experimentellen Ergebnisse bestätigt. 

Mit wachsendem t wächst auch der Toleranzradius der Detektoren, die dadurch 

einen immer größeren Raum abdecken. Ganz offensichtlich steigt mit größerem t 

auch die Klassifikationsgüte erheblich. Bei t = 50 erreichen wir mit lediglich 14% 

falsch-positiv-Klassifikationen eine richtig-positiv-Rate von 72, 2%. Von den 50 

72


t 0 1 2 3 4 5 6 7 8 9 fp rp Akk. 

0 0 0 0 0 0 0 0 0 0 0 0, 0% 0, 0% 0.1 

10 8 40 2 11 28 25 11 38 4 26 4, 0% 42, 4% 0.48 

20 18 39 4 11 27 31 12 37 3 31 8, 0% 46, 4% 0.51 

50 32 48 7 32 44 41 22 46 17 43 14, 0% 72, 2% 0.74 

90 39 50 13 38 45 49 26 49 29 46 26, 0% 82, 4% 0.82 

99 44 46 11 36 46 45 27 49 26 46 22, 0% 82, 1% 0.76 

Tabelle 5.1: Entwicklung von falsch-positiv- und richtig-positiv-Rate (fp und rp) sowie 

der Akkuratheit bei variablem t mit |S| = 500 und |D| = 30000 für die Ziffer 2. Die 

anderen Spalten enthalten die Häufigkeit der Klassifikation als positiv für die jeweilige 

Ziffer (max. 50). 

100 


80 

60 

40 

20 

0 

0 10 20 30 


Abbildung 5.2: Punkte der ROC-Kurve entsprechend der Ergebnisse aus Tabelle 

5.1. Die Entfernung zur Zufallsklassifikation (gestrichelt) ist ab t = 50 annähernd 

konstant((Kreuze: |t| < 50, Kreise: |t| 50)) 

zu klassifizierenden Bildern der Ziffer 2 wurden lediglich 7 als Non-Self klassifiziert. 

Auf der anderen Seite erkennt der Klassifikator von den gegebenen 450 

anderen Bildern immerhin 325 korrekterweise als Elemente von Non-Self. Im 

Sinne der ROC-Kurve ist das von allen Ergebnissen aus der Tabelle der beste 

Wert, da er sich am weitesten von der Qualität des zufälligen Ratens entfernt. 

Der Zugewinn von etwas über 10% bei der richtig-positiv-Rate für t = 90 wird 

mit einer Erhöhung der falsch-positiv-Rate um 12% erkauft. Vermutlich liegt 

das Optimum bezüglich t irgendwo dazwischen. 

Trotzdem bringt gerade der untere Teil dieser Tabelle eine ganz zentrale Erkenntnis. 

Die Auswahl des Paramters t hat ab einer gewissen Grenze nur noch 

sehr bedingten Einfluß auf die Klassifiaktionsgüte. Um hier ein gutes Ergebnis 

zu erreichen, müssen wir t nicht mehr mit Hilfe positiver Beispiele optimieren. 

Die mittels der Menge S über die Non-Self -Objekte gewonnene Information 

reicht sowohl für die Generierung geeigneter Detektoren, als auch für die De- 

73


|D| 0 1 2 3 4 5 6 7 8 9 fp rp Akk. 

10 0 20 2 1 3 5 0 17 0 2 4, 0% 10, 6% 0.19 

100 13 33 1 10 17 26 2 34 0 16 2, 0% 33, 6% 0.40 

1000 13 32 4 16 30 29 11 39 3 31 8, 0% 45, 3% 0.50 

10000 29 45 2 24 41 38 11 44 14 37 4, 0% 62, 9% 0.66 

20000 31 47 7 31 42 40 22 46 15 42 14, 0% 70, 2% 0.72 

30000 32 48 7 32 44 41 22 46 17 43 14, 0% 72, 2% 0.74 

50000 35 49 4 29 44 41 17 47 22 42 8, 0% 72, 4% 0.74 

Tabelle 5.2: Entwicklung von falsch-positiv- und richtig-positiv-Rate (fp und rp) sowie 

der Akkuratheit bei variablem |D| mit |S| = 500 und t = 50 für die Ziffer 2. Die 

anderen Spalten enthalten die Häufigkeit der Klassifikation als positiv für die jeweilige 

Ziffer (max. 50). 

100 


80 

60 

40 

20 

0 

0 5 10 15 20 


Abbildung 5.3: Punkte der ROC-Kurve entsprechend der Ergebnisse aus Tabelle 5.2. 

Die Entfernung zur Zufallsklassifikation (gestrichelt) ist ab |D| = 10000 annähernd 

konstant (Kreuze: |D| < 10000, Kreise: |D| 10000) 

finition eines geeigneten Toleranzradius zur Klassifikation aus. Damit ist des 

zentrale Kriterium von Negative Selection erfüllt. 

Die Tests mit variabler Detektorzahl betätigen diese Erkenntnis. Tabelle 5.2 

zeigt, dass die bereits im vorherigen Experiment verwendete Größenordnung um 

30000, bereits ein sehr gutes Ergebnis erzielt. Für sehr kleine Detektorzahlen 

geht die Anzahl der richtig-positiv-Klassifikationen erwartungsgemäß deutlich 

zurück. Bleiben wir mit der Detektoranzahl in etwa bei gleicher Größenordnung, 

so sind keine signifikanten Änderungen feststellbar. Beim Rückgang der falschpositiv-Rate 

auf 8% ist zu berücksichtigen, daß es sich absolut betrachtet lediglich 

um 3 Bilder handelt. Das liegt absolut im Bereich statistischer Toleranz. 

Die Detektoranzahl spielt ab einer gewissen Größenordnung also ebenfalls keine 

entscheidende Rolle mehr. 

74


Wir haben in diesem Kapitel erstmals einen Negative-Selection-Ansatz zur Bildklassifikation 

verwendet. Darum war es primäres Ziel zu prüfen, ob es sich um 

eine Erfolg versprechende Strategie handelt. Wir konnten zeigen, daß unser 

Klassifikator, der ein konsistentes Konzept nur auf Basis negativer Beispiele 

gelernt hat, eine Klassifikationsgüte deutlich über der Qualität des zufälligen 

Ratens erreicht. 

75

6 Zusammenfassung, Fazit und 

Ausblick 

Im Rahmen dieser Arbeit haben wir uns mit der Eignung von kompressionsbasierten 

Distanzmaßen für Bildklassifikation befasst. Dabei ist der Kompressionsbegriff 

in einem etwas globalerem Sinn zu verstehen. Programme wie beispielsweise 

gzip oder andere bekannte Algorithmen zur Datenkompression wurden 

hier zunächst nicht betrachet. 

Vielmehr haben wir verschiedene Approximationen der Kolmogorov-Komplexität 

behandelt. Die wiederum dient als Basis für die Informatisdistanz, ein theoretisches 

Maß für die Ähnlichkeit zwischen zwei Objekten. Die Definition der 

Kolmogorov-Komplexität als Länge einer ultimativen Kompression nehmen wir 

zum Anlass, auch bei den Approximationen von Kompression zu sprechen. So 

hat der Hammingabstand auf den ersten Blick nichts mit Kompression zu tun. 

Im Abschnitt 4.2.1 konnten wir diesen Zusammenhang jedoch herstellen. Greifen 

wir an dieser Stelle noch einmal kurz auf einen Aspekt des Kapitels 2 zurück. 

Nach Definition 2.1 entspricht die bedingte Kolmogorov-Komplexität für ein 

Objekt x gegeben y genau der Länge eines kürzesten Programms, welches unter 

Eingabe von y das Objekt x erzeugt. Nehmen wir nun an, bei beiden Objekten 

handelt es sich um Binärstrings gleicher Länge und wir kennen nur y. 

Wir kennen aber zusätzlich ein Programm, in dem die einzelnen Positionen codiert 

sind, an denen sich x und y unterscheiden. Die Länge dieses Programms 

können wir dann als Approximation der Kolmogorov-Komplexität von x gegeben 

y auffassen. Eine Codierung, die genau solche Programme erzeugt, haben 

wir vorgestellt. Deren Länge verhält sich proportional zum Hammingabstand 

und so gesehen gibt es einen Zusammenhang zwischen Hammingabstand und 

Kompression. 

Nachdem wir uns in Kapitel 2 von der Sinnhaftigkeit eines kompressionsbasierten 

Distanzmaßes aus theoretischer Sicht hinlänglich überzeugt haben, folgte in 

Kapitel 4 der Praxistest. Dazu wurde ein Anwendungsfall der Bildklassifikation 

gewählt. Mittels des bekannten k-NN-Algorithmus und den einzelnen Distanzmaßen 

haben wir kleine Bilder handgeschriebener Ziffern klassifiziert. Die Standardmaße 

Hammingabstand, sowie Euklidische und Levenshteindistanz zeigten 

bezüglich der Fehlerrate gute Ergebnisse. Jedoch beschränkte sich das im Fall 

der beiden erstgenannten auf normierte Daten. Die verwendeten Bilder waren 

zunächst zentriert, so daß der Schwerpunkt der Grauwerte jeweils in der Mitte 

des Bildes liegt. In einem Test auf Translationsinvarianz wurden Trainings- und 

Testdaten gegenläufig aus der Mitte verschoben. Mit Hammingabstand und Euklidischer 

Distanz war der k-NN-Algorithmus daraufhin nicht mehr in der Lage, 

77

Kapitel 6. Zusammenfassung, Fazit und Ausblick 

auch nur annähernd gute Klassifikationsergebnisse zu erzielen. Anders verhält 

es sich mit der Levenshteindistanz, mit der k-NN auch nach der Translation 

konstant wenige Fehler macht. 

Im zweiten Teil dieses Kapitels haben wir dann ein eigenes Distanzmaß basierend 

auf realer und verlustfreier Kompression entwickelt. Der PPM-Algorithmus 

(Prediction with Partial Matching) fusst in seiner bekannten Form auf arithmetischer 

Kodierung. Arithmetische Kodierung gehört zur Familie der Entropiekodierer 

und ist theoretisch optimal, bezogen auf den Informationsgehalt 

der kodierten Symbole. Leider entspricht die Summe des Informationsgehalts 

aller Symbole in einem String im Allgemeinen nicht dem Informationsgehalt 

des gesamten Strings. Während einfache arithmetische Kodierung lediglich die 

Wahrscheinlichkeit für das Vorkommen der Symbole im zu kodierenden String 

berücksichtigt, geht PPM einen Schritt weiter. PPM baut zur Laufzeit, also 

während der Kodierung, eine Wahrscheinlichkeitsverteilung der Symbole auf 

und berücksichtigt dabei noch deren Kontext. Entsprechend der gerade gültigen 

Wahrscheinlichkeiten innerhalb des aktuellen Kontext wird das Symbol arithmetisch 

kodiert. Am Ende stehen dann ein Codewort und eine recht präzise 

Statistik über die Symbole, Kontexte und Wahrscheinlichkeiten. Normalerweise 

ist PPM an dieser Stelle fertig. Unser neues Distanzmaß setzt jedoch genau 

hier an. 

Die generierten Statistiken sind dabei ein zenraler Aspekt. Die Frage ist, wie 

stark es sich auf die Länge des Codeworts auswirkt, wenn für die Kodierung 

nicht die eigene Statistik verwendet wird, sondern die eines anderen Bildes. 

Unsere Idee basiert auf der Annahme, daß PPM bei ähnlichen Bildern auch 

ähnliche Statistiken produziert. Ist das der Fall, dann ist das mittels der fremden 

Statistik erzeugte Codewort nicht wesentlich länger. Die Experimente mit 

k-NN-Klassikation haben diese Vernutung letztlich bekräftigt. Bleibt auch die 

Klassifikationsgüte insbesondere auf den zentrierten Ziffern hinter der Qualität 

mit den Standardmaßen zurück, zeigt es seine Stärke dann in der Translationsinvarianz. 

Die Fehlerrate bleibt trotz gegenläufiger Verschiebung von Testund 

Trainingsbildern annähernd konstant. Aufgrund der hohen Laufzeit ist unser 

Distanzmaß für den praktischen Einsatz in seiner derzeitigen Form jedoch 

ungeeignet. Trotzdem konnten wir zeigen, daß unser es zweckmäßig und im konkreten 

Anwendungsfall als Approximation für die Informationsdistanz geeignet 

ist. 

In Kapitel 5 haben wir uns dann schließlich mit dem Negative Selection-Algorithmus 

beschäftigt. Dieser findet seinen Ursprung im Bereich der künstlichen Immunsysteme. 

In der Realität ist ein gesundes Immunsystem in der Lage zielsicher 

körperfremde von körpereigenen Zellen zu unterscheiden. Zum Training der T- 

Zellen, die diese Unterscheidung letzlich vornehmen müssen, steht jedoch nur 

unvollständige Information bezüglich der körpereigenen Zellen zur Verfügung. 

Die Klassifikation klappt trotzdem. 

In der Einleitung zu dieser Arbeit haben wir die Verwendung von Negative 

Selection in der Bildklassifikation damit motiviert, beispielsweise digitale Bild- 

78

manipulationen unbekannter Art zu detektieren. Soweit sind wir heute aber 

noch nicht. Wir konnten jedoch ausschließlich mit Bildern der Ziffer 2 einen 

Klassifikator trainieren, der anschließend mit überzeugender Korrektheit Bilder 

mit anderen Ziffern als Nicht-2 klassifiziert hat. Bilder die tatsächlich eine 2 

zeigen, wurden in den allermeisten Fällen auch also solche erkannt. Die Funktionsweise 

von Negative Selection basiert prinzipiell auf der Beschreibung des 

positiven Konzepts mittels Detektoren. Die Menge aller Detektoren beschreibt 

am Ende das Konzept. 

Bei uns erfolgt die Generierung der Detektoren zwar zufällig, jedoch basierend 

auf einer in der Trainingsphase gelernten spezifischen Wahrscheinlichkeitsverteilung. 

Diese reduziert gezielt die Wahrscheinlichkeit für das Vorhandensein 

der für die Ziffer 2 besonders spezifischen Merkmale in den Detektoren. 

Während unserer Forschungsarbeit zur Definition solcher Detektoren haben wir 

beispielsweise mit viel Aufwand versucht, mittels der PPM-basierten Distanz 

gute Ergebnisse zu erzielen. Dabei wurden manipulierte Statistiken als Detektoren 

eingesetzt. Die Manipulation erfolgte besonders an solchen Kontexten, 

bei denen wir eine hohe Relevanz für die Klassifikationsentscheidung vermuteten. 

Mit dieser Strategie lag die Klassifikationsgüte anschließend leicht über der 

Qualität zufälligen Ratens. Auf eine ausführliche Darstellung dieser Ergebnisse 

haben wir jedoch verzichtet, um dem sehr erfolgreichen Ansatz mit Hammingabstand 

gebührenden Platz einzuräumen. 

Soweit wir wissen, hat niemand zuvor Negative Selection in dieser Form eingesetzt. 

Aus diesem Grund existieren auch keine Vergleichswerte. Mit unserern 

Ergebnissen konnten wir jedoch zeigen, daß es sich lohnt in diesem Bereich 

weitere Forschungsarbeit zu betreiben. 

Kommen wir zum Abschluß noch einmal auf das in der Einleitung erwähnte 

prominente Beispiel für Bildmanipulation zurück. Vielleicht können wir mit 

Hilfe von Negative Selection ja schon in naher Zukunft zielsicher erkennen, wie 

gut es um die Sportlichkeit von Präsident Sarkozy tatsächlich bestellt ist. Und 

wenn wir das gar nicht wissen wollen, dann finden sich bestimmt auch noch 

interessantere Einsatzmöglichkeiten. Ganz sicher. 

79

Abbildungsverzeichnis 

3.1 Beispiel für eine einfache k-NN-Klassifikaton . . . . . . . . . . . . 19 

3.2 Schema einer ROC-Kurve . . . . . . . . . . . . . . . . . . . . . . 24 

3.3 Der SIFT -Algorithmus findet mittels invarianter Merkmale im 

rechten Bild den Frosch (rot umrandet) und zweimal die Lokomotive 

(grün und gelb) obwohl diese teilweise verdeckt sind . . . 25 

4.1 10 Beispielbilder je Ziffer aus dem MNIST-Datenbestand . . . . . 28 

4.2 Entwicklung der Fehlerrate mit variablem k und fixem Grenzwert 

α = 120 (Bestes Ergebnis: k = 4 mit 3, 9%) . . . . . . . . . . . . 33 

4.3 Entwicklung der Fehlerrate mit variablem Grenzwert α und 4- 

NN-Klassifikator (Bestes Ergebnis: α = 41 mit 6, 1%) . . . . . . . 33 

4.4 Fehlerrate der 4-NN-Klassifikation mit Hammingabstand auf zufällig 

verschobenen Bildern in 10 unabhängigen Durchgängen . . 36 

4.5 Fehlerrate der 4-NN-Klassifikation auf horizontal gegenläufig um 

4 Pixel verschobener Trainings- und Testmenge in 10 unabhängigen 

Durchgängen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 

4.6 Entwicklung der durchschnittlichen Fehlerrate aus jeweils 5 Durchgängen 

bei variablem k für k-NN-Klassifikation mit Levenshtein- 

Distanz (Bestes Ergebnis: k = 4 mit 8, 2%) . . . . . . . . . . . . 40 

4.7 Durchschnittliche Fehlerrate bei 5 Durchgängen je k für k-NN- 

Klassifikation mit Levenshtein-Distanz auf gegenläufig horizontal 

um 4 Pixel verschobener Trainigs- und Testmenge . . . . . . . . 41 

4.8 Entwicklung der Fehlerrate mit k-NN-Klassifikation und Euklidischer 

Distanz bei variablem k auf dem vollständigen MNIST- 

Datenbestand (Bestes Ergebnis: k = 3 mit 2.8%) . . . . . . . . . 44 

4.9 Entwicklung der Fehlerrate mit k-NN-Klassifikation und Euklidischer 

Distanz auf dem reduzierten Datenbestand (Bestes Ergebnis: 

k = 4 mit 7.7%) . . . . . . . . . . . . . . . . . . . . . . . 45 

4.10 Kurvenverlauf der Funktion f(p(x)) = −p(x) log 2 p(x) . . . . . . 49 

4.11 Entwicklung der Subintervalle bei arithmetischer Kodierung des 

Strings x 1 x 2 x 3 [Say00]. . . . . . . . . . . . . . . . . . . . . . . . . 50 

4.12 2D-Kontext für Pixel p mit Kontextordnung 8 . . . . . . . . . . . 55 

4.13 Entwicklung der Fehlerrate mit k-NN-Klassifikation und PPMbasiertem 

Abstand mit 2D-Kontext . . . . . . . . . . . . . . . . . 56 

4.14 Entwicklung der PPM -basierten Distanz mit zufälligem Rauschen 

(d entspricht jeweils der Distanz zum Original) . . . . . . . 59 


Abstand auf diskretisierte Gradientenbilder (Bestes 

Ergebnis: k = 6 mit 19, 8%) . . . . . . . . . . . . . . . . . . . . . 60 

81

Abbildungsverzeichnis 


Abstand auf diskretisierten und um 4 Pixel gegenläufig 

verschobenen Gradientenbildern (Bestes Ergebnis: k = 7 mit 

21, 5%) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 

5.1 Aufteilung der Pixelpositionen in Regionen basierend auf 300 

zufälligen Bildern der Ziffer 2 (Grenzwerte: g 1 = 0, 7, g 2 = 0, 3) . 69 

5.2 Punkte der ROC-Kurve entsprechend der Ergebnisse aus Tabelle 

5.1. Die Entfernung zur Zufallsklassifikation (gestrichelt) ist ab 

t = 50 annähernd konstant((Kreuze: |t| < 50, Kreise: |t| 50)) . 73 

5.3 Punkte der ROC-Kurve entsprechend der Ergebnisse aus Tabelle 

5.2. Die Entfernung zur Zufallsklassifikation (gestrichelt) ist ab 

|D| = 10000 annähernd konstant (Kreuze: |D| < 10000, Kreise: 

|D| 10000) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 

82

Bibliographie 

[BGL + 98] Charles H. Bennett, Péter Gács, Ming Li, Paul M.B. Vitányi, and 

Wojciech H. Zurek. Information Distance. In IEEE Transactions on 

Information Theory Vol.44, pages 1407–1423. 1998. 

[CV05] 

[CV06] 

[Far09] 

[Gač74] 

[HK06] 

Paul Cilibrasi and Paul M.B. Vitányi. Clustering by Compression. 

In IEEE Transactions on Information Theory Vol.51 No.4, pages 

1523–1545. 2005. 

Rudi Cilibrasi and Paul Vitányi. Similarity of Objects and the Meaning 

of Words. Technical report, 2006. 

Hany Farid. Image Forgery Detection. In IEEE Signal Processing 

Magazine. 2009. 

P. Gač. On the Symmetry of Algorithmic Information. In Soviet 

Math. Dokl. Vol.15 No.5, pages 1477–1480. 1974. 

Jiawei Han and Micheline Kamber. Data Mining - Concepts And 

Techniques. Diane Cerra, San Francisco, 2006. 

[JD04] Zhou Ji and Dipankar Dasgupta. Real-Valued Negative Selection 

Algorithm with Variable-Sized Detectors. In GECCO 2004. 2004. 

[Kol65] 

A. N. Kolmogorov. Three Approaches to the Quantatitive Definition 

of Information. In Problemy Peredachi Informatsii, Vol.1, No.1, 

pages 3–11. 1965. 

[LBBH98] Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. 

Gradient-Based Learning Applied to Document Recognition. In Proceedings 

of the IEEE, Vol. 86, No.11, pages 2278–2324. 1998. 

[LC98] 

Yann LeCunn and Corinna Cortes. THE MNIST DATABASE Of 

Handwritten Digits. http://yann.lecun.com/exdb/mnist/, 1998. 

[LCL + 04] Ming Li, Xin Chen, Xin Li, Bin Ma, and Paul M.B. Vitányi. The 

Similarity Metric. In IEEE Transactions on Information Theory 

Vol.50 No.12, pages 3250–3264. 2004. 

[Lev65] 

[LH05] 

V. I. Levenshtein. Binary Codes Capable of Correcting Deletions, 

Insertions and Reversals. In Translated from Doklady Akademii Nauk 

SSSR, VOl. 163, No. 4, pages 845–848. 1965. 

Yuxuan Lan and Richard Harvey. Image Classification using Compression 

Distance. In E. Trucco and M. Chantler, editors, Vision, 

Video and Graphics. 2005. 

83

Bibliographie 

[Low04] David G. Lowe. Distinctive Image Features from Scale-Invariant 

Keypoints. In International Journal of Computer Vision. Vancouver, 

B.C, Canada, 2004. 

[LSFF09] 

[LV08] 

[LZ06] 

Li-Jia Li, Richard Socher, and Li Fei-Fei. Towards Total Scene Understanding: 

Clasification, Annotation and Segmentation in an Automatic 

Framework. In IEEE Conference on Computer Vision and 

Pattern Recognition. 2009. 

Ming Li and Paul Vitányi. An Introduction to Kolmogorov Complexity 

and Its Applications. Springer, New York, 2008. 

Ming Li and Yaonung Zhu. Image Classification Via LZ78 Based 

String Kernel: A Comparative Study. In Advances in Knowledge 

Discovery and Data Mining, pages 704–712. Springer Berlin/Heidelberg, 

2006. 

[Rei99] K. Rüdiger Reischuk. Komplexitätstheorie Band 1: Grundlagen. 

B.G. Teubner, Stuttgart - Leipzig, 1999. 

[RH96] K. R. Rao and J.J. Hwang. Techniques & Standards for Image, 

Video & Audio Coding. Prentice Hall PTR, New Jersey, USA, 1996. 

[Say00] 

[SS08] 

Khalid Sayood. Introduction to Data Compression. Academic Press, 

San Diego CA, USA, 2nd edition, 2000. 

Yun Q. Shi and Huifang Sun. Image and Video Compression for 

Multimedia Engineering. CRC Press, Taylor & Francis Group, 2nd 

edition, 2008. 

[ST] National Institute Of Standards and Technology. 

NIST Handprinted Forms and Characters Database. 

http://www.nist.gov/srd/nistsd19.htm. Stand vom 07.07.2010. 

[THSC08] J. Timmis, A. Hone, T. Stibor, and E. Clark. Theoretical Advances 

in Artifical Immune Systems. In Theoretical Computer Science, Vol. 

403. 2008. 

[WF74] Robert A. Wagner and Michael J. Fischer. The String-to-String 

Correction Problem. 1974. 

[WR17] 

Alfred North Whitehead and Bertrand Russel. Principia Mathematica. 

B.G. Teubner, 1917. 

84

Bildklassifikation unter Verwendung kompressionsbasierter Methoden

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?