Nichtlineare Dimensionsreduktionsmethoden in der ... - DPI

Nichtlineare 

Dimensionsreduktionsmethoden 

in der Datenanalyse und 

Signalverarbeitung 

Diplomarbeit 

vorgelegt von 

Jörg Dittmar 

aus 

Kassel 

angefertigt im 

Dritten Physikalischen Institut 

der Georg–August–Universität zu Göttingen 

2002

Inhaltsverzeichnis 

Einleitung 5 

1 Einführung und Überblick 7 

1.1 Was ist Dimensionsreduktion? . . . . . . . . . . . . . . . . . . 7 

1.2 Warum oder wann ist Dimensionsreduktion möglich? . . . . . 9 

2 Principal Component Analysis 12 

2.1 PCA mit Korrelationsmatrizen . . . . . . . . . . . . . . . . . 15 

2.2 Die Berechnung der PCA . . . . . . . . . . . . . . . . . . . . . 15 

2.2.1 Direkte und indirekte Berechnung . . . . . . . . . . . . 15 

2.2.2 Näherungsweise Berechnung der Hauptachsen . . . . . 17 

3 Kern-PCA 18 

3.1 PCA im Merkmalsraum . . . . . . . . . . . . . . . . . . . . . 19 

3.2 Die Berechnung von Skalarprodukten im Merkmalsraum . . . 21 

3.3 Beispiele für Kern-Funktionen . . . . . . . . . . . . . . . . . . 24 

3.3.1 Homogener polynomieller Kern . . . . . . . . . . . . . 24 

3.3.2 Inhomogener polynomieller Kern . . . . . . . . . . . . 24 

3.3.3 Gauß’scher Kern . . . . . . . . . . . . . . . . . . . . . 25 

3.3.4 Sigmoider Kern . . . . . . . . . . . . . . . . . . . . . . 25 

3.4 Aufwand zur Berechnung der Kern-PCA . . . . . . . . . . . . 25

INHALTSVERZEICHNIS 3 

4 Multidimensional Scaling 27 

4.1 Metrisches MDS . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

4.1.1 Klassisches MDS . . . . . . . . . . . . . . . . . . . . . 29 

4.1.2 Andere Varianten von metrischem MDS . . . . . . . . 34 

4.2 Nichtmetrisches MDS . . . . . . . . . . . . . . . . . . . . . . . 36 

5 Isomap 38 

5.1 Die ursprüngliche Version von Isomap . . . . . . . . . . . . . . 40 

5.2 Eine neuere Variante von Isomap . . . . . . . . . . . . . . . . 41 

6 Locally Linear Embedding 47 

6.1 Die Berechnung der Gewichtsmatrix . . . . . . . . . . . . . . . 48 

6.2 Die Berechnung der Einbettungskoordinaten . . . . . . . . . . 53 

6.3 Weiteres zum LLE-Algorithmus . . . . . . . . . . . . . . . . . 57 

7 Anwendung der Algorithmen auf verschiedene Datensätze 60 

7.1 Der Swiss Roll Datensatz . . . . . . . . . . . . . . . . . . . . . 61 

7.1.1 PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 

7.1.2 Kern-PCA . . . . . . . . . . . . . . . . . . . . . . . . . 64 

7.1.3 Isomap . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 

7.1.4 LLE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 

7.2 Bildanordnung I: Webcam-Bilder . . . . . . . . . . . . . . . . 73 

7.2.1 PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 

7.2.2 Kern-PCA . . . . . . . . . . . . . . . . . . . . . . . . . 75 

7.2.3 Isomap . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 

7.2.4 LLE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 

7.3 Bildanordnung II: Kavitationsblasen . . . . . . . . . . . . . . 79 

7.3.1 PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4 INHALTSVERZEICHNIS 

7.3.2 Kern-PCA . . . . . . . . . . . . . . . . . . . . . . . . . 82 

7.3.3 Isomap . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 

7.3.4 LLE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 

7.4 Einbettung von Sprachsignalen . . . . . . . . . . . . . . . . . 86 

8 Zusammenfassung und Ausblick 93 

A Ergänzungen zur Theorie 96 

A.1 Stochastische Grundlagen . . . . . . . . . . . . . . . . . . . . 96 

A.2 Etwas Graphentheorie . . . . . . . . . . . . . . . . . . . . . . 98 

A.2.1 Der Algorithmus von Dijkstra . . . . . . . . . . . . . 101 

A.2.2 Der Floyd-Warshall-Algorithmus . . . . . . . . . . . . 104 

Literaturverzeichnis 108

Einleitung 

In Technik und Wissenschaft steht man oft vor der Aufgabe, sehr große 

Datenmengen verarbeiten zu müssen. Ein Beispiel aus der Hochenergiephysik 

sind die Experimente an Teilchenbeschleunigern wie dem CERN in Genf, bei 

denen auf der Suche nach neuen Elementarteilchen gigantische Datenmengen 

anfallen, die irgendwie elektronisch verarbeitet werden müssen. Ein anderes 

Beispiel ist die Beobachtung astronomischer Objekte, wo mit elektronisch 

gesteuerten Teleskopen automatisch die Spektren sehr vieler Himmelskörper 

gemessen werden, die anschließend verarbeitet werden müssen. 

Die gemessenen Daten kann man sich als Punkte in einem sehr hochdimensionalen 

Raum vorstellen, in dem jeder Richtung eine Messgröße oder Variable 

entspricht. Weiterhin haben solche Daten die Eigenschaft, dass sie nicht rein 

statistischer Natur sind, sondern ihnen unterliegt eine gewisse Struktur, d.h. 

die einzelnen Messgrößen sind nicht unabhängig voneinander. Es herrschen 

also Korrelationen zwischen den Variablen, die dazu führen, dass die Daten 

nicht den gesamten hochdimensionalen Raum ausfüllen, sondern auf einer 

Untermannigfaltigkeit niedrigerer Dimension liegen. Vielfach sind die Korrelationen 

sehr stark; es herrschen viele gegenseitige Abhängigkeiten unter den 

Variablen, die dazu führen, dass die Dimension der Untermannigfaltigkeit 

sehr viel niedriger ist als die Raumdimension und sich die Untermannigfaltigkeit 

somit durch relativ wenige Parameter beschreiben lässt. Solche Parameter 

zu finden ist die Aufgabe der Dimensionsreduktion: Man sucht nach 

kompakten Repräsentationen hochdimensionaler Daten, die die wesentliche 

Struktur dieser Daten erhalten. 

Die vorliegende Arbeit beschäftigt sich mit verschiedenen Verfahren zur Dimensionsreduktion, 

von denen einige bereits zu Beginn des Zwanzigsten Jahrhunderts 

entwickelt wurden und andere Gegenstand aktueller Forschung sind. 

Die Arbeit ist folgendermaßen organisiert: Im ersten Kapitel wird eine Einführung 

in die Konzepte der Dimensionsreduktion gegeben. Die nachfolgenden 

Kapitel behandeln dann einige Algorithmen im Detail: Im zweiten Kapitel 

wird die sog. Principal Component Analysis oder kurz PCA vorgestellt,

6 INHALTSVERZEICHNIS 

die ein klassisches, lineares Verfahren ist. Das dritte Kapitel behandelt eine 

nichtlineare Erweiterung der PCA, die Kern-PCA, die auf Methoden 

der Funktionalanalysis beruht. Im vierten Kapitel wird ein weiteres klassisches, 

lineares Verfahren vorgestellt, das Multidimensional Scaling (MDS). 

Die nächsten beiden Kapitel behandeln zwei neue Algorithmen zur nichtlinearen 

Dimensionsreduktion: Isomap als nichtlineare Erweiterung von MDS wird 

im fünften Kapitel vorgestellt und der Locally Linear Embedding-Algorithmus 

wird im sechsten Kapitel behandelt. Im siebten Kapitel werden die Methoden 

dann anhand einiger Beispieldatensätze getestet und verglichen. Zuerst 

werden alle Methoden auf die sog. Swiss Roll angewendet, eine zweidimensionale, 

gekrümmte Mannigfaltigkeit, die in den dreidimensionalen euklidischen 

Raum eingebettet ist. Anschließend erfolgt eine Anwendung auf Bilddaten, 

wo untersucht wird, ob die Algorithmen sinnvolle Anordnungen der Bilddaten 

in einem niedrigdimensionalen Raum finden können. Zuletzt werden 

die Algorithmen dann noch auf Sprachdaten angewendet. Das achte Kapitel 

enthält dann eine Zusammenfassung der Ergebnisse und einen Ausblick auf 

noch offene Fragen. Als Ergänzung befindet sich am Ende der Arbeit noch ein 

Anhang, in dem statistische Grundbegriffe und Elemente der Graphentheorie 

behandelt werden, die in der Arbeit zum Einsatz kommen.

Kapitel 1 

Einführung und Überblick 

1.1 Was ist Dimensionsreduktion? 

Die Dimensionsreduktion lässt sich in den Kontext der statistischen Lerntheorie 

einordnen, die das Ziel hat, automatisch Repräsentationen oder Modelle 

für (große) Datenbestände zu finden [12]. Die statistische Lerntheorie 

spielt eine wichtige Rolle in vielen Bereichen von Forschung, Wissenschaft 

und Industrie. Es werden dort z.B. Probleme behandelt wie die automatische 

Erkennung handgeschriebener Zeichen, (biometrische) Gesichtserkennung 

oder die Vorhersage des wiederholten Auftretens eines Herzinfarkts anhand 

von klinischen und demographischen Daten und Ernährungsgewohnheiten 

der Patienten. Weitere Probleme, die in den Bereich der statistischen 

Lerntheorie fallen, sind z.B. die Navigation autonomer Roboter oder die automatische 

Qualitätskontrolle in industriellen Produktionsanlagen anhand 

bestimmter Kriterien. Man unterscheidet dabei zwischen beaufsichtigtem 

Lernen (Supervised Learning) und unbeaufsichtigtem Lernen (Unsupervised 

Learning). Im ersten Fall versucht man, die freien Parameter des (Lern-) 

Algorithmus so zu wählen, dass sie für eine Menge von Trainingsdaten optimale 

Ergebnisse liefern. Übertragen z.B. auf das Problem der Qualitätskontrolle, 

wo im einfachsten Fall eine Klassifikation der erzeugten Güter in 

” brauchbar“ und unbrauchbar“ erfolgen soll, bedeutet das, dass man dem 

” 

Algorithmus eine Menge von Trainingsdaten {(x, y)} vorgibt, wobei im Vektor 

x jeweils die Größen einer Messung zusammengefasst sind, anhand derer 

die Klassifikation erfolgen soll. Die (hier eindimensionale) Größe y enthält 

hingegen jeweils den richtigen Klassifikationswert, der z.B. von menschlichen 

Kontrolleuren ermittelt wird. Der Klassifikationsalgorithmus enthält gewisse 

zunächst freie Parameter, die nun so gewählt werden, dass die aus den Ein-

8 Einführung und Überblick 

gangsdaten x gebildeten Vorhersagen möglichst gut den richtigen Werten y 

entsprechen. Die Hoffnung ist dann, dass der Algorithmus auch für andere 

als die Trainingsdaten richtige Ergebnisse liefert. 

Beim unsupervised learning hat man keine Trainingsdaten zur Verfügung, anhand 

derer man die Lernalgorithmen trainieren kann. Es stehen einzig und 

allein die Eingangsdaten selbst zur Verfügung, aus denen wichtige Merkmale 

extrahiert werden sollen. Wie diese Merkmale aussehen oder was sie 

beschreiben, ist je nach Datensatz a priori völlig unbekannt. Das Ziel dabei 

ist, dass z.B. Maschinen mit sehr vielen Sensoren für unterschiedliche 

Messgrößen die riesigen Mengen an anfallenden Sensor-Rohdaten verarbeiten 

können und kompakte Repräsentationen dafür finden, ähnlich wie dies auch 

(meist unbewusst) der Mensch tut. Die Dimensionsreduktion ist eine Form 

des unsupervised learning, die automatisch niedrigdimensionale Repräsentationen 

für hochdimensionale Daten finden soll. Dabei soll eine möglichst 

starke Reduzierung der Dimension unter gleichzeitiger Erhaltung der wesentlichen 

Merkmale oder Strukturen erreicht werden, wobei diese Merkmale 

allein aus den Daten selbst extrahiert werden müssen, also ohne irgendwelche 

äußeren Informationen oder sonstigen Hilfen. 

Die Dimensionsreduktion findet also eine Abbildung f vom Raum der Eingangsdaten 

R D (Eingaberaum oder Input Space) in einen niedrigdimensionalen 

Merkmalsraum R d (Feature Space), wobei d < D und oft d ≪ D. Jeder 

Punkt x i ∈ R D aus dem Eingaberaum wird dabei auf einen Punkt y i ∈ R d 

aus dem Merkmalsraum abgebildet: y i = f(x i ). Die meisten Algorithmen 

führen diese Abbildung nur implizit aus, d.h. sie berechnen die Bilder der 

Eingangsdaten, ohne f irgendwie explizit zu bestimmen oder gar zurückzuliefern. 

Man spricht in diesem Zusammenhang auch von einer Einbettung 

der Eingangsdaten in den Merkmalsraum. Der Merkmalsraum wird dann oft 

auch Einbettungsraum genannt. 

Anwendungen der Dimensionsreduktion sind z.B. die Visualisierung hochdimensionaler 

Daten, bei der man eine niedrigdimensionale Einbettung der 

Daten berechnet und diese graphisch darstellt in der Hoffnung, dass in diesem 

Graphen die wesentliche Struktur der Daten enthalten ist. Weiterhin 

eignen sich diese Methoden sehr gut als Vorverarbeitung für Algorithmen zur 

Klassifikation, indem die Daten sinnvoll nach Merkmalen sortiert im Einbettungsraum 

angeordnet werden, was die Komplexität des Klassifizierungsalgorithmus’ 

wesentlich reduzieren kann [27]. Andere Anwendungen sind die 

Kompression von Daten durch Beseitigung von Redundanzen und die Interpolation, 

Erzeugung und Entrauschung von Daten [24]. Neben den hier 

vorgestellten Algorithmen existieren noch einige weitere wie z.B. die Self

1.2 Warum oder wann ist Dimensionsreduktion möglich? 9 

Organizing Maps (SOM, [17]) oder auf Neuronalen Netzen basierende Algorithmen. 

Einen Überblick über verschiedene, zum Teil hier nicht behandelte 

Algorithmen zur Dimensionsreduktion findet man in [6]. 

1.2 Warum oder wann ist Dimensionsreduktion 

möglich? 

Um diese Frage zu beantworten, ist es günstig, das folgende Beispiel zu betrachten. 

Abb. 1.1 zeigt eine Ansammlung von Graustufenbildern, die mit 

dem Computer generiert wurden und einen menschlichen Kopf zeigen, der 

in verschiedenen Winkeln gedreht und geneigt ist und außerdem aus unterschiedlichen 

Richtungen beleuchtet wird. 1 Gezeigt ist hier nur ein kleiner 

Abbildung 1.1: Computergenerierte Graustufenbilder eines in verschiedenen Winkeln 

gedrehten und geneigten Kopfes, der aus unterschiedlichen Richtungen beleuchtet wird. 

Ausschnitt; der komplette Datensatz enthält 698 solcher Bilder. Jedes Bild 

hat eine Größe von 64 × 64 Pixeln. Wie lässt sich ein solches Bild eindeutig 

beschreiben? Nun, man kann ein Bild auf jeden Fall eindeutig als Punkt in 

einem 64 2 = 4096-dimensionalen Raum darstellen, indem man jedem Pixel 

eine Richtung im Raum zuordnet, wobei sich der entsprechende Vektor z.B. 

durch Aneinanderhängen der Zeilen ergibt. 2 Allerdings unterscheiden sich 

doch die Bilder nur in den drei oben angesprochenen Parametern: den Drehbzw. 

Neigungswinkeln und den Richtungen, aus denen der Kopf beleuchtet 

wird. Es muss also möglich sein, die Vektoren im 4096-dimensionalen Raum 

1 Diese Bilder stammen aus [15]. 

2 Dabei sei außer Acht gelassen, dass die Bilder nur diskrete Punkte in diesem Raum 

beschreiben können, da jedes Pixel nur einen aus 256 Werten (Graustufen) annehmen 

kann.

10 Einführung und Überblick 

mit nur drei Parametern beschreiben zu können. Diese Einschränkung auf nur 

drei Freiheitsgrade rührt daher, dass die Pixel nicht zufällig verteilte Werte 

annehmen, sondern eben insgesamt ein Gesicht zeigen, und zwar ein bestimmtes. 

Es herrschen also starke Korrelationen zwischen den Pixeln eines Bildes 

und auch zwischen den Bildern selbst. Dies führt dazu, dass die Vektoren im 

Eingaberaum auf einer glatten, niedrigdimensionalen Untermannigfaltigkeit 

liegen, die in diesem Beispiel dreidimensional ist. Dass die Mannigfaltigkeit 

glatt ist, kann man sich intuitiv so überlegen: ” 

Wackelt“ man nur etwas an einer 

beliebigen Komponente eines Bild-Vektors, so zeigt das Bild immer noch 

dieselbe Person mit derselben Pose, es gibt dann also keine Sprünge zwischen 

verschiedenen Posen oder Bildern. Die Mannigfaltigkeit ist außerdem dünn 

in dem Sinne, dass sie nur einen kleinen Teil des Eingaberaumes ausfüllt, 

d.h. wenn man einen zufälligen Punkt aus dem Eingaberaum auswählt, was 

einem Bild mit zufälligen Pixelwerten entspricht, so wird dieses Bild mit sehr 

hoher Wahrscheinlichkeit nicht den Kopf aus Abb. 1.1 zeigen. 

In einem solchen Fall sollte eine Dimensionsreduktion möglich sein, und ein 

entsprechender Algorithmus sollte eine Anordnung der Punkte im Einbettungsraum 

finden können, in dem bestimmte Richtungen bestimmten Änderungen 

der Posen entsprechen, diese also in bestimmter Weise durch die 

Richtungen im Einbettungsraum parametrisiert werden. Die Wahl der Koordinaten 

ist dabei allerdings nicht eindeutig, und die von den Algorithmen 

gefundenen Parametrisierungen der Mannigfaltigkeit entsprechen nicht unbedingt 

der Parametrisierung, die ein menschlicher Beobachter erwarten würde. 

Zwischen verschiedenen Parametrisierungen besteht auch nicht notwenigerweise 

ein linearer Zusammenhang – man denke zum Beispiel an die Parametrisierung 

einer euklidischen Ebene, die z.B. durch kartesische Koordinaten 

erfolgen kann, aber auch durch Polarkoordinaten, wobei beide Parametrisierungen 

durch nichtlineare Transformationen auseinander hervorgehen. 

Oft sind die den Daten unterliegenden niedrigdimensionalen Mannigfaltigkeiten 

nichtlinear. Ein linearer Dimensionsreduktionsalgorithmus kann dann 

keine Einbettung in einen euklidischen Raum finden, dessen Dimension der 

Dimension der Mannigfaltigkeit entspricht und deren Struktur vollständig 

beschreibt. Es werden dann mehr Einbettungsdimensionen benötigt als die 

Anzahl der Freiheitsgrade der Daten, oder aber die Einbettung kann die 

Mannigfaltigkeit nicht vollständig parametrisieren. Linear bedeutet in diesem 

Zusammenhang, dass die Koordinaten des Einbettungsraumes durch lineare 

Transformationen aus den Koordinaten des Eingaberaumes hervorgehen. Ein 

anschauliches Beispiel für eine nichtlineare Mannigfaltigkeit ist die in Abb. 

1.2 gezeigte Swiss Roll, die in [30] eingeführt wird. Die Swiss Roll stellt eine 

zweidimensionale Mannigfaltigkeit dar, die in den R 3 eingebettet ist und

1.2 Warum oder wann ist Dimensionsreduktion möglich? 11 

30 

x 3 

0 

15 

10 

5 

0 

x 1 

−5 

−10 

15 

10 

5 

x 2 

0 

−5 

−10 

Abbildung 1.2: Die Swiss Roll 

parametrisiert wird durch 

Swiss Roll = {(x 1 , x 2 , x 3 ) ∈ R 3 | 

x 1 = t cos(t), x 2 = t sin(t), x 3 ∈ [0, 35] | t ∈ [3π/2, 9π/2]} . (1.1) 

Diese Beispiel eignet sich sehr gut, um die Entwicklung nichtlinearer Dimensionsreduktionsalgorithmen 

zu motivieren, denn intuitiv ist klar, dass es keine 

lineare Einbettung der Swiss Roll in einen zweidimensionalen euklidischen 

Raum geben kann, der diese Mannigfaltigkeit parametrisiert. Dieses Problem 

wird noch genauer in Kapitel 5 bei der Einführung des Isomap-Algorithmus’ 

behandelt. 

Methoden der Dimensionsreduktion bieten sich also immer dann an, wenn 

in den zu verarbeitenden Daten sehr viel Redundanz steckt, die Daten also 

wesentlich weniger Freiheitsgrade haben als die Dimension des Raumes groß 

ist, in dem sie leben.

Kapitel 2 

Principal Component Analysis 

Die Principal Component Analysis (PCA, Hauptkomponentenanalyse) stellt 

ein Verfahren zur linearen Dimensionsreduktion dar, das zuerst 1901 von 

Pearson [23] beschrieben und unabhängig davon 1931 von Hotelling [14] 

entwickelt wurde. 

Pearsons Herleitung der PCA löst das geometrische Problem, eine Menge 

von Punkten x 1 , . . . , x N ∈ R n aus einem n-dimensionalen Raum bestmöglich 

linear auf einen Unterraum niedrigerer Dimension q < n abzubilden. ” 

Bestmöglich“ 

ist dabei im quadratischen Sinne zu verstehen, d.h. die Summe der 

quadrierten Abstände zwischen den Punkten und ihren jeweiligen Projektionen 

auf den Unterraum soll minimal werden. 

Hotelling hingegen suchte in einer Menge von Punkten aus einem hochdimensionalen 

Raum nach zueinander orthogonalen Richtungen, in denen die 

Varianz der Daten möglichst groß ist. Man kann zeigen, dass beide Probleme 

äquivalent sind. 

Es seien N mittelwertfreie Daten x 1 , . . . , x N ∈ R n der Dimension n gegeben. 1 

Diese Vektoren können als Messwerte oder Samples einer Zufallsvariablen x 

aufgefasst werden. Aus den Samples ergibt sich die geschätzte Kovarianzmatrix 

C von x zu 

C = 1 N∑ 

x i x T i = 1 N 

N XT X , (2.1) 

i=1 

wobei die Matrix X = (x 1 , . . . , x N ) T ∈ R N×n die Vektoren als Zeilen enthält. 

Die Lösung der obigen Probleme läuft auf eine Hauptachsentransformation 

1 Ist der Mittelwert ¯x = 1/N ∑ N 

i=1 x i der Daten von Null verschieden, so ersetze man 

im Folgenden immer x i durch die mittelwertfreie Größe ˜x i = x i − ¯x, i = 1, . . . , N.

13 

der Kovarianzmatrix der Daten hinaus. Da C symmetrisch ist, sind alle ihre 

Eigenwerte reell, und eine solche Hauptachsentransformation ist immer 

möglich ([10]). Da C außerdem auch noch positiv semidefinit ist, sind alle 

Eigenwerte zusätzlich nichtnegativ ([34]). 

Bei der Hauptachsentransformation wird die Kovarianzmatrix durch eine orthogonale 

Matrix U diagonalisiert: U T C U = D, wobei die Spalten von U 

aus den Eigenvektoren von C bestehen und D = diag(λ 1 , . . . , λ n ) die Diagonalmatrix 

mit den Eigenwerten von C ist. Es gilt also 

C U = U D (2.2) 

bzw. C u i = λ i u i , i = 1, . . . , n , (2.3) 

wobei im Folgenden die Eigenwerte o.E.d.A. nach abfallender Größe sortiert 

seien: λ 1 ≥ . . . ≥ λ n . 

Es zeigt sich, dass die Richtung größter Varianz gerade durch den Eigenvektor 

u 1 zum größten Eigenwert λ 1 von C gegeben ist. Entsprechend ist die 

Richtung größter Varianz im zu u 1 orthogonalen Unterraum gerade durch 

den Eigenvektor u 2 zum zweitgrößten Eigenwert λ 2 gegeben usw. Die Varianzen 

in den neuen Richtungen u i stimmen dabei mit den entsprechenden 

Eigenwerten λ i überein, d.h. die Varianz der auf die Achse u i projizierten 

Daten ist gerade λ i . Entsprechend heißen die Eigenvektoren u i auch Hauptachsen 

von C. Hingegen bezeichnet man die Projektion u T k x i des Punktes x i 

auf die k-te Hauptachse u k als k-te Hauptkomponente (principal component, 

PC) von x i . 

Der Punkt x i besitzt im neuen gedrehten Koordinatensystem der u k die 

Darstellung 

n∑ 

x i = (x T i u k )u k . (2.4) 

k=1 

Die eigentliche Dimensionsreduktion besteht nun darin, nur die ersten p ≪ n 

PCs zur Approximation zu benutzen, d.h. den Punkt x i ∈ R n durch den 

Punkt y i ∈ R p zu approximieren durch 

p∑ 

y i = (x T i u k )u k . (2.5) 

k=1 

Die PCA besitzt folgende Eigenschaften: 

• Die ersten p Hauptkomponenten (p ∈ {1, . . . , n}) enthalten mehr Varianz 

der Eingangsdaten x i als irgendwelche p anderen zueinander orthogonalen 

Richtungen.

14 Principal Component Analysis 

• Die Varianz der Daten in Richtung der k-ten Hauptachse stimmt mit 

dem Eigenwert λ k der Kovarianzmatrix überein: 

Var[Xu k ] = λ k . (2.6) 

• Der mittlere quadratische Fehler bei der Projektion der Daten auf die 

ersten p Hauptachsen ist minimal bezüglich aller orthogonalen Projektionen 

auf einen p-dimensionalen Unterraum. 

• Die PCs sind unkorreliert. 

25 

20 

15 

y 2 

10 

5 

0 

−5 

−10 −5 0 5 10 15 20 25 

y 1 

Abbildung 2.1: Die Hauptachsen für eine normalverteilte Punktwolke 

Abb. 2.1 zeigt eine Punktwolke aus N = 2000 Datenpunkten mit den zugehörigen 

Hauptachsen. Die x 1 - und x 2 -Komponenten bestehen jeweils aus 

normalverteilten Zufallszahlen mit Standardabweichung σ 1 = 6.05 bzw. σ 2 = 

3.60 und Mittelwert ¯x = (6, 7) T . Die Projektion auf die erste Hauptachse 

enthält dabei 98.0% der Gesamtvarianz der Daten, die zweite Hauptachse 

enthält die übrigen 2%.

2.1 PCA mit Korrelationsmatrizen 15 

2.1 PCA mit Korrelationsmatrizen 

Die bisherige Behandlung der PCA zielte immer auf eine Diagonalisierung 

der Kovarianzmatrix ab. Dies ist auch sinnvoll, wenn die verschiedenen Komponenten 

(Variablen) der Eingangsdaten Messwerte gleicher Einheiten sind 

und die Messfehler der Komponenten in der gleichen Größenordnung liegen. 

Oft ist diese Annahme aber nicht erfüllt. Man stellt dann z.B. fest, dass die 

Hauptkomponenten von Datensätzen, deren Variablen sehr unterschiedliche 

Varianzen besitzen, fast vollständig von den Variablen mit den größten Varianzen 

bestimmt werden. In einem solchen Fall kann es sinnvoll sein, die 

einzelnen Variablen auf ihre Standardabweichung hin zu normieren. Man dividiert 

dann jeweils die j-te Komponente des Eingabevektors x i durch die aus 

den j-ten Komponenten aller Eingabedaten berechnete Standardabweichung. 

Aus der Matrix X = (x 1 , . . . , x N ) T der Eingabedaten bekommt man also die 

Matrix X ⋆ der auf Standardabweichung Eins normierten Daten durch 

X ⋆ = (x ⋆ ij) , x ⋆ ij = x ij /σ j , i = 1, . . . , N, j = 1, . . . , n , (2.7) 

wobei σ j die Standardabweichung der j-ten Spalte von X ist. Die Kovarianzmatrix 

der so normierten Daten ist dann nach (A.13) gerade die Korrelationsmatrix 

C ⋆ = 1 N X⋆T X ⋆ (2.8) 

der Eingabedaten x i . Die Berechnung der Hauptkomponeten läuft dann völlig 

analog zum vorigen Abschnitt mit dem einzigen Unterschied, dass man jetzt 

die Hauptachsen aus der Diagonalisierung der Korrelationsmatrix bekommt. 

2.2 Die Berechnung der PCA 

2.2.1 Direkte und indirekte Berechnung 

Bei der Berechnung der PCA hat man das Eigenwertproblem (2.3) zu lösen. 

Dabei tritt die Kovarianzmatrix C = 1/N X T X auf. Den Normierungsfaktor 

1/N braucht man bei der Lösung des Eigenwertproblems nicht zu berücksichtigen, 

denn die Eigenvektoren von C und X T X stimmen überein. Für die 

Eigenwerte hingegen gilt: Ist µ i Eigenwert von X T X zum Eigenvektor u i , so 

ist λ i = 1/N µ i Eigenwert von C zum gleichen Eigenvektor. Um die Notation 

im Folgenden zu vereinfachen, wird die Matrix ˜C durch 

˜C := X T X (2.9)

16 Principal Component Analysis 

definiert, d.h. es gilt C = 1/N ˜C. 

Wie oben beschrieben, besteht die Matrix X der Eingangsdaten aus N Zeilenvektoren 

der Dimension n, C ist also eine n × n-Matrix. Besteht nun der 

Datensatz aus relativ wenigen Punkten sehr hoher Dimension (n ≫ N), so 

ist die Anzahl n 2 der Elemente der Kovarianzmatrix sehr groß im Vergleich 

zur Anzahl nN der Elemente von X. In einem solchen Fall ist es sinnvoll, 

statt der Kovarianzmatrix C die Skalarproduktmatrix S = XX T ∈ R N×N der 

Eingangsdaten zu betrachten, die nur aus N 2 Elementen besteht. 

Sei µ > 0 ein Eigenwert von S zum Eigenvektor v ∈ R N \{0}. Dann gilt: 

Sv = XX T v = µv ≠ 0 

⇒ (X T X)X T v = µX T v ≠ 0 

(2.10) 

X T v ∈ R n ist also ein Eigenvektor von ˜C zum Eigenwert µ > 0. Da die 

paarweise orthogonalen Eigenvektoren von ˜C ein Orthonormalsystem bilden 

und damit die Länge 1 haben sollen, müssen sie noch normiert werden 3 . 

Bezeichnet man den zum Eigenwert µ gehörenden normierten Eigenvektor 

mit u, so folgt mit dem Ansatz u = ηX T v für die Normierungskonstante η 

1 ! = u T u =η 2 v T XX T v = η 2 µ 

⇒ η = 1/ √ µ . 

(2.11) 

Nach [34] stimmen die echt positiven Eigenwerte von XX T und X T X überein 

und haben die gleiche geometrische Vielfachheit 2 . Die Eigenvektoren von ˜C 

zu diesen Eigenwerten lassen sich einfach aus den Eigenvektoren von S gewinnen: 

Insgesamt gilt also: Hat man die Skalarproduktmatrix S = XX T diagonalisiert 

und ein Orthonormalsystem aus Eigenvektoren v 1 , . . . , v N und zugehörigen 

Eigenwerten µ 1 ≥ . . . ≥ µ r > µ r+1 = . . . = µ N = 0 gefunden 4 , so ergeben 

sich daraus die r größten, echt positiven Eigenwerte λ und zugehörigen Eigenvektoren 

u der Kovarianzmatrix C zu 

λ i = 1 N µ i (2.12) 

u i = 1 √ 

µi 

X T v i , i = 1, . . . , r . (2.13) 

2 D.h. die Dimensionen ihrer Eigenräume sind gleich. 

3 Obwohl die v ein Orthonormalsystem bilden, sind die X T v nicht notwendigerweise 

normiert, da X i.A. nicht spaltenorthogonal ist. 

4 Dabei ist r = rang(S) = rang(C) ≤ N, also die Anzahl der echt positiven Eigenwerte. 

Es gibt immer mindestens einen echt positiven Eigenwert, sofern nicht alle Eingangsdatenpunkte 

identisch sind.

2.2 Die Berechnung der PCA 17 

Zusammenfassend bietet sich die folgende Strategie zur Berechnung der PCA 

an: 

• Ist die Anzahl N der Datenpunkte größer als deren Dimension n, so 

berechnet man die Hauptkomponenten direkt aus der Diagonalisierung 

der Kovarianzmatrix C. 

• Ist hingegen die Anzahl der Datenpunkte kleiner als ihre Dimension, 

so empfielt es sich aus numerischen Gründen, die Hauptkomponenten 

indirekt mit Hilfe von (2.12) und (2.13) aus der Diagonalisierung der 

Skalarproduktmatrix S zu berechnen. 

Die Größe des Eigenwertproblems ist damit auf das Minimum der beiden 

Größen n und N beschränkt. Dies betrifft allerdings nur den benötigten Speicherplatz 

für die Kovarianz- bzw. Skalarproduktmatrix. Es ist natürlich nicht 

nötig, alle Eigenwerte und Eigenvektoren von C oder S zu berechnen. Da 

man ja sowieso nur an den ersten d Hauptachsen interessiert ist, genügt es, 

ausschließlich die d größten Eigenwerte und zugehörigen Eigenvektoren zu 

berechnen. Dazu existieren spezielle Verfahren, von denen viele z.B. in [1] 

beschrieben werden. 

2.2.2 Näherungsweise Berechnung der Hauptachsen 

Im vorigen Abschnitt wurde erläutert, wie man die PCA berechnen kann, 

wenn nur ein Parameter – die Dimension n oder die Anzahl N der Datenpunkte 

– sehr groß ist. Was macht man aber, wenn beide Parameter sehr 

groß sind? In diesem Fall kann man versuchen, die Hauptachsen näherungsweise 

aus einer kleineren Untermenge des Datensatzes zu berechnen. Wenn 

man sich nämlich z.B. die Punktwolke mit zugehörigen Hauptachsen in Abb. 

2.1 anschaut, die aus N = 2000 Datenpunkten besteht, so kann man erwarten, 

dass sich in guter Näherung die gleichen Hauptachsen ergeben, wenn 

man aus den 2000 Punkten eine kleinere Untermenge von z.B. 200 Punkten 

auswählt, sofern diese die Struktur der Gesamtdatenmenge hinreichend 

gut approximieren. Die Berechnung der Hauptachsen erfolgt dann indirekt 

aus der Skalarproduktmatrix der Untermenge wie im vorigen Abschnitt beschrieben. 

Auf die so erhaltenen geschätzten Hauptachsen kann man dann 

den gesamten Datensatz projizieren.

Kapitel 3 

Kern-PCA 

Die Kern-PCA ist eine nichtlineare Verallgemeinerung der linearen PCA. 

Die dahinter stehende Idee ist bestechend einfach: Man transformiert die 

Eingangsdaten durch eine nichtlineare Abbildung Φ in einen möglicherweise 

sehr hochdimensionalen Merkmalsraum F und führt dort eine lineare PCA 

durch. Die Hoffnung besteht hier darin, dass die Eingangsdaten bei geeigneter 

Wahl der Abbildung im hochdimensionalen Merkmalsraum entfaltet“ oder 

” 

ausgebreitet“ werden und auf einer linearen Untermannigfaltigkeit sehr viel 

” 

niedrigerer Dimension liegen. Die orthogonalen Richtungen größter Varianz, 

die durch Anwendung der PCA in F gefunden werden, entsprechen dabei 

nichtlinearen Richtungen im Eingaberaum 1 . Die eigentliche Nichtlinearität 

bei der Kern-PCA steckt also nur in der Abbildung in den Merkmalsraum. 

Was so bestechend einfach klingt, wirft in der Praxis jedoch ein Problem 

auf: die Dimension von F , die je nach Φ sehr groß, durchaus sogar unendlich 

groß sein kann. In der Bilderkennung hat es sich z.B. als nützlich erwiesen, 

Produkte oder Monome d-ter Ordnung von Pixeln eines Bildes zu betrachten, 

d.h. das Produkt von jeweils d Bildpunkten. Für ein Bild, das aus N Pixeln 

besteht, gibt es 

(N + d − 1)! 

N F = (3.1) 

d!(N − 1)! 

verschiedene solcher Monome d-ter Ordnung [27]. Die Abbildung Φ : R N → 

F des Bildes in den Raum aller möglichen Monome 5-ter Ordnung hat also 

selbst für Mini-Bilder von 16 × 16 Pixeln eine Dimension von 10 10 , was es 

unmöglich macht, diese Abbildung explizit zu berechnen. Die Frage ist nun, 

wie man trotzdem mit vertretbarem Aufwand die Kern-PCA berechnen kann. 

1 Sofern die verwendete Abbildung nichtlinear ist.

3.1 PCA im Merkmalsraum 19 

3.1 PCA im Merkmalsraum 

Zunächst soll gezeigt werden, dass man zur Berechnung der PCA im Merkmalsraum 

die Bilder Φ(x) der Eingangsdaten x gar nicht explizit benötigt, 

sondern nur Skalarprodukte zwischen diesen Bildern. Dies wird sich später 

als äußerst nützlich erweisen. Gegeben seien also zentrierte Eingangsdaten 

x i ∈ R n , i = 1, . . . , N, ∑ N 

i=1 x i = 0, und die Abbildung 

Φ : R n → F, 

x ↦→ x ′ (3.2) 

der Eingangsdaten in den Merkmalsraum 2 . Zur Vereinfachung der Notation 

wird angenommen, dass auch die Φ-Bilder zentriert sind: ∑ N 

i=1 Φ(x i) = 0 3 . 

Dann ist die Kovarianzmatrix C ′ der Bilder der Eingangsdaten gegeben durch 

C ′ = 1 N 

N∑ 

Φ(x i )Φ(x i ) T . (3.3) 

Analog zu (2.3) muss man wieder das Eigenwertproblem 

i=1 

C ′ v ′ = λv ′ (3.4) 

lösen, also Eigenwerte λ ≥ 0 von C ′ und ein zugehöriges Orthonormalsystem 

aus Eigenvektoren v ′ ∈ F \ {0} finden, die C ′ diagonalisieren. Wegen 

C ′ v ′ = 1 N 

N∑ 

(Φ(x i ) · v ′ ) Φ(x 

} {{ } i ) (3.5) 

∈R 

i=1 

liegen alle Lösungen v ′ mit λ ≠ 0 in span{Φ(x 1 ), . . . , Φ(x N )}. In diesem Fall 

ist (3.4) äquivalent zu dem Gleichungssystem 

(Φ(x k ) · C ′ v ′ ) = λ (Φ(x k ) · v ′ ) ∀k = 1, . . . , N . (3.6) 

Außerdem existieren Koeffizienten α 1 , . . . , α N , mit denen sich die Eigenvektoren 

als Linearkombinationen der Φ-Bilder darstellen lassen: 

v ′ = 

N∑ 

α i Φ(x i ) . (3.7) 

i=1 

2 Vektoren aus dem Merkmalsraum F werden im Folgenden mit gestrichenen Buchstaben 

bezeichnet. Für das Skalarprodukt zweier Vektoren x ′ , y ′ ∈ F wird wegen der 

möglicherweise unendlich großen Dimension von F die Notation (x ′ · y ′ ) benutzt. 

3 Der allgemeine Fall wird in Abschnitt 3.2 behandelt.

20 Kern-PCA 

Setzt man nun (3.3) und (3.7) in (3.6) ein, so erhält man das Gleichungssystem 

N∑ 

i=1 

N∑ 

(Φ(x k ) · Φ(x i )) (Φ(x i ) · Φ(x j )) α j = 

j=1 

= λN 

N∑ 

(Φ(x k ) · Φ(x j )) α j ∀k = 1, . . . , N . (3.8) 

j=1 

Zur Abkürzung definiert man die N × N-Matrix K = (K ij ) durch 

K ij := (Φ(x i ) · Φ(x j )) , i, j = 1, . . . , N , (3.9) 

wodurch sich (3.8) in Matrizenform schreiben lässt als 

K 2 α = λNKα . (3.10) 

Dabei ist α = (α 1 , . . . , α N ) T der Vektor der Koeffizienten α i . K wird auch 

Kernmatrix genannt. Interessant sind nur Lösungen mit λ > 0, und um diese 

zu erhalten genügt es, anstatt (3.10) das Eigenwertproblem 

Kα = λNα (3.11) 

zu lösen. Alle Lösungen von (3.11) sind nämlich auch Lösungen von (3.10), 

und man kann zeigen (vgl. [27]), dass die α, die (3.10) aber nicht (3.11) 

erfüllen, keinen zusätzlichen Beitrag zur Lösungsmenge der v ′ liefern. 

Letztlich werden aber gar nicht die Eigenvektoren v ′ benötigt, sondern nur 

die Projektionen der Bilder der Eingangsdaten auf diese Eigenvektoren. Um 

diese zu erhalten, löst man das Eigenwertproblem (3.11) und erhält für Nλ 

die nichtnegativen Eigenwerte λ 1 ≥ . . . ≥ λ p > λ p+1 = . . . = λ N = 0 und ein 

zugehöriges Orthogonalsystem des R N aus den Eigenvektoren α 1 , . . . , α N . p 

ist dabei die Anzahl der von Null verschiedenen Eigenwerte, also der Rang 

von K. Dieser ist immer größer als Null, sofern Φ nicht alle Eingangsdaten auf 

Null abbildet. Die α 1 , . . . , α p werden so normiert, dass die entsprechenden 

Eigenvektoren v ′ 1, . . . , v ′ p aus F die Länge Eins haben: 

(v ′ k · v ′ k) = 1 ∀k = 1, . . . , p . (3.12) 

Mit (3.7) und (3.11) erhält man daraus eine Normierungsbedingung für die

3.2 Die Berechnung von Skalarprodukten im Merkmalsraum 21 

Vektoren α: 

1 ! = 

= 

N∑ N∑ 

αkα i j k (Φ(x i) · Φ(x j )) 

i=1 

N∑ 

j=1 

i=1 j=1 

N∑ 

αkK i ij α j k 

(3.13) 

= α T kKα k 

= λ k α T kα k , k = 1, . . . , p . 

Um nun die nichtlinearen Hauptkomponenten eines Testpunktes x ∈ R n zu 

bestimmen, muss man die orthogonale Projektion seines Bildes x ′ = Φ(x) auf 

die Hauptachsen v ′ im Merkmalsraum berechnen. Die k-te Hauptkomponente 

als Projektion auf v ′ k ist somit gegeben durch 

(x ′ · v ′ k) = (Φ(x) · v ′ k) = 

N∑ 

αk i (Φ(x i ) · Φ(x)) , k = 1, . . . , p . 

i=1 

(3.14) 

Wie bereits zu Beginn dieses Abschnittes angedeutet, werden also nur Skalarprodukte 

zwischen Merkmalsvektoren in F benötigt, um die nichtlinearen 

Hauptkomponenten zu berechnen, nicht jedoch die Bilder selbst. Was nützt 

das nun für die Berechenbarkeit der Kern-PCA? Die Antwort liefert der Satz 

von Mercer, der im nächsten Abschnitt behandelt wird. 

3.2 Die Berechnung von Skalarprodukten im 

Merkmalsraum 

Seien x, y Vektoren im Eingaberaum und Φ(x), Φ(y) die entsprechenden Bilder 

im Merkmalsraum F . Unter bestimmten Umständen, d.h. für bestimmte 

Abbildungen Φ, ist es möglich, das Skalarprodukt (Φ(x) · Φ(y)) zwischen 

den Bildern mit Hilfe einer Funktion k(x, y) allein aus den Urbildern x und 

y zu berechnen, also ohne explizite Kenntnis von Φ(x) und Φ(y): 

k(x, y) = (Φ(x) · Φ(y)) . (3.15) 

Solche Funktionen, die auf Vektoren aus einem Raum operieren und das Skalarprodukt 

der Bilder dieser Vektoren bei der Abbildung in einen anderen 

Raum darstellen, nennt man Kern-Funktionen oder kurz Kerne. Den entsprechenden 

Kern zu einer gegebenen Abbildung Φ zu finden, gestaltet sich

22 Kern-PCA 

meist als sehr schwierig. Deshalb sucht man eher nach Bedingungen, die eine 

Funktion k(x, y) erfüllen muss, damit sie Kern-Funktion zu einer Abbildung 

Φ ist. Nach Mercer (vgl. [27]) ist dies dann der Fall, wenn die Bedingung 

∫ 

∀f ∈ L 2 (C) ⇒ k(x, y)f(x)f(y)dx dy ≥ 0 (3.16) 

C×C 

erfüllt ist, wobei C eine kompakte Untermenge des R n bezeichnet. 

Der Trick, der die Berechnung der Kern-PCA ermöglicht, besteht nun darin, 

in der Herleitung im Abschnitt 3.1 alle Skalarprodukte (Φ(x) · Φ(y)) durch 

die Kernfunktion k(x, y) zu ersetzen. Für die Kernmatrix (3.9) gilt dann 

K ij = k(x i , x j ) , i, j = 1, . . . , N , (3.17) 

und die k-te Hauptkomponente (3.14) von x ′ wird zu 

(x ′ · v ′ k) = (Φ(x) · v ′ k) = 

N∑ 

αkk(x i i , x) , k = 1, . . . , p . (3.18) 

i=1 

In der bisherigen Herleitung steckt die Annahme ∑ N 

i=1 Φ(x i) = 0, die im Allgemeinen 

jedoch nicht zulässig ist. Für die Eingangsdaten ist eine Zentrierung 

zwar ohne Weiteres möglich, aber dadurch werden nicht notwendigerweise 

auch ihre Bilder zentriert. Da die Φ(x i ) meist nicht explizit berechnet werden 

können, kann somit auch ihr Schwerpunkt 1 N 

∑ N 

i=1 Φ(x i) nicht explizit 

bestimmt werden. 

Es stellt sich aber heraus, dass dies auch gar nicht erforderlich ist, sondern 

implizit geschehen kann. Man definiert 

˜Φ(x i ) := Φ(x i ) − 1 N 

N∑ 

Φ(x j ) i = 1, . . . , N . (3.19) 

j=1 

Dann gilt ∑ N ˜Φ(x i=1 i ) = 0. Mit diesen neuen zentrierten Bildern läuft die 

weitere Herleitung analog zu der am Anfang dieses Abschnittes: Die Eigenvektoren 

N∑ 

ṽ ′ k = ˜α k i ˜Φ(x i ) (3.20) 

i=1 

der Kovarianzmatrix ˜C ′ bekommt man durch Lösen des Eigenwertproblems 

˜λ ˜α = ˜K ˜α (3.21)

3.2 Die Berechnung von Skalarprodukten im Merkmalsraum 23 

mit der Kernmatrix ˜K = ( ˜K ij ) und 

( 

˜K ij := ˜Φ(xi ) · ˜Φ(x 

) 

j ) 

, i, j = 1, . . . , N . (3.22) 

˜K kann zwar nicht direkt berechnet werden, lässt sich aber durch die Kernmatrix 

K der unzentrierten Bilder ausdrücken: 

˜K = K − 1 N K − K1 N + 1 N K1 N , (3.23) 

wobei 1 N definiert ist durch (1 N ) ij ≡ 1/N ∀i, j = 1, . . . , N. 

Man berechnet also ˜K aus K nach (3.23) und löst das Eigenwertproblem 

(3.21). Aus der Forderung ‖ṽ ′ ‖ = 1 an die Eigenvektoren von ˜C ′ ergibt sich 

analog zu (3.13) die Normierungsbedingung für die Eigenvektoren ˜α zu den 

echt positiven Eigenwerten: 

˜λ k ˜α T k ˜α k 

! 

= 1 . (3.24) 

Hat man aus einem Datensatz die Hauptachsen berechnet und möchte die 

Hauptkomponenten weiterer Testpunkte t 1 , . . . , t L ∈ R n bezüglich dieser 

Hauptachsen bestimmen, so bekommt man diese durch Projektion der zentrierten 

Bilder auf die Hauptachsen ṽ ′ k: 

( 

˜Φ(ti ) · ṽ k) 

′ = 

N∑ 

j=1 

( 

˜α j k 

˜Φ(ti ) · ˜Φ(x 

) 

j ) =: 

N∑ 

j=1 

˜α j k 

˜K 

test 

ij . (3.25) 

Die L × N-Matrix ˜K test enhält die Skalarprodukte der zentrierten Bilder der 

Testdaten t mit den Eingangsdaten x. Die Zentrierung kann dabei wieder 

implizit geschehen. ˜K test lautet nämlich ausgeschrieben 

( 

˜K ij test 

= ˜Φ(ti ) · ˜Φ(x 

) 

j ) 

(( 

) ( 

)) 

= Φ(t i ) − 1 N∑ 

Φ(x k ) · Φ(x j ) − 1 N∑ 

Φ(x k ) , (3.26) 

N 

N 

k=1 

i = 1, . . . , L, j = 1, . . . , N 

und lässt sich durch die direkt aus den Eingangsdaten berechenbare L × N- 

Matrix 

K test 

ij = (Φ(t i ) · Φ(x j )) = k(t i , x j ) , i = 1, . . . , L, j = 1, . . . , N (3.27) 

ausdrücken: 

k=1 

˜K test = K test − K test 1 N − 1 N ′ K + 1 N ′ K1 N . (3.28)

24 Kern-PCA 

Dabei ist 1 N wieder definiert wie in (3.23) und (1 N ′ ) ij ≡ 1/N, i = 1, . . . , L, 

j = 1, . . . , N. 

Wenn man also schon Hauptachsen aus den Eingangsdaten x berechnet hat 

und dann die Hauptkomponenten von irgendwelchen Testpunkten t als Projektionen 

auf diese Achsen bestimmen möchte, berechnet man zuerst K test 

aus (3.27) und daraus dann ˜K test nach (3.28). Die Hauptkomponenten erhält 

man anschließend durch Einsetzen in (3.25). 

3.3 Beispiele für Kern-Funktionen 

Oft ist es nicht leicht zu überprüfen, ob die Bedingung von Mercer erfüllt ist 

([5]), da (3.16) für alle quadratintegrablen Funktionen f auf C gelten muss. 

Im Folgenden werden daher einige Beispiele für Mercer-Kerne angegeben, die 

die obige Bedingung erfüllen. Sie stammen alle aus [29]. 

3.3.1 Homogener polynomieller Kern 

Der homogene polynomielle Kern wird beschrieben durch 

k(x, y) = (x T y) d , d ∈ N . (3.29) 

Dieser Kern bildet das Skalarprodukt zwischen den Bildern von x und y 

im Merkmalsraum aller Monome d-ter Ordnung. Das soll hier nur am Beispiel 

x = (x 1 , x 2 ) T , y = (y 1 , y 2 ) T für 2-dimensionale Eingangsvektoren und 

d = 2 verdeutlicht werden. Setzt man nämlich Φ : R 2 → R 3 , (x 1 , x 2 ) ↦→ 

(x 2 1, x 2 2, √ 2x 1 x 2 ), so gilt 

(x ′ · y ′ ) = (x 1 y 1 ) 2 + (x 2 y 2 ) 2 + 2x 1 x 2 y 1 y 2 = (x T y) 2 = k(x, y) (3.30) 

mit x ′ = Φ(x) und y ′ = Φ(y). 

3.3.2 Inhomogener polynomieller Kern 

Die Kernfunktion lautet hier 

k(x, y) = (x T y + c) d , d ∈ N, c ∈ R, c > 0 , (3.31) 

wodurch alle Potenzen des Skalarproduktes bis zur d-ten Ordnung auftreten, 

der Merkmalsraum also von allen Monomen bis zur Ordnung d aufgespannt 

wird. Durch Variation des Parameters c kann man eine unterschiedliche Gewichtung 

der einzelnen Monome erreichen.

3.4 Aufwand zur Berechnung der Kern-PCA 25 

3.3.3 Gauß’scher Kern 

Dieser Kern besteht aus Gauß’schen radialen Basisfunktionen 

) 

‖x − y‖2 

k(x, y) = exp 

(− , σ > 0 (3.32) 

2σ 2 

und gehört zur Klasse der translationsinvarianten Kerne. 

3.3.4 Sigmoider Kern 

Der sigmoide Kern 

k(x, y) = tanh(κx T y + Θ) , κ, Θ ≥ 0 (3.33) 

tritt auf bei Neuronalen Netzwerken. 

3.4 Aufwand zur Berechnung der Kern-PCA 

Bei der Berechnung muss die Kernmatrix (3.9) diagonalisiert werden, d.h. 

man hat ein N × N-Eigenwertproblem zu lösen, wobei N die Anzahl der 

Eingabedaten bezeichnet. Dies entspricht der Diagonalisierung der Skalarproduktmatrix 

bei der linearen PCA (vgl. Abschnitt 3.2), mit dem Unterschied, 

dass dort lediglich Skalarprodukte zwischen Vektoren berechnet werden 

müssen, um die Matrixeinträge zu erhalten, während die Einträge der 

Kernmatrix durch Auswertung der Kernfunktion bestimmt werden. In den 

Fällen, wo k(x, y) einfach zu berechnen ist, wie z.B. bei den Polynomkernen, 

ist der Mehraufwand jedoch gering, so dass der Aufwand für die Diagonalisierung 

der Kernmatrix vergleichbar ist mit dem für die lineare PCA. 

Etwas anders sieht es bei der Berechnung der Hauptkomponenten aus. Während 

bei der linearen PCA die Projektion des Vektors x auf die k-te Hauptachse 

u k einfach gegeben ist durch das Skalarprodukt u T kx, muss bei der 

Kern-PCA für die Projektion (3.18) N-mal die Kernfunktion ausgewertet 

werden. 

Eine Möglichkeit, den Rechenaufwand hier zu verringern, ist die Approximation 

des Eigenvektors (3.7) durch einen Vektor 

ṽ ′ = 

m∑ 

β i Φ(z i ) , z i ∈ R n (3.34) 

i=1

26 Kern-PCA 

mit fest gewähltem m ≪ N, wodurch bei jeder Projektion nur m Kernfunktionen 

ausgewertet werden müssen. Die Koeffizienten β i und die Vektoren z i 

werden durch die Minimierung des euklidischen Abstandes 

ρ = ‖v ′ − ṽ ′ ‖ (3.35) 

gewonnen. Dieser lässt sich auch wieder mit Hilfe der Kernfunktion ausschließlich 

durch Vektoren im Eingaberaum ausdrücken, denn es gilt 

ρ 2 = ‖v ′ ‖ 2 + ‖ṽ ′ ‖ 2 − 2 

N∑ 

i=1 

m∑ 

α i β j k(x i , z j ) . (3.36) 

In [4] wird für diese Lösung die Bezeichnung reduced set technique geprägt. 

Dort wird dasselbe Problem im Kontext der Supportvektor-Klassifizierer behandelt 

und ein gradientenbasierter Algorithmus zur Minimierung von ρ vorgeschlagen. 

j=1

Kapitel 4 

Multidimensional Scaling 

Multidimensional Scaling (MDS, multidimensionale Skalierung) ist ein Oberbegriff 

für verschiedene Techniken, die aus Informationen über paarweise 

Relationen zwischen Objekten eine Anordnung von Punkten in einem euklidischen 

Raum finden [3]. Die euklidischen Abstände dieser Punkte stehen 

dabei in Beziehung zu den Relationen, und zwar so, dass sie für eine gegebene 

Dimension des Raumes die Relationen in einem bestimmten Sinn optimal repräsentieren. 

Die Ausgangslage ist hier eine völlig andere als bei den anderen 

Verfahren zur Dimensionsreduktion. Während bei den anderen Verfahren die 

Eingangsdaten immer (hochdimensionale) Punkte sind, für die eine niedrigdimensionale 

Einbettung gefunden werden soll, besteht der Input beim MDS 

nur aus den Relationen zwischen den Objekten (die z.B. auch Punkte sein 

können), die Objekte (oder Punkte) selbst sind völlig unbekannt. 

Die Relationen zwischen den Objekten können dabei z.B. Ähnlichkeiten oder 

Unähnlichkeiten sein, so dass durch MDS eine Konfiguration von Punkten gefunden 

wird, bei der ähnliche Objekte dicht beieinander angeordnet werden, 

also kleine euklidische Abstände voneinander haben, und unähnliche Objekte 

entsprechend durch Punkte repräsentiert werden, die weiter voneinander 

entfernt sind. Die (Un-)Ähnlichkeiten werden in der englischen Literatur als 

proximities bezeichnet. 

Als Beispiel könnten die Objekte Städte sein und die Relationen ihre paarweisen 

Entfernungen voneinander. In diesem Fall bietet es sich natürlich an, 

als Dimension für den euklidischen Raum d = 2 zu wählen. MDS findet dann 

eine Anordnung der Städte (Punkte) in der Ebene, die bis auf Rotationen, 

Translationen, Spiegelungen und linearen Skalierungen einer Straßenkarte 

entspricht.

28 Multidimensional Scaling 

Man wählt die Dimension des Einbettungsraumes so niedrig wie möglich, 

insbesondere möglichst nicht größer als Drei, hofft darauf, dass sich die wesentlichen 

Merkmale der Daten in einem solchen Raum darstellen lassen und 

nutzt dann die Fähigkeit des Menschen aus, in solchen niedrigdimensionalen 

Räumen sehr schnell Strukturen wie Ähnlichkeiten oder Clusterungen 

erfassen zu können. Auf diese Weise gewinnt man sehr viel schneller einen 

Überblick über den Datensatz als aus einer großen Zahl paarweiser Beziehungen 

zwischen diesen Daten. 

Der Einfachheit halber wird im Folgenden immer angenommen, dass die Relationen 

Unähnlichkeiten entsprechen. Es seien N Objekte gegeben, und die 

Unähnlichkeit zwischen dem i-ten und j-ten Objekt sei mit p ij bezeichnet. Die 

p ij werden zu einer Unähnlichkeitsmatrix P = (p ij ), i, j = 1, . . . , N, zusammengefasst. 

Es sollen N Punkte y 1 , . . . , y N aus dem p-dimensionalen Raum 

R p gefunden werden, die die Relationen p ij möglichst gut repräsentieren. Die 

Art und Weise, wie die p ij in Beziehung zu den euklidischen Abständen der 

y i gesetzt werden, wird durch die Modellfunktion f bestimmt: 

f : p ij → d ij (Y) , i, j = 1, . . . , N , (4.1) 

wobei die Punkte y i als Zeilen in der N × p-Matrix Y zusammengefasst sind 

und d ij (Y) den euklidischen Abstand ‖y i −y j ‖ zwischen y i und y j bezeichnet. 

Die transformierten Unähnlichkeiten werden kurz mit δ ij bezeichnet: δ ij = 

f(p ij ). Sie lassen sich zu einer N × N-Matrix ∆ = (δ ij ) zusammenfassen. In 

der englischen Literatur heißen die δ ij dissimilarities. 

Die verschiedenen Varianten von MDS lassen sich je nach verwendeter Modellfunktion 

f grob einteilen in metric MDS und nonmetric oder ordinal 

MDS. Auf diese Varianten soll im Folgenden näher eingegangen werden. 

4.1 Metrisches MDS 

Metrisches MDS kommt zum Einsatz, wenn den Objekten bereits eine räumliche 

Struktur unterliegt, die Unähnlichkeiten also Distanzen darstellen bzw. 

in wohldefinierten Beziehungen zu Distanzen stehen, jedoch fehlerbehaftet 

oder unvollständig sind. Das Ziel ist es dann, eine Einbettung zu finden, die 

diese Distanzen in einem gewissen Sinn bestmöglich erhält.

4.1 Metrisches MDS 29 

4.1.1 Klassisches MDS 

Die klassische Variante von MDS, die oft auch als classical scaling bezeichnet 

wird, war das erste praktisch verfügbare MDS-Verfahren. Es geht zurück 

auf Torgerson ([32], [33]) und Gower ([11]), die es 1952/58 bzw. 1966 

entwickelt haben, und wird deshalb manchmal auch als Torgerson scaling 

oder Torgerson-Gower scaling bezeichnet. 

Beim klassischen MDS werden die Unähnlichkeiten p ij selbst schon als euklidische 

Abstände betrachtet, die Modellfunktion ist hier also die Identität: 

δ ij = f(p ij ) = p ij , i, j = 1, . . . , N . (4.2) 

Die Einbettung wird dann gefunden durch möglichst gute Approximation der 

quadrierten Abstände ∆ (2) , wobei (∆ (2) ) ij = δ 2 ij. 1 Wie bekommt man aber 

aus den quadrierten Abständen zwischen Vektoren die Vektoren selbst? Sei 

also ∆ (2) gegeben, und seien x 1 , . . . , x N ∈ R n die entsprechenden Vektoren, 

d.h. δ 2 ij = ‖x i − x j ‖ 2 , i, j = 1, . . . , N. Weiterhin seien die x i zentriert, d.h. 

∑ N 

i=1 x i = 0, und als Zeilen zu einer N ×n-Matrix X zusammengefasst. Dann 

gilt 

δ 2 ij = (x i − x j ) T (x i − x j ) (4.3) 

= x T i x i + x T j x j − 2x T i x j , i, j = 1, . . . , N , (4.4) 

⇒ ∆ (2) = c1 T + 1c T − 2XX T , (4.5) 

wobei c = (x T 1x 1 , . . . , x T N x N) T die Diagonale von XX T bezeichnet und 1 = 

(1, . . . , 1) T ∈ R N . Multipliziert man ∆ (2) von links und von rechts mit der 

Zentrierungsmatrix 

J = 1 − 1 N 11T (4.6) 

1 Die Notation mit den Klammern soll hier andeuten, dass ∆ (2) durch Quadrieren der 

Einträge aus ∆ hervorgeht und nicht identisch mit der quadrierten Matrix ∆ 2 ist.


und außerdem noch mit dem Faktor −1/2, so ergibt sich 2 

B ∆ : = − 1 2 J∆(2) J 

= − 1 2 J (c1T + 1c T − 2XX T ) J 

= − 1 2 Jc1T J − 1 2 J1cT J + JXX T J 

(4.7) 

= − 1 2 Jc0T − 1 2 0cT J + JXX T J 

= JXX T J 

= XX T . 

Dabei bezeichnet 0 den Vektor, der nur aus Nullen besteht. Die Anwendung 

von J auf ∆ (2) in (4.7) wird auch als doppelte Zentrierung bezeichnet. Mit 

Hilfe von J lässt sich ∆ (2) also allein als Produkt der Koordinatenmatrizen 

schreiben; die Matrix der paarweisen quadrierten Abstände ist damit 

in eine Matrix der paarweisen Skalarprodukte der entsprechenden Vektoren 

überführt worden. Aus dieser Matrix B ∆ bekommt man nun die gesuchten 

Vektoren x i durch Hauptachsentransformation: Sei V ∈ R N×N die Matrix 

mit den Eigenvektoren von B ∆ als Spalten und Λ = diag(λ 1 , . . . , λ N ) die 

Diagonalmatrix mit den zugehörigen nichtnegativen Eigenwerten, und sei 

außerdem Λ 1 2 definiert durch Λ 1 2 := diag( √ λ 1 , . . . , √ λ N ). Dann gilt 

V T B ∆ V = (V T X)(V T X) T (4.8) 

= Λ (4.9) 

= Λ 1 2 Λ 

1 

2 (4.10) 

⇒ V T X = Λ 1 2 (4.11) 

⇔ X = VΛ 1 2 . (4.12) 

Beim klassischen MDS werden die quadrierten Abstände ∆ (2) approximiert 

durch Minimierung der Kostenfunktion 

L(Y) = 

∥ −1 2 J [ D (2) (Y) − ∆ (2)] 2 

J 

∥ 

F 

(4.13) 

= ‖YY T − B ∆ ‖ 2 F , 

2 Die symmetrische Matrix J ∈ R N×N ist idempotent, d.h. J T J = JJ = J. Für einen 

Vektor x ∈ R N gilt Jx = x − 1/N 1 ∑ N 

j=1 x j = x − ¯x. Durch JX werden also die Zeilen 

der Matrix X zentriert und durch XJ entsprechend die Spalten von X.


die auch als Strain bezeichnet wird [3], wobei für die zweite Gleichheit vorausgesetzt 

wird, dass die Konfiguration Y zentriert ist, d.h. ∑ N 

i=1 y i = 0. 3 

Analog zu ∆ (2) bezeichnet D (2) (Y) die Matrix mit den paarweisen quadrierten 

euklidischen Abständen der Zeilenvektoren von Y. Die Frobenius-Norm 

‖ · ‖ F ist definiert durch 

∑ 

‖A‖ F = √ N n∑ 

|a ij | 2 . (4.14) 

i=1 

Durch das klassische MDS werden also genau genommen nicht die quadrierten 

Differenzen der Abstände bestmöglich approximiert, sondern die Skalarprodukte 

zwischen den Vektoren. 

Die Frage ist nun, wann zu einer gegebenen Distanzmatrix ∆ eine euklidische 

Einbettung in R k existiert. Nach [21] ist dies genau dann der Fall, wenn die 

folgenden Bedingungen erfüllt sind: 

1. Die Matrix ∆ ist symmetrisch und besitzt nur nichtnegative Einträge, 

auf der Diagonalen sogar nur Nullen: 

j=1 

δ ij = δ ji ≥ 0 und δ ii = 0 ∀i, j . (4.15) 

2. Die Matrix B ∆ ist positiv semidefinit, besitzt also nur nichtnegative 

Eigenwerte: 

x T B ∆ x ≥ 0 ∀x ∈ R N . (4.16) 

3. Für den Rang von B ∆ gilt rang(B ∆ ) ≤ k. 

Eine Matrix ∆, die diese Bedingungen erfüllt, nennt man auch euklidische 

Distanzmatrix. Für eine solche Matrix existiert eine euklidische Einbettung, 

d.h. eine Konfiguration Y ∈ R N×k von Punkten in einem k-dimensionalen 

Vektorraum, für die der euklidische Abstand der Punkte y i und y j gerade 

gegeben ist durch δ ij . 

Um zu einer gegebenen euklidischen Distanzmatrix ∆ die Konfiguration 

Y ∈ R N×k mit k-dimensionalen Vektoren y 1 , . . . , y N , k ≤ n, zu finden, die 

(4.13) minimiert, berechnet man zuerst B ∆ als doppelte Zentrierung (4.7) 

von ∆ (2) . Von B ∆ berechnet man die Eigenwertzerlegung (4.9) und erhält die 

orthonormalen Eigenvektoren v 1 , . . . , v N und die Diagonalmatrix Λ mit den 

3 Dies ist keine wirkliche Einschränkung, da es zu jeder Konfiguration eine zentrierte 

Konfiguration mit gleicher Distanzmatrix gibt ([21]).


zugehörigen Eigenwerten λ 1 ≥ . . . ≥ λ N ≥ 0. Sei Λ k ∈ R k×k die Diagonalmatrix, 

die nur aus den ersten k Spalten von Λ besteht und V k = (v 1 , . . . , v k ) 

die Matrix mit den zugehörigen Eigenvektoren. Nach [21] wird für beliebiges 

k ≤ n (4.13) minimal für 

Y = V k Λ 1 2 

k 

. (4.17) 

Bis jetzt wurde immer angenommen, dass ∆ eine euklidische Distanzmatrix 

ist. Sind die Unähnlichkeiten jedoch nicht-euklidische Distanzen, so ist die 

Matrix B ∆ = − 1 2 J∆(2) J aus (4.7) i.A. nicht mehr positiv semidefinit und 

besitzt deshalb negative Eigenwerte. Das bedeutet gleichzeitig, dass sich ∆ (2) 

nicht mehr als XX T mit einer reellen Matrix X ∈ R N×n schreiben lässt. 

Beim klassischen MDS, bei dem trotzdem eine euklidische Einbettung gesucht 

wird, werden solche negativen Eigenwerte als Fehler betrachtet und auf Null 

gesetzt, d.h. die Matrix Λ k in (4.17) wird ersetzt durch 

˜Λ k := diag(λ + 1 , . . . , λ + k ) , λ+ i := max(λ i , 0) ∀i . (4.18) 

In diesem Fall ist die Einbettung Ỹ, die den Strain (4.13) minimiert, gegeben 

durch 

1 

2 

Ỹ = V k ˜Λ 

k . (4.19) 

Äquivalenz von klassischem MDS und PCA 

In diesem Abschnitt soll gezeigt werden, dass die Lösung (4.17) des klassischen 

MDS äquivalent ist zur PCA. Die Kovarianzmatrix (2.1) lässt sich 

für unzentrierte Daten X ∈ R N×n mit Hilfe der Zentrierungsmatrix (4.6) 

schreiben als 

C = 1 N (JX)T (JX) = 1 N XT JJX = 1 N XT JX ∈ R n×n . (4.20) 

Ensprechend ist die Skalarproduktmatrix der zentrierten Konfiguration JX 

gegeben durch 

S = (JX)(JX) T = JXX T J ∈ R N×N , (4.21) 

und die p ≤ min(n, N) echt positiven Eigenwerte λ 1 ≥ . . . ≥ λ p > 0 beider 

Matrizen stimmen überein. 

Im Folgenden werden die Hauptkomponenten von X aus der Eigenwertzerlegung 

der Skalarproduktmatrix S berechnet. Sei v i Eigenvektor von S zum 

Eigenwert λ i > 0. Dann folgt aus (2.10), dass wegen 

(X T JJX)(X T Jv i ) = λ i X T Jv i (4.22)


u i := ηX T Jv i mit η ∈ R \ {0} Eigenvektor von NC zum Eigenwert λ i ist. 

Mit der Forderung ‖u i ‖ = 1 folgt analog zu (2.13) η = 1/ √ λ i , also 

u i = 1 √ 

λi 

X T Jv i , i = 1, . . . , p . (4.23) 

Fasst man die größten p Eigenwerte von S zu einer p × p-Matrix Λ p = 

diag(λ 1 , . . . , λ p ) zusammen und die zugehörigen Eigenvektoren von C bzw. 

S entsprechend zur N × p-Matrix U p = (u 1 , . . . , u p ) bzw. zur n × p-Matrix 

V p = (v 1 , . . . , v p ) und setzt Λ −1/2 

p := diag(1/ √ λ 1 , . . . , 1/ √ λ p ), so lässt sich 

U p ausdrücken durch 

U p = X T JV p Λ − 1 2 

p . (4.24) 

Für die Projektion Y ∈ R N×p der zentrierten Konfiguration JX auf die ersten 

p Hauptachsen folgt damit 

Y = JXU p = JXX T JV p Λ − 1 2 

p = SV p Λ − 1 2 

p = V p Λ p Λ − 1 2 

p = V p Λ 1 2 p . (4.25) 

Dies entspricht aber gerade der Lösung (4.17) des klassischen MDS. Dort 

wurde zwar die Eigenwertzerlegung nicht von S = JXX T J sondern von XX T 

berechnet, aber es wurde auch von einer zentrierten Konfiguration X ausgegangen, 

für die JX = X und damit S = XX T ist. 

Zusammenfassend gilt also: Wendet man die PCA auf die Eingangsdaten 

X ∈ R N×n an und bestimmt die Projektion Y ∈ R N×p auf die ersten p 

Hauptachsen, so erhält man das gleiche Ergebnis wie bei der Berechnung 

einer p-dimensionalen Einbettung aus der euklidischen Distanzmatrix ∆ der 

Konfiguration X mittels klassischem MDS. 

Wie weiter oben bereits angedeutet, findet das klassische MDS die Konfiguration 

Y so, dass die Skalarprodukte zwischen den Vektoren der Originaldaten 

bestmöglich (im quadratischen Sinne) durch die Skalarprodukte zwischen den 

Vektoren der Einbettung Y approximiert werden. Was bedeutet das nun für 

die paarweisen Abstände der y i im Vergleich zu denen der Eingangskonfiguration 

X? 

Wegen der Äquivalenz zur PCA ist Y gegeben durch eine Orthogonalprojektion 

der zentrierten n-dimensionalen Eingangsdaten X auf den Unterraum 

R p , der von den ersten p Hauptachsen von X aufgespannt wird. In [19] wird 

nun gezeigt, dass für p < n unter allen Projektionen der zentrierten Eingangsdaten 

auf einen p-dimensionalen Unterraum das klassische MDS eine 

solche Projektion findet, die die Größe 

Φ = 

N∑ 

i=1 

N∑ 

(δij 2 − d 2 ij) (4.26) 

j=1


minimiert. Dabei ist wieder δ ij = ‖x i − x j ‖ und d ij = ‖y i − y j ‖. Die einzelnen 

Summanden sind immer nichtnegativ, denn es gilt d ij ≤ δ ij ∀i, j wegen 

der Invarianz der euklidischen Norm unter orthogonalen Transformationen. 

Φ kann daher als ein Maß für die Übereinstimmung der Distanzen der Originaldaten 

und der Einbettung angesehen werden. 

4.1.2 Andere Varianten von metrischem MDS 

Die weiteren metrischen MDS-Varianten unterscheiden sich dadurch vom 

klassischen MDS, dass meist eine andere Kostenfunktion als der Strain minimiert 

wird und die Modellfunktion f nicht mehr die Identität ist, die Unähnlichkeiten 

p ij also erst transformiert und dann durch eine euklidische Einbettung 

approximiert werden. Dies trägt der Tatsache Rechnung, dass Unähnlichkeiten 

oft negativ sind und deshalb gar keine Distanzen darstellen können. 

Es wird aber weiterhin die Symmetrie angenommen, also p ij = p ji ∀i, j, was 

meist schon dadurch gesichert ist, dass nur einer von beiden Werten vorhanden 

ist. Schließlich bestimmt man nicht zuerst, wie unähnlich Objekt i zu 

Objekt j ist, und dann, wie unähnlich Objekt j zu Objekt i ist, sondern 

es wird einmal die Unähnlichkeit zwischen beiden bestimmt bzw. bei mehrfacher 

Messung gemittelt. Auch die Diagonale der Unähnlichkeitsmatrix P 

fehlt normalerweise, da natürlich die Unähnlichkeit eines Objektes zu sich 

selbst nicht bestimmt werden muss. 

Intervall MDS 

Sind die Unähnlichkeiten (teilweise) negativ, so können sie keine Distanzen 

repräsentieren und müssen zuerst geeignet transformiert werden. Eine 

Möglichkeit dafür wird durch das Intervall MDS gegeben. Die Modellfunktion 

lautet hier 

f(p ij ) = β 0 + β 1 p ij , β 0 , β 1 ∈ R, β 1 ≠ 0. (4.27) 

Beim Intervall MDS werden also Verhältnisse von Differenzen von Abständen 

bestmöglich durch eine euklidische Einbettung repräsentiert. Man wählt nun 

β 0 so groß, dass zum Einen alle Einträge in ∆ positiv sind und zum Anderen 

nach Nullsetzen der Diagonaleinträge von ∆ noch die Dreiecksungleichung 

δ ij + δ jk ≥ δ ik ∀i, j, k gilt, was zusammen mit der Symmetrie ∆ zu einer 

Distanzmatrix macht. β 1 wird oft auf 1 gesetzt; die Wahl dieses Parameters 

ist (bis auf evtl. das Vorzeichen) nur eine Skalierungsfrage.


In [21] wird gezeigt, dass man durch hinreichend großes β 0 die Matrix ∆ 

sogar zu einer euklidischen Distanzmatrix machen kann. Für β 1 = 1 ist der 

kleinste Wert β ⋆ 0, der ∆ zu einer euklidischen Distanzmatrix macht, nach [3] 

gegeben durch den größten reellen Eigenwert der 2N × 2N-Matrix 

G = 

−1 

( ) 

0 2B∆ 

2J∆J 

. (4.28) 

Weitere Varianten 

Es gibt noch viele weitere Varianten von metrischem MDS, die oft dann zum 

Einsatz kommen, wenn die Unähnlichkeiten nicht euklidischen Abständen 

entsprechen. Beispiele, die sich im psychologischen Umfeld als sinnvoll erwiesen 

haben [3], sind 

• logarithmische Funktionen der Form f(p ij ) = β 0 + β 1 log(p ij ), 

• exponentielle Funktionen f(p ij ) = β 0 + β 1 exp(p ij ) oder 

• Polynome f(p ij ) = β 0 + β 1 p ij + β 2 p 2 ij. 

Die Parameter β i können dabei entweder fest gewählt werden, falls man schon 

eine Vorstellung davon hat, wie die Unähnlichkeiten mit Distanzen zusammenhängen, 

oder man betrachtet sie neben der gesuchten Einbettung ebenfalls 

als unbekannt und fittet sie durch Minimierung einer Kostenfunktion 

an, wobei es dann meist keine analytische Lösung mehr wie beim klassischen 

MDS gibt. In diesem Fall kommen oft gradientenbasierte Algorithmen 

zum Einsatz, die jedoch immer die Gefahr bergen, nur lokale (anstatt globale) 

Minima zu finden. Diese funktionieren im Prinzip so, dass man mit 

einer Anfangskonfiguration startet (die z.B. die Lösung des klassischen MDS 

sein kann) und aus dieser Konfiguration die Matrix der paarweisen Distanzen 

d ij (Y) berechnet. Diese Matrix wird mit der ” 

Zielmatrix“ ∆ verglichen. 

Anschließend werden die einzelnen Punkte verschoben und wieder die Distanzmatrix 

berechnet, wobei die Verschiebung in jedem Schritt so erfolgt, 

dass die Distanzmatrizen der Zielmatrix sukzessive immer ähnlicher werden. 

Die wichtigsten zu minimierenden Fehlerfunktionen in diesem Zusammen-


hang sind Stress und SStress, die definiert sind durch 

Stress(Y) = 

SStress(Y) = 

N∑ N∑ 

w ij (δ ij − d ij (Y)) 2 , (4.29) 

i=1 

N∑ 

j=1 

i=1 j=1 

N∑ 

w ij (δij 2 − d 2 ij(Y)) 2 . (4.30) 

Durch die Wahl der Koeffizienten w ij kann eine unterschiedliche Gewichtung 

der einzelnen Terme erreicht werden. Außerdem kann so das Fehlen einzelner 

Unähnlichkeiten berücksichtigt werden, indem der entsprechende Koeffizient 

auf Null gesetzt wird. Werden alle w ij = 1 gesetzt, dann entspricht SStress 

dem Strain ohne doppelte Zentrierung. Für die Lösung dieses Problems ist 

keine explizite analytische Lösung wie beim klassischen MDS bekannt ([21]). 

Des Weiteren kann es sehr sinnvoll sein, die gesuchte Konfiguration Y nicht 

als Einbettung in einen euklidischen Raum zu bestimmen, sondern diesem 

Raum eine andere Metrik zugrunde zu legen, z.B. eine durch die Minkowski 

l p -Norm ‖ · ‖ p induzierte, die für p ≥ 1 definiert ist durch 

d (p) 

ij (Y) = ‖y i − y j ‖ p = 

( k∑ 

l=1 

|y il − y jl | p ) 1/p 

. (4.31) 

Genaueres zu den metrischen MDS-Verfahren wie auch Algorithmen zur 

Minimierung von (4.29) bzw. (4.30) findet man in [3], [19] und [21]. 

4.2 Nichtmetrisches MDS 

Beim metrischen MDS wird immer davon ausgegangen, dass den (experimentell 

bestimmten) Unähnlichkeiten p ij eventuell nach einer geeigneten Transformation 

f(p ij ) zumindest approximativ ein räumliches Modell zugrunde 

liegt, d.h. dass eine Konfiguration Y von Punkten in einem (euklidischen) 

Raum existiert, die die transformierten Unähnlichkeiten durch Abstände zwischen 

den Punkten repräsentiert [21]. Diese Forderung ist allerdings für einige 

Fälle zu restriktiv. In psychologischen Untersuchungen, wo die Probanden 

z.B. Ähnlichkeiten oder Unähnlichkeiten zwischen Objekten beurteilen sollen, 

liegen oft nur Aussagen der Form ” 

Objekt i ist dem Objekt k unähnlicher 

als Objekt j dem Objekt k“ vor. Man hat also nur Relationen wie p ik > p jk .

4.2 Nichtmetrisches MDS 37 

In solchen Fällen ist man dann eigentlich nur daran interessiert, die Ordnung 

der (Un-)Ähnlichkeiten zu erhalten, d.h. man fordert von dem Modell 

f lediglich 

p ik > p jk ⇒ f(p ik ) ≥ f(p jk ) . (4.32) 

f hat dann oft gar keinen kontinuierlichen Definitionsbereich mehr, sondern 

ist oft nur noch eine Abbildung mit diskretem Definitionsbereich. Wegen 

der ordnungserhaltenden Eigenschaft nennt man die nichtmetrischen MDS- 

Verfahren auch ordinal MDS. Die transformierten Unähnlichkeiten werden 

beim nichtmetrischen MDS mit ˆd ij bezeichnet; für sie hat sich in der englischen 

Literatur der Begriff disparities eingebürgert. 

Als Modell können im Prinzip beliebige monotone Abbildungen verwendet 

werden, die (4.32) erfüllen. Manchmal erweist es sich sogar als sinnvoll, den 

p ij der Größe nach einfach nur Nummern zuzuordnen, indem das kleinste p ij 

z.B. den Wert ˆd ij = 1 zugeordnet bekommt, das nächstgrößere p kl den Wert 

ˆd kl = 2 usw. 

Meistens wird das Modell jedoch nicht näher spezifiziert. Die ˆd ij werden als 

Parameter betrachtet und wie die Einbettung Y selbst z.B. durch Minimierung 

des Stress’ gefunden: 

Stress(ˆd, Y) = 

N∑ N∑ 

w ij ( ˆd ij − d ij (Y)) 2 (4.33) 

i=1 j=1 

Dabei ist ˆd der Vektor mit den N(N − 1)/2 verschiedenen ˆd ij , die natürlich 

nur in gewissem Rahmen variiert werden dürfen, so dass möglichst immer 

(4.32) erfüllt ist. Dabei müssen degenerierte Lösungen z.B. durch Einführung 

einer Normierungsbedingung für ˆd verhindert werden, um die triviale Lösung 

ˆd = 0 und Y = 0 zu verhindern. Weitere nichtmetrische MDS-Verfahren und 

Algorithmen zur Lösung der auftretenden Minimierungsprobleme findet man 

in [3] und [21].

Kapitel 5 

Isomap 

Isomap [31], [15] ist eine nichtlineare Erweiterung des klassischen MDS (Abschnitt 

4.1.1). Das klassische MDS liefert optimale niedrigdimensionale euklidische 

Einbettungen nur für Eingabedaten, die auf einer linearen Untermannigfaltigkeit 

des Eingaberaumes liegen. Wenn auch die Ergebnisse des klassischen 

MDS für schwach gekrümmte nichtlineare Mannigfaltigkeiten noch 

zufriedenstellend sein mögen, so versagen diese linearen Verfahren jedoch 

völlig bei Mannigfaltigkeiten mit starker Krümmung wie z.B. der Swiss Roll 

(1.1), von der in Abbildung 5.1(a) ein Datensatz aus 1000 zufälligen Samples 

gezeigt ist. MDS würde für diesen Datensatz eine Einbettung finden, die 

die euklidischen Abstände bestmöglich erhält. Diese unterscheiden sich aber 

für eine solche stark gekrümmte Mannigfaltigkeit ganz erheblich von den 

tatsächlichen geodätischen Abständen, was man deutlich in Abb. 5.1(a) sehen 

kann. Die Folge ist, dass eine zweidimensionale Einbettung mit MDS die 

Nachbarschaftsverhältnisse völlig zerstören würde. 

Der Isomap-Algorithmus geht hier einen anderen Weg: Anstatt einfach die 

paarweisen euklidischen Abstände der Eingangsdaten als Input zu nehmen 

und eine diese Abstände bestmöglich erhaltende niedrigdimensionale Einbettung 

in einen linearen Raum zu bestimmen, versucht Isomap zuerst, die den 

Daten zugrunde liegende Geometrie zu ” 

lernen“. Was ist damit gemeint? Eine 

(niedrigdimensionale) Einbettung in einen euklidischen Raum erhält dann 

die Merkmale oder wesentlichen Strukturen der Daten, wenn die Nachbarschaften 

der Daten erhalten bleiben. Das bedeutet, dass Punkte, die im Eingaberaum 

einen kleinen Abstand voneinander haben, auch in der euklidischen 

Einbettung dicht benachbart sein müssen. Entsprechend müssen aber auch 

Punkte mit großem Abstand auf weiter entfernte Punkte im Einbettungsraum 

abgebildet werden. Von ganz entscheidender Bedeutung ist dabei, dass

39 

y 2 

x 3 

x 3 

x 2 

x 2 

x 1 

x 1 

y 1 

(a) 

(b) 

(c) 

Abbildung 5.1: Der Swiss Roll Datensatz. (a) euklidischer Abstand (Länge der gestrichelten 

Linie) zweier beliebiger Punkte und ” 

wahrer“ Abstand in der Geometrie der 

Mannigfaltigkeit als Länge der Geodäte (durchgezogene Linie). (b) Nachbarschaftsgraph 

für N = 1000 Punkte und k = 7 Nachbarn und Approximation des geodätischen 

Abstandes der Punkte durch den kürzesten Weg (rot) im Graph. (c) Zweidimensionale 

Einbettung mit Isomap, die bestmöglich die kürzesten Wege (rot) im (überlagerten) 

Graph (grau) erhält. Geodätische Abstände werden nun durch euklidische Abstände 

(blau) im Einbettungsraum repräsentiert. 

die Abstände im Eingaberaum stets die geodätischen Abstände sein müssen, 

die sich von den euklidischen Abständen bei Mannigfaltigkeiten in nichteuklidischen 

Geometrien ganz erheblich unterscheiden können. Das Problem ist 

nun, dass man in den meisten Fällen keinerlei Aussagen über die den Daten 

zugrunde liegende Geometrie machen kann, ja nicht einmal eine Ahnung hat, 

wie diese aussehen könnte. 

Allgemein ist der Abstand zweier Punkte definiert als die Länge ihrer kürzesten 

Verbindung, also die Länge der Geodäte zwischen beiden Punkten. Diese 

bekommt man, indem man die infinitesimalen Wegelemente aufintegriert. 1 Da 

diese in der Realität z.B. bei gemessenen Daten aufgrund fehlender Informationen 

über die Geometrie nicht bekannt sind, muss ein Ersatz für das Integral 

her. Die einzigen bekannten Informationen sind jedoch die euklidischen 

Abstände zwischen den Punkten im Eingaberaum. Zunächst sei angenommen, 

dass hinreichend viele Samples (Punkte) der Mannigfaltigkeit vorliegen, 

so dass diese die Geometrie und insbesondere die Krümmungen ausreichend 

gut widerspiegeln. Etwas präziser formuliert wird gefordert, dass für jeden 

beliebigen Punkt aus dem Datensatz gilt: In einer hinreichend kleinen Umgebung 

um den Punkt, in der die Krümmung noch vernachlässigbar klein ist, 

sollen außer dem Punkt selbst auch noch einige seiner nächsten Nachbarn lie- 

1 Es sei angenommen, dass die Mannigfaltigkeit hinreichend nette Eigenschaften besitzt, 

so dass dieses Integral existiert.

40 Isomap 

gen. Unter dieser Voraussetzung ist der euklidische Abstand zwischen einem 

Punkt und einem seiner nächsten Nachbarn eine gute Approximation an den 

tatsächlichen geodätischen Abstand, weil die Mannigfaltigkeit lokal in guter 

Näherung linear ist. 2 Man kann dann als Näherung an den geodätischen 

Abstand zweier beliebiger Punkte x 1 und x 2 das Integral über die infinitesimalen 

Wegelemente ersetzen durch eine Summe über euklidische Abstände 

zwischen benachbarten Punkten, die auf oder möglichst dicht an der entsprechenden 

Geodätenlinie zwischen den Punkten liegen sollen. Man bewegt 

sich also von x 1 zu x 2 nur über nächste Nachbarn und addiert dabei jeweils 

die (bekannten) euklidischen Distanzen zwischen den benachbarten Punkten 

auf. Als Approximation an den geodätischen Abstand setzt man dann den 

kürzesten möglichen Weg von x 1 zu x 2 über die Nachbarn. 

5.1 Die ursprüngliche Version von Isomap 

In der ursprünglichen Version von Isomap werden jedoch nicht alle Punkte 

zur Approximation der geodätischen Abstände herangezogen [30]. Stattdessen 

wird aus den N Eingabedaten x 1 , . . . , x N eine zufällige Untermenge aus 

r < N Vektoren ausgewählt und ein Graph konstruiert, in dem jedem dieser r 

Vektoren ein Knoten zugeordnet wird. 3 Zwei Knoten v i und v j dieses Graphen 

werden genau dann durch eine Kante miteinander verbunden, falls es einen 

Vektor x k gibt, dessen beide nächsten Nachbarn im Eingaberaum gerade die 

den Knoten v i und v j zugeordneten Vektoren sind. Als Länge der Kanten wird 

der (bekannte) euklidische Abstand zwischen den beiden Vektoren gesetzt. 

In diesem Graph werden dann mit dem Floyd-Warshall-Algorithmus (vgl. 

Algorithmus A.2) die kürzesten Wege zwischen allen Knoten berechnet, die 

als Approximationen an die geodätischen Abstände dienen. Liegen genügend 

Samples der Mannigfaltigkeit vor und ist der Parameter r richtig gewählt, 

so bildet der Graph ein die Topologie der Mannigfaltigkeit repräsentierendes 

Netzwerk (topology representing network, vgl. [20]). Ist r zu klein, so sind die 

den Knoten zugeordneten Punkte im Eingaberaum relativ weit voneinander 

entfernt, und ihr euklidischer Abstand ist keine gute Näherung mehr an den 

tatsächlichen geodätischen Abstand. Ist r hingegen zu groß, so fehlen viele 

Kanten zwischen benachbarten Knoten, da für jeden Punkt im Eingaberaum 

höchstens eine Kante im Graphen ausgebildet werden kann (nämlich die zwischen 

seinen beiden nächsten Nachbarn, falls diese zum Graph gehören, aber 

2 Als Analogon betrachte man z.B. die nichtlineare Kugelgeometrie der Erdoberfläche, 

die ebenfalls lokal in guter Näherung als euklidisch aufgefasst werden kann. 

3 Die hier verwendeten graphentheoretischen Begriffe werden in A.2 erläutert.

5.2 Eine neuere Variante von Isomap 41 

z.B. nicht mehr zwischen seinen beiden übernächsten Nachbarn). Laut [30] 

hat sich N = 10 4 und r = N/10 in der Praxis bewährt. 

Seien nun o.E. x 1 , . . . , x r die Punkte, die den Knoten v 1 , . . . , v r im Graph entsprechen. 

Diese seien als Zeilenvektoren in der Matrix X r = (x 1 , . . . , x r ) T zusammengefasst. 

Die approximierten paarweisen geodätischen Abstände werden 

in der Matrix d G (X r ) zusammengefasst, wobei d ij G (X r) die Länge des 

kürzesten Weges zwischen v i und v j bezeichnet. Die hier beschriebene ursprüngliche 

Variante von Isomap benutzt ein nichtmetrisches MDS-Verfahren, 

um eine Einbettung für die approximierten Distanzen zu finden (vgl. Abschnitt 

4.2). Dabei werden die d ij G (X r) als Unähnlichkeiten p ij betrachtet, 

die noch durch eine monotone Transformation f, die (4.32) erfüllt, auf die 

disparities ˆd ij G (X r) abgebildet werden können. Die Einbettung wird dann für 

die disparities durch Minimierung des Stress (4.33) gefunden. 

Die ursprüngliche Version von Isomap findet eine Einbettung also nicht für 

alle Punkte aus dem Eingaberaum, sondern nur für die Punkte x 1 , . . . , x r , 

denen Knoten im Graph entsprechen und für die somit approximierte geodätische 

Abstände berechnet werden. Diese Punkte werden so gewählt, dass sie 

die Topologie der Mannigfaltigkeit vollständig repräsentieren, soweit das anhand 

der Anzahl und Verteilung der Eingangsdaten möglich ist. 

5.2 Eine neuere Variante von Isomap 

Die in [31] beschriebene, aktuelle Variante von Isomap, die im Folgenden 

immer einfach mit Isomap bezeichnet wird, beschreitet einen etwas anderen 

Weg, um eine Einbettung für alle Eingangsdatenpunkte zu finden. Es werden 

hier für jeden Punkt x i , i = 1, . . . , N, die nächsten Nachbarn berechnet 

und ein Graph G aus N Knoten v 1 , . . . , v N konstruiert, so dass dem Punkt 

x i aus dem Eingaberaum der Knoten v i im Graph entspricht. Bei dieser 

Version von Isomap kann man nochmal zwischen verschiedenen Varianten 

unterscheiden: k-Isomap verwendet eine konstante Anzahl von k nächsten 

Nachbarn für jeden Punkt x i , während ɛ-Isomap alle Punkte als Nachbarn 

von x i betrachtet, die innerhalb einer Kugel vom Radius ɛ um x i verteilt 

sind. In G wird dann für alle i, j = 1, . . . , N der Knoten v i mit v j durch 

eine Kante verbunden, falls x j einer der nächsten Nachbarn von x i ist. Dabei 

wird als Länge der Kante zwischen v i und v j wieder der euklidische Abstand 

zwischen x i und x j gesetzt. k bzw. ɛ werden so gewählt, dass die geodätischen 

Abstände der Punkte, die im Graphen durch Kanten verbunden werden, noch 

gut durch die entsprechenden (bekannten) euklidischen Abstände angenähert 

werden.

42 Isomap 

In dem so konstruierten Graphen bestimmt man dann die kürzesten Wege 

zwischen allen Knoten, wobei hier der Algorithmus von Dijkstra zum Einsatz 

kommt (vgl. Algorithmus A.1). Es ist |V | = N die Anzahl der Knoten 

in G, und für k nächste Nachbarn ist |E| = N · k die Anzahl der Kanten 

zwischen diesen Knoten. Die Laufzeit des Algorithmus’ lässt sich dann 

abschätzen durch O(N 2 (k + log N)). Für zwei beliebige Punkte x i und x j 

lässt sich deren geodätischer Abstand nun aproximieren durch die Länge des 

kürzesten Weges zwischen v i und v j im Graphen G. Die Eingabedaten werden 

zu einer Matrix X = (x 1 , . . . , x N ) T mit den x i als Zeilen zusammengefasst. 

Weiterhin bezeichne ∆ G (X) die Matrix mit den Längen der kürzesten Wege 

zwischen den Daten, wobei wieder wie im vorigen Abschnitt δ ij 

G 

(X) die Länge 

des kürzsten Weges zwischen v i und v j bezeichnet. Definiert man außerdem 

analog ∆ M (X) als Matrix der paarweisen geodätischen Distanzen der x i , 

so betrachtet man also ∆ G (X) als eine Näherung an die (unbekannte) Matrix 

∆ M (X). Mit Hilfe des klassischen MDS (vgl. Abschnitt 4.1.1) wird nun 

durch Minimierung des Strain (4.13) eine euklidische Einbettung für die approximierten 

geodätischen Distanzen ∆ G (X) berechnet. Man wendet also die 

doppelte Zentrierung (4.7) auf die Matrix ∆ (2) G mit (∆ (2) G) ij = (δ ij 

G )2 an 

und erhält die Matrix B ∆G . Der zu minimierende Strain hat dann analog zu 

(4.13) die Form 

L(Y) = ‖YY T − B ∆G ‖ 2 F . (5.1) 

Die Lösung Y ∈ R N×d für eine d-dimensionale Einbettung ist nach (4.17) 

gerade gegeben durch 

Y = V d Λ 1 2 

d 

, (5.2) 

wobei Λ 1/2 

d 

= diag(λ 1/2 

1 , . . . , λ 1/2 

d 

) die Diagonalmatrix mit den Quadratwurzeln 

der d größten Eigenwerte λ 1 ≥ . . . ≥ λ d ≥ 0 von B ∆G ist und V d 

die N × d-Matrix mit den zugehörigen Eigenvektoren als Spalten bezeichnet. 

Isomap verwendet also einen globalen Ansatz, bei dem die geodätischen 

Abstände zwischen allen Eingabedaten durch Distanzen in einem Graphen 

approximiert werden und anschließend ein globales Minimum von (5.1) bestimmt 

wird. 

In Pseudocode lässt sich der Isomap-Algorithmus folgendermaßen formulieren:


Algorithmus 5.1 Der Isomap-Algorithmus 

Require: Matrix D ∈ R N×N der euklidischen Distanzen zwischen Nachbarn; 

Graph G = (V, E) mit Knotenmenge V = (v 1 , . . . , v N ); 

1: {Initialisierung:} 

2: Setze E := ∅; 

3: {Schritt 1: Konstruktion des Graphen} 

4: for i = 1 to N do 

5: for all j ∈ {l|x l ist Nachbar von x i } do 

6: if (v i , v j ) ∉ E then 

7: füge die Kante (v i , v j ) zur Kantenmenge E hinzu; 

8: end if 

9: end for 

10: end for 

11: {Schritt 2: Bestimmung der kürzesten Wege in G} 


13: berechne in G die kürzsten Wege von v i zu allen anderen Knoten v j , j = 

1, . . . , N, und speichere die Längen in der i-ten Zeile der Matrix ∆ G ∈ 

R N×N ; 

14: end for 

15: {Schritt 3: Berechnung der Einbettung} 

16: berechne für ∆ G eine d-dimensionale Einbettung Y ∈ R N×d mit dem 

klassischen MDS; 

Die Matrix D, die als Input für Isomap dient, muss dabei nicht die paarweisen 

euklidischen Abstände zwischen allen Eingangsdaten enthalten. Stattdessen 

bestimmt man zu jedem Punkt x i die nächsten Nachbarn und trägt in D 

in der i-ten Zeile nur die Distanzen von x i zu dessen nächsten Nachbarn 

ein. Man kann D deshalb in einer dünnbesetzten (sparse) Matrix speichern, 

was bei großen Datensätzen zu einer erheblichen Einsparung bezüglich des 

benötigten Speichers führt. 

Abb. 5.1(b) zeigt den zu 5.1(a) gehörenden Graph, der sich für einen Datensatz 

aus 1000 zufälligen Samples der Swiss Roll und k = 7 nächste Nachbarn 

ergibt, zusammen mit dem kürzesten Weg zwischen den beiden eingekreisten 

Punkten als Approximation an den geodätischen Abstand. Die zugehörige, 

von Isomap berechnete 2-dimensionale Einbettung zeigt Abb. 5.1(c). Der 

Einbettung wurde zusätzlich noch der Distanzgraph zusammen mit dem 

kürzesten Weg (roter Polygonzug) überlagert. Der euklidische Abstand im 

Einbettungsraum (Länge der blauen Gerade) dient nun als Approximation 

an den tatsächlichen geodätischen Abstand.

44 Isomap 

Es stellt sich nun die Frage, wie gut die Näherung der geodätischen Abstände 

auf der Mannigfaltigkeit durch die kürzesten Wege im Graphen ist. Abb. 5.2 

Distanzen im Graph 

100 

90 

80 

70 

60 

50 

40 

30 

20 

10 

0 

0 20 40 60 80 100 

Distanzen auf der Mannigfaltigkeit 

Abbildung 5.2: Auftragung der Distanz im Graphen gegen den geodätischen Abstand 

für 10000 zufällig ausgewählte Punktepaare des Swiss Roll Datensatzes. Zusätzlich ist 

noch die Winkelhalbierende eingezeichnet. 

zeigt für den Swiss Roll Datensatz aus Abb. 5.1 die Auftragung der Länge 

des kürzesten Weges im Graphen gegen den tatsächlichen geodätischen Abstand 

für 10000 zufällig ausgewählte Punktepaare (x i , x j ). Die geodätischen 

Abstände wurden dabei aus der Parameterdarstellung (1.1) der Swiss Roll 

durch Integration bestimmt: Besitzen x i und x j die Darstellungen x i = 

(t i cos(t i ), t i sin(t i ), z i ) T bzw. x j = (t j cos(t j ), t j sin(t j ), z j ) T , so lässt sich der 

geodätische Abstand zwischen beiden Punkten wie folgt bestimmen. Der Fall 

t i = t j ist trivial; die Weglänge ist hier einfach |z j −z i |. Im anderen Fall t i ≠ t j 

kann o.E. t j > t i angenommen werden. Dann muss die z-Komponente von x 

bei der Bewegung von x i nach x j linear mit dem Parameter t wachsen, kann 

also durch diesen in der Form z := b · t + b 0 parametrisiert werden. Setzt man 

für die Konstanten b := z j−z i 

t j −t i 

und b 0 := z it j −z j t i 

t j −t i 

, so gilt gerade z(t i ) = z i und 

z(t j ) = z j . Die Länge s der Geodäte x(t) = (x(t), y(t), z(t)) T im Intervall


[t i , t j ] ist damit gegeben durch 

∫ tj 

∫ tj 

√ẋ(t)2 √ 

s = 

+ ẏ(t) 2 + ż(t) 2 dt = 1 + t2 + b 2 dt 

t i t i 

[ t 

= 1 + t2 + b 

2√ 2 + 1 + b2 

ln 

(t + √ ) ] t j 

1 + t 

2 

2 + b 2 

t i 

. 

(5.3) 

Man erkennt an Abb. 5.2, dass die geodätischen Abstände recht gut durch 

die Distanzen im Graph angenähert werden, wobei die Distanzen im Graph 

allerdings tendenziell immer etwas größer ausfallen. Das ist auch nicht weiter 

verwunderlich, da die inneren Knoten eines kürzesten Weges im Graphen 

nicht immer exakt auf der entsprechenden Geodäte liegen. Dies ist sehr gut an 

der zweidimensionalen Einbettung in Abb. 5.1(c) zu erkennen: Der kürzeste 

Weg im Graph beschreibt einen ” 

Zick-zack-Kurs“, während die Geodäte eine 

gerade Linie ist. Entsprechendes gilt natürlich auch im Eingaberaum (allerdings 

ist die Geodäte hier i.A. keine Gerade!). Dort ist allerdings noch eine 

gegenteilige Tendenz durch die Approximation der geodätischen Abstände 

zwischen Nachbarn durch euklidische Distanzen vorhanden, da geodätische 

Abstände auf nichtlinearen Mannigfaltigkeiten immer größer sind als die entsprechenden 

euklidischen Abstände. 

Intuitiv erwartet man, dass die Approximation der geodätischen Abstände 

durch die Distanzen im Graphen für eine gegebene Mannigfaltigkeit umso 

besser sind, je mehr (gleichverteilte) Samples der Mannigfaltigkeit vorliegen. 

In der Tat kann man zeigen, dass die aus dem Graphen bestimmten Distanzen 

zwischen beliebigen Knoten unter gewissen Bedingungen gegen die tatsächlichen 

geodätischen Abstände konvergieren, wenn man den Grenzübergang 

N → ∞ macht, die Anzahl der Samples und damit die Samplingdichte also 

unendlich groß werden lässt. Genauere Bedingungen an die Geometrie der 

Mannigfaltigkeit und die Verteilung der Samples findet man in [2]. 

Ein Problem bei einem nachbarbasierten Verfahren wie Isomap entsteht, 

wenn die Daten im Eingaberaum sehr stark clustern. D.h. man hat N Datenpunkte 

in einem hochdimensionalen Raum, die dicht in weit voneinander 

entfernten Clustern angehäuft sind. Ist dann bei k-Isomap die Zahl k der 

nächsten Nachbarn kleiner als die Anzahl der Punkte in einem Cluster bzw. 

liegen bei ɛ-Isomap in der ɛ-Kugel um jeden Punkt nur Punkte innerhalb des 

gleichen Clusters, so werden für jeden Punkt x i nur Nachbarn x j aus dem 

gleichen Cluster gefunden. Dies führt dann dazu, dass der aus den Nachbarschaftsverhältnissen 

aufgebaute Graph nicht zusammenhängend ist, sondern 

aus mehreren Zusammenhangskomponenten besteht. Es gibt dann im Graph 

keinen Weg von einer Komponente zu einer anderen Komponente, was dazu

46 Isomap 

führt, dass nicht für alle Punkte des Datensatzes eine Einbettung gefunden 

werden kann. Man muss sich dann für eine Zusammenhangskomponente entscheiden, 

z.B. für diejenige, die die meisten Punkte enthält. Man steht hier 

also vor einem Dilemma: Einerseits darf man nicht zu viele Nachbarn benutzen, 

da die geodätischen Abstände zwischen diesen dann zum Teil groß 

werden und nicht mehr gut durch ihre euklidischen Abstände approximiert 

werden. Andererseits möchte man natürlich verhindern, dass der Graph in 

mehrere Komponenten zerfällt, zwischen denen es keine Verbindung gibt.

Kapitel 6 

Locally Linear Embedding 

Ähnlich wie Isomap ist auch locally linear embedding (LLE) ein Algorithmus, 

der mit Hilfe der Analyse von Nachbarschaftsbeziehungen zwischen Punkten 

in einem (hochdimensionalen) Raum eine Einbettung dieser Punkte in einen 

niedrigdimensionalen Raum findet, bei der die Nachbarschaftsbeziehungen 

möglichst gut erhalten bleiben. Während Isomap dazu einen globalen Ansatz 

wählt und die geodätischen Abstände zwischen allen Eingangsdatenpunkten 

approximiert, um die Geometrie der den Daten zugrunde liegenden Mannigfaltigkeit 

zu ” 

lernen“, versucht LLE Koeffizienten zu finden, die lokal diese 

Geometrie charakterisieren. Durch kollektive Analyse der Koeffizienten soll 

dann eine Abbildung aller Datenpunkte in einen euklidischen Raum gefunden 

werden ([18], [25], [26]). 

Die Eingangsdaten mögen wieder aus N Punkten x 1 , . . . , x N ∈ R D bestehen. 

Man kann wie in Kapitel 5 bei der Behandlung von Isomap annehmen, dass 

die Krümmung der den Daten zugrunde liegenden Mannigfaltigkeit in einer 

Umgebung um einen Punkt nur relativ schwach ist, diese also lokal durch eine 

lineare Hyperebene gleicher Dimension angenähert werden kann. Die x i seien 

gleichmäßig auf der Mannigfaltigkeit verteilt und N sei hinreichend groß, 

so dass in der Umgebung um jeden Punkt auch noch einige seiner nächsten 

Nachbarn liegen. Die Idee bei LLE ist dann die folgende: Man kann an die 

Nachbarn eines Punktes eine lineare Hyperebene anfitten, von der der Punkt 

selbst wegen der lokalen Linearität nur einen geringen Abstand hat. Näherungsweise 

kann man also annehmen, dass sowohl der Punkt selbst als auch 

seine nächsten Nachbarn auf dieser Hyperebene liegen. So verfährt man nun 

für jeden Punkt aus dem Eingangsdatensatz und bekommt N lineare Hyperebenen, 

wobei sich die zu benachbarten Punkten gehörenden Ebenenstücke 

teilweise überlappen, d.h. ein Punkt x i ist Teil mehrerer benachbarter Hyper-

48 Locally Linear Embedding 

ebenen, die eine gewisse Orientierung zueinander haben, die wiederum durch 

die lokale Geometrie der Mannigfaltigkeit bedingt wird. So kann man sich die 

ganze Mannigfaltigkeit zusammengesetzt denken aus kleinen, sich teilweise 

überlappenden Stücken linearer Hyperebenen, die jeweils die gleiche Dimension 

haben wie die Mannigfaltigkeit selbst. Die Lage und Orientierung jeder 

Hyperebene wird durch gewisse Koeffizienten oder Gewichte W charakterisiert, 

auf die weiter unten in diesem Kapitel noch genauer eingegangen wird. 

Die Ebenenstücke lassen sich nun durch Translationen, Rotationen und lineare 

Skalierungen in einen euklidischen Raum gleicher Dimension abbilden, wo 

sie passend angeordnet oder zusammengesetzt werden müssen. Woher aber 

weiß der LLE-Algorithmus nun, wie diese Anordnung auszusehen hat? Nun, 

da jeder Punkt ja Teil mehrerer Hyperebenen ist, steckt diese Information 

schon in den Koeffizienten, die die Ebenen beschreiben. Denn hat man einen 

Punkt x i , der gleichzeitig zu zwei benachbarten Ebenenstücken gehört, so 

müssen diese so im Einbettungsraum angeordnet werden, dass die Stellen, 

an denen der Punkt in beiden Ebenen sitzt, zur Deckung kommen. Diese 

anschaulichen Überlegungen sollen in den folgenden Abschnitten präzisiert 

werden. 

6.1 Die Berechnung der Gewichtsmatrix 

Die N Eingangsdaten x i der Dimension D werden wieder zu einer Matrix X 

zusammengefasst, die die x i als Zeilen enthält: X = (x 1 , . . . , x N ) T ∈ R N×D . 

Es seien die Voraussetzungen von oben an die Daten erfüllt: Ihre Anzahl 

bzw. Verteilung mögen hinreichend groß bzw. gleichmäßig sein, und die Dimension 

der den Daten zugrunde liegenden Mannigfaltigkeit sei d ≪ D. Weiterhin 

sei die Mannigfaltigkeit hinreichend glatt. Unter diesen Bedingungen 

kann jeder Punkt x i in guter Näherung lokal durch seine k nächsten Nachbarn 

x i1 , . . . , x ik als Linearkombination approximiert werden. Die euklidische 

Norm des dabei auftretenden Approximationsfehlers wird jeweils quadriert 

und über alle Punkte x i aufsummiert. Der Gesamtfehler ist dann durch die 

Kostenfunktion 

∥ 

N∑ 

k∑ ∥∥∥∥ 

2 

Φ(W ) = 

∥ x i − w iij x ij (6.1) 

i=1 

gegeben. i j bezeichnet dabei den Index des j-ten Nachbarn von x i , und der 

Koeffizient w iij gibt den Beitrag des i j -ten Datenpunktes zur Rekonstruktion 

des i-ten Datenpunktes an. Die Koeffizienten werden zur Gewichtsmatrix 

W = (w ij ) ∈ R N×N zusammengefasst, die in jeder Zeile nur k von Null 

j=1 

2

6.1 Die Berechnung der Gewichtsmatrix 49 

verschiedene Einträge besitzt, nämlich gerade die zur Rekonstruktion verwendeten. 

Alle anderen Einträge werden auf Null gesetzt. Da gewöhnlich 

k ≪ N gilt, ist die Gewichtsmatrix sehr dünn besetzt. Diese Notation mit 

einer N × N-Matrix W (statt einer N × k-Matrix) hat den Vorteil, dass die 

Gewichte w ij 

” an der richtigen Stelle in W stehen“, denn der Eintrag w ij 

ist gerade der Beitrag des j-ten Datenpunktes zur Rekonstruktion des i-ten 

Datenpunktes, und es ist w ij = 0, falls x j keiner der nächsten Nachbarn von 

x i ist. Trotzdem sei zur Vereinfachung der Notation für die folgenden Rechnungen 

noch die entsprechende N × k-Matrix W ′ = (w ij) ′ mit w ij 

′ := w iij 

eingeführt, bei der somit w ij ′ den Beitrag des j-ten Nachbarn von x i zur Rekonstruktion 

von x i angibt. Außerdem sei w i ′ = (w ii1 , . . . , w iik ) T die i-te Zeile 

von W ′ als Spaltenvektor. 

Das Ziel ist es, die Gewichte W bzw. W ′ so zu bestimmen, dass der Wert der 

Kostenfunktion (6.1) minimal wird. Die Minimierung erfolgt jedoch unter 

der Nebenbedingung 

k∑ 

w iij = 

j=1 

k∑ 

w ij ′ = 1 ∀i = 1, . . . , N , (6.2) 

j=1 

d.h. die Gewichte jeder Rekonstruktion müssen sich zu Eins addieren. Die 

Minimierung von (6.1) kann dabei für jeden Summand einzeln erfolgen, denn 

mit 

∥ Φ i (w i) ′ k∑ ∥∥∥∥ 

2 

:= 

∥ x i − w ijx ′ ij , i = 1, . . . , N (6.3) 

gilt 

j=1 

Φ(W ) = 

2 

N∑ 

Φ i (w i) ′ . (6.4) 

i=1 

Aus der Form der Kostenfunktion (6.1), genauer aus der Verwendung der 

euklidischen Norm, und aus der Nebenbedingung (6.2) ergeben sich einige 

Symmetrien, die essentiell für LLE sind. Sei nämlich ˜w ′ i ein Vektor mit Gewichten, 

der (6.3) minimiert und (6.2) erfüllt. Dann gilt:


• Das Minimum ˜w i ′ ist invariant unter Translationen x ↦→ x + a mit dem 

Translationsvektor a ∈ R D : 

2 

Φ i (w i)| ′ k∑ 

x+a 

= 

∥ x i + a − w ij(x ′ ij + a) 

∥ 

j=1 

2 

2 

k∑ 

k∑ 

(6.5) 

= 

∥ x i − w ijx ′ ij + a − a · w ij 

′ ∥ 

j=1 

= Φ i (w ′ i) , i = 1, . . . , N . 

• Das Minimum ˜w i ′ ist invariant unter Rotationen x ↦→ R·x, beschrieben 

durch die Rotationsmatrix R ∈ R D×D : 

[ 

]∥ Φ i (w i)| ′ k∑ ∥∥∥∥ 

2 

R·x 

= 

∥ R · x i − w ijx ′ ij 

(6.6) 

j=1 

2 

= Φ i (w i) ′ , i = 1, . . . , N , 

wobei hier die Invarianz der euklidischen Norm unter orthogonalen 

Transformationen ausgenutzt wurde. 

• Schließlich ist das Minimum ˜w ′ i auch invariant unter linearen Skalierungen 

x ↦→ α · x mit dem Faktor α ∈ R \ {0}: 

Φ i (w i)| ′ αx 

= 

∥ αx i − 

∥ 

k∑ ∥∥∥∥ 

2 

w ijαx ′ ij 

j=1 

= |α| 2 ∥ ∥∥∥∥ 

x i − 

2 

∥ 

k∑ ∥∥∥∥ 

2 

w ijx ′ ij 

j=1 

j=1 

2 

= |α| 2 · Φ i (w ′ i) i = 1, . . . , N . 

2 

(6.7) 

Es wird also einfach die ganze Kostenfunktion skaliert; die Lage der 

Maxima und Minima hingegen wird dadurch nicht berührt. 

Da diese Invarianzen des Minimums von Φ i für alle i = 1, . . . , N gelten, ist 

natürlich insbesondere auch die Kostenfunktion (6.1) invariant unter Translationen, 

Rotationen und Skalierungen des Koordinatensystems. Die Translationsinvarianz 

kann direkt zur Berechnung der Gewichtsmatrix ausgenutzt 

werden, indem man bei der Minimierung von Φ i (w ′ i) die daran beteiligten 

Punkte, also x i und seine k nächsten Nachbarn, so verschiebt, dass x i im

6.1 Die Berechnung der Gewichtsmatrix 51 

Ursprung des Koordinatensytems liegt: x ij ← x ij − x i . Dann vereinfacht sich 

(6.1) zu 

∥ 

N∑ 

N∑ 

Φ(W ) = Φ i (w i) ′ k∑ ∥∥∥∥ 

2 

= 

w ′ 

∥ 

ijx ij . (6.8) 

i=1 

Die Nebenbedingung (6.2) an die Gewichte lässt sich durch die Funktion 

g(w ′ i) formulieren: 

i=1 

j=1 

g(w ′ i) := w ′ ij + · · · + w ′ ik 

2 

! 

= 1 . (6.9) 

Gesucht ist nun also das Minimum von Φ i (w ′ i) unter der Nebenbedingung 

g(w ′ i) = 1. Mit dem Lagrange-Multiplikator λ führt dies auf das Gleichungssystem 

∇Φ i (w ′ i) = λ · ∇g(w ′ i) = λ · (1, . . . , 1) T , (6.10) 

g(w ′ i) = 1 . (6.11) 

Der Gradient von Φ i lässt sich mit der Nachbarschafts-Skalarproduktmatrix 

⎛ 

⎞ 

x T i 1 

x i1 . . . x T i 1 

x ik 

C = ⎜ . ⎝ . . . . ⎟ 

⎠ (6.12) 

x T i k 

x i1 . . . x T i k 

x ik 

schreiben als ∇Φ i (w ′ i) = 2 C · w ′ i. Anstatt nun aber das resultierende Gleichungssystem 

2 C · w ′ i = λ · (1, . . . , 1) T , (6.13) 

g(w ′ i) = 1 (6.14) 

zu lösen, ist es praktischer, zunächst die Lösung ˜w ′ i = ( ˜w ′ i1, . . . , ˜w ′ ik )T des 

linearen Gleichungssystems 

C · w ′ i = (1, . . . , 1) T (6.15) 

zu berechnen und diese anschließend so zu normieren, dass die Nebenbedingung 

g(w ′ i) = 1 erfüllt ist: 

w ′ i := ˜w ′ i · 

1 

∑ k 

j=1 ˜w′ ij 

. (6.16) 

Dies ergibt die gleiche Lösung, da der Lagrange-Multiplikator in (6.13) nur 

Einfluss auf die Länge von w ′ i hat, nicht aber auf dessen Richtung. Ein Problem 

ergibt sich, wenn die k nächsten Nachbarn nicht linear unabhängig sind,


was bei ungünstiger Lage der Nachbarn oder für k > D der Fall ist. Dann ist 

rang(C) < k, und die Minimierungsaufgabe für Φ i (w ′ i) hat keine eindeutige 

Lösung mehr. In diesem Fall ist es nötig, C zu konditionieren, bevor das 

Gleichungssystem (6.15) gelöst wird. Dies kann z.B. durch Addition eines 

kleinen Vielfachen der Einheitsmatrix geschehen: 

˜C := C + ɛ1 , (6.17) 

wobei ɛ > 0 klein sein sollte im Vergleich zur Spur von C. 1 

Die normierte Lösung w i ′ enthält dann die Gewichte für die Rekonstruktion 

des i-ten Datenpunktes. Diese werden in W in der i-ten Zeile an die Stellen 

w ii1 , . . . , w iik geschrieben; der Rest der Zeile enthält nur Nullen. Durch 

die so gewonnenen Gewichte wird eine lineare Hyperebene der Dimension 

d ′ = min(k − 1, d) charakterisiert, in der die Nachbarn von x i liegen. Dies 

sieht man wie folgt: Dass die Dimension des durch die Hyperebene gebildeten 

affin-linearen Raumes nicht größer sein kann als die Dimension D der 

einzelnen Vektoren, ist klar. Deshalb genügt es, den Fall k ≤ D zu betrachten. 

Weiterhin sei angenommen, dass die k nächsten Nachbarn von x i linear 

unabhängig sind. Dann ist die Menge V der möglichen Linearkombinationen 

der k Nachbarn von x i mit Gewichten, die sich zu Eins addieren, gegeben 

durch 

V = {v = λ 1 x i1 + . . . + λ k x ik | λ 1 + . . . + λ k = 1} 

= { v = λ 1 x i1 + . . . + λ k−1 x ik−1 + (1 − λ 1 − . . . − λ k−1 )x ik | 

λ 1 , . . . , λ k−1 ∈ R} 

= { v = λ 1 (x i1 − x ik ) + . . . + λ k−1 (x ik−1 − x ik ) + x ik | λ 1 , . . . , λ k−1 ∈ R } . 

(6.18) 

Dies ist aber gerade die Gleichung einer linearen (k − 1)-dimensionalen Hyperebene 

durch die Nachbarn von x i . Durch die Minimierung der Kostenfunktion 

(6.3) wird dem Punkt x i nun gerade der Punkt auf der Hyperebene 

zugeordnet, der von x i den geringsten euklidischen Abstand hat. Der dabei 

auftretende Fehler ist jedoch gering, wenn hinreichend viele Eingangsdaten 

vorliegen, die die nichtlineare Mannigfaltigkeit, auf der die Punkte liegen, 

gut modellieren. Eine solche Hyperbene wird nun bei der Minimierung der 

Kostenfunktion (6.1) für jede Nachbarschaft berechnet, so dass schließlich 

alle Punkte lokal in guter Näherung auf linearen Mannigfaltigkeiten liegen. 

1 Es gibt auch andere Möglichkeiten der Konditionierung von C wie z.B. ˜c ij := (1 + ɛ · 

δ ij ) c ij , ɛ > 0. Hier sind die zur Diagonale von C addierten Werte proportional zu den 

entsprechenden Diagonalelementen.

6.2 Die Berechnung der Einbettungskoordinaten 53 

Diese müssen dann nur noch entsprechend rotiert, translatiert und eventuell 

linear skaliert werden, um sie in ein Koordinatensystem zu transformieren, 

das die globalen inneren Koordinaten der Mannigfaltigkeit repräsentiert. Ein 

Rotationen 

Translationen 

Skalierungen 

Abbildung 6.1: Transformation der Hyperebenen auf die globalen Koordinaten der 

Mannigfaltigkeit 

anschauliches Beispiel hierfür zeigt Abb. 6.1, in der die Punkte einer nichtlinearen 

1-dimensionalen Mannigfaltigkeit auf die globalen inneren Koordinaten 

der Mannigfaltigkeit transformiert werden. Da eine Hyperebene durch 

k Nachbarvektoren höchstens die Dimension k − 1 besitzt ist klar, dass der 

Algorithmus nur für d < k sinnvolle Ergebnisse liefern kann. 

Der LLE-Algorithmus lässt sich aber nicht nur für eine feste Anzahl k nächster 

Nachbarn formulieren. Ebenso wie bei Isomap ist es auch hier möglich, als 

Nachbarn von x i z.B. alle Punkte innerhalb einer Kugel um x i mit einem gewissen 

Radius ɛ aufzufassen. 2 ɛ sollte dann natürlich hinreichend groß gewählt 

werden, damit die Kugel genügend Punkte als Nachbarn beinhaltet. Die Berechnung 

der Gewichte erfolgt dann genauso wie im Fall mit k nächsten 

Nachbarn, wobei jetzt aber die Anzahl der von Null verschiedenen Elemente 

in den Zeilen der Gewichtsmatrix W variabel ist. Entsprechend variiert auch 

die Größe des für jede Rekonstruktion zu lösenden Gleichungssystems (6.15). 

Die Aussage, für welche Werte von ɛ der Algorithmus sinnvolle Ergebnisse 

liefern kann, ist in diesem Fall allerdings erheblich schwieriger. 

6.2 Die Berechnung der Einbettungskoordinaten 

Im vorigen Abschnitt wurde erläutert, dass die Abbildung der Eingangsdaten 

auf die inneren Koordinaten der Mannigfaltigkeit durch Rotationen, Translationen 

und lineare Skalierungen erfolgt. Dies sind aber gerade solche Trans- 

2 Dieses ɛ hat nichts mit dem Faktor ɛ bei der Konditionierung von C in (6.17) zu tun!


formationen, unter denen die Gewichte W , die die lokale Geometrie der Mannigfaltigkeit 

charakterisieren, invariant sind. Weiterhin erfolgt die Abbildung 

in den Einbettungsraum so, dass ∀i = 1, . . . , N der Punkt x i ∈ R D auf den 

Punkt y i ∈ R d abgebildet wird. Das bedeutet zum einen, dass die k nächsten 

Nachbarn x i1 , . . . , x ik von x i auf die k nächsten Nachbarn y i1 , . . . , y ik von 

y i abgebildet werden. Zum andern wird y i sogar mit den gleichen Gewichten 

w ii1 , . . . , w iik bestmöglich aus seinen Nachbarn rekonstruiert, mit denen 

auch x i aus dessen Nachbarn rekonstruiert wird. Der Rekonstruktionsfehler 

im Einbettungsraum kann somit analog zu (6.1) durch die Fehlerfunktion 

Ψ(Y) = 

= 

∥ 

N∑ 

k∑ ∥∥∥∥ 

2 

∥ y i − w iij y ij 

i=1 j=1 

2 

∥ 

N∑ 

N∑ ∥∥∥∥ 

2 

∥ y i − w ij y j 

i=1 

j=1 

2 

(6.19) 

(6.20) 

berechnet werden, wobei Y = (y 1 , . . . , y N ) T die Matrix der (zunächst unbekannten) 

Einbettungsvektoren als Zeilen bezeichnet. 

Die Einbettungsvektoren bekommt man nun durch Minimierung von (6.20), 

wobei jetzt im Gegensatz zu (6.1) die Gewichte bekannt sind und stattdessen 

die Koordinaten y 1 , . . . , y N gesucht werden. (6.20) besitzt jedoch kein eindeutiges 

Minimum, sondern ist wegen (6.5) und (6.6) translations- und rotationsinvariant. 

Außerdem existiert die triviale Lösung Y ≡ 0. Aus diesem 

Grund wird die Minimierung der Kostenfunktion an zwei Nebenbedingungen 

geknüpft: 

N∑ 

y i = 0 (6.21) 

i=1 

und 

1 

N 

N∑ 

y i yi T = 1 d . (6.22) 

i=1 

Die erste Nebenbedingung beseitigt den Translationsfreiheitsgrad, und die 

zweite Nebenbedingung fordert, dass die Kovarianzmatrix der Einbettungskoordinaten 

die Gestalt der Einheitsmatrix haben soll. Dies bewirkt zum 

einen den Ausschluss der trivialen Lösung Y ≡ 0 und zum anderen, dass 

Rekonstruktionsfehler für unterschiedliche Koordinaten im Einbettungsraum 

gleich stark bewertet werden.

6.2 Die Berechnung der Einbettungskoordinaten 55 

Die Kostenfunktion (6.20) lautet ausgeschrieben 

( 

) T ( 

) 

N∑ 

N∑ 

N∑ 

Ψ(y 1 , . . . , y N ) = y i − w ij y j · y i − w ij y j 

= 

i=1 

j=1 

[ 

N∑ 

yi T y i − 

i=1 

+ 

N∑ 

j=1 k=1 

N∑ 

w ij yi T y j − 

j=1 

] 

N∑ 

w ij w ik yj T y k . 

j=1 

N∑ 

w ji yi T y j 

j=1 

(6.23) 

Mit der symmetrischen, positiv semidefiniten Matrix M = (m ij ) ∈ R N×N , 

die definiert ist durch 

ergibt sich 

M = (1 − W) T (1 − W) (6.24) 

N∑ 

⇔ m ij = δ ij − w ji − w ij + w ki w kj , (6.25) 

i=1 

j=1 

k=1 

[ 

] 

N∑ N∑ 

N∑ 

Ψ(Y) = δ ij − w ij − w ji + w ki w kj yi T y j 

N∑ 

= 

i=1 j=1 

N∑ 

m ij yi T y j . 

k=1 

(6.26) 

Im Folgenden soll gezeigt werden, dass die Minimierung von (6.20) unter 

den Nebenbedingungen (6.21) und (6.22) auf die Lösung eines Eigenwertproblems 

für die Matrix M führt. Dazu ist es zweckmäßig, die mit dem Faktor 

1/ √ N normierte Matrix (1/ √ N)Y der Einbettungsvektoren als Matrix aus 

Spaltenvektoren v 1 , . . . , v d ∈ R N aufzufassen: 

V = (v 1 , . . . , v d ) := 1 √ 

N 

(y 1 , . . . , y N ) T = 1 √ 

N 

Y . (6.27) 

Dann lässt sich die Kostenfunktion (6.20) schreiben als 

Ψ(v 1 , . . . , v d ) = N 

= N 

d∑ 

vkMv T k 

k=1 

(6.28) 

d∑ 

‖(1 − W)v k ‖ 2 2 . 

k=1


Aus der ersten Nebenbedingung (6.21) folgt nun 

( N 

) 

∑ 

0 = 

! y i = √ N∑ 

N v (i) 

k 

∀k = 1, . . . , d , (6.29) 

i=1 

k 

i=1 

d.h. die Komponenten v (i) 

k 

jedes Vektors v k müssen sich zu Null addieren. 

Die zweite Nebenbedingung (6.22) bedeutet 

1 

N 

N∑ 

y i yi T = 1 N YT Y = V T V = ! 1 d . (6.30) 

i=1 

Die Skalarproduktmatrix der v i muss also gerade die Einheitsmatrix ergeben, 

was genau dann der Fall ist, wenn {v 1 , . . . , v d } ein Orthonormalsystem ist. 

Die Matrix M ist symmetrisch und positiv semidefinit; alle ihre Eigenwerte 

sind damit reell und nichtnegativ und es existiert eine Orthonormalbasis 

des R N aus den Eigenvektoren von M. Seien nun 0 ≤ λ 1 ≤ . . . ≤ λ N die 

Eigenwerte von M. Für den kleinsten Eigenwert gilt stets λ 1 = 0. Dies sieht 

man so: Weil sich die Elemente jeder Zeile von W zu Eins addieren, gilt mit 

u := (1/ √ N, . . . , 1/ √ N) T u = W · u (6.31) 

⇔ 0 = (1 − W)u (6.32) 

⇔ 0 = u T (1 − W) T (1 − W)u (6.33) 

= u T Mu (6.34) 

⇒ M · u = 0 (6.35) 

Sei u 1 , . . . , u N ∈ R N ein Orthonormalsystem aus Eigenvektoren von M zu 

den Eigenwerten λ 1 , . . . , λ N . Dann ist nach (6.35) u 1 := u ein Eigenvektor 

von M zum kleinsten Eigenwert λ 1 = 0. Für alle übrigen Eigenvektoren folgt 

daraus 

u T 1u i = 1 √ 

N 

N 

∑ 

j=1 

u (j) 

i = 0 ∀i = 2, . . . , N , (6.36) 

d.h. die Komponenten der Eigenvektoren u 2 , . . . , u N addieren sich jeweils zu 

Null. Da sich aber jeder beliebige Vektor v i ∈ R N als Linearkombination 

der orthonormalen Eigenvektoren von M darstellen lässt, addieren sich die 

Komponenten von v i genau dann zu Null, wenn u 1 in der Linearkombination 

nicht vorkommt. Damit entstammen die gesuchten Vektoren v 1 , . . . , v d , die 

(6.28) minimieren, alle dem durch die Menge {u 2 , . . . , u N } aufgespannten 

(N − 1)-dimensionalen Unterraum des R N .

6.3 Weiteres zum LLE-Algorithmus 57 

Nach dem Rayleigh-Ritz-Theorem (vgl. [13]) gilt aber für eine hermitesche 

Matrix A ∈ C N×N mit (reellen) Eigenwerten µ min = µ 1 ≤ . . . ≤ µ N = µ max : 

µ min x ∗ x ≤ x ∗ Ax ≤ µ max x ∗ x ∀x ∈ C N . (6.37) 

Zusammen mit der Spektralzerlegung 

M = 

N∑ 

λ i u i u T i (6.38) 

i=1 

von M und mit (6.28) folgt dann, dass die Kostenfunktion (6.20) genau dann 

ihr globales Minimum annimmt, wenn v 1 , . . . , v d ein Orthonormalsystem aus 

span{u 2 , . . . , u d+1 } ist. Damit ist das Orthonormalsystem der v i und damit 

die y i bis auf Rotationen festgelegt. Die einfachste Möglichkeit ergibt sich, 

indem man 

v k := u k+1 , k = 1, . . . , d, (6.39) 

setzt. Dann sind beide Nebenbedingungen erfüllt, und der Wert der Kostenfunktion 

ist nach (6.28) gerade 

Ψ(y 1 , . . . , y N ) = N 

d∑ 

λ k+1 . (6.40) 

k=1 

Als Ergebnis dieses Abschnittes lässt sich also festhalten: Um eine d-dimensionale 

Einbettung y 1 , . . . , y N ∈ R d zu erhalten, müssen die (d + 1) kleinsten 

Eigenwerte λ 1 ≤ . . . ≤ λ d+1 von M mit zugehörigen Eigenvektoren 

u 1 , . . . , u d+1 berechnet werden. Der unterste Eigenvektor (d.h. der Eigenvektor 

u 1 zum kleinsten Eigenwert λ 1 ) wird verworfen und die übrigen als 

Spalten in die Matrix V ∈ R N×d geschrieben. Dann bilden die Zeilenvektoren 

der mit dem Faktor √ N multiplizierten Matrix V nach (6.27) gerade die 

gesuchten Koordinaten Y = (y 1 , . . . , y N ) T = √ N(v 1 , . . . , v d ) = √ NV. 

6.3 Weiteres zum LLE-Algorithmus 

Die wesentlichen, für die Berechnung einer Einbettung mit LLE nötigen 

Schritte sollen hier zunächst noch einmal in Pseudocode dargestellt werden.


Algorithmus 6.1 Der LLE-Algorithmus 

Require: Matrix X = (x 1 , . . . , x N ) T ∈ R N×D der D-dimensionalen Eingabedaten 

als Zeilenvektoren. 

1: {Schritt 1: Berechnung der nächsten Nachbarn} 


3: bestimme die nächsten Nachbarn von x i ; 

4: end for 

5: {Schritt 2: Berechnung der Gewichtsmatrix W } 


7: berechne die Gewichte für die Rekonstruktion von x i durch Minimierung 

der Kostenfunktion (6.3) unter der Nebenbedingung (6.2); 

8: end for 

9: {Schritt 3: Berechnung der Einbettungskoordinaten} 

10: minimiere die Kostenfunktion (6.20) unter den Nebenbedingungen (6.21) 

und (6.22); 

Um mit LLE eine Einbettung für einen Datensatz aus N Punkten zu berechnen, 

muss ein Eigenwertproblem der Größe N gelöst werden, denn man 

benötigt für eine d-dimensionale Einbettung die (d + 1) Eigenvektoren zu 

den kleinsten Eigenwerten der N × N-Matrix M (6.24). Gleiches gilt für 

Isomap, Kern-PCA und auch die lineare PCA (für letztere nur, falls die Dimension 

des Eingaberaumes größer ist als die Anzahl der Datenpunkte). Der 

große Vorteil bei LLE ist jedoch, dass die Matrix M nur sehr dünn besetzt 

ist und somit erheblich weniger Speicherplatz benötigt als eine vollbesetzte 

Kovarianz- oder Skalarproduktmatrix. Für solche dünnbesetzten Matrizen 

existieren leistungsfähige Eigenwertroutinen (vgl. z.B. [1]) für die Berechnung 

einiger Eigenwerte und -vektoren. Diese Routinen haben auch alle die 

Eigenschaft, dass sie sich so formulieren lassen, dass sie die Matrix gar nicht 

in ihrer expliziten Form benötigen, sondern immer nur als Produkt M · x 

mit einem Vektor x. Anstatt beim Aufruf einer solchen Routine die komplette 

Matrix M zu übergeben, genügt es, der Routine eine Funktion f zu 

übergeben, die 

f : R N → R N , x ↦→ M · x (6.41) 

erfüllt. f muss also, wenn sie mit einem Vektor x als Parameter aufgerufen 

wird, gerade das Produkt von M mit diesem Vektor zurückliefern. Eine solche 

Funktion hat nun aber für LLE eine sehr einfache Gestalt: Mit Kenntnis der

6.3 Weiteres zum LLE-Algorithmus 59 

Gewichtsmatrix W lässt sich M · x nach (6.24) einfach schreiben als 

f(x) = M · x 

= (1 − W) T (1 − W)x 

= x − W · x − W T (x − W · x) , 

(6.42) 

lässt sich also sehr einfach im Computer implementieren. 

Die Matrix M muss somit während der gesamten Berechnungsphase nie explizit 

berechnet oder gespeichert werden. Es genügt völlig, die Gewichtsmatrix 

W zu speichern.

Kapitel 7 

Anwendung der Algorithmen 

auf verschiedene Datensätze 

In diesem Kapitel sollen Beispiele zur Dimensionsreduktion gezeigt werden. 

Es drängt sich dabei immer auch die Frage nach der ” 

richtigen“ Einbettungsdimension 

auf. Außerdem stellt sich die Frage der Vergleichbarkeit der Einbettungen 

der verschiedenen Algorithmen. Die Möglichkeit eines qualitativen 

Vergleichs ist bei niedrigdimensionalen Einbettungen bis zur Dimension d = 3 

gegeben, wenn im Datensatz bekannte wesentliche Merkmale enthalten sind 

und man erwartet, dass die Anordnung der Punkte im Einbettungsraum diese 

Merkmale erhält. Von Vorteil wäre hier natürlich ein quantitatives Vergleichskriterium. 

Zumindest für die lineare PCA und für Isomap lässt sich eine solche 

Größe relativ einfach angeben: Das klassiche MDS und damit auch die lineare 

PCA finden eine Einbettung, die die paarweisen Abstände bestmöglich 

erhält, wobei bestmöglich bedeutet, dass die Größe Φ in (4.26) minimiert 

wird, die die Summe über die Differenzen der quadrierten Abstände angibt. 

Die zu approximierenden Abstände sind bei der linearen PCA die paarweisen 

euklidischen Abstände im Eingaberaum. Isomap minimiert die gleiche 

Größe (4.26), versucht dabei aber, die approximierten geodätischen Abstände 

zu erhalten, also die aus dem Nachbarschaftsgraphen berechneten kürzesten 

Wege. Man kann nun für eine gegebene Einbettungsdimension die paarweisen 

Abstände aller N Punkte im Merkmalsraum berechnen und zu einem 

N(N − 1)-dimensionalen Vektor d M zusammenfassen. Für die PCA ist dann 

die Korrelation (A.13) dieses Vektors mit dem aus den paarweisen euklidischen 

Abständen im Eingaberaum gebildeten Vektor d E ein Maß für die 

Übereinstimmung von approximierten und zu approximierenden Abständen. 

Entsprechend berechnet man bei Isomap die Korrelation von d M mit dem aus 

den Abständen im Nachbarschaftsgraph gebildeten Vektor d G . Der Korrela-

7.1 Der Swiss Roll Datensatz 61 

tionskoeffizient r xy als Korrelation zwischen zwei Vektoren x und y nimmt 

dabei immer Werte im Intervall [−1, 1] an. Durch die Auftragung von 

ρ xy := 1 − r 2 xy = 1 − 

Cov(x, y)2 

σ 2 x · σ 2 y 

(7.1) 

mit x = d M , y = d E für PCA bzw. y = d G für Isomap gegen die Einbettungsdimension 

d ergibt sich so eine für beide Algorithmen vergleichbare 

Größe, die den Wert Eins annimmt, wenn die Abstände im Einbettungsraum 

völlig unkorreliert mit den zu approximierenden Abständen sind, und die 

auf Null abfällt, wenn die Abstände vollständig korreliert bzw. antikorreliert 

sind. Üblicherweise fällt ρ mit der Erhöhung der Einbettungsdimension 

stark ab, solange noch nicht alle wesentlichen Merkmale im Merkmalsraum 

enthalten sind. Bei der richtigen“ Dimension gibt es dann oft einen Knick, 

” 

wenn man die Punkte im ρ(d)-Graph durch einen linearen Spline verbindet, 

da die Hinzunahme weiterer Einbettungsdimensionen keine Verbesserung der 

Korrelation mehr bringt. 

7.1 Der Swiss Roll Datensatz 

Als erstes soll untersucht werden, wie gut die Methoden mit dem Swiss Roll 

Datensatz (1.1) zurechtkommen. Die Daten liegen hier auf einer nichtlinearen 

Mannigfaltigkeit, die in sich zusammengerollt ist und daher eine Herausforderung 

für jeden Dimensionsreduktionsalgorithmus darstellt. Der Datensatz 

besteht aus N = 6000 Punkten und ist in Abb. 7.1 dargestellt. Die Punkte 

wurden so eingefärbt, dass sich von innen nach außen und von unten nach 

oben jeweils ein Farbverlauf ergibt. So lässt sich die Qualität der von den 

Algorithmen berechneten Einbettungen ersehen, die ja alle jeweils ∀i den 

Punkt x i aus dem Eingaberaum auf den Punkt y i im Merkmalsraum abbilden. 

Plottet man nun y i jeweils in der gleichen Farbe wie x i , so lässt sich 

leicht erkennen, ob die Dimensionsreduktionsalgorithmen die Nachbarschaften 

erhalten, was aufgrund der Zweidimensionalität der Swiss Roll prinzipiell 

natürlich schon für d = 2 möglich sein sollte. 

7.1.1 PCA 

Da die Hauptachsen bei der PCA nach einer Verschiebung des Mittelpunktes 

in den Ursprung einfach durch eine lineare orthogonale Transformation 

aus der kanonischen Basis des Eingaberaums hervorgehen, ist klar, dass die

62 Anwendung der Algorithmen auf verschiedene Datensätze 

30 

x 3 

0 

15 

10 

5 

0 

0 

−5 10 

x 

x −10 

2 

1 

−10 

Abbildung 7.1: Der Swiss Roll Datensatz, bestehend aus N = 6000 Samples.


15 

10 

5 

y 2 

0 

−5 

−10 

−15 

−20 −15 −10 −5 0 5 10 15 20 

y 1 

Abbildung 7.2: Zweidimensionale Einbettung der Swiss Roll mit linearer PCA.


PCA hier keine befriedigende Einbettung finden kann. Die Hauptachsen sind 

einfach Geraden im Eingaberaum, die eine Ebene aufspannen, und die Einbettung 

ist die Projektion auf diese Ebene, zu sehen in Abb. 7.2. Die erste 

Hauptachse y 1 zeigt dabei in x 3 -Richtung, da in dieser Richtung die Ausdehnung 

der Swiss Roll am Größten ist. Durch Projektion auf diese Hauptachse 

bleiben 52.6% der Gesamtvarianz der Eingangsdaten erhalten; y 2 enthält 

noch 26.0% und y 3 den Rest von 21.4%. 

7.1.2 Kern-PCA 

Die Kern-PCA ist bei der Verwendung von nichtlinearen Kernfunktionen in 

der Lage, auch Hauptachsen zu finden, die durch nichtlineare Transformationen 

aus den Basisvektoren des Eingaberaumes hervorgehen und damit 

nichtlinearen Kurven im Eingaberaum entsprechen. Die Kernfunktion sollte 

dabei so gewählt werden, dass die Daten durch die Transformation in den 

Merkmalsraum ” 

ausgebreitet“ werden. Im Fall der Swiss Roll bedeutet das, 

dass man einen Kern sucht, der die Swiss Roll im Merkmalsraum ausrollt. 

Dabei stellt sich allerdings die Frage, wie man den richtigen Kern findet. 

Es ist zunächst einmal nämlich überhaupt nicht klar, welche Auswirkungen 

die Transformation in den Merkmalsraum auf die Geometrie der Daten 

hat, was insbesondere für den Gauß’schen Kern gilt, bei dem der Merkmalsraum 

unendlichdimensional ist. Für den Swiss Roll Datensatz konnte dann 

auch kein passender Kern gefunden werden, wobei die Standardkerne homogener 

Polynomkern (3.29) für d = 1, 2, 3, 4, 5, inhomogener polynomieller 

Kern (3.31) für c = 1 und d = 2, 3, 4, 5, 6, 7, Gauß’scher Kern (3.32) für 

σ = 0.01, 0.1, 0.5, 1, 2, 3 und sigmoider Kern (3.33) für κ = 0.01, 0.1, 0.5, 1, 2, 4 

und Θ = 0.01, 0.1, 0.5, 1, 2, 4, 8, 12 ausprobiert wurden. Die Eingangsdaten 

wurden dabei zuerst so normiert, dass der längste Eingabevektor die Länge 

Eins hat, um explodierende Werte bei der Berechnung der Kernmatrix z.B. 

bei den polynomiellen Kernen und sehr kleine Werte beim Gauß’schen Kern 

zu vermeiden. 

Alle Kerne lieferten in drei Einbettungsdimensionen – also ohne Dimensionsreduktion 

– nur eine mehr oder weniger starke Deformation der Swiss Roll 

und schafften es nicht, die Swiss Roll ” 

auszurollen“. Das soll hier stellvertretend 

für alle durchprobierten Kernfunktionen für den sigmoiden Kern gezeigt 

werden. Für kleine Werte von κ und Θ liegen die Argumente des tanh noch 

in dessem nahezu linearen Bereich, was dazu führt, dass die Hauptachsen 

quasi mit denen der linearen PCA zusammenfallen. Für zunehmend größere 

Parameter kann man hingegen an der sich einstellenden Deformation die


Nichtlinearitäten des Kerns erkennen, und für zu große Argumente des tanh 

ist dieser quasi konstant Eins, was zu einer degenerierten Lösung führt, bei 

der alle Punkte im Ursprung liegen. Abb. 7.3 zeigt die Einbettung in den 

y 3 

5 

4 

3 

2 

1 

0 

−4 

x 10 −4 

−2 

0 

y 2 

2 

4 

x 10 −4 y 1 

−2 −4 

2 0 

6 4 

x 10 −4 

Abbildung 7.3: Dreidimensionale Einbettung von N = 3000 Datenpunkten der Swiss 

Roll mit der Kern-PCA. Es wurde der sigmoide Kern (3.33) mit κ = 4 und Θ = 12 

verwendet. 

durch die ersten drei Hauptachsen aufgespannten Raum. Die Swiss Roll ist 

an der Kante, bei der im Eingangsdatensatz die x 3 -Komponente Null ist, 

etwas aufgeweitet und erscheint nun von der Seite kegelförmig. Dieser Effekt 

verstärkt sich für größer werdende Parameter. Für κ = 8 und Θ = 4 ist die 

Swiss Roll schließlich ganz ” 

aufgebogen“und besitzt gar keine Ausdehnung 

mehr in y 3 -Richtung. Die entsprechende zweidimensionale Einbettung zeigt 

Abb. 7.4. Eine solche Einbettung spiegelt natürlich nicht die Geometrie der 

den Daten zugrunde liegenden Mannigfaltigkeit wider. Die Nachbarschafts-


2.5 

2 

1.5 

1 

0.5 

y 2 

0 

−0.5 

−1 

−1.5 

−2 

−2 −1 0 1 2 3 

y 1 

Abbildung 7.4: Projektion der Swiss Roll-Einbettung für κ = 8 und Θ = 4 auf die 

ersten beiden Hauptachsen.


verhältnisse sind zum großen Teil zerstört, d.h. dicht benachbarte Punkte 

im Einbettungsraum korrespondieren zwar teilweise mit geodätisch dicht benachbarten 

Punkten im Eingaberaum, teilweise aber auch mit geodätisch 

sehr weit entfernten Punkten. Die Aussagefähigkeit einer solchen Einbettung 

ist daher sehr begrenzt. Insbesondere lassen sich den Hauptachsen in diesem 

Fall selbst bei bestem Willen keine Merkmale der Eingabedaten zuordnen. Es 

mag zwar sein, dass es vielleicht einen Kern gibt, der die Swiss Roll ausrollt 

(dieser könnte z.B. aus Linearkombinationen der Standardkerne hervorgehen; 

eine solche Linearkombination ist dann nach [29] wieder eine Kernfunktion), 

doch wie dieser Kern auszusehen hat, scheint nicht unmittelbar klar zu sein. 

7.1.3 Isomap 

Der Swiss Roll Datensatz bereitet dem Isomap-Algorithmus keine Probleme. 

Die Einbettung zeigt Abb. 7.5. Um festzustellen, wie gut die approximierten 

geodätischen Distanzen zwischen den Punkten als kürzeste Wege im 

Nachbarschaftsgraphen mit den tatsächlichen geodätischen Abständen übereinstimmen, 

wurden diese gegeneinander graphisch aufgetragen. Die wahren 

geodätischen Abstände aller Punktepaare wurden dabei mit Hilfe der Parametrisierung 

(1.1) der Swiss Roll nach (5.3) berechnet. Abb. 7.6 zeigt die 

Auftragung der Distanzen im Graph gegen die geodätischen Distanzen für 

4000 zufällige Punktepaare. In die Abbildung ist zusätzlich noch die Winkelhalbierende 

mit eingezeichnet, auf der die Punkte im Idealfall alle liegen 

sollten. Die Abstände stimmen sehr gut überein, wobei die Distanzen 

im Nachbarschaftsgraph tendenziell geringfügig größer ausfallen. Der auf 4 

Nachkommastellen gerundete Korrelationskoeffizient für die Abstände der 

4000 Punktepaare beträgt 0.9999, die approximierten Abstände sind also mit 

den geodätischen Abständen nahezu vollständig korreliert. Einen Vergleich 

zwischen linearer PCA und Isomap für den Abfall des Residuums ρ aus (7.1) 

zeigt Abb. 7.7. Es bestätigen sich die oben gemachten Beobachtungen aus 

den Abbildungen 7.2 und 7.5 bzw. 7.6: Während bei Isomap die Abstände 

bereits im zweidimensionalen Einbettungsraum erhalten bleiben, gelingt dies 

der linearen PCA erst in drei Einbettungsdimensionen. 

7.1.4 LLE 

Auch LLE findet für die Swiss Roll eine Einbettung, die deren innere Geometrie 

repräsentiert. Die zweidimensionale Einbettung, bei der die k = 10 

nächsten Nachbarn jedes Datenpunktes verwendet wurden, zeigt Abb. 7.8.


15 

10 

5 

y 2 

0 

−5 

−10 

−15 

−50 −40 −30 −20 −10 0 10 20 30 40 

y 1 

Abbildung 7.5: Zweidimensionale Einbettung des Swiss Roll Datensatzes mit Isomap. 

Es wurden die k = 12 nächsten Nachbarn jedes Eingabevektors verwendet.


90 

80 

70 

Abstand im Graph 

60 

50 

40 

30 

20 

10 

0 

0 20 40 60 80 

Abstand auf der Mannigfaltigkeit 

Abbildung 7.6: Vergleich zwischen approximierten (y-Achse) und tatsächlichen 

geodätischen Abständen (x-Achse) für 4000 zufällig ausgewählte Punktepaare bei der 

Einbettung der Swiss Roll mit Isomap. Zum Vergleich ist die Winkelhalbierende mit 

eingezeichnet.


0.4 

Isomap 

PCA 

Residuum ρ 

0.2 

0 

1 2 3 4 5 6 7 8 9 10 

Einbettungsdimension 

Abbildung 7.7: Vergleich des Abfalles des Residuums für die lineare PCA und für Isomap 

bei der Einbettung der Swiss Roll. 

Hier ist die Swiss Roll zwar nicht ganz so perfekt abgerollt wie bei der Isomap- 

Einbettung in Abb. 7.5, trotzdem bleiben die geodätischen Distanzen sehr 

gut erhalten. Allerdings reagiert LLE relativ empfindlich auf die Anzahl der 

verwendeten Nachbarn: Bei der Einbettung mit k = 9 ist die Swiss Roll 

nur zum Teil ausgebreitet, und auch für k = 11 ist die Einbettung deutlich 

schlechter als die für k = 10 gezeigte. Für k ≥ 12 erscheint die eingebettete 

Swiss Roll sogar teilweise in sich zusammengefaltet. Dieser Effekt der 

Empfindlichkeit gegenüber k tritt (in verminderter Form) auch bei vielen 

anderen Datensätzen auf. LLE scheint demnach empfindlicher auf die Zahl 

der nächsten Nachbarn und auf deren Lage zu reagieren als Isomap. 

Für die gleiche Anzahl k = 10 nächster Nachbarn ergibt sich bei einem größeren 

Datensatz aus N = 20000 Samples der Swiss Roll die in Abb. 7.9 gezeigte 

Einbettung, die nicht ganz so empfindlich auf die Anzahl der Nachbarn reagiert. 

Hier bleiben die Nachbarschaften bis über k = 80 erhalten.


0.02 

0.01 

0 

y 2 

−0.01 

−0.02 

−0.03 

−0.02 0 0.02 

y 1 

Abbildung 7.8: Zweidimensionale Einbettung des Swiss Roll Datensatzes mit LLE unter 

Verwendung der k = 10 nächsten Nachbarn jedes Datenpunktes


0.015 

0.01 

0.005 

y 2 

0 

−0.005 

−0.01 

−0.015 

−0.015 −0.01 −0.005 0 0.005 0.01 

y 1 

Abbildung 7.9: LLE-Einbettung für N = 20000 Samples der Swiss Roll mit k = 10 

nächsten Nachbarn.

7.2 Bildanordnung I: Webcam-Bilder 73 

7.2 Bildanordnung I: Webcam-Bilder 

In diesem Abschnitt soll gezeigt werden, wie sich Bilder mit Hilfe der Dimensionsreduktion 

sinnvoll nach Merkmalen sortieren lassen. Der komplette 

Abbildung 7.10: Der Webcam-Datensatz, bestehend aus 29 Bildern der Größe 160×120 

Pixel 

Datensatz besteht aus N = 29 Bildern und ist in Abb. 7.10 zu sehen. Die 

Bilder wurden einzeln mit einer Webcam aufgenommen und haben jeweils 

eine Größe von 160 × 120 Pixeln. Der Eingaberaum hat also die Dimension 

D = 19200. 

7.2.1 PCA 

Schon die PCA findet für diesen Datensatz eine sinnvolle Anordnung in einem 

zweidimensionalen euklidischen Raum, die in Abb. 7.11 gezeigt ist. Allerdings 

lassen sich den beiden Hauptachsen nicht direkt die Merkmale ” 

horizontaler 

Drehwinkel“ und ” 

vertikaler Kippwinkel“ des Kopfes zuordnen. Man scheint 

eher alle Posen mehr oder weniger kontinuierlich zu durchlaufen, wenn man 

sich auf dem ” 

C“, das die Anordnung der Bilder beschreibt, im Uhrzeigersinn 

bewegt. Benachbarte Bilder oder Punkte zeigen dabei ähnliche Posen. 

Die folgende Tabelle zeigt die relativen Varianzen der ersten 8 Hauptkomponenten 

in Prozent der Gesamtvarianz des Datensatzes: 

PC 1 2 3 4 5 6 7 8 

relative Varianz [%] 30.3 14.8 10.6 8.76 6.06 3.58 3.02 2.56 

Die Varianzen der ersten beiden Hauptkomponenten machen also weniger 

als die Häfte der Gesamtvarianz aus, so dass die Eingabedaten wahrscheinlich 

entweder auf einer nichtlinearen, niedrigdimensionalen Mannigfaltigkeit


10 

8 

6 

4 

2 

y 2 

0 

−2 

−4 

−6 

−8 

−10 

−10 −5 0 5 10 15 

y 1 

Abbildung 7.11: Projektion der Webcam-Bilder auf einen 2-dimensionalen Unterraum 

mit PCA


liegen oder aber dass sich ihre wesentliche Struktur nicht durch nur zwei Achsen 

parametrisieren lässt. Genaueren Aufschluss hierüber sollte man mit den 

nichtlinearen Dimensionsreduktionsmethoden erhalten können, wobei allerdings 

Aussagen über die Dimension der Mannigfaltigkeit, die diesen Daten 

zugrunde liegt, mit Vorsicht zu genießen sind, da die Anzahl der Datenpunkte 

mit N = 29 doch sehr gering ist. Letztlich geht es aber auch lediglich 

darum, eine aussagekräftige Parametrisierung der Daten in Form einer niedrigdimensionalen 

euklidischen Einbettung zu finden, und nicht darum, die 

genaue Dimension der Mannigfaltigkeit in Erfahrung zu bringen. 


Die visuell ” 

vernünftigste“Anordnung erzeugt der Gauß’sche Kern mit einer 

Varianz von σ = 0.5. Abb. 7.12 zeigt die zweidimensionale Einbettung. Die 

1 

0.5 

0 

−0.5 

y 2 

−1 

−1.5 

−2 

−2.5 

−3 −2 −1 0 1 2 

y 1 

Abbildung 7.12: Einbettung der Webcam-Bilder mit der Kern-PCA. Es wurde der 

Gauß’sche Kern mit σ = 0.5 verwendet. 

Daten beschreiben wie bei der linearen PCA ein ” 

C“, auf dem die verschiedenen 

Posen mehr oder weniger kontinuierlich durchlaufen werden. Gleich-


zeitig ist aber hier auch eine gewisse Tendenz der Anordnung bezüglich der 

Hauptachsen zu erkennen, denn der horizontale Drehwinkel des Kopfes korreliert 

relativ stark mit der ersten Hauptachse: Im linken Teil der Abbildung 

schaut der Kopf mehrheitlich nach links, im rechten Teil dagegen im Wesentlichen 

nach rechts. Gleichzeitig kann man eine gewisse Korrelation der 

zweiten Hauptachse mit dem Winkel der vertikalen Kippbewegung ausmachen, 

da der Kopf im oberen Teil der Abbildung im Wesentlichen nach unten 

schaut, im unteren Teil dagegen eher in waagerechte Richtung oder nach 

oben. Insgesamt liefert die Kern-PCA hier eine durchaus sinnvolle Anordnung 

der Webcam-Bilder. 

7.2.3 Isomap 

In der von Isomap mit k = 3 nächsten Nachbarn gelieferten Einbettung in 

Abb. 7.13 ist nun ein ganz klarer Trend auszumachen: Die erste Hauptachse 

parametrisiert den Drehwinkel, die zweite hingegen den Kippwinkel. Eine 

20 

10 

0 

y 2 

−10 

−20 

−30 

−40 

−50 

−60 −40 −20 0 20 40 60 

y 1 

Abbildung 7.13: Zweidimensionale Isomap-Einbettung mit k = 3 nächsten Nachbarn 

ähnliche Anordnung würde wohl auch ein menschlicher Proband liefern, wenn


er die Aufgabe bekäme, diese 29 Bilder irgendwie sinnvoll in einer Ebene anzuordnen. 

Die Auftragung des Residuums ρ gegen die Einbettungsdimension 

0.5 

Isomap 

PCA 

0.4 

Residuum ρ 

0.3 

0.2 

0.1 

0 

1 2 3 4 5 6 7 8 9 10 


Abbildung 7.14: Auftragung von ρ gegen die Einbettungsdimension für PCA und Isomap 

zeigt denn auch, dass Isomap zwei Dimensionen genügen, um für den Satz aus 

approximierten geodätischen Abständen eine optimale Einbettung zu finden 

(optimal in dem Sinne, dass eine betragsmäßig möglichst große Korrelation 

zwischen den Distanzen im Graph und den paarweisen Abständen im Einbettungsraum 

herrscht). Die lineare PCA hingegen benötigt für ihre Aufgabe, 

die euklidischen Abstände im Eingaberaum zu approximieren, deutlich mehr 

Hauptrichtungen. Das deutet darauf hin, dass es sich hier wohl um Daten 

auf einer nichtlinearen Mannigfaltigkeit handelt. Wie schon im vorigen Abschnitt 

bei der Anwendung der Kern-PCA auf dieses Beispiel angedeutet, 

sollte man sich aber nicht dazu verleiten lassen zu glauben, die Mannigfaltigkeit, 

auf der diese Bilder liegen, sei wirklich zweidimensional. Dafür ist 

die Anzahl der Samples sicherlich viel zu gering, und es ist nicht klar, ob die 

Distanzen im Nachbarschaftsgraphen überhaupt eine gute Approximation an 

die wirklichen Abstände auf der Mannigfaltigkeit darstellen, wie dies beim 

weiter oben betrachteten Beispiel der Swiss Roll der Fall ist.


7.2.4 LLE 

Ähnliches wie für die Isomap-Einbettung gilt auch für die in Abb. 7.15 gezeigte 

Einbettung mit LLE, bei der die k = 8 nächsten Nachbarn verwendet 

wurden. Diese Zahl klingt zwar recht groß im Vergleich zur Gesamtanzahl 

der Datenpunkte, so dass allein hierdurch wohl schon (fäschlicherweise) eine 

gewisse Glättung der Mannigfaltigkeit stattfindet, jedoch lassen sich nur für 

1.5 

1 

0.5 

0 

y 2 

−0.5 

−1 

−1.5 

−2 

−1 0 1 2 

y 1 

Abbildung 7.15: Zweidimensionale LLE-Einbettung mit k = 8 nächsten Nachbarn 

etwa 8 Nachbarn zwei orthogonalen Koordinatenachsen Merkmale zuordnen, 

die hier nicht genau y 1 und y 2 entsprechen, sondern eher ungefähr entlang 

der Winkelhalbierenden und senkrecht dazu verlaufen. Für geringere Nachbarzahlen 

ergeben sich hingegen Anordnungen, die eher denen der PCA oder 

Kern-PCA entsprechen. Bei einer Zahl von 8 nächsten Nachbarn bei diesem 

Datensatz kann man aber wohl kaum noch von Locally Linear Embedding 

sprechen.

7.3 Bildanordnung II: Kavitationsblasen 79 

7.3 Bildanordnung II: Kavitationsblasen 

In diesem Abschnitt werden die Algorithmen auf Bilder von Kavitationsblasen 

angewendet. Die Blasen wurden mit einer Videokamera aufgenommen 

und das Video dann in 319 Einzelbilder zerlegt. 1 Die Bilder zeigen eine levitierte 

Luftblase in einem wassergefüllten akustischen Resonator bei niedriger 

Schallanregung. Die Wechselwirkung der Volumenschwingung der Blase mit 

dem äußeren akustischen Stehwellenfeld (primäre Bjerkneskraft) zieht die 

Blase in den Schalldruckbauch des Resonators. Durch Störungen wie Oberflächeninstabilitäten 

wird die Blase aus der Gleichgewichtslage gebracht und 

verändert damit ihre Position. 

Abbildung 7.16: 20 zufällige Samples des Datensatzes mit Kavitationsblasenbildern. 

Jedes Bild hat eine Größe von 256 × 80 Pixeln bei 256 Graustufen. 

Jedes der Bilder hat eine Größe von 256 × 80 Pixeln und ein Farbformat von 

256 Graustufen. 2 Abb. 7.16 zeigt eine Menge von 20 zufällig ausgewählten 

Bildern des Datensatzes. Die Bilder sind hier in invertierten Graustufen dargestellt, 

da man so die Blasen (helle Kreise oder Flecken) besser erkennen 

kann. Auf den meisten Bildern ist jeweils nur eine Blase zu sehen. Manchmal 

jedoch teilt sich diese in zwei oder mehr Blasen auf, und so sind auch 

1 Die Bilder wurden freundlicherweise von Dagmar Krefting zur Verfügung gestellt. 

Vielen Dank dafür! 

2 Die ursprüngliche Größe war 256×128 Pixel. Da sich die Bewegung der Blasen in diesen 

ursprünglichen Bildern aber nur im oberen Teil abspielt und in horizontaler Richtung 

stärker ausgeprägt ist, wurde der untere Teil der Bilder abgeschnitten, so dass sich die 

Bewegungen in der gesamten Bildfläche abspielen.


einige wenige Bilder mit zwei oder drei Kavitationsblasen im Datensatz enthalten. 

Für die Berechnung der Einbettungen wurden immer die unveränderten, 

nichtinvertierten Graustufenbilder benutzt. Insbesondere wurde den Dimensionsreduktionsalgorithmen 

keinerlei Bild- oder sonstige Vorverarbeitung 

vorgeschaltet. Die Algorithmen wurden immer auf die unveränderten, 256×80 

Pixel großen Bilder angewendet, und auch die Invertierung erfolgt immer nur 

bei der Darstellung der Ergebnisse. 

Das wesentliche Merkmal sollte die Position der Blase(n) innerhalb des Bildes 

sein. Weitere Merkmale könnten die Größe oder Form der Blase(n) darstellen, 

die aber schwer aufzudecken sein dürften, da diese Merkmale doch eher 

schwach vertreten sind und zusätzlich in den Bildern natürlich immer auch 

ein gewisses Rauschen vorhanden ist, das in zufälligen, relativ kleinen Änderungen 

von Pixelwerten resultiert. 

7.3.1 PCA 

Der PCA nach scheinen die Bilder nicht auf einer niedrigdimensionalen Untermannigfaltigkeit 

des Eingaberaumes zu liegen. Um 90% der Gesamtvarianz 

der Eingangsdaten zu erhalten, muss der Einbettungsraum schon 28 Dimensionen 

haben. Die relativen Varianzen der ersten 5 Hauptrichtungen zeigt die 

folgende Tabelle: 

PC 1 2 3 4 5 

relative Varianz [%] 14.5 10.5 8.80 6.87 5.89 

Die Prozentangaben beziehen sich dabei wieder auf den Anteil der Varianz 

der jeweiligen Hauptrichtung an der Gesamtvarianz der Eingangsdaten. Die 

erste Hauptachse besitzt zwar schon eine deutliche größere Varianz als die 

zweite Hauptachse, jedoch ist ihr Anteil an der Gesamtvarianz mit 14.5% 

relativ gering. In der in Abb. 7.17 gezeigten zweidimensionalen Einbettung 

lassen sich den beiden Hauptachsen auch nicht so einfach wesentliche Merkmale 

zuordnen. Die Blase befindet sich in der gesamten oberen Hälfte der 

Abbildung und auch im linken unteren Teil jeweils in der rechten Häfte des 

Bildes. Der ersten Hauptachse lässt sich am ehesten noch die vertikale Blasenposition 

zuordnen: In der rechten Häfte der Abbildung befindet sich die Blase 

eher in der unteren Bildhäfte, in der linken Häfte befindet sie sich hingegen 

eher in der oberen Häfte. Aber auch diese Zuordnung ist nicht ganz eindeutig 

und fehlerfrei. Insgesamt fällt es schon schwer, den beiden Hauptachsen


2000 

1500 

1000 

500 

y 2 

0 

−500 

−1000 

−1500 

−2000 

−2000 −1000 0 1000 2000 

y 1 

Abbildung 7.17: Zweidimensionale Einbettung der Kavitationsblasenbilder mit PCA


auf den ersten Blick eindeutig Bildmerkmale zuzuordnen. Die Hinzunahme 

der dritten Hauptachse bringt hier auch keine Klarheit; dieser Richtung ist 

überhaupt kein Merkmal der Bilder zuzuschreiben. 

Die obigen Betrachtungen beziehen sich dabei auf die lineare PCA unter Verwendung 

der (geschätzten) Kovarianzmatrix der aus den Blasenbildern gebildeten 

Vektoren. Verwendet man stattdessen die Korrelationsmatrix, normiert 

also die Vektoren so, dass die einzelnen Komponenten alle Standardabweichung 

Eins haben, so benötigt man sogar 183 Hauptachsen, um 90% der 

Gesamtvarianz der Eingangsdaten zu erhalten. Die Unterschiede der relativen 

Varianzen ist hier bei den ersten Hauptkomponenten noch geringer. 

Entsprechend kann man den Hauptachsen noch weniger Informationen entnehmen. 


Für die Kern-PCA wurden wieder die Standardkerne in breiten Parameterbereichen 

ausprobiert. Bei diesen Bildern ergibt sich kein wesentlicher Unterschied 

zwischen den verschiedenen Kernfunktionen. Insbesondere sehen alle 

Einbettungen der linearen PCA sehr ähnlich, so dass das dort gesagte auch 

für die Kern-PCA gilt. Abb. 7.18 zeigt die Projektion auf die ersten beiden 

Hauptachsen. In höheren Hauptrichtungen konnte keine Struktur in der 

Anordnung erkannt werden. 

7.3.3 Isomap 

Die Berechnung der Einbettung mit Isomap erfolgte unter Verwendung der 

k = 13 nächsten Nachbarn. Diese Nachbarzahl hat sich durch Ausprobieren 

als die günstigste herausgestellt, was die Interpretierbarkeit der Einbettungskoordinaten 

angeht. Die Auftragung des Residuums gegen die Dimension des 

Einbettungsraumes zeigt Abb. 7.19. Dort ist zum Vergleich auch das Residuum 

für die Einbettung mit PCA eingezeichnet. Danach sollte sich die 

wesentliche Information, die in den Blasenbildern steckt, durch Isomap mit 

zwei Merkmalen beschreiben lassen. Die Hinzunahme weiterer Dimensionen 

bringt nur noch wenig Gewinn. Dies bestätigt sich auch bei der Betrachtung 

der Ergebnisse. Die PCA hingegen schafft es nicht, die wesentliche Struktur 

der Daten durch die ersten Hauptachsen zu parametrisieren. Daraus lässt 

sich also schließen, dass die den Daten zugrunde liegende Mannigfaltigkeit 

eine gewisse Nichtlinearität aufweist. Abb. 7.20 zeigt die Abbildung in einen


y 2 

5 

4 

3 

2 

1 

0 

−1 

−2 

−3 

−4 

−6 −4 −2 0 2 4 

y 1 

Abbildung 7.18: Zweidimensionale Einbettung der Kavitationsblasenbilder mit der 

Kern-PCA. Es wurde der inhomogene Polynomkern vom Grad 3 mit c = 1 verwendet.


1 

0.9 

Isomap 

PCA 

Residuum ρ 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

1 2 3 4 5 6 7 8 9 10 


Abbildung 7.19: Der Abfall des Residuums durch Erhöhung der Einbettungsdimension 

für PCA und Isomap im Vergleich 

zweidimensionalen Merkmalsraum. Hier lassen sich den Achsen im Gegensatz 

zur PCA schon eher Merkmale zuordnen: Die Blasen befinden sich im 

linken unteren Teil der Abbildung auch in den Bildern im linken unteren 

Teil und rechts oben entsprechend in den Bildern im rechten oberen Teil. 

Dabei stimmen die Richtungen von y 1 und y 2 allerdings nicht genau mit den 

Richtungen überein, in denen sich die Blasen ausschließlich horizontal oder 

vertikal bewegen. Diese Richtungen scheinen vielmehr Linearkombinationen 

von y 1 und y 2 zu sein und aus diesen durch Rotation hervorzugehen. Allerdings 

sind die Einbettungen, die das klassische MDS findet, gerade invariant 

unter Rotationen des Koordinatensystems, was somit auch für Isomap gilt. 

Ein menschlicher Beobachter denkt natürlich immer ” 

kanonisch“und würde 

die Bewegung in einer Ebene (hier im Blasenbild) durch einen horizontalen 

und einen vertikalen Anteil darstellen. Ein Algorithmus wie Isomap kennt 

hingegen keine solchen bevorzugten Richtungen. Die Achsen y i werden hier 

so gewählt, dass sie gerade mit den Hauptachsen der Einbettungsdaten zusammenfallen, 

deren Kovarianzmatrix also Diagonalgestalt hat. 

Wie schon eingangs erwähnt, lässt sich die Einbettung bei Verwendung der 13 

nächsten Nachbarn jedes Datenpunktes am Besten interpretieren, und wenn 

man sich den Abfall der Fehlerfunktion in Abb. 7.19 anschaut, so scheinen 

zwei Dimensionen zu genügen, um die wesentliche Struktur der Daten zu be-


8000 

6000 

4000 

2000 

0 

y 2 

−2000 

−4000 

−6000 

−8000 

−10000 

−1.5 −1 −0.5 0 0.5 1 

y 1 

x 10 4 

Abbildung 7.20: Zweidimensionale Einbettung des Kavitationsblasen-Datensatzes mit 

Isomap unter Verwendung der 13 nächsten Nachbarn jedes Vektors


schreiben. Jedoch ist die wirkliche Struktur der Mannigfaltigkeit, auf der die 

Daten liegen, natürlich unbekannt, und die Einbettung, die Isomap liefert, 

kann nur dann optimal sein, wenn der aus 13 nächsten Nachbarn gebildete 

Graph die Geometrie der Mannigfaltigkeit korrekt widergibt. So ergeben sich 

bei anderen Werten für die Zahl k der Nachbarn entsprechend andere Einbettungen. 

Für kleinere k lässt sich in diesem Beispiel nur der y 1 -Richtung 

eindeutig ein Hauptmerkmal zuordnen, nämlich die horizontale Bewegung 

der Blase. Die y 2 -Richtung stimmt dann jedoch nicht mit der vertikalen Bewegung 

überein. Bei sehr kleinen k von 3 oder 4 fällt das Residuum mit 

größerer Einbettungsdimension auch nicht mehr so stark ab; gleiches gilt für 

große k ab etwa 17 aufwärts. 

7.3.4 LLE 

Für die Einbettung mit LLE wurde k = 14 als optimale Anzahl der nächsten 

Nachbarn gefunden. Der LLE-Algorithmus reagiert aber auch bei diesem Datensatz 

empfindlicher auf die richtige“ Wahl von k. Die zweidimensionale 

” 

Einbettung zeigt Abb. 7.21. Der y 1 -Achse entspricht im Wesentlichen die vertikale 

Bewegung der Blase und der y 2 -Achse die horizontale Bewegung, wobei 

LLE es aber anscheinend nicht geschafft hat, die Mannigfaltigkeit vollständig 

auszubreiten“, was man gut an der relativ hohen Punktdichte im rechten 

” 

unteren Teil der Abbildung erkennen kann: Die beiden Bilder bei (0.2, −0.9) 

und (0.9, −0.25) müssten z.B. noch etwas weiter rechts unten platziert werden. 

Weiterhin fällt auf, dass die Daten fast alle auf dem durch die äußeren 

Punkte gebildeten Rand liegen. Für k < 8 liefert LLE überhaupt keine interpretierbaren 

Ergebnisse, und nur für k = 14, 15, 16 ist in der durch y 1 

und y 2 gebildeten Ebene eine Anordnung nach horizontalen und vertikalen 

Positionen der Blase erkennbar. 

7.4 Einbettung von Sprachsignalen 

In diesem Abschnitt sollen die Dimensionsreduktionsalgorithmen auf Sprachsignale 

angewendet werden, um zu sehen, wie sich die Methoden als Vorverarbeitung 

für eine Spracherkennung eignen. Der Datensatz enthält die einzeln 

gesprochenen Worte ” 

Bei“, ” 

Aldi“, ” 

gab’s“, ” 

indische“ und ” 

Tischlampen“, 

die jeweils von drei verschiedenen männlichen Probanden gesprochen wurden. 

3 Die Worte wurden einzeln mit einem Mikrofon aufgezeichnet, wobei ein 

3 Der Satz ” 

Bei Aldi gab’s indische Tischlampen“ stammt noch aus der Zeit der Vordiplomprüfungen, 

wo für die Chemie-Prüfung das Periodensystem auswendig gelernt werden

7.4 Einbettung von Sprachsignalen 87 

2.5 

2 

1.5 

1 

0.5 

y 2 

0 

−0.5 

−1 

−1.5 

−2 

−3 −2 −1 0 1 2 

y 1 

Abbildung 7.21: Zweidimensionale Einbettung der Kavitationsblasenbilder mit LLE 

unter Verwendung der k = 14 nächsten Nachbarn jedes Vektors


Sprecher diese Worte jeweils zehnmal aufgesagt hat und die beiden anderen 

jeweils fünfmal. Insgesamt besteht der Datensatz also aus 100 gesprochenen 

Worten. Die Signale sind relativ stark verrauscht. Die Aufzeichnung erfolgte 

jeweils mit einer Samplingfrequenz von 22.05 kHz in Mono bei einer Wortbreite 

von 16 Bits. Als Input für die Algorithmen wurden diesmal nicht die 

Rohdaten verwendet, da hier das Problem der zeitlichen Komponente besteht, 

denn den eigentlichen Lauten geht aufzeichnungsbedingt immer auch 

eine kurze Zeit der Stille voraus, die natürlich bei jedem der 100 Daten unterschiedlich 

ist. Dann steht zu befürchten, dass die Algorithmen diese zeitlichen 

Verschiebungen als Hauptmerkmal erkennen, was hier natürlich unerwünscht 

ist. Um das Problem zu eliminieren, wurde stattdessen das Leistungsspektrum 

jedes Signals bestimmt. Da die Daten alle auch eine unterschiedliche 

Länge haben, wurde zuerst die Länge des längsten Signals bestimmt. Alle 

anderen Signale wurden dann durch Hintereinanderhängen periodisch so 

weit fortgeführt, dass sie die gleiche Länge von 39808 Samples aufwiesen. 

Vom Leistungsspektrum wurde dann nur das untere Viertel mit den niederfrequenten 

Anteilen verwendet, da dies zur Unterscheidung genügen sollte 

und die oberen Anteile im Wesentlichen Rauschen enthalten. Die Dimension 

der Eingangsdaten beträgt damit 9952. 

Da sich die Ergebnisse der nichtlinearen Methoden hier stark ähneln, sollen 

nur die Unterschiede zwischen den linearen und den nichtlinearen Methoden 

anhand von PCA und Isomap verdeutlicht werden, für die mit dem Residuum 

ρ auch eine quantitative Vergleichsmöglichkeit zur Verfügung steht. Abb. 7.22 

zeigt die Auftragung des Residuums ρ für beide Verfahren, wobei für Isomap 

k = 5 nächste Nachbarn verwendet wurden. Die Grafik legt den Schluss nahe, 

dass die Daten im Eingaberaum auf einer nichtlinearen Mannigfaltigkeit liegen, 

da das Residuum für Isomap schneller abfällt. Isomap erreicht mit einer 

vierdimensionalen Einbettung eine optimale Repräsentation seiner paarweisen 

approximierten geodätischen Abstände, woraus aber wegen der relativ 

geringen Anzahl der Datenpunkte sicher nicht geschlossen werden kann, dass 

die Punkte wirklich auf einer vierdimensionalen Mannigfaltigkeit liegen. 

Die Projektion auf die ersten beiden Hauptachsen für die PCA zeigt Abb. 

7.23. Die verschiedenen Farben codieren dabei die unterschiedlichen Worte, 

wie in der Legende gezeigt. Die Einbettungsdaten sind jeweils die Punkte im 

Plot. Dicht daneben stehen die zugehörigen Buchstaben J, D und U, die die 

verschiedenen Sprecher kennzeichnen. 

Als Hauptmerkmale kristallisieren sich wohl die unterschiedlichen Worte hermusste, 

und war der Merksatz für die dritte Hauptgruppe Bor, Aluminium, Gallium, Indium 

und Thallium.


0.6 

Isomap 

PCA 

Residuum ρ 

0.4 

0.2 

0 

1 2 3 4 5 6 7 8 9 10 


Abbildung 7.22: Vergleich zwischen linearer PCA und Isomap für die Sprachsignale, 

wobei für Isomap die k = 5 nächsten Nachbarn verwendet wurden. 

150 

100 

50 

Aldi 

Tischlampen 

indische 

Bei 

gab’s 

D 

D 

U 

D 

U 

D 

U 

U 

D 

D 

U 

J 

JJ 

J 

J 

J 

J 

J 

J 

y 2 

0 

−50 

U U 

U 

U 

JJ 

J 

D 

U 

U 

J 

J 

U 

JJ 

J 

J U 

U 

J 

D D 

D 

J J 

J 

D 

J 

J J 

J 

U 

J J 

J D 

D 

D 

D D D D 

U 

U 

U 

D 

U 

U 

J 

J J 

U J 

J J 

J U U 

J 

U 

J J J J 

J J 

J 

J 

J 

J J 

−100 

−200 −150 −100 −50 0 50 100 

D 

y 1 

D D D D 

Abbildung 7.23: Projektion der Sprachsignale auf die ersten beiden Hauptachsen mit 

linearer PCA.


aus, wobei das Wort ” 

gab’s“ relativ deutlich von den anderen getrennt wird. 

Dies könnte auf das betonte ” 

a“ mit seinen deutlich ausgeprägten tiefen Frequenzen 

zurückzuführen sein. Innerhalb dieses Wortes findet auch eine recht 

ausgeprägte Trennung nach Sprechern statt, die deutlicher ausfällt als bei 

den anderen Worten. Aber auch dort werden die Worte getrennt, nur eben 

nicht in einem nur zwei- oder dreidimensionalen Einbettungsraum. Dies kann 

y 4 

80 

60 

40 

20 

0 

−20 

−40 

J 

J 

J 

J 

J 

J 

J 

J 

J 

J 

J 

DJ 

J 

J J 

J 

J J J D J D D 

D 

J J J 

J 

J D D 

J D 

D 

D D D J D 

J 

D 

J J 

J 

J 

U 

J 

J 

J 

JD 

J 

J J 

J J 

U J 

J 

J 

U 

D D D 

D 

J 

U 

J U 

D 

U 

J 

U 

D 

U UUU 

U 

Aldi 

U 

−60 

U 

U U 

Tischlampen 

U 

U 


U 

−80 Bei 

gab’s 

U 

U 

−100 

U 

−150 −100 −50 0 50 100 

y 3 

U 

U 

U 

D 

D 

Abbildung 7.24: Projektion der Sprachsignale auf die dritte und vierte Hauptachse mit 

linearer PCA 

man für die Worte ” 

bei“ und ” 

Aldi“ sehen, deren Koordinaten sich bei der 

Projektion auf die ersten beiden Hauptachsen überlappen. Schaut man sich 

aber die in Abb. 7.24 gezeigte Projektion auf die dritte und vierte Hauptachse 

an, so kann man auch hier eine deutliche Trennung insbesondere zwischen 

diesen beiden von Proband J gesprochenen Worten erkennen. 

Für Isomap liegt die untere Grenze für die Anzahl der nächsten Nachbarn 

bei k = 4. Für k = 3 zerfällt der Nachbarschaftsgraph nämlich in drei Zusammenhangskomponenten, 

so dass Isomap keine Einbettung mehr für alle 

Punkte finden kann, sondern nur noch für die Punkte einer Zusammenhangskomponente. 

Bei der Isomap-Einbettung fällt eine stärkere Clusterung der 

verschiedenen Worte auf. Man kann hier schon in vier Einbettungsdimensionen 

für jede Konstellation aus Sprechern und Worten Projektionen auf eine 

Ebene finden, in der diese Konstellation getrennt wird. Für die sich in der


y 2 

800 

600 

400 

200 

0 

−200 

−400 

−600 

J 

J 

D 

J 

J 

U 

U 

JD 

D 

D 

U U 

J 

U 

J 

D 

U 

J 

J 

D 

JU 

D 

D D 

D 

D 

UJ 

J 

U 

U 

U JJ 

J J 

−800 

−1000 −500 0 500 1000 

D D 

y 1 

D D D 

J 

D D 

J 

U 

U 

J 

J J 

D 

J 

J 

U 

D 

U 

U 

D 

D 

Aldi 

Tischlampen 


Bei 

gab’s 

J 

U 

J 

J 

JJJ 

J 

Abbildung 7.25: Projektion der Sprachdaten auf die ersten beiden von Isomap für k = 5 

gefundenen Hauptachsen. 

(y 1 , y 2 )-Ebene überlappenden grünen und blauen Punkte des Sprechers J ist 

dies z.B. die Projektion auf die (y 1 , y 4 )-Ebene, die in Abb. 7.26 gezeigt ist. 

Abschließend kann man sagen, dass auch für dieses Beispiel gesprochener 

Worte die nichtlinearen Methoden den linearen überlegen sind. Mit fortgeschritteneren 

Methoden zur Vorverarbeitung der Daten lassen sich sicherlich 

noch viel bessere Ergebnisse erzielen. Dieses Beispiel soll auch nur die prinzipielle 

Anwendbarkeit der Dimensionsreduktionsmethoden auch auf Sprachdaten 

zeigen. Der Clou ist hier die Universalität der Methoden. Spezielle 

Verfahren, die z.B. in der Sprachsteuerung zum Einsatz kommen und ganze 

Sätze erkennen können, müssen schließlich erst einmal auf einen bestimmten 

Sprecher trainiert werden und sind dann auch nur für diesen ganz speziellen 

Einsatzzweck anwendbar.


y 4 

500 

400 

300 

200 

100 

0 

−100 

−200 

J 

DJ 

J 

J 

D 

U 

JD 

U 

J 

D 

DUU 

U 

J 

J 

U 

U 

U 

U 

U 

D U 

U 

D 

J 

D J J 

DJ 

J D 

J DJ 

D 

D JU 

D 

D 

D J 

D J 

J 

UJ 

J 

D 

D 

U 

D 

U 

Aldi 

Tischlampen 


Bei 

gab’s 

J 

J 

U 

J 

JJ 

J 

−300 

−400 

J 

DJ 

J J 

−500 

J JJ 

−1000 −500 0 500 1000 

y 1 

J 

Abbildung 7.26: Projektion der Sprachdaten auf die (y 1 , y 4 )-Ebene der Isomap- 

Einbettung.

Kapitel 8 

Zusammenfassung und Ausblick 

Dimensionsreduktion ist eine Form von unbeaufsichtigtem Lernen, die dazu 

dient, automatisch kompakte (niedrigdimensionale) Repräsentationen von 

hochdimensionalen Daten zu finden. Dies ist immer dann möglich, wenn starke 

und zahlreiche Korrelationen im Datensatz die Anzahl der Freiheitsgrade 

der Datenpunkte einschränken, was dazu führt, dass diese auf Untermannigfaltigkeiten 

niedrigerer Dimension liegen. Diese Mannigfaltigkeiten sind 

in manchen Fällen linear, sehr oft unterliegt ihnen aber eine nichtlineare 

Geometrie. Einige Verfahren zur Dimensionsreduktion wurden in dieser Arbeit 

vorgestellt und anhand verschiedener Datensätze miteinander verglichen: 

PCA und MDS als lineare Methoden, Kern-PCA als nichtlineare Erweiterung 

der PCA und schließlich Isomap und LLE als weitere nichtlineare Methoden. 

Dabei zeigt es sich, dass die linearen Verfahren durchaus ihre Berechtigung 

besitzen. Die PCA findet Hauptachsen als Richtungen maximaler Varianz 

im Eingaberaum, die durch eine orthogonale Transformation aus der kanonischen 

Basis des Eingaberaumes hervorgehen. Das geht immer, weshalb die 

PCA zum Standardrepertoire an Methoden gehören und immer zuerst ausprobiert 

werden sollte, denn sie zeichnet sich durch einfache Berechenbarkeit 

aus und liefert auch bei problematischen Verteilungen der Daten wie z.B. 

starken Clusterungen brauchbare Ergebnisse, bei denen nachbarschaftsbasierte 

Algorithmen wie Isomap oder LLE ihre Probleme haben. Im Falle von 

linearen Mannigfaltigkeiten liefert die PCA außerdem optimale Einbettungen 

in dem Sinne, dass es für eine beliebige Einbettungsdimension keine anderen 

orthogonalen Richtungen gibt, die mehr Varianz enthalten als die ersten 

Hauptachsen. 

Die Kern-PCA hinterlässt einen zwiespältigen Eindruck: Obwohl theoretisch 

sehr elegant und unter Verwendung von nichtlinearen Kernfunktionen in der

94 Zusammenfassung und Ausblick 

Lage, auch Hauptachsen zu finden, die nichtlinearen Richtungen im Eingaberaum 

entsprechen, liefert sie oft keine zufriedenstellenden Ergebnisse. Das 

Problem ist hier, dass meist nicht klar ist, wie die Kernfunktionen auf die 

Geometrie des Merkmalsraums wirken. Damit steht man aber vor einem Problem, 

denn die Idee ist ja gerade, solche Kernfunktionen zu wählen, die die 

auf der nichtlinearen Mannigfaltigkeit im Eingaberaum liegenden Daten auf 

eine lineare Mannigfaltigkeit gleicher intrinsischer Dimension im Merkmalsraum 

abbilden. Mit keinem der Standardkerne war es so möglich, die Punkte 

aus dem Swiss Roll Datensatz unter Wahrung der geodätischen Abstandsverhältnisse 

zweidimensional einzubetten. Selbst, wenn es einen Kern gibt, 

der dies leistet, so ist es unklar, wie dieser auszusehen hat, und dass, obwohl 

die Swiss Roll ein Beispiel ist, bei der man die Geometrie ” 

sehen“ kann. 

Bei ähnlich stark gekrümmten, höherdimensionalen Mannigfaltigkeiten dürfte 

dieses Unterfangen aussichtslos sein. 

Im Gegensatz dazu ist bei Isomap das Funktionsprinzip, geodätische Abstände 

über eine Summe von euklidischen Abständen über Nachbarn zu approximieren, 

intuitiv sehr leicht zugänglich. Isomap lieferte meist am ehesten 

Einbettungen mit solchen Anordnungen, wie man sie intuitiv erwarten 

würde. So wurde die Swiss Roll nahezu perfekt ” 

ausgerollt“, und auch 

bei den Webcam-Bildern entstand eine Anordnung, die so oder so ähnlich 

wohl auch ein menschlicher Proband liefern würde. Problematisch bei Isomap 

aber ist, dass die Berechnung der kürzesten Wege stärker als quadratisch 

mit der Anzahl der Punkte skaliert, was den Rechenaufwand für große 

Datenmengen explodieren lässt. Außerdem muss eine Matrix mit den paarweisen 

Abständen aller Datenpunkte erstellt werden, was bedeutet, dass der 

Speicherbedarf quadratisch mit der Anzahl der Datenpunkte wächst. Weiterhin 

sind für N Datenpunkte (die größten) Eigenwerte und -vektoren einer 

vollbesetzten N × N-Matrix zu berechnen. 

Auch LLE liefert in den meisten Fällen Einbettungen, wie man sie intuitiv 

erwarten würde. Durch die lokal linearen Approximationen der Mannigfaltigkeit, 

deren Anzahl nur linear mit der Anzahl der Datenpunkte skaliert, wird 

das schlecht skalierende Problem von Isomap vermieden, die kürzesten Wege 

in einem Graphen finden zu müssen. Ein weiterer Vorteil ist, dass hier nur 

ein dünnbesetztes Eigenwertproblem zu lösen ist, bei dem man die entsprechende 

Matrix gar nicht explizit ausrechnen bzw. speichern muss und für das 

effiziente Verfahren zur Verfügung stehen. Vom theoretischen Standpunkt gesehen 

ist LLE daher sicher eleganter als Isomap. In der Praxis reagiert LLE 

aber oft empfindlicher auf die Anzahl der verwendeten nächsten Nachbarn, 

so dass Isomap insgesamt robuster erscheint. Möglicherweise lässt sich die 

lokale Geometrie bei LLE aber auch mit anderen als den verwendeten Koef-

95 

fizienten charakterisieren, die nicht so empfindlich auf Anzahl und Lage der 

Nachbarn reagieren. 

Die Frage stellt sich nun, was man mit den dimensionsreduzierten Daten 

anfangen kann. Das Ziel ist, nur diese Daten speichern zu müssen und die 

ursprünglichen hochdimensionalen Daten verwerfen zu können. Dann ergibt 

sich aber ein Problem, wenn man neue hochdimensionale Daten z.B. in Form 

von Messwerten vom gleichen System bekommt, die somit im gleichen niedrigdimensionalen 

Einbettungsraum angeordnet werden sollen. Was man also 

braucht, ist eine explizite Abbildung vom Eingaberaum in den Merkmalsraum. 

Prinzipiell lässt sich das Bild eines Punktes aus dem Eingaberaum 

zwar approximativ z.B. durch Interpolation über die Bilder der benachbarten 

Punkte im Eingaberaum bestimmen, aber dann braucht man ja auch 

die hochdimensionalen Daten, um die Nachbarn bestimmen zu können. Eine 

bessere Möglichkeit wäre sicher, nach der Dimensionsreduktion der alten 

Daten die Punktepaare (x i , y i ) der Eingangsdaten und zugehörigen Bilder 

zu verwenden, um mit anderen Methoden der Nichtlinearen Dynamik, wie 

z.B. mit Verfahren der Modellbildung, ein Modell für eine Abbildung in den 

Merkmalsraum zu bestimmen. Dann muss man nur das Modell behalten und 

benötigt nicht mehr die hochdimensionalen Eingangsdaten.

Anhang A 

Ergänzungen zur Theorie 

A.1 Stochastische Grundlagen 

Ein Experiment, das (zumindest im Prinzip) beliebig oft wiederholt werden 

und bei dem man das Ergebnis nicht exakt vorhersagen kann, bezeichnet man 

als Zufallsexperiment. Die Menge aller möglichen Ergebnisse eines Zufallsexperiments 

heißt Grundraum oder Ereignisraum und wird mit dem Symbol Ω 

bezeichnet. 

(Zufällige) Ereignisse sind Teilmengen von Ω; einelementige Ereignisse nennt 

man auch Elementarereignisse. Man sagt, ” 

das Ereignis A ist eingetreten“, 

wenn das Ergebnis des Zufallsexperiments ein Element von A ist. Als Beispiel 

kann man den einmaligen Würfelwurf betrachten: Hier ist Ω = {1, 2, 3, 4, 5, 6}, 

ein Elementarereignis ist das Ergebnis eines Wurfes und das Ereignis ” 

Resultat 

ist eine gerade Zahl“ ist A = {2, 4, 6}. 

Man kann zwar nicht das Ergebnis eines Zufallsexperiments voraussagen, 

jedoch kann man die relative Häufigkeit h n (A) bestimmen, mit der ein bestimmtes 

Ereignis A eintritt. Als solche definiert man den Quotient aus der 

absoluten Häufigkeit N A (n) des Eintretens von A bei n-maliger Wiederholung 

des Experimentes und der Anzahl der Wiederholungen: 

h n (A) = N A(n) 

n 

. (A.1) 

Bei sehr häufiger Wiederholung des Experimentes stellt man fest, dass der 

Wert für die relative Häufigkeit gegen einen festen Grenzwert strebt. Hierüber 

lässt sich nun die Wahrscheinlichkeit P (A) für das Auftreten des Ereignisses

A.1 Stochastische Grundlagen 97 

A definieren: 

P (A) = lim 

n→∞ 

h n = lim 

n→∞ 

N A (n) 

n 

. (A.2) 

Auf diese Art und Weise kann man jedem Ereignis eines Zufallsexperimentes 

eine Wahrscheinlichkeit zuordnen, die durch die Kolmogoroff’schen Axiome 

vollständig charakterisiert wird: 

Positivität: P (A) ≥ 0 ∀A ⊂ Ω (A.3) 

Normiertheit: P (Ω) = 1 (A.4) 

σ-Additivität: P (A ∪ B) = P (A) + P (B) ∀A, B ⊂ Ω, (A.5) 

A ∩ B = ∅ 

Bei einem Zufallsexperiment, bei dem nur endlich viele, gleichwahrscheinliche 

Ergebnisse möglich sind, ist die Wahrscheinlichkeit für das Eintreten eines 

Ereignisses A gegeben durch den Quotient aus der Anzahl der Elemente von 

A und der Anzahl der insgesamt möglichen Ergebnisse: 

P (A) = |A| 

|Ω| 

(A.6) 

Die Ergebnisse eines Zufallsexperimentes müssen nicht notwendigerweise reelle 

Zahlen sein: Beim Münzwurf ist z.B. Ω = {Kopf, Zahl}. Man benötigt 

deshalb eine Funktion, die jedem Ereignis sinnvoll eine reelle Zahl zuordnet, 

über die man den Ereignissen Wahrscheinlichkeiten zuordnen kann. Eine solche 

Funktion 

X : Ω → R 

(A.7) 

bezeichnet man als Zufallsvariable. Der Wert x, den die Zufallsvariable X bei 

der Durchführung des Experimentes annimmt, heißt Realisation von X. 

Jeder möglichen Realisation x i , i ∈ N, von X lässt sich nun wieder eine 

Wahrscheinlichkeit p(x i ) zuordnen, wobei gelten muss 1 

∑ 

p(x i ) = 1 . 

i∈N 

(A.8) 

Weiterhin definiert man den Erwartungswert oder Mittelwert E(X) von X 

durch 

E(X) = ∑ x i · p(x i ) . 

(A.9) 

i∈N 

1 Dabei wird angenommen, dass Ω endlich oder abzählbar unendlich ist.

98 Ergänzungen zur Theorie 

Der Erwartungswert wird auch oft kurz mit µ bezeichnet. Eine ebenfalls sehr 

wichtige stochastische Kenngröße ist die Varianz Var(X), die definiert ist als 

Var(X) = E ( [X − E(X)] 2) 

(A.10) 

und für die man häufig das Symbol σ 2 benutzt. Die Quadratwurzel σ = 

√ 

Var(X) der Varianz heißt Standardabweichung von X. Varianz bzw. Standardabweichung 

sind ein Maß für die Größe der Streuungen um den Erwartungswert. 

Im Folgenden werden nun Kenngrößen beschrieben, die den Zusammenhang 

zweier Zufallsvariablen X und Y beschreiben. Eine solche Größe ist die Kovarianz, 

definiert durch 

Cov(X, Y ) = E ([X − E(X)][Y − E(Y )]) . 

(A.11) 

Hat die Kovarianz den Wert Null, so sind X und Y unkorreliert. 

Die Kovarianz ist nicht invariant unter linearen Transformationen der Zufallsvariablen, 

denn es gilt 

Cov(αX + β, γY + δ) = αγ Cov(X, Y ) . 

(A.12) 

Eine unter solchen linearen Transformationen invariante Größe hingegen ist 

die Korrelation 

Corr(X, Y ) = 

Cov(X, Y ) 

√ 

Var(X) · 

√ 

Var(Y ) 

, 

(A.13) 

deren Wert immer in [−1, 1] liegt. 

A.2 Etwas Graphentheorie 

Mit Hilfe von Algorithmen auf Graphen lassen sich Fragen beantworten wie 

” Wie kommt man am Schnellsten von Stadt x zu Stadt y?“ oder Wie müssen 

” 

die Bauteile einer elektronischen Schaltung auf einer Platine angeordnet werden, 

so dass die Gesamtlänge aller Leiterbahnen möglichst kurz ist?“. Ein 

weiteres Problem, das sich mit den Mitteln der Graphentheorie lösen lässt, 

ist das berühmte Königsberger Brückenproblem. Abb. A.1(a) zeigt einen Ausschnitt 

aus dem Stadtplan von Königsberg. Das Problem besteht darin zu 

entscheiden, ob es einen Rundweg durch Königsberg gibt, der jede der sieben 

Brücken genau einmal überquert. Dass dies unmöglich ist, wurde bereits 1736

A.2 Etwas Graphentheorie 99 

Norden 

Pregel 

Insel 

Neuer Pregel 

Osten 

N 

O 

Süden 

Alter Pregel 

S 

(a) 

(b) 

Abbildung A.1: Die Königsberger Brücken (a) und der zugehörige Graph (b) 

von Euler bewiesen, der mit seiner Arbeit die Graphentheorie begründete. 

Abb. A.1(b) zeigt den entsprechenden Graphen. Ein Graph repräsentiert die 

wesentliche Struktur des Problems, hier also die besondere Verbindungsstruktur 

der einzelnen Stadtteile, ohne unbedeutende Nebenaspekte zu berücksichtigen. 

Die Stadtteile werden durch Punkte dargestellt und die Brücken durch 

Verbindungslinien zwischen den Punkten. Die Punkte sind die Knoten des 

Graphen und die Verbindungslinien die Kanten. Die Knoten werden in der 

Knotenmenge V zusammengefasst und die Kanten in der Kantenmenge E. 

Die Kante e = (v, v ′ ) verbindet dabei die Knoten v und v ′ . Durch Kanten verbundene 

Knoten werden in dieser Arbeit stets als benachbart bezeichnet; die 

Nachbarn von v sind alle Knoten, die mit v durch eine Kante verbunden sind. 2 

Der Graph G wird dann formal dargestellt durch G = (V, E). Ein Graph, bei 

dem die Verbindungslinien in beiden Richtungen durchlaufen werden dürfen, 

heißt ungerichteter Graph. 3 G ′ = (V ′ , E ′ ) heißt Teilgraph von G, falls V ′ ⊆ V 

und E ′ ⊆ E. Für V ′ ⊆ V induziert V ′ den Untergraph (V ′ , E ∩ (V ′ × V ′ )) 

von G, der nur aus den Kanten von E besteht, die Knoten aus V ′ verbinden. 

Ein Weg p von v 0 nach v k mit v 0 , v k ∈ V wird beschrieben durch eine Folge 

2 In der Literatur werden die durch eine Kante e verbundenen Knoten v und v ′ als 

adjazent bezeichnet. v und v ′ heißen mit e inzident; ebenso heißt e mit v und v ′ inzident 

(vgl. [22]). 

3 Im Gegensatz dazu spricht man von einem gerichteten Graph, wenn bestimmte Verbindungsrichtungen 

ausgezeichnet sind. In diesem Fall werden die Kanten durch Pfeile 

ersetzt, wobei e = (v, v ′ ) der Pfeil von Knoten v nach Knoten v ′ ist, der nur in Richtung 

von v nach v ′ durchlaufen werden darf, falls nicht auch der Pfeil e ′ = (v ′ , v) in V enthalten 

ist.


p = (v 0 , . . . , v k ) von Knoten, wobei die entsprechenden Kanten alle in der 

Kantenmenge enthalten sein müssen: (v i , v i+1 ) ∈ V ∀i = 0, . . . , k − 1. Der 

Graph G = (V, E) heißt genau dann zusammenhängend, wenn es für jedes 

Knotenpaar (v, v ′ ) ∈ V × V einen Weg von v nach v ′ gibt. Als Zusammenhangskomponente 

oder connected component bezeichnet man den bezüglich 

Mengeninklusion maximalen Untergraph von G. Ist für G eine Bewertungsfunktion 

c : E → R + 0 definiert, die die Kantenmenge auf die nichtnegativen 

reellen Zahlen abbildet, so ist G ein Distanzgraph. Für e ∈ E heißt dann 

c(e) die Länge der Kante e. Die Länge des Weges p = (v 0 , . . . , v k ) ist damit 

c(p) = ∑ k−1 

i=0 c((v i, v i+1 )). Eine weitere Größe bei Distanzgraphen ist die 

Entfernung oder Distanz d(v, v ′ ) zweier Knoten v, v ′ ∈ V . Diese ist definiert 

durch d(v, v ′ ) = min{c(p) | p ist Weg von v nach v ′ }, falls ein Weg von v 

nach v ′ existiert, und d(v, v ′ ) = ∞, falls kein solcher Weg existiert. Schließlich 

heißt ein Weg p kürzester Weg sp(v 0 , v k ) von v 0 nach v k , falls dessen 

Länge mit der Distanz der beiden Knoten v 0 und v k übereinstimmt, also 

c(p) = d(v 0 , v k ) gilt. 

Im Folgenden soll das Problem behandelt werden, zu einem gegebenen Distanzgraph 

G = (V, E) mit Bewertungsfunktion c : E → R + 0 von einem 

Anfangsknoten s ∈ V die kürzesten Wege zu allen anderen Knoten v ∈ V 

zu finden. In der Literatur ist dieses Problem unter den Namen single source 

shortest paths oder one-to-all shortest paths bekannt. Abb. A.2 zeigt ein 

1 

2 

9 

4 

15 6 

7 

6 15 2 3 

11 

15 

8 4 9 

6 

2 

3 1 

2 

5 

1 

4 

Abbildung A.2: Beispiel für einen Distanzgraph 

Beispiel für einen Distanzgraph. 4 Die Knoten sind in fetten Ziffern durchnummeriert, 

und neben den Kanten stehen die entsprechenden Längen. Eine 

naive Möglichkeit, den kürzesten Weg zwischen zwei beliebigen Knoten zu finden, 

ist natürlich die, einfach alle möglichen Wege durchzuprobieren und sich 

4 Dieses Beispiel stammt aus [22].


jeweils den aktuell kürzesten zu merken, so dass man am Ende den kürzesten 

aller möglichen Wege gefunden hat. Dies ist aber höchstens für einige wenige 

Knoten praktikabel. Wesentlich effizienter lässt sich dieses Problem mit dem 

Algorithmus von Dijkstra lösen, den dieser bereits 1959 vorgeschlagen hat 

(vgl. [22], [9]). 

A.2.1 

Der Algorithmus von Dijkstra 

Dieser Algorithmus nutzt das Optimalitätsprinzip von kürzesten Wegen aus: 

Ist p = (v 0 , . . . , v k ) ein kürzester Weg von v 0 nach v k , so ist offensichtlich auch 

jeder Teilweg p ′ = (v i , . . . , v j ) mit 0 ≤ v i < v j ≤ k ein kürzester Weg von 

v i nach v j . Dadurch können aus bereits bekannten kürzesten Wegen durch 

Hinzunahme einzelner Kanten sukzessive neue kürzeste Wege zwischen weiter 

entfernten Knoten berechnet werden. Genauer gelten folgende beiden Regeln: 

1. Für alle kürzesten Wege sp(s, v) und Kanten (v, v ′ ) gilt: 

c(sp(s, v)) + c((v, v ′ )) ≥ c(sp(s, v ′ )) . 

(A.14) 

2. Für mindestens einen kürzesten Weg sp(s, v) und eine Kante (v, v ′ ) gilt: 

c(sp(s, v)) + c((v, v ′ )) = c(sp(s, v ′ )) . 

(A.15) 

Regel 1 besagt also, dass die Länge des kürzesten Weges von einem Knoten 

s zu einem Nachbarknoten v von v ′ plus die Länge der Kante von v nach 

v ′ mindestens so groß ist wie der kürzeste Weg direkt von s nach v ′ . Regel 

2 hingegen besagt, dass sich jeder kürzeste Weg von s nach v ′ darstellen 

lässt durch einen kürzesten Weg von s zu einem Nachbar v von v ′ und die 

entsprechende Kante zwischen v und v ′ , falls v ′ nicht schon Nachbar von s 

ist. 

Wenn man nun die kürzesten Wege von einem beliebigen Knoten s ∈ V zu 

allen anderen Knoten v ∈ V bestimmen will, so kann man jeden Knoten 

v ∈ V einer von drei Klassen zuordnen: Die Menge S der gewählten Knoten 

ist diejenige Untermenge S ⊆ V , für die schon ein kürzester Weg bekannt ist. 

Die Randmenge R ⊆ V enthält die Knoten, für die ein Weg von s bekannt 

ist, und die Menge der unerreichten Knoten enthält alle Knoten, zu denen 

noch kein Weg von s aus bekannt ist. Damit lässt sich der Algorithmus von 

Dijkstra folgenderweise formulieren:


Algorithmus A.1 Finden kürzester Wege nach Dijkstra (1959) 


2: {anfangs sind alle Knoten außer s unerreicht:} 

3: for all v ∈ V \ {s} do 

4: v.Entfernung := ∞; 

5: v.gewählt := false; 

6: end for 

7: {s ist gewählter Knoten:} 

8: s.Entfernung := 0; 

9: s.gewählt := true; 

10: {alle Nachbarn von s gehören zum Rand R:} 

11: R := ∅; 

12: ergänze R bei s; 

13: {berechne Wege ab s:} 

14: while R ≠ ∅ do 

15: {wähle nächstgelegenen Randknoten:} 

16: wähle v ∈ R mit v.Entfernung minimal und entferne v aus R; 

17: v.gewählt := true; 

18: ergänze R bei v; 

19: end while 

Die Prozedur zum Ergänzen des Randes bei einem gewählten Knoten in den 

Zeilen 12 und 18 besteht darin, alle Nachbarn von s bzw. v, die bisher noch 

unerreicht waren, zum Rand R hinzuzufügen und vorläufige Distanzen zu 

Randknoten durch eventuell gefundene kürzere Distanzen zu ersetzen. Sie 

kann wie folgt implementiert werden: 

ergänze R bei v: 

{Nachbarn von v, die noch nicht in R enthalten sind, zu R hinzufügen und 

für alle Nachbarn testen, ob sie über v kürzer erreicht werden können} 

for all (v, v ′ ) ∈ E do 

if not v’.gewählt and (v.Entfernung + c((v, v ′ ))) < v’.Entfernung then 

{v ′ ist (kürzer) über v erreichbar} 

v’.Entfernung := v.Entfernung + c((v, v ′ )); 

vermerke v ′ in R; 

end if 

end for 

Keine besonderen Anforderungen sind an die Verwaltung der Menge S zu 

stellen, die die kürzesten Wege aufnimmt. Es interessieren hier nicht die Wege 

selbst, sondern nur die Distanzen zwischen den Knoten, so dass S einfach


als Vektor implementiert werden kann, der die Distanzen von s zu den übrigen 

Knoten aufnimmt. Von entscheidender Bedeutung für die Laufzeit des 

Algorithmus’ ist allerdings die Verwaltung der Randmenge R, auf der folgende 

Operationen ausgeführt werden müssen: 

1. Initialisierung als leere Menge: R := ∅; 

2. prüfen, ob der Rand leer ist; 

3. bestimmen und entfernen des Knotens mit minimaler Distanz; 

4. hinzufügen von neuen Randknoten und ggf. ändern von (vorläufigen) 

Distanzen. 

Es gibt verschiedene Möglichkeiten, die Randmenge zu verwalten. In der von 

Dijkstra selbst vorgeschlagenen Variante von 1959 wird der Rand gar nicht 

explizit gespeichert. Damit sind die Operationen 1 und 4 implizit und können 

entfallen. Der Initialisierungsschritt in Algorithmus A.1 in den Zeilen 1 bis 

12 hat also eine Laufzeit von O(|V |), und die anschließende while-Schleife 

wird Θ(|V |)-mal durchlaufen, wobei die Laufzeit in jedem Durchlauf O(|V |) 

ist. 5 Die Gesamtlaufzeit ist hier also O(|V | 2 ) und somit bei Ω(|V | 2 ) Kanten 

linear in der Größe der Eingabe, d.h. der Anzahl der Knoten des Graphen. 

Für Graphen mit sehr vielen Knoten besitzt diese Variante also optimale 

Laufzeiteigenschaften. 

Anders sieht es jedoch aus, wenn G nur aus relativ wenigen Kanten besteht. 

In diesem Fall gilt die Verwendung eines Fibonacci-Heaps zur Implementation 

der Kantenmenge R als eine der effizientesten Möglichkeiten. Dann können 

die Operationen 1, 2 und 4 in konstanter amortisierter Zeit ausgeführt werden, 

und nur die Operation 3 benötigt die Laufzeit O(|V | log |V |). Die Gesamtlaufzeit 

des Algorithmus’ von Dijkstra für das Finden des kürzesten 

Weges von einem zu allen anderen Knoten ist dann O(|E| + |V | log |V |). Details 

zu Fibonacci-Heaps und deren Implementation können [22] entnommen 

werden. 

Schließlich kann man den kürzesten Weg für alle Schlüsselpaare (v, v ′ ) ∈ V × 

V berechnen, indem man den Algorithmus auf jeden Knoten anwendet. Die 

Laufzeit unter Verwendung eines Fibonacci-Heaps lässt sich dann abschätzen 

durch O(|V | · (|E| + |V | log |V |)). 

5 Durch die O-Notation wird eine obere Schranke für das Wachstum einer Funktion 

beschrieben. Sie ist definiert durch O(f) = {g|∃c 1 > 0 : ∃c 2 > 0 : ∀N ∈ N : g(N) ≤ 

c 1 · f(N) + c 2 }. Ω(g) = {h|∃c > 0 : ∃ unendlich viele n : h(n) ≥ c · g(n)} hingegen ist eine 

untere Schranke für das Wachstum von g. Schließlich gilt f = Θ(g), wenn sowohl f ∈ O(g) 

als auch f ∈ Ω(g) gilt.


A.2.2 

Der Floyd-Warshall-Algorithmus 

Während der Algorithmus von Dijkstra nur für nichtnegative Bewertungsfunktionen 

anwendbar ist, dürfen den Kanten beim Algorithmus von Floyd 

und Warshall auch negative Werte zugeordnet werden [7]. Der Graph G = 

(V, E) soll hier aber weiterhin ein Distanzgraph sein und außerdem aus N 

Knoten V = {v 1 , . . . , v N } bestehen. Für einen Weg p = (v 1 , . . . , v l ) heißen die 

Knoten v 2 , . . . , v l−1 die inneren Knoten von p. Weiterhin sei V k = (v 1 , . . . , v k ) 

für k ≤ N die nur aus den ersten k Knoten bestehende Untermenge von V . 

Im Folgenden werden nun für alle Paare (v i , v j ) alle Wege von v i nach v j 

betrachtet, deren innere Knoten allesamt in der Knotenmenge V k enthalten 

sind. Sei p ein kürzester dieser Wege. Der Floyd-Warshall-Algorithmus nutzt 

nun einen Zusammenhang aus zwischen p und den kürzesten Wegen von v i 

nach v j , deren innere Knoten nur aus der Untermenge {v 1 , . . . , v k−1 } stammen: 

• Ist k kein innerer Knoten von p, so sind offensichtlich alle inneren 

Knoten von p schon in der Menge {v 1 , . . . , v k−1 } enthalten. Somit ist 

ein kürzester Weg von v i nach v j mit inneren Knoten ausschließlich aus 

{v 1 , . . . , v k−1 } auch kürzester Weg von v i nach v j mit inneren Knoten 

aus {v 1 , . . . , v k }. 

• Falls k ein innerer Knoten von p ist, so teilt man den Weg p auf in 

p = (p 1 , p 2 ), wobei p 1 = (v i , . . . , v k ) den Weg von v i nach v k bezeichnet 

und entsprechend p 2 = (v k , . . . , v j ) den Weg von v k nach v j . Dann ist p 1 

offenbar ein kürzester Weg von v i nach v k , dessen innere Knoten alle in 

{v 1 , . . . , v k } enthalten sind. Da aber v k selbst kein innerer Knoten von 

p 1 ist, sind dessen innere Knoten sogar alle in {v 1 , . . . , v k−1 } enthalten. 

Entsprechend ist p 2 ein kürzester Weg von v k nach v j , dessen innere 

Knoten ebenfalls alle in {v 1 , . . . , v k−1 } enthalten sind. 

Aus diesen Beobachtungen lässt sich nun eine rekursive Formulierung für 

das Finden der kürzesten Wege von allen Knoten zu allen anderen Knoten 

formulieren. Sei d (k) 

ij := d (k) (v i , v j ) die Länge eines kürzesten Weges von v i 

nach v j , bei dem alle inneren Knoten in {v 1 , . . . , v k } enthalten sind. Für 

k = 0 gibt es keinen inneren Knoten, so dass v i und v j direkt durch eine 

Kante miteinander verbunden sind und d (0) 

ij = c(v i , v j ) gilt, der Abstand also 

einfach die Länge der Kante ist. Rekursiv gilt dann: 

d (k) 

ij = 

{ 

c(vi , 

( 

v j ) 

) 

falls k = 0, 

min d (k−1) 

ij , d (k−1) 

ik 

+ d (k−1) 

kj 

falls k > 0. 

(A.16)


Analog zum vorigen Abschnitt ist dabei c(v i , v i ) = 0 und c(v i , v j ) = ∞, 

falls (v i , v j ) ∉ E, es also gar keine Kante gibt, die v i und v j miteinander 

verbindet. Schreibt man die Distanzen zwischen den Knoten in eine N × N- 

Matrix D (k) = (d (k) 

ij ) und die Kantenlängen in eine N × N-Matrix C = (c ij) 

mit c ij = c(v i , v j ), so lässt sich der Floyd-Warshall-Algorithmus nun mit drei 

verschachtelten Schleifen wie folgt formulieren: 

Algorithmus A.2 Der Floyd-Warshall-Algorithmus zur Berechnung 

kürzester Wege 


2: D (0) = C 

3: {Bestimmung der kürzesten Wege:} 

4: for k = 1 to N do 


6: for j = 1 to N do 

7: d (k) 

ij = min 

8: end for 

9: end for 

10: end for 

( 

d (k−1) 

ij 

, d (k−1) 

ik 

) 

+ d (k−1) 

kj 

Die Laufzeit des Floyd-Warshall-Algorithmus’ zum Finden der kürzesten Wege 

von allen Knoten eines Graphen zu allen anderen Knoten ist somit O(N 3 ), 

also schlechter als beim Algorithmus von Dijkstra mit Fibonacci-Heap. Allerdings 

ist letzterer viel aufwendiger zu implementieren und auf nichtnegative 

Bewertungsfunktionen beschränkt. Weitere Details zum Floyd-Warshall- 

Algorithmus findet man in [7].

Literaturverzeichnis 

[1] Zhaojun Bai, James Demmel, Jack Dongarra, Axel Ruhe und Henk 

van der Vorst, Hg.: Templates for the Solution of Algebraic Eigenvalue 

Problems: A Practical Guide. Society for Industrial and Applied Mathematics, 

Philadelphia, PA, USA, 2000. 

[2] Mira Bernstein, Vin de Silva, John C. Langford und Joshua B. Tenenbaum: 

Graph approximations to geodesics on embedded manifolds. 

URL: http://isomap.stanford.edu/, Dez. 2000. 

[3] Ingwer Borg und Patrick Groenen: Modern Multidimensional Scaling. 

Springer Series in Statistics, Springer, 1997. 

[4] Christopher J. C. Burges: Simplified support vector decision rules. In: 

International Conference on Machine Learning, S. 71–77, 1996. 

[5] Christopher J. C. Burges: A tutorial on support vector machines for 

pattern recognition. Data Mining and Knowledge Discovery 2(2), 121– 

167, 1998. 

[6] Miguel Á. Carreira-Perpiñán: A review of dimension reduction techniques. 

Techn. Ber. CS–96–09, Dept. of Computer Science, University of 

Sheffield, Jan. 1997. 

[7] Thomas H. Cormen, Charles E. Leiserson und Ronald L. Rivest: Introduction 

to Algorithms. The MIT Electrical Engineering and Computer 

Science Series, The MIT Press, Cambridge, Massachusetts und London, 

England, 1. Aufl., 1990. 

[8] K. I. Diamantaras und S. Y. Kung: Principal Component Neural Networks: 

Theory and Applications. John Wiley & Sons, 1996. 

[9] E. W. Dijkstra: A note on two problems in connexion with graphs. Numer.Math. 

1, 269–271, 1959.

LITERATURVERZEICHNIS 107 

[10] Gerd Fischer: Lineare Algebra. Vieweg, 10. Aufl., 1995. 

[11] J.C. Gower: Some distance properties of latent root and vector methods 

used in multivariate analysis. Biometrika 53, 325–388, 1966. 

[12] Trevor Hastie, Robert Tibshirani und Jerome Friedman: The Elements 

of Statistical Learning: Data Mining, Inference and Prediction. Springer 

Series in Statistics, Springer, 2001. 

[13] Roger A. Horn und Charles R. Johnson: Matrix Analysis. Cambridge 

University Press, 1990. 

[14] K. Hotelling: Analysis of a complex of statistical variables into principal 

components. Journal of Educational Psychology 24, 417–441, 498–520, 

1933. 

[15] Isomap Homepage. URL: http://isomap.stanford.edu/. 

[16] I. T. Jolliffe: Principal Component Analysis. Springer Series in Statistics, 

Springer, New York, Berlin, Heidelberg, Tokio, 1986. 

[17] T. Kohonen: Self Organizing Maps. Springer, 1995. 

[18] LLE Homepage. URL: http://www.cs.toronto.edu/~roweis/lle/. 

[19] K.V. Mardia, J.T. Kent und J.M. Bibby: Multivariate Analysis. Probability 

and mathematical statistics, Academic Press, London, New York, 

Toronto, Sydney, San Francisco, 1979. 

[20] Thomas Martinetz und Klaus Schulten: Topology representing networks. 

Neural networks 7(3), 507–522, 1994. 

[21] Rudolf Mathar: Multidimensionale Skalierung: Mathematische Grundlagen 

und algorithmische Aspekte. Teubner Skripten zur mathematischen 

Stochastik, Teubner, Stuttgart, 1997. 

[22] Thomas Ottmann und Peter Widmayer: Algorithmen und Datenstrukturen. 

Spektrum Akademischer Verlag, Heidelberg, Berlin, Oxford, 3. 

Aufl., 1996. 

[23] Karl Pearson: On lines & planes of closest fit to systems of points in 

space. Philosophical Magazine 2(6), 559–572, Nov. 1901.

108 LITERATURVERZEICHNIS 

[24] Sam Roweis: Learning nonlinear data manifolds. Vortrag im Kolloquium, 

University of Washington, Department of Computer Science and Engineering, 

3. April 2001, URL: http://www.cs.washington.edu/news/ 

colloq.info.html. 

[25] Lawrence K. Saul und Sam Roweis: Nonlinear dimensionality reduction 

by Locally Linear Embedding. Science 290(5500), 2323–2326, Dez. 2000. 

[26] Lawrence K. Saul und Sam Roweis: An introduction to Locally Linear 

Embedding. Draft version. URL: http://www.cs.toronto.edu/ 

~roweis/lle/publications.html, Jan. 2001. 

[27] Bernhard Schölkopf: Support Vector Learning. Dissertation, Technische 

Universität Berlin, 1997. 

[28] Bernhard Schölkopf, Alexander Smola und Klaus-Robert Müller: Nonlinear 

component analysis as a kernel eigenvalue problem. Technical Report 

44, Max-Planck-Institut für biologische Kybernetik, Tübingen, Dez. 

1996. 

[29] Alexander Smola und Bernhard Schölkopf: A tutorial on support vector 

regression. NeuroCOLT2 Technical Report NC2-TR-1998-030, Royal 

Holloway College, University of London, 1998. 

[30] Joshua B. Tenenbaum: Mapping a manifold of perceptual observations. 

In: Advances in Neural Information Processing Systems, herausgegeben 

von Michael I. Jordan, Michael J. Kearns und Sara A. Solla, Bd. 10, 

The MIT Press, 1998. 

[31] Joshua B. Tenenbaum, Vin de Silva und John C. Langford: A global 

geometric framework for nonlinear dimensionality reduction. Science 

290(5500), 2319–2323, Dez. 2000. 

[32] W.S. Torgerson: Multidimensional scaling: I. theory and method. Psychometrika 

17, 401–419, 1952. 

[33] W.S. Torgerson: Theory and Methods of Scaling. Wiley, New York, 1958. 

[34] Jochen Werner: Numerische Mathematik, Bd. 1. Vieweg, 1992.

Danksagung 

Zum Abschluss der Arbeit möchte ich mich bei allen Leuten bedanken, die zu 

ihrer Fertigstellung direkt oder indirekt beigetragen haben. Zunächst danke 

ich Prof. Dr. Lauterborn für die Aufnahme in die Arbeitsgruppe. Mein besonderer 

Dank gebührt Prof. Dr. Ulrich Parlitz, der diese Arbeit stets in 

vorbildlicher Art und Weise betreut hat. Er hat mir mit vielen Ratschlägen 

zur Seite gestanden und hatte immer ein offenes Ohr für meine Fragen. Weiterhin 

möchte ich mich bei allen Mitgliedern des Instituts für die freundliche 

und kollegiale Arbeitsatmosphäre bedanken. Dank gebührt auch meinem 

Zimmergenossen David Engster für die vielen Gespräche und Diskussionen 

auch außerhalb der Physik. Ich danke weiterhin allen Leuten, die hier aus 

Platzgründen nicht namentlich auftauchen, und die mein Leben außerhalb 

der Physik bereichern. Schließlich danke ich besonders meinen Eltern für 

ihre Unterstützung, ohne die dieses Studium nicht möglich gewesen wäre.

Nichtlineare Dimensionsreduktionsmethoden in der ... - DPI

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?