Nichtlineare Dimensionsreduktionsmethoden in der ... - DPI
Nichtlineare Dimensionsreduktionsmethoden in der ... - DPI
Nichtlineare Dimensionsreduktionsmethoden in der ... - DPI
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
8 E<strong>in</strong>führung und Überblick<br />
gangsdaten x gebildeten Vorhersagen möglichst gut den richtigen Werten y<br />
entsprechen. Die Hoffnung ist dann, dass <strong>der</strong> Algorithmus auch für an<strong>der</strong>e<br />
als die Tra<strong>in</strong><strong>in</strong>gsdaten richtige Ergebnisse liefert.<br />
Beim unsupervised learn<strong>in</strong>g hat man ke<strong>in</strong>e Tra<strong>in</strong><strong>in</strong>gsdaten zur Verfügung, anhand<br />
<strong>der</strong>er man die Lernalgorithmen tra<strong>in</strong>ieren kann. Es stehen e<strong>in</strong>zig und<br />
alle<strong>in</strong> die E<strong>in</strong>gangsdaten selbst zur Verfügung, aus denen wichtige Merkmale<br />
extrahiert werden sollen. Wie diese Merkmale aussehen o<strong>der</strong> was sie<br />
beschreiben, ist je nach Datensatz a priori völlig unbekannt. Das Ziel dabei<br />
ist, dass z.B. Masch<strong>in</strong>en mit sehr vielen Sensoren für unterschiedliche<br />
Messgrößen die riesigen Mengen an anfallenden Sensor-Rohdaten verarbeiten<br />
können und kompakte Repräsentationen dafür f<strong>in</strong>den, ähnlich wie dies auch<br />
(meist unbewusst) <strong>der</strong> Mensch tut. Die Dimensionsreduktion ist e<strong>in</strong>e Form<br />
des unsupervised learn<strong>in</strong>g, die automatisch niedrigdimensionale Repräsentationen<br />
für hochdimensionale Daten f<strong>in</strong>den soll. Dabei soll e<strong>in</strong>e möglichst<br />
starke Reduzierung <strong>der</strong> Dimension unter gleichzeitiger Erhaltung <strong>der</strong> wesentlichen<br />
Merkmale o<strong>der</strong> Strukturen erreicht werden, wobei diese Merkmale<br />
alle<strong>in</strong> aus den Daten selbst extrahiert werden müssen, also ohne irgendwelche<br />
äußeren Informationen o<strong>der</strong> sonstigen Hilfen.<br />
Die Dimensionsreduktion f<strong>in</strong>det also e<strong>in</strong>e Abbildung f vom Raum <strong>der</strong> E<strong>in</strong>gangsdaten<br />
R D (E<strong>in</strong>gaberaum o<strong>der</strong> Input Space) <strong>in</strong> e<strong>in</strong>en niedrigdimensionalen<br />
Merkmalsraum R d (Feature Space), wobei d < D und oft d ≪ D. Je<strong>der</strong><br />
Punkt x i ∈ R D aus dem E<strong>in</strong>gaberaum wird dabei auf e<strong>in</strong>en Punkt y i ∈ R d<br />
aus dem Merkmalsraum abgebildet: y i = f(x i ). Die meisten Algorithmen<br />
führen diese Abbildung nur implizit aus, d.h. sie berechnen die Bil<strong>der</strong> <strong>der</strong><br />
E<strong>in</strong>gangsdaten, ohne f irgendwie explizit zu bestimmen o<strong>der</strong> gar zurückzuliefern.<br />
Man spricht <strong>in</strong> diesem Zusammenhang auch von e<strong>in</strong>er E<strong>in</strong>bettung<br />
<strong>der</strong> E<strong>in</strong>gangsdaten <strong>in</strong> den Merkmalsraum. Der Merkmalsraum wird dann oft<br />
auch E<strong>in</strong>bettungsraum genannt.<br />
Anwendungen <strong>der</strong> Dimensionsreduktion s<strong>in</strong>d z.B. die Visualisierung hochdimensionaler<br />
Daten, bei <strong>der</strong> man e<strong>in</strong>e niedrigdimensionale E<strong>in</strong>bettung <strong>der</strong><br />
Daten berechnet und diese graphisch darstellt <strong>in</strong> <strong>der</strong> Hoffnung, dass <strong>in</strong> diesem<br />
Graphen die wesentliche Struktur <strong>der</strong> Daten enthalten ist. Weiterh<strong>in</strong><br />
eignen sich diese Methoden sehr gut als Vorverarbeitung für Algorithmen zur<br />
Klassifikation, <strong>in</strong>dem die Daten s<strong>in</strong>nvoll nach Merkmalen sortiert im E<strong>in</strong>bettungsraum<br />
angeordnet werden, was die Komplexität des Klassifizierungsalgorithmus’<br />
wesentlich reduzieren kann [27]. An<strong>der</strong>e Anwendungen s<strong>in</strong>d die<br />
Kompression von Daten durch Beseitigung von Redundanzen und die Interpolation,<br />
Erzeugung und Entrauschung von Daten [24]. Neben den hier<br />
vorgestellten Algorithmen existieren noch e<strong>in</strong>ige weitere wie z.B. die Self