Klassische Klassifikationsalgorithmen

Klassische 

Klassifikationsalgorithmen Forts.. 

Computational Intelligence 

2 VO 442.070 + 1 UE 708.070 

SS 2013 

Institut für Signalverarbeitung und Sprachkommunikation 

TU Graz 

Inffeldgasse 12/1 

www.spsc.tugraz.at 

Institute for Theoretical Computer Science 

TU Graz 

Inffeldgasse 16b/1 

www.igi.tugraz.at 

Computational Intelligence SS 2013 (VO 442.070)

Lehrveranstaltungsübersicht 

IGI 

Kapitel 1 

Grundbegriffe des maschinellen Lernens 

Kapitel 2 

Neuronale Netze 

Kapitel 3 

Klassische Klassifikationsalgorithmen 

Kapitel 4 

Modellselektion 

Computational Intelligence SS 2013 (VO 442.070) 2

Plan für heute: Kapitel 3 

Lernalgorithmus für veränderliche Lerndaten 

Lernalgorithmus für nominale Attribute 

State-of-the-art bei Klassifikation ohne Vorwissen 


Anwendungsbereiche 

Voraussetzungen: 

Nicht mehr als ca. 10000 Lernbeispiele (für derzeitige Computer), da das 

Trainieren sehr rechenaufwendig ist.. 

Beispiele: 

Spracherkennung 

Bilderkennung 

Bio- und Neuroinformatik 

etc. 


Wiederholung: Erweiterung von linearen 

Klassifikatoren auf nichtlineare Probleme 

Lernbeispiel Bilderkennung: 

Lineare Klassifikatoren liefern für dieses XOR Problem einen zero-one Fehler von 

mindestens 0.25: 

y = signw T x =sign w 0 

w 1 

x 1 

... w d 

x d 

 


Grundlegende Ideen von SVM 

1. Nichtlineare Projektion (Ansatz 1). 

2. Maximum margin Hyperebene. 

3. Rechnerische Effizienz durch den kernel Trick. 


Bsp.: XOR Problem 

Projektion in den feature Raum 

x = 1, 2 x 1, 

2 x 2 

, 2 x 1 

x 2 

, x 1 2 , x 2 2, 

ermöglicht lineare Trennung der projizierten Daten. 


Erzeugte Hypothesen 

Lineare Separierung im feature - Raum 

Nichtlineare Separierung im Eingabe - Raum 


Bsp.: Nichtlineare Separierung 

Projektion in den feature Raum 

x = 1, 2 x 1, 

2 x 2 

, 2 x 1 

x 2 

, x 1 2 , x 2 2, 

Abkürzung: 

f = 2 x 1 

x 2 

f = -1 f = +1 

f = +1 

f = 0 f = 0 

f = +1 

f = -1 

f = -1 







Annahme: Linear separierbare Daten 

Linearer Klassifikator 

y i 

= signw 0 

w T x i 

 

w , x i 

∈ R D−1 

Im linear separierbaren Fall gilt y i 

w 0 

w T x i 

0 i = 1,... ,l 

x 2 

x 1 


Maximum margin Hypothese 

Wir erwarten, dass wir einen besseren Klassifikator finden, welcher robuster 

hinsichtlich noise ist, wenn wir verlangen, dass der margin möglichst groß ist. 

Margin: Abstand zwischen Trainingsbeispielen und der Klassifikationsebene des 

linearen Klassifikators. 


Wie wird gelernt? 

Minimierungsproblem 

1 

2 ∥w∥2 = 1 ∑ D 

2 

d =1 

w d 

2 

mit Nebenbedingungen 

y i 

w 0 

w T x i 

− 1 ≥ 0 i = 1,... ,l 


Illustration der Optimierung 

Wir betrachten ein 1 dimensionales Beispiel 

y=signw 0 

w x 

f =w 0 

w⋅ x 

1w 0 

w x − 1 ≥ 0 

∣x −x − ∣/ 2 

−1w 0 

w x − − 1 ≥ 0 


Illustration der Optimierung 

Wir betrachten ein 1 dimensionales Beispiel 

y=signw 0 

w x 

f =w 0 

w⋅ x 

1w 0 

w x − 1 = 0 

∣x 1 

−x − 1− 

∣/ 2 

1 1 

1 

−1w 0 

w x − − 1 = 0 

∣w ∗ ∣= 2/∣x − x − ∣ 

(Steigung = 1/margin) 


Illustration: Mehrdimensionaler Fall 

1 

2 ∥w∥2 = 1 ∑ D 

2 

d =1 

w d 

2 

y i 

w 0 

w T x i 

− 1 ≥ 0 

i = 1,... ,l 


Illustration: Mehrdimensionaler Fall 

margin=2 / ∥w∥ 

f =w 0 

w T x 

w 

w 

∣w ∗ ∣= 2/margin 


Transformation des Problems in die 

duale Repräsentation 

Äquivalent zur Maximierung der Parameter 

{ i } 

in der dualen Repräsentation 

l 

∑ i=1 

i − 1 2 ∑ i , j=1 

l 

y i y j i j x i T x j 

Mit den Nebenbedingungen 

i ≥ 0 ∑ i 

i 

y i 

= 0 

Wird gelöst mittels quadratischen Programmierens 


Lösung in der dualen Repräsentation 

Optimalen Gewichte w sind Funktionen von { i } . 

w = ∑ i=1 

l 

i y i x i 

w 0 

Berechnung von über die Nebenbedingung für beliebige support Vektoren i. 

y i 

w 0 

w T x i 

− 1 = 0 

Nur von support Vektoren (SV) sind ungleich 0. 

i 


Support Vektoren 

Def.: 

Support Vektoren sind jene Datenpunkte mit dem kürzesten Abstand zur 

maximum margin Klassifikationshyperebene, welche diese festlegen. 

maximaler margin 


Support Vektoren 

Allgemeim gilt: 

SV müssen nicht nahe an den Entscheidungsgrenzen im input Raum sein, sie 

müssen nur nahe an den Entscheidungsgrenzen im feature Raum sein. 


Bsp.: XOR Problem 

Abbildung in den feature Raum 

x = 1, 2 x 1, 

2 x 2 

, 2 x 1 

x 2 

, x 1 2 , x 2 2, 

f = 2 x 1 

x 2 

f = -1 f = +1 

f = +1 

margin=2 

f = 0 

f = +1 

f = -1 

f = -1 







Kernels 

Für die Maximierung in der sogenannten dualen Repräsentation benötigt man die 

Berechnung des Skalarprodukts der Trainingsbeispiele 

l 

∑ i=1 

i − 1 2 ∑ i , j=1 

l 

y i y j i j x T 1 i x 1 j 

wobei 0 ≤ i 

und ∑ i 

i 

y i 

= 0. 

Kernel-Funktionen K berechnen das Skalarprodukt im feature Raum direkt aus 

den nicht-projizierten Lernbeispielen ohne die Projektion in den feature Raum 

explizit durchzuführen. 

x T 1 i 

x 1 j 

x 1 i 

T x 1 j 

K x 1i 

, x 1 j 

 


Overfitting 

Die Dimensionalität des feature Raumes bestimmt die Anzahl der zu 

bestimmenden Parameter. 

Warum kann dieser Lernalgorithmus generalisieren? 


Anmerkung 

Für SVM hängt die Anzahl der zu lernenden Parameter nicht von der 

Dimensionalität des feature Raumes ab, sondern von der Anzahl der SV 


Zusammenfassung 

1. Nichtlineare Projektion der Attribut-Vektoren in einen hochdimensionalen 

Raum, um die Trennbarkeit der Klassen durch lineare Hyperebenen zu 

verbessern (Ansatz 1). 

2. Vermeidung des dadurch verursachten Overfitting Problems durch reduktion 

der Freiheitsgrade: Die gesuchte Hyperebene soll einen maximalen margin 

besitzen. 

3. Vermeidung der durch Verwendung eines hochdimensionalen Raums zu 

erwartenden rechnerischen Probleme durch den kernel Trick, welcher die 

Berechnung der maximal margin Hyperebene im hochdimensionalen Raum 

auf eine Berechnung im Raum der ursprünglichen Attributvektoren reduziert. 


Auswahlkriterien für Lernalgorithmen 

Qualität des Lernalgorithmus (siehe Kapitel 1) 

Generell sehr gute Performance 

Zur Verfügung stehende Rechenzeit beim Trainieren und Testen, sowie 

Benötigt sehr viel Rechenzeit um zu lernen 

Benötigt wenig Rechenzeit um zu testen 

Speicherbedarf 

Gering. 

Intuitive Interpretierbarkeit 

Sehr schlecht

Klassische Klassifikationsalgorithmen

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?