5.6 Support Vector Maschines (SVM) Erinnerung: Funktionslernen ...

kde.cs.uni.kassel.de

5.6 Support Vector Maschines (SVM) Erinnerung: Funktionslernen ...

Erinnerung: Funktionslernen

5.6 Support Vector Maschines

(SVM)

übernommen von

Stefan Rüping, Katharina Morik

Universität Dortmund

Vorlesung Maschinelles Lernen und Data Mining

WS 2002/03

Gegeben:

Beispiele X in LE

• die anhand einer Wahrscheinlichkeitsverteilung P auf X erzeugt wurden

und

• mit einem Funktionswert Y = t(X) versehen sind (alternativ: Eine

Wahrscheinlichkeitsverteilung P(Y|X) der möglichen Funktionswerte -

verrauschte Daten).

H die Menge von Funktionen in LH.

Ziel: Eine Hypothese h(X) H, die das erwartete Fehlerrisiko R(h) minimiert.

Risiko:

R ( h)

Q(

x,

h)

P(

x)

x

Vorlesung Knowledge Discovery 353

Vorlesung Knowledge Discovery 354

Beispiel: Funktionenlernen

0%

50%

5%

1 2 3

25%

0%

20%

Reale Beispiele

Klassifikation: Q(x,h) = 0, falls t(x) = h(x), 1 sonst

• Textklassifikation (x = Worthäufigkeiten)

• Handschriftenerkennung (x = Pixel in Bild)

• Vibrationsanalyse in Triebwerken (x = Frequenzen)

• Intensivmedizinische Alarmfunktion (x = Vitalzeichen)

Regression: Q(x,h) = (t(x)-h(x))) 2

• Zeitreihenprognose (x = Zeitreihe, t(x) = nächster Wert)

H = { f a

| f a

(x) = 1, für x a, f a

(x) = -1 sonst, a}

R(f 0

) = 0,25 + 0 + 0,20 = 0,45

R(f 1,5

) = 0 + 0 + 0,20 = 0,20

R(f 3,5

) = 0 + 0,5 + 0,05 = 0,55

Vorlesung Knowledge Discovery 355

Vorlesung Knowledge Discovery 356


Erinnerung: Minimierung des beobachteten Fehlers

Beispiel

Funktionslernaufgabe nicht direkt lösbar. Problem:

• Die tatsächliche Funktion t(X) ist unbekannt.

• Die zugrunde liegende Wahrscheinlichkeit ist unbekannt.

Ansatz:

• eine hinreichend große Lernmenge nehmen und für diese den

Fehler minimieren.

Empirical Risk Minimization

Vorlesung Knowledge Discovery 357

Vorlesung Knowledge Discovery 358

Beispiel II

Probleme der ERM

• Aufgabe ist nicht eindeutig beschrieben: Mehrere Funktionen

mit minimalem Fehler existieren. Welche wählen?

• Overfitting: Verrauschte Daten und zu wenig Beispiele führen

zu falschen Ergebnissen.

Vorlesung Knowledge Discovery 359

Vorlesung Knowledge Discovery 360


Die optimale Hyperebene

Berechnung der opt. Hyperebene

• Beispiele heißen linear trennbar, wenn es eine

Hyperebene H gibt, die die positiven und negativen

Beispiele voneinander trennt.

• H heißt optimale Hyperebene, wenn ihr Abstand d

zum nächsten positiven und zum nächsten negativen

Beispiel maximal ist.

• Satz: Es existiert eine eindeutig bestimmte optimale

Hyperebene.

d

d

• Hyperebene

H = {x | w*x+b = 0}

• H trennt (x i ,y i ), y i {±1}

• H ist optimale Hyperebene

H

• Entscheidungsfunktion f(x) = w*x+b

• f(x i ) > 0 y i > 0

• ||w|| minimal und

f(x i ) 1, wenn y i = 1

f(x i ) -1, wenn y i = -1

+1

f

H

-1

Vorlesung Knowledge Discovery 361

Vorlesung Knowledge Discovery 362

Optimierungsaufgabe der SVM

Nicht linear trennbare Daten

• Minimiere ||w|| 2

• so dass für alle i gilt:

f(x i ) = w*x i +b 1 für y i = 1 und

f(x i ) = w*x i +b -1 für y i = -1

• Äquivalente Nebenbedingung: y i *f(x i ) 1

• Konvexes, quadratisches Optimierungs-problem eindeutig

in O(n 3 ) lösbar.

• Satz: ||w|| = 1/d, d = Abstand der optimalen Hyperebene zu den

Beispielen.

• In der Praxis sind linear trennbare

Daten selten.

• 1. Ansatz: Entferne eine minimale

Menge von Datenpunkten, so dass

die Daten linear trennbar werden

(minimale Fehlklassifikation).

• Problem: Algorithmus wird

exponentiell.

?

Vorlesung Knowledge Discovery 363

Vorlesung Knowledge Discovery 364


Weich trennende Hyperebene

Duales Optimierungsproblem

2

• Wähle C >0 und minimiere w C

i1

• so dass für alle i gilt:

f(x i ) = w*x i +b 1- i für y i = 1 und

f(x i ) = w*x i +b -1+ i für y i = -1

• Äquivalent: y i *f(x i ) 1- i

n


i

• Umformung mit Lagrange-Multiplikatoren liefert einfacheres

Optimierungsproblem:

• Maximiere

n


i1


• unter 0 i C für alle i und i y i = 0

• Es gilt w = i y i x i , also f(x) = i y i (x i *x)+b

i

n

1

W ( )

y y x x

n

2

i1 j1

i

j

i

j


i

j


+1 f



Vorlesung Knowledge Discovery 365

Vorlesung Knowledge Discovery 366

Bedeutung von und

Optimierungsalgorithmus

=0, =0

=0, 01, =C

f(x)=-1

f(x)=0

f(x)=1

0


Was wissen wir jetzt über SVM‘s?

Funktionslernen als allgemeine Lernaufgabe

• Minimierung des empirischen Risikos als Lösungsstrategie

• Optimale Hyperebene präzisiert die ERM

• Praxis: weich trennende Hyperebene

• Berechnung mittels SVM und dualem Problem

• Offene Fragen: Generelles Prinzip hinter der optimalen

Hyperebene? Nicht lineare Daten?

Vorlesung Knowledge Discovery 369

Weitere Magazine dieses Users
Ähnliche Magazine