21.12.2012 Aufrufe

Klassifikation von Mustern

Klassifikation von Mustern

Klassifikation von Mustern

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

4.3. SUPPORT VEKTOR MASCHINEN (VA.1.1.3, 13.04.2004) 363<br />

Teststichprobe aufweist.<br />

Definition 4.10 Die Support Vektor Maschine arbeitet so, dass die Abschätzung des empirischen<br />

Risikos in (4.3.4) minimiert wird.<br />

Man vergleiche diese Definition mit der in Definition 4.1, S. 305. Dort wird das Risiko minimiert;<br />

das erfordert vollständige statistische Information, wie in (4.1.1), S. 306, vorausgesetzt,<br />

bzw. eine im Sinne <strong>von</strong> (1.3.1), S. 19, repräsentative, d. h. genügend große Stichprobe. Die Abschätzung<br />

des Risikos in (4.3.4) berücksichtigt den Einfluss einer kleinen Stichprobe im Term<br />

φ. Dieser geht mit wachsendem Stichprobenumfang gegen Null, sodass beide Definitionen ineinander<br />

übergehen.<br />

4.3.2 Linear separierbare Stichprobe<br />

Wir betrachten zunächst ein Zweiklassenproblem und nehmen an, dass die Klassen mit einer<br />

Hyperebene exakt trennbar sind; dieses ist die sog. lineare Separierbarkeit. Von den beiden<br />

Klassen sei eine klassifizierte Stichprobe gemäß (4.3.1) gegeben. Nach Voraussetzung liegt damit<br />

eine linear separierbare Stichprobe vor. Im Folgenden werden Muster ϱ f mit yϱ = 1 bzw.<br />

mit yϱ = −1 als „positive Stichprobenelemente“ bzw. „negative Stichprobenelemente“ bezeichnet.<br />

Wenn eine Hyperebene mit Parametern a = (a0, a1, . . . , an) T gegeben ist, die die positiven<br />

exakt <strong>von</strong> den negativen Stichprobenelementen trennt, gelte für alle Muster aus der Stichprobe<br />

ϱ c T a + a0 ≥ +1, wenn yϱ = +1 , (4.3.7)<br />

ϱ T<br />

c a + a0 ≤ −1, wenn yϱ = −1 , (4.3.8)<br />

<br />

ϱ<br />

≥ 1 , ∀ c ∈ ω . (4.3.9)<br />

<br />

ϱcT yϱ a + a0<br />

Es wird daran erinnert, dass für die Hyperebene in (4.3.6) die Beziehungen<br />

n = −a<br />

√ a T a = −a<br />

|a|<br />

s0 = −a0<br />

|a|<br />

sc = −(aT c + a0)<br />

|a|<br />

, (Normalenvektor mit Betrag Eins), (4.3.10)<br />

, (Ebenenabstand vom Ursprung), (4.3.11)<br />

, (Ebenenabstand <strong>von</strong> Punkt c), (4.3.12)<br />

gelten. Ein Abstand <strong>von</strong> der Hyperebene ist positiv, wenn der Punkt in Richtung der Normalen<br />

<strong>von</strong> der Ebene abliegt. Offensichtlich kann man die Ebenenparameter so normieren, dass für<br />

den Punkt c ′ , der der Hyperebene am nächsten liegt, |c ′T a + a0| = 1 gilt, da die Gleichungen<br />

a T c + a0 = 0 bzw. γ(a T c + a0) = 0 die gleichen Ebenen definieren. Die Beziehungen (4.3.7)<br />

und (4.3.8) entsprechen also einer geeigneten Skalierung des Vektors a.<br />

Wir betrachten nun positive bzw. negative Stichprobenelemente aus ω, für die in (4.3.7)<br />

bzw. (4.3.8) das Gleichheitszeichen gilt. Sie liegen also auf den Hyperebenen ϱ c T a + a0 = 1<br />

bzw. ϱ c T a + a0 = −1. Die Ebenen haben beide den Normalenvektor a, d. h. sie sind parallel.<br />

In Bild 4.3.2 sind dies die beiden parallelen gestrichelten Linien. Die Beträge ihrer senkrechten<br />

Abstände vom Ursprung sind |1−a0|/|a| bzw. |−1−a0|/|a|. Die beiden Ebenen haben also <strong>von</strong>einander<br />

den Abstand 2/|a|. Zwischen den beiden Ebenen liegen keine Stichprobenelemente,<br />

da lineare Separierbarkeit vorausgesetzt wurde. Ein sinnvolles Optimierungskriterium zur Wahl

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!