21.12.2012 Aufrufe

Klassifikation von Mustern

Klassifikation von Mustern

Klassifikation von Mustern

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

4.3. SUPPORT VEKTOR MASCHINEN (VA.1.1.3, 13.04.2004) 361<br />

Die Merkmalsvektoren haben eine (unbekannte) Verteilungsfunktion P (c, y) und werden statistisch<br />

unabhängig aus einer Grundgesamtheit mit dieser Verteilung entnommen. Mit irgendeiner<br />

Menge T <strong>von</strong> Trennfunktionen T = {d ea(c)}, parametrisiert durch einen Parametervektor a,<br />

werden die Stichprobenelemente einer der beiden Klassen zugewiesen. Die mittleren Kosten<br />

bzw. das Risiko der <strong>Klassifikation</strong> wird definiert mit<br />

V (dea) =<br />

1<br />

2 |dea( ϱ c) − y| dP (c, y) . (4.3.2)<br />

Man vergleiche diese Definition mit der in (4.1.10), S. 309. Da die Verteilungsfunktion P (c, y)<br />

unbekannt ist, liegt es nahe, das Risiko durch das empirische Risiko<br />

Ve(dea) = 1<br />

N<br />

N<br />

ϱ=1<br />

1<br />

2 |dea( ϱ c) − yϱ| (4.3.3)<br />

zu ersetzen. Bei endlichem, und insbesondere kleinem, Stichprobenumfang wird allerdings die<br />

Minimierung des empirischen Risikos i. Allg. nicht zu einer guten <strong>Klassifikation</strong>sleistung an<br />

einer neuen, <strong>von</strong> der Trainingsstichprobe disjunkten, Teststichprobe führen. Auf dieses Problem<br />

der Generalisierung wurde bereits in Abschnitt 1.3 hingewiesen.<br />

Der Einfluss einer endlichen Stichprobe wird sich dadurch bemerkbar machen, dass das Risiko<br />

V größer ist als das empirische Risiko Ve. Der Unterschied ist durch folgende Abschätzung<br />

gegeben:<br />

Satz 4.12 Für jede Trennfunktion dea und jedes N > h gilt mit der Wahrscheinlichkeit 1 − η<br />

V (dea)<br />

<br />

h<br />

φ ,<br />

log η<br />

N N<br />

≤<br />

=<br />

<br />

h<br />

Ve(dea) + φ ,<br />

log η<br />

,<br />

N N<br />

<br />

h<br />

(4.3.4)<br />

log <br />

2N<br />

η<br />

+ 1 − log h<br />

4<br />

.<br />

N<br />

(4.3.5)<br />

Dabei ist h die sog. VAPNIK–CHERVONENKIS-Dimension (VC–Dimension).<br />

Beweis: s. z. B. [Vapnik, 1995]<br />

Die obige Abschätzung ist unabhängig <strong>von</strong> der Verteilung P (c, y). Die linke Seite wird<br />

i. Allg. unbekannt bleiben, während die rechte bei bekanntem h für ein d ea berechnet werden<br />

kann. Bei entsprechender Wahl <strong>von</strong> η, h, N kann φ > 1 werden, d. h. die Abschätzung ist dann<br />

sicher nicht eng.<br />

Die VC–Dimension h ist ein Maß für die Kapazität der Menge {d ea|a ∈ Rea} <strong>von</strong> Trennfunktionen.<br />

Ein Maß für die Kapazität eines Klassifikators gibt (4.10.5), S. 444. Für ein Zweiklassenproblem<br />

gibt h die maximale Zahl <strong>von</strong> <strong>Mustern</strong> an, die durch diese Funktionen in alle<br />

möglichen 2h Partitionen zerlegt werden können. Diese Zerlegung muss nicht für alle Punktmengen<br />

vom Umfang h möglich sein, sondern für mindestens eine. Für jede mögliche Zerlegung<br />

gibt es also eine Trennfunktion, die diese korrekt durchführt. Eine spezielle Menge <strong>von</strong><br />

Trennfunktionen ist die der orientierten Hyperebenen<br />

dea(c) = c T <br />

a0<br />

a + a0 , mit a = , (4.3.6)<br />

a<br />

mit denen für Punkte c entschieden werden kann, ob sie auf der positiven oder negativen Seite<br />

der Ebene liegen oder genau auf dieser Ebene. Die orientierten Ebenen d ea = c T a + a0 und

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!