21.12.2012 Aufrufe

Klassifikation von Mustern

Klassifikation von Mustern

Klassifikation von Mustern

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

362 KAPITEL 4. NUMERISCHE KLASSIFIKATION (VK.2.3.3, 07.09.2005)<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Bild 4.3.1: Zur VC–Dimension orientierter Geraden; a) drei Punkte in der Ebene lassen sich<br />

durch orientierte Geraden in alle acht Partitionen zerlegen; gezeigt sind vier Fälle, die anderen<br />

vier entstehen durch Vorzeichenumkehr; b) vier Punkte lassen sich nicht durch Geraden in alle<br />

2 4 = 16 Partitionen zerlegen<br />

d ′ ea = −cT a − a0 sind verschieden, da sie Punkten, die nicht auf der Ebene liegen, gerade<br />

unterschiedliche Vorzeichen zuordnen.<br />

Satz 4.13 Die VAPNIK–CHERVONENKIS-Dimension der Menge orientierter Hyperebenen<br />

im R n ist h = n + 1.<br />

Beweis: s. z. B. [Burges, 1998]<br />

Bild 4.3.1 illustriert das in der Ebene. Es gibt drei Punkte, die sich durch eine geeignete<br />

orientierte Gerade in alle 2 3 = 8 Partitionen zerlegen lassen, jedoch nicht vier Punkte – also<br />

ist h = 3, wie auch aus obigem Satz hervorgeht. Man wird erwarten, dass h umso größer ist,<br />

je mehr freie Parameter die Menge {d ea} hat. Hierzu gibt es jedoch Gegenbeispiele, die zeigen,<br />

dass dieses nicht i. Allg. zutrifft.<br />

Der Term φ in (4.3.5) kennzeichnet den Unterschied zwischen dem tatsächlichen Risiko<br />

V und dem empirischen Risiko Ve und ist in dem Sinne ein Maß für das Konfidenzintervall<br />

des empirischen Risikos Ve, d. h. φ sollte klein sein. Das wird bei gegebenem Umfang N der<br />

Trainingsstichprobe ω durch eine kleine VC–Dimension h erreicht. Dagegen erwarten wir vom<br />

empirischen Risiko Ve, d. h. auch <strong>von</strong> der Fehlerrate auf der Trainingsstichprobe, dass es umso<br />

kleiner wird, je größer h wird. Von den beiden Termen in (4.3.4) nimmt also Ve mit wachsendem<br />

h ab, während φ mit wachsendem h zunimmt. Bei geeigneter Wahl <strong>von</strong> h sollte sich also<br />

ein minimaler Wert der rechten Seite <strong>von</strong> (4.3.4) ergeben, und damit eine optimale Generalisierung<br />

und eine minimale Fehlerrate auf einer neuen Teststichprobe. Dieser Beobachtung liegt die<br />

sog. Minimierung des strukturellen Risikos zugrunde, die unten betrachtet wird. Allerdings gilt<br />

i. Allg. nicht, dass eine große VC–Dimension notwendig eine schlechte <strong>Klassifikation</strong>sleistung<br />

zur Folge hat. Ein Gegenbeispiel dazu ist der nächste Nachbar Klassifikator in Abschnitt 4.2.7.<br />

Sein empirisches Risiko ist Ve = 0, seine VC-Dimension h = ∞. Trotzdem arbeitet er erfahrungsgemäß<br />

sehr gut.<br />

Die Minimierung des strukturellen Risikos geht <strong>von</strong> (4.3.4) aus. Der Konfidenzterm φ hängt<br />

über h <strong>von</strong> der gewählten Menge {d ea} <strong>von</strong> Trennfunktionen ab. Der Term Ve hängt <strong>von</strong> der<br />

speziell durch Training aus {d ea} bestimmten Funktion ab. Man geht z. B. so vor, dass man eine<br />

„Struktur“ vorprägt, indem man eine Menge T <strong>von</strong> Trennfunktionen, z. B. Polynome in c vom<br />

Grade q, in geschachtelte Teilmengen T1 ⊂ T2 ⊂ . . . ⊂ Tn mit h1 < h2 < . . . < hn zerlegt.<br />

Für jedes Ti trainiert man einen Klassifikator, der das empirische Risiko minimiert. Dann wählt<br />

man unter den n Klassifikatoren den aus, der die Abschätzung des Risikos in (4.3.4) bzw. die<br />

Fehlerrate auf einer disjunkten Teststichprobe minimiert. Von diesem kann man erwarten, dass<br />

er auch eine gute Generalisierungsleistung hat, d. h. eine geringe Fehlerrate auf einer neuen

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!