21.12.2012 Aufrufe

Klassifikation von Mustern

Klassifikation von Mustern

Klassifikation von Mustern

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

4.2. STATISTISCHE KLASSIFIKATOREN (VA.3.3.4, 29.09.2004) 335<br />

Definition 4.9 Der diskriminative Schätzwert maximiert die a posteriori Wahrscheinlichkeit<br />

der Klasse und ist gegeben durch<br />

aκ = argmax<br />

aκ<br />

Nκ <br />

ϱ=1<br />

log [p(Ωκ| ϱ cκ)] . (4.2.41)<br />

Die obige Schätzung wird auch als MMI–Schätzung (“maximum mutual information”, maximale<br />

Transinformation) bezeichnet.<br />

Maximum Entropie Schätzung<br />

Die Maximierung der Entropie bedeutet, dass man einen Schätzwert sucht, der einerseits möglichst<br />

gut die Stichprobe repräsentiert, andererseits möglichst wenig Annahmen über diese impliziert.<br />

Auf diese Vorgehensweise wird in Abschnitt 4.2.4 genauer eingegangen.<br />

Fehlende Information<br />

Wir sind bisher <strong>von</strong> einer klassifizierten Stichprobe ausgegangen, d. h. <strong>von</strong> jedem Muster war<br />

seine Klassenzugehörigkeit bekannt. In der Objekterkennung geht man z. T. <strong>von</strong> „markierten“<br />

Stichproben aus, d. h. man erwartet, dass die Korrespondenz zwischen einem Merkmal des Objektmodells<br />

und einem Merkmal in einem Bild des Objekts bekannt ist. In der Spracherkennung<br />

ging man anfänglich <strong>von</strong> „fein“ markierten Stichproben aus, d. h. für jedes Datenfenster <strong>von</strong> etwa<br />

10 ms Dauer war bekannt, welcher Laut oder welche Lautkomponente gesprochen wurde.<br />

Offensichtlich erhöht das den Aufwand für die Stichprobensammlung signifikant. Es fragt sich<br />

also, ob man auf einige Information in der Stichprobe verzichten und trotzdem noch die für ein<br />

statistisches Modell erforderlichen Parameter schätzen kann. Theorie und Praxis zeigen, dass<br />

Parameterschätzung für viele Fälle fehlender Information möglich ist. Die empirische Basis<br />

geht auf frühe Ansätze zum entscheidungsüberwachten Lernen zurück, die theoretische Basis<br />

ist der EM–Algorithmus, dessen Prinzip in Abschnitt 1.6.4 erläutert wurde.<br />

Informell besteht das Prinzip darin, die zu schätzenden Parameter (z. B. Mittelwert und<br />

Kovarianzmatrix <strong>von</strong> k Normalverteilungen) mit beliebigen Werten zu initialisieren, dann die<br />

fehlende Information zu schätzen (z. B. die Klassenzugehörigkeit <strong>von</strong> Merkmalsvektoren) und<br />

damit neue verbesserte Parameterwerte zu schätzen; dieser Prozess wird bis zur Konvergenz<br />

iteriert. Eine genauere Darstellung für die Schätzung der Parameter einer Mischung aus Normalverteilungen<br />

gibt Abschnitt 4.8.3.<br />

Sparsame Schätzung<br />

Die obigen Schätzverfahren liefern Parametervektoren mit voller, u. U. sehr großer, Dimension.<br />

Es kann sein, dass einige Komponenten des Parametervektors für die Güte <strong>von</strong> <strong>Klassifikation</strong>sergebnissen<br />

(oder <strong>von</strong> Regressionsergebnissen) unerheblich bzw. vernachlässigbar sind. Als<br />

sparsamer Schätzwert (“sparse estimate”) wird ein solcher bezeichnet, der vernachlässigbare<br />

Komponenten eines Parametervektors unterdrückt, z. B. indem sie den Schätzwert Null erhalten.<br />

Das Prinzip wird kurz am Beispiel des Regressionsproblems (vgl. S. 304) erläutert. Gesucht<br />

ist eine Regressionsfunktion<br />

y = a T ϕ(f) . (4.2.42)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!