21.12.2012 Aufrufe

Klassifikation von Mustern

Klassifikation von Mustern

Klassifikation von Mustern

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

336 KAPITEL 4. NUMERISCHE KLASSIFIKATION (VK.2.3.3, 07.09.2005)<br />

Dafür steht eine Stichprobe zur Verfügung, deren Beobachtungen durch additives, weisses, normalverteiltes<br />

Rauschen nϱ beeinflusst sind. Die Beobachtungen sind also<br />

yϱ = a T ϕ( ϱ f) + nϱ , ϱ = 1, . . . , N , (4.2.43)<br />

wobei die nϱ als statistisch unabhängig mit Streuung σ vorausgesetzt werden. Die Verteilung<br />

der Stichprobe <strong>von</strong> Beobachtungen ist dann normalverteilt mit<br />

p(y|a) = N (y|Ha, σ 2 I) . (4.2.44)<br />

Die Matrix H enthält die Beobachtungen in ihren mit hij = ϕj( i f) definierten Elementen. Um<br />

einen MAP–Schätzwert zu berechnen, braucht man, wie oben erwähnt, eine a priori Verteilung<br />

für die zu schätzenden Parameter. Je nach Annahme über diese a priori Verteilung ergeben sich<br />

unterschiedliche Schätzwerte.<br />

Eine mögliche und übliche Annahme besteht darin, für den Parametervektor a eine Normalverteilung<br />

mit Mittelwert Null und Kovarianzmatrix A vorzugeben, d. h. p(a) = N (a|0, A).<br />

Es ist bekannt, dass die a posteriori Verteilung p(a|y) (s. (4.2.39)) wieder eine Normalverteilung<br />

ist mit dem Mittelwert, der auch der MAP–Schätzwert ist,<br />

a = σ 2 A −1 + H T H −1 H T y . (4.2.45)<br />

Man sieht, dass dieser Schätzwert für a nicht sparsam ist. Wenn A die Form A =<br />

βI , β → ∞, hat, geht der MAP–Schätzwert in den mittleren quadratischen Schätzwert<br />

a = H T H −1 H T y über.<br />

Ein sparsamer Schätzwert ergibt sich, wenn man statt der GAUSS- eine LAPLACE-<br />

Verteilung<br />

p(a) =<br />

n<br />

ν=1<br />

α<br />

2 exp[−α|aν|] =<br />

<br />

α<br />

n exp[−α||a||1] (4.2.46)<br />

2<br />

für die a priori Verteilung des Schätzwertes vorgibt. Dabei wird mit ||a|| r <br />

r = ν |aν| r die Lr Norm bezeichnet. In diesem Fall ist der Schätzwert nicht mehr linear in den Beobachtungen y<br />

wie in (4.2.45), sondern gegeben durch<br />

a = argmin<br />

a<br />

<br />

2<br />

||Ha − y|| 2 + 2ασ 2 <br />

||a||1 . (4.2.47)<br />

Dieses wird auch als LASSO–Schätzwert (“least absolute shrinkage and selection operator”)<br />

bezeichnet. Die Sparsamkeit des Schätzwertes resultiert daraus, dass die L 1 Norm rascher<br />

wächst als die L 2 Norm, wenn mehr Vektorkomponenten <strong>von</strong> Null verschieden sind. Zum Beispiel<br />

ist ||(1, 0) T ||2 = ||(1/ √ 2, 1/ √ 2) T || = 1, jedoch ||(1, 0) T ||1 = 1 < ||(1/ √ 2, 1/ √ 2) T ||1 =<br />

√ 2. Besonders klar wird die Sparsamkeit der Schätzwerte, wenn man eine orthogonale Beob-<br />

achtungsmatrix H annimmt. In diesem Falle erhält man die geschlossene Lösung<br />

aν =<br />

2<br />

argmin aν − 2aν(H<br />

aν<br />

T y)ν + 2ασ 2 |aν| <br />

=<br />

T<br />

sign (H y)ν q : q > 0<br />

0 : q ≤ 0<br />

q = |(H T y)ν| − ασ 2 ,<br />

(4.2.48)<br />

wobei (H T y)ν die ν–te Komponente des Vektors H T y und sign die Vorzeichenfunktion ist.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!