21.12.2012 Aufrufe

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

16 1. Grundlagen<br />

lichkeitsdichte jedes einzelnen Punktes x∈M gerade ˆp(x; θ). Die Wahrscheinlichkeitsdichte<br />

des ganzen Datensatzes X wäre entsprechend<br />

ˆp(X; θ) =<br />

T�«=1<br />

ˆp(x«; θ), (1-5)<br />

vorausgesetzt, die Einzelereignisse x«seien statistisch <strong>von</strong>einander unabhängig. Der<br />

Wert dieser Wahrscheinlichkeitdichte sollte hoch sein, da ja genau dieser Datensatz<br />

gemäß der Verteilungsdichte p gezogen wurde, für die ˆp eine Approximation darstellt.<br />

Da keine weiteren Informationen über p zur Verfügung stehen, sollte sie den größten<br />

überhaupt mit dem Modell ˆp erreichbaren Wert annehmen. Genau dies besagt das<br />

ML-Kriterium. Die Likelihood der Parameter θ auf dem Datensatz, definiert als<br />

L(θ�X) := ˆp(X; θ) (1-6)<br />

muss unter Variation <strong>von</strong> θ maximiert werden. Statt L kann natürlich auch jede<br />

streng monoton steigende Funktion <strong>von</strong> L maximiert werden. Überlegungen aus der<br />

Informationstheorie (s. Kullback & Leibler, 1951) und der statistischen Physik (Jaynes,<br />

1957) legen die Verwendung des Logarithmus nahe. Die sogenannte Log-likelihood der<br />

Parameter θ auf dem Datensatz ist dann<br />

l(θ�X) = lnL(θ�X) = ln � �<br />

L(θ�x) �<br />

= ln � �<br />

x∈M<br />

x∈X<br />

ˆp(x; θ) h(x)� = �<br />

h(x) ln ˆp(x; θ)<br />

x∈M<br />

= T �<br />

p(x) ln ˆp(x; θ), (1-7)<br />

x∈M<br />

wobei h(x) die Häufigkeit eines Punktes x im Datensatz und p(x) := h(x)/T ist.<br />

Einen noch besseren Einblick in die Bedeutung dieser Größe bekommt man, wenn<br />

man die Informationstheoretische Entropie“<br />

” � − �<br />

x p(x) lnp(x)� , die ein Maß für das<br />

Unbekannte im Datensatz ist (Jaynes, 1963), addiert. Durch die Relation<br />

�<br />

x∈M<br />

p(x) ln p(x)<br />

≥ 0 (1-8)<br />

ˆp(x; θ)<br />

mit Gleichheit genau dann, wenn ˆp=p, wird diese Größe zu einer Art Abstand“ der<br />

”<br />

beiden Verteilungsdichten p und ˆp, auch Kullback-Leibler-Distanz oder relative Entropie<br />

genannt. Sie ist jedoch kein echtes Abstandsmaß, da sie nicht symmetrisch ist. Erst<br />

in dieser Form wird die Übertragung des Ausdrucks (1-7) in einen kontinuierlichen<br />

Merkmalsraum sinnvoll, da er erst hier invariant unter Koordinatentransformation wird<br />

(Jaynes, 1963). 3 Mit der Distanz (1-8) oder mit<br />

�<br />

E(θ) :=<br />

M<br />

p(x) ln p(x)<br />

ˆp(x; θ)<br />

Stellen weglassen.<br />

3 Im folgenden wird nur noch die allgemeinere Notation mit Integralen verwendet.<br />

dx (1-9)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!