Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
16 1. Grundlagen<br />
lichkeitsdichte jedes einzelnen Punktes x∈M gerade ˆp(x; θ). Die Wahrscheinlichkeitsdichte<br />
des ganzen Datensatzes X wäre entsprechend<br />
ˆp(X; θ) =<br />
T�«=1<br />
ˆp(x«; θ), (1-5)<br />
vorausgesetzt, die Einzelereignisse x«seien statistisch <strong>von</strong>einander unabhängig. Der<br />
Wert dieser Wahrscheinlichkeitdichte sollte hoch sein, da ja genau dieser Datensatz<br />
gemäß der Verteilungsdichte p gezogen wurde, für die ˆp eine Approximation darstellt.<br />
Da keine weiteren Informationen über p zur Verfügung stehen, sollte sie den größten<br />
überhaupt mit dem Modell ˆp erreichbaren Wert annehmen. Genau dies besagt das<br />
ML-Kriterium. Die Likelihood der Parameter θ auf dem Datensatz, definiert als<br />
L(θ�X) := ˆp(X; θ) (1-6)<br />
muss unter Variation <strong>von</strong> θ maximiert werden. Statt L kann natürlich auch jede<br />
streng monoton steigende Funktion <strong>von</strong> L maximiert werden. Überlegungen aus der<br />
Informationstheorie (s. Kullback & Leibler, 1951) und der statistischen Physik (Jaynes,<br />
1957) legen die Verwendung des Logarithmus nahe. Die sogenannte Log-likelihood der<br />
Parameter θ auf dem Datensatz ist dann<br />
l(θ�X) = lnL(θ�X) = ln � �<br />
L(θ�x) �<br />
= ln � �<br />
x∈M<br />
x∈X<br />
ˆp(x; θ) h(x)� = �<br />
h(x) ln ˆp(x; θ)<br />
x∈M<br />
= T �<br />
p(x) ln ˆp(x; θ), (1-7)<br />
x∈M<br />
wobei h(x) die Häufigkeit eines Punktes x im Datensatz und p(x) := h(x)/T ist.<br />
Einen noch besseren Einblick in die Bedeutung dieser Größe bekommt man, wenn<br />
man die Informationstheoretische Entropie“<br />
” � − �<br />
x p(x) lnp(x)� , die ein Maß für das<br />
Unbekannte im Datensatz ist (Jaynes, 1963), addiert. Durch die Relation<br />
�<br />
x∈M<br />
p(x) ln p(x)<br />
≥ 0 (1-8)<br />
ˆp(x; θ)<br />
mit Gleichheit genau dann, wenn ˆp=p, wird diese Größe zu einer Art Abstand“ der<br />
”<br />
beiden Verteilungsdichten p und ˆp, auch Kullback-Leibler-Distanz oder relative Entropie<br />
genannt. Sie ist jedoch kein echtes Abstandsmaß, da sie nicht symmetrisch ist. Erst<br />
in dieser Form wird die Übertragung des Ausdrucks (1-7) in einen kontinuierlichen<br />
Merkmalsraum sinnvoll, da er erst hier invariant unter Koordinatentransformation wird<br />
(Jaynes, 1963). 3 Mit der Distanz (1-8) oder mit<br />
�<br />
E(θ) :=<br />
M<br />
p(x) ln p(x)<br />
ˆp(x; θ)<br />
Stellen weglassen.<br />
3 Im folgenden wird nur noch die allgemeinere Notation mit Integralen verwendet.<br />
dx (1-9)