23.11.2014 Aufrufe

Mathematische Statistik Gliederung zur Vorlesung im ...

Mathematische Statistik Gliederung zur Vorlesung im ...

Mathematische Statistik Gliederung zur Vorlesung im ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Mathematische</strong> <strong>Statistik</strong><br />

<strong>Gliederung</strong> <strong>zur</strong> <strong>Vorlesung</strong><br />

<strong>im</strong> Wintersemester 2006/07<br />

Markus Reiß<br />

Universität Heidelberg<br />

reiss@statlab.uni-heidelberg.de<br />

VORLÄUFIGE FASSUNG: 9. Februar 2007<br />

Inhaltsverzeichnis<br />

1 Einführende Beispiele 1<br />

2 Entscheidungstheorie 1<br />

2.1 Formalisierung eines statistischen Problems . . . . . . . . . . . . 1<br />

2.2 Min<strong>im</strong>ax- und Bayes-Ansatz . . . . . . . . . . . . . . . . . . . . . 1<br />

2.3 Das Stein-Phänomen . . . . . . . . . . . . . . . . . . . . . . . . . 3<br />

2.4 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

3 Dominierte Exper<strong>im</strong>ente und Suffizienz 5<br />

3.1 Dominierte Exper<strong>im</strong>ente . . . . . . . . . . . . . . . . . . . . . . . 5<br />

3.2 Exponentialfamilien . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />

3.3 Suffizienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6<br />

4 Testtheorie 7<br />

4.1 Neyman-Pearson-Theorie . . . . . . . . . . . . . . . . . . . . . . 7<br />

4.2 Bedingte Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

4.3 Tests <strong>im</strong> Normalverteilungsmodell . . . . . . . . . . . . . . . . . 10<br />

5 Schätztheorie 11<br />

5.1 Momentenschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

5.2 Max<strong>im</strong>um-Likelihood- und M-Schätzer . . . . . . . . . . . . . . . 12<br />

5.3 Effizienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

5.4 Nichtparametrische Dichteschätzung . . . . . . . . . . . . . . . . 14<br />

I


1 Einführende Beispiele<br />

• Modellierung<br />

• Modelldiagnostik (QQ-Plot, Boxplot, empirische Korrelation)<br />

• Median, Mittelwert, Ausreißer<br />

• Konfidenzintervall<br />

• Hypothesentest<br />

• Klassifikation<br />

• Vorhersage<br />

2 Entscheidungstheorie<br />

2.1 Formalisierung eines statistischen Problems<br />

2.1 Definition. Ein Messraum (X, F ) versehen mit einer Familie (P ϑ ) ϑ∈Θ<br />

von Wahrscheinlichkeitsmaßen, Θ ≠ ∅ beliebige Parametermenge, heißt<br />

statistisches Exper<strong>im</strong>ent. Jede (F , S )-messbare Funktion Y : X → S heißt<br />

Beobachtung oder <strong>Statistik</strong> mit Werten in (S, S ) und induziert das statistische<br />

Exper<strong>im</strong>ent (S, S , (P Y ϑ ) ϑ∈Θ). Sind die Beobachtungen Y 1 , . . . , Y n für jedes P ϑ<br />

unabhängig und identisch verteilt, so nennt man Y 1 , . . . , Y n eine mathematische<br />

Stichprobe.<br />

2.2 Definition. Es sei (X, F , (P ϑ ) ϑ∈Θ ) ein statistisches Exper<strong>im</strong>ent. Eine<br />

Entscheidungsregel ist eine messbare Abbildung ρ : X → A, wobei der Messraum<br />

(A, A ) der sogenannte Aktionsraum ist. Jede Funktion l : Θ × A → [0, ∞) =:<br />

R + , die messbar <strong>im</strong> zweiten Argument ist, heißt Verlustfunktion. Das Risiko<br />

einer Entscheidungsregel ρ bei Vorliegen des Parameters ϑ ∈ Θ ist<br />

∫<br />

R(ϑ, ρ) := E ϑ [l(ϑ, ρ)] = l(ϑ, ρ(x)) P ϑ (dx).<br />

2.3 Definition. Die Entscheidungsregel ρ heißt besser als eine Entscheidungsregel<br />

ρ ′ , falls R(ϑ, ρ) R(ϑ, ρ ′ ) für alle ϑ ∈ Θ gilt und falls ein ϑ 0 ∈ Θ mit<br />

R(ϑ 0 , ρ) < R(ϑ 0 , ρ ′ ) existiert. Eine Entscheidungsregel heißt zulässig, wenn es<br />

keine bessere Entscheidungsregel gibt.<br />

2.2 Min<strong>im</strong>ax- und Bayes-Ansatz<br />

2.4 Definition. Eine Entscheidungsregel ρ heißt min<strong>im</strong>ax, falls<br />

sup R(ϑ, ρ) = inf sup R(ϑ, ρ ′ ),<br />

ϑ∈Θ<br />

ρ ′ ϑ∈Θ<br />

wobei sich das Inf<strong>im</strong>um über alle Entscheidungsregeln ρ ′ erstreckt.<br />

X<br />

1


2.5 Definition. Der Parameterraum Θ trage die σ-Algebra F Θ , die Verlustfunktion<br />

l sei produktmessbar und ϑ ↦→ P ϑ (B) sei messbar für alle B ∈ F . Die a<br />

priori-Verteilung π des Parameters ϑ ist gegeben durch ein Wahrscheinlichkeitsmaß<br />

auf (Θ, F Θ ) . Das zu π assoziierte Bayesrisiko einer Entscheidungsregel ρ<br />

ist<br />

∫<br />

∫ ∫<br />

R π (ρ) := E π [R(ϑ, ρ)] = R(ϑ, ρ) π(dϑ) = l(ϑ, ρ(x)) P ϑ (dx) π(dϑ).<br />

Θ<br />

ρ heißt Bayesregel oder Bayes-opt<strong>im</strong>al (bezüglich π), falls<br />

Θ<br />

R π (ρ) = inf<br />

ρ ′ R π (ρ ′ )<br />

gilt, wobei sich das Inf<strong>im</strong>um über alle Entscheidungsregeln ρ ′ erstreckt.<br />

2.6 Satz. Es liege die Situation aus der vorangegangenen Definition vor.<br />

(a) Für jede Entscheidungsregel ρ gilt<br />

sup<br />

ϑ∈Θ<br />

X<br />

R(ϑ, ρ) = sup R π (ρ),<br />

π<br />

wobei sich das zweite Supremum über alle a priori-Verteilungen π erstreckt.<br />

Insbesondere ist das Risiko einer Bayesregel stets kleiner oder<br />

gleich dem Min<strong>im</strong>axrisiko.<br />

(b) Für eine Min<strong>im</strong>axregel ρ gilt sup π R π (ρ) = inf ρ ′ sup π R π (ρ ′ ).<br />

2.7 Definition. Definiere Ω := X × Θ und ˜P auf (Ω, F ⊗ F Θ ) gemäß<br />

˜P(dx, dϑ) = P ϑ (dx)π(dϑ) (gemeinsame Verteilung von Beobachtung und Parameter).<br />

Bezeichne mit X und ¯ϑ die Koordinatenprojektionen von Ω auf X<br />

bzw. Θ.<br />

2.8 Satz. Eine Regel ρ ist Bayes-opt<strong>im</strong>al, falls für ˜P-f.a. x ∈ X gilt<br />

ρ(x) = argmin a∈A E˜P[l( ¯ϑ, a) | X = x].<br />

2.9 Korollar. Für Θ ⊆ R, A = R und quadratisches Risiko (d.h. l(ϑ, a) = (a−<br />

ϑ) 2 ) ist die bedingte Erwartung ˆϑ π := E˜P[ ¯ϑ | X = x] Bayes-opt<strong>im</strong>aler Schätzer<br />

von ϑ bezüglich der a priori-Verteilung π.<br />

2.10 Definition. Es sei X eine (S, S )-wertige Zufallsvariable auf (Ω, F , P).<br />

Eine Abbildung K : S × F → [0, 1] heißt reguläre bedingte Wahrscheinlichkeit<br />

oder Markovkern bezüglich X, falls<br />

(a) A ↦→ K(x, A) ist Wahrscheinlichkeitsmaß für alle x ∈ S;<br />

(b) x ↦→ K(x, A) ist messbar für alle A ∈ F ;<br />

(c) K(X, A) = P(A | X) := E[1 A | X] P-f.s. für alle A ∈ F .<br />

2


2.11 Satz. Es sei (Ω, d) ein vollständiger, separabler Raum mit Metrik d und<br />

Borel-σ-Algebra F (polnischer Raum). Für jede Zufallsvariable X auf (Ω, F , P)<br />

existiert eine reguläre bedingte Wahrscheinlichkeit K bezüglich X. K ist P-f.s.<br />

eindeutig best<strong>im</strong>mt, d.h. für eine zweite solche reguläre bedingte Wahrscheinlichkeit<br />

K ′ gilt<br />

P(∀A ∈ F : K(X, A) = K ′ (X, A)) = 1.<br />

2.12 Definition. Die Verteilung von ¯ϑ unter der regulären bedingten Wahrscheinlichkeit<br />

˜P(• | X = x) von ˜P heißt a posteriori-Verteilung des Parameters<br />

gegeben die Beobachtung X = x.<br />

2.13 Satz. Für jede Entscheidungsregel ρ gilt:<br />

(a) Ist ρ min<strong>im</strong>ax und eindeutig in dem Sinn, dass jede andere Min<strong>im</strong>ax-Regel<br />

die gleiche Risikofunktion besitzt, so ist ρ zulässig.<br />

(b) Ist ρ zulässig mit konstanter Risikofunktion, so ist ρ min<strong>im</strong>ax.<br />

(c) Ist ρ eine Bayesregel (bzgl. π) und eindeutig in dem Sinn, dass jede andere<br />

Bayesregel (bzgl. π) die gleiche Risikofunktion besitzt, so ist ρ zulässig.<br />

(d) Die Parametermenge Θ bilde einen metrischen Raum mit Borel-σ-Algebra<br />

F Θ . Ist ρ eine Bayesregel (bzgl. π), so ist ρ zulässig, falls (i) R π (ρ) < ∞;<br />

(ii) für jede nichtleere offene Menge U in Θ gilt π(U) > 0; (iii) für jede<br />

Regel ρ ′ ist ϑ ↦→ R(ϑ, ρ ′ ) stetig.<br />

2.14 Korollar. Es sei X 1 , . . . , X n eine N(µ, 1)-verteilte mathematische Stichprobe<br />

mit µ ∈ R unbekannt. Bezüglich quadratischem Risiko ist das arithmetische<br />

Mittel ¯X =<br />

1<br />

n<br />

∑ n<br />

i=1 X i zulässig und min<strong>im</strong>ax als Schätzer von µ.<br />

2.15 Definition. Eine Verteilung π auf (Θ, F Θ ) heißt ungünstigste a<br />

priori-Verteilung zu einer gegebenen Verlustfunktion, falls<br />

inf<br />

ρ<br />

R π(ρ) = sup inf R π ′(ρ).<br />

π ′ ρ<br />

2.16 Lemma. Gilt R π (ρ π ) = sup ϑ∈Θ R(ϑ, ρ π ) für eine a priori-Verteilung π<br />

und ihre zugehörige Bayesregel ρ π , so folgt die Sattelpunktseigenschaft<br />

∀π ′ ∀ρ ′ : R π ′(ρ π ) R π (ρ π ) R π (ρ ′ ).<br />

Weiterhin ist ρ π min<strong>im</strong>ax und π ungünstigste a priori-Verteilung.<br />

2.3 Das Stein-Phänomen<br />

2.17 Lemma. Es sei f : R d → R eine Funktion, die Lebesgue-f.ü. absolut<br />

stetig in jeder Koordinate ist. Dann gilt für Y ∼ N(µ, σ 2 E d ) mit µ ∈ R d ,<br />

σ > 0, E d = diag(1, . . . , 1) ∈ R d×d und für alle i = 1, . . . , d<br />

sofern E[| ∂f<br />

∂x i<br />

(Y )|] < ∞.<br />

E[(µ i − Y i )f(Y )] = −σ 2 E[ ∂f<br />

∂x i<br />

(Y )],<br />

3


2.18 Satz. Es sei d 3 und Y 1 , . . . , Y n eine N(µ, E d )-verteilte mathematische<br />

Stichprobe mit µ ∈ R d unbekannt. Dann gilt für den James-Stein-Schätzer<br />

(<br />

ˆµ JS := 1 − d − 2 )Ȳ<br />

n|Ȳ |2<br />

mit Ȳ := 1 n<br />

∑ n<br />

i=1 Y i, dass<br />

E µ [|ˆµ JS − µ| 2 ] = d n − E µ<br />

[ (d − 2)<br />

2<br />

n 2 |Ȳ |2 ]<br />

< d n = E µ[|Ȳ − µ|2 ].<br />

Insbesondere ist Ȳ bei quadratischem Risiko kein zulässiger Schätzer von µ <strong>im</strong><br />

Fall d 3!<br />

2.19 Satz. Es sei d 3 und Y 1 , . . . , Y n eine N(µ, E d )-verteilte mathematische<br />

Stichprobe mit µ ∈ R d unbekannt. Dann ist der James-Stein-Schätzer mit<br />

positivem Gewicht<br />

(<br />

ˆµ JS+ := 1 − d − 2 Ȳ , x + := max(x, 0)<br />

n|Ȳ )+ |2<br />

bei quadratischem Risiko besser als der James-Stein-Schätzer ˆµ JS .<br />

2.4 Ergänzungen<br />

2.20 Definition. Zu vorgegebener Verlustfunktion l heißt eine Entscheidungsregel<br />

ρ unverzerrt, falls<br />

∀ϑ, ϑ ′ ∈ Θ : E ϑ [l(ϑ ′ , ρ)] E ϑ [l(ϑ, ρ)] =: R(ϑ, ρ).<br />

2.21 Lemma. Es seien g : Θ → A ⊆ R und l(ϑ, ρ) = (ρ − g(ϑ)) 2 der quadratische<br />

Verlust. Dann ist eine Entscheidungsregel (ein Schätzer von g(ϑ))<br />

ĝ : X → A mit E ϑ [ĝ 2 ] < ∞ und E ϑ [ĝ] ∈ g(Θ) für alle ϑ ∈ Θ genau dann<br />

unverzerrt, wenn sie erwartungstreu ist, d.h. E ϑ [ĝ] = g(ϑ) für alle ϑ ∈ Θ gilt.<br />

2.22 Lemma. Es sei Θ = Θ 0 ˙∪Θ 1 , A = [0, 1]. Für den Verlust l(ϑ, a) =<br />

l 0 a1 Θ0 (ϑ) + l 1 (1 − a)1 Θ1 (ϑ) ist eine Entscheidungsregel ρ (ein randomisierter<br />

Test von H 0 : ϑ ∈ Θ 0 gegen H 1 : ϑ ∈ Θ 1 ) genau dann unverzerrt, wenn sie<br />

zum Niveau α := l 1<br />

l 0 +l 1<br />

unverfälscht ist, d.h.<br />

∀ϑ ∈ Θ 0 : E ϑ [ρ] α, ∀ϑ ∈ Θ 1 : E ϑ [ρ] α.<br />

2.23 Definition. Ein Entscheidungskern oder randomisierte<br />

Entscheidungsregel ρ : X × A → [0, 1] ist eine reguläre bedingte Wahrscheinlichkeit<br />

auf dem Aktionsraum (A, A ) mit der Interpretation, dass<br />

bei Vorliegen der Beobachtung x gemäß ρ(x, •) eine Entscheidung zufällig<br />

ausgewählt wird. Das zugehörige Risiko ist<br />

[ ∫ ] ∫ ∫<br />

R(ϑ, ρ) := E ϑ l(ϑ, a) ρ(da) = l(ϑ, a)ρ(x, da) P ϑ (dx).<br />

A<br />

X A<br />

2.24 Lemma. Es sei A ⊆ R d konvex sowie l(ϑ, a) eine <strong>im</strong> zweiten Argument<br />

konvexe Verlustfunktion. Dann gibt es zu jeder randomisierten Entscheidungsregel<br />

eine deterministische Entscheidungsregel, deren Risiko nicht größer ist.<br />

4


3 Dominierte Exper<strong>im</strong>ente und Suffizienz<br />

3.1 Dominierte Exper<strong>im</strong>ente<br />

3.1 Definition. Ein statistisches Exper<strong>im</strong>ent (X, F , (P ϑ ) ϑ∈Θ ) heißt dominiert<br />

(von µ), falls es ein σ-endliches Maß µ auf F gibt, so dass P ϑ absolutstetig<br />

bezüglich µ ist (P ϑ ≪ µ) für alle ϑ ∈ Θ. Die durch ϑ parametrisierte Radon-<br />

Nikodym-Dichte<br />

L(ϑ, x) := d P ϑ<br />

(x), ϑ ∈ Θ, x ∈ X,<br />

dµ<br />

heißt auch Likelihoodfunktion, wobei diese meist als durch x parametrisierte<br />

Funktion in ϑ aufgefasst wird.<br />

3.2 Satz. Es sei (X, F , (P ϑ ) ϑ∈Θ ) ein dominiertes Exper<strong>im</strong>ent. Dann gibt es ein<br />

Wahrscheinlichkeitsmaß Q der Form Q = ∑ ∞<br />

i=1 c i P ϑi mit c i 0, ∑ i c i = 1,<br />

ϑ i ∈ Θ, so dass P ϑ ≪ Q für alle ϑ ∈ Θ gilt.<br />

3.3 Satz. Es sei (X, F , (P ϑ ) ϑ∈Θ ) ein dominiertes Exper<strong>im</strong>ent mit produktmessbarer<br />

Likelihoodfunktion L(ϑ, x). Zu vorgegebener a priori-Verteilung π hat<br />

die a posteriori-Verteilung von ¯ϑ gegeben X = x folgende Dichte bezüglich π:<br />

Z π x (ϑ) =<br />

L(ϑ, x)<br />

∫Θ L(ϑ′ , x) π(dϑ ′ ) 1 { R L(ϑ ′ ,x)π(dϑ ′ )>0}, ϑ ∈ Θ (Bayesformel).<br />

3.2 Exponentialfamilien<br />

3.4 Definition. Es sei (X, F , (P ϑ ) ϑ∈Θ ) ein von µ dominiertes Exper<strong>im</strong>ent.<br />

Dann heißt (P ϑ ) ϑ∈Θ Exponentialfamilie (in η(ϑ) und T ), wenn k ∈ N, η : Θ →<br />

R k , C : Θ → R + , T : X → R k messbar und h : X → R + messbar existieren, so<br />

dass<br />

d P ϑ<br />

dµ (x) = C(ϑ)h(x) exp(〈η(ϑ), T (x)〉 Rk), x ∈ X, ϑ ∈ Θ.<br />

T wird natürliche suffiziente <strong>Statistik</strong> von (P ϑ ) ϑ∈Θ genannt. Sind η 1 , . . . , η k<br />

linear unabhängige Funktionen und gilt für alle ϑ ∈ Θ die Implikation<br />

λ 0 + λ 1 T 1 + · · · + λ k T k = 0 P ϑ -f.s. ⇒ λ 0 = λ 1 = · · · = λ k = 0<br />

(1, T 1 , . . . , T k sind P ϑ -f.s. linear unabhängig), so heißt die Exponentialfamilie<br />

k-parametrisch.<br />

3.5 Definition. Bildet (P ϑ ) ϑ∈Θ eine Exponentialfamilie (mit obiger Notation),<br />

so heißt<br />

∣ ∫<br />

}<br />

Z :=<br />

{u ∈ R k ∣∣<br />

e 〈u,T (x)〉 h(x)µ(dx) ∈ (0, ∞)<br />

X<br />

ihr natürlicher Parameterraum. Die entsprechend mit u ∈ Z parametrisierte<br />

Familie wird natürliche Exponentialfamilie in T genannt.<br />

5


3.6 Lemma. Bildet (P ϑ ) ϑ∈Θ eine (k-parametrische) Exponentialfamilie in η(ϑ)<br />

und T (x), so bilden auch die Produktmaße (P ⊗n<br />

ϑ<br />

) ϑ∈Θ eine (k-parametrische)<br />

Exponentialfamilie in η(ϑ) und ∑ n<br />

i=1 T (x i) mit<br />

d P ⊗n<br />

n ϑ<br />

dµ ⊗n (x) = C(ϑ)n( ∏ )<br />

h(x i ) exp(〈η(ϑ), ∑ n<br />

i=1 T (x i)〉 R k), x ∈ X n , ϑ ∈ Θ.<br />

i=1<br />

3.7 Satz. Es sei (P ϑ ) ϑ∈Z eine Exponentialfamilie mit natürlichem Parameterraum<br />

Z ⊆ R k und Darstellung<br />

d P ϑ<br />

(x) = C(ϑ)h(x) exp(〈ϑ, T (x)〉) = h(x) exp(〈ϑ, T (x)〉 − A(ϑ)),<br />

dµ<br />

wobei A(ϑ) = log ( ∫ h(x) exp(〈ϑ, T (x)〉)µ(dx) ) . Ist ˜ϑ ein innerer Punkt von Z ,<br />

so ist die erzeugende Funktion ψ ˜ϑ(s) = E ˜ϑ[e 〈T,s〉 ] in einer Umgebung der Null<br />

wohldefiniert und beliebig oft differenzierbar. Es gilt ψ ˜ϑ(s) = exp(A( ˜ϑ + s) −<br />

A( ˜ϑ)) für alle s mit ˜ϑ + s ∈ Z .<br />

Für i, j = 1, . . . , k folgt E ˜ϑ[T i ] = dA<br />

dϑ i<br />

( ˜ϑ) und Cov ˜ϑ(T i , T j ) =<br />

3.3 Suffizienz<br />

d2 A<br />

dϑ i dϑ j<br />

( ˜ϑ).<br />

3.8 Definition. Eine (S, S )-wertige <strong>Statistik</strong> T auf (X, F , (P ϑ ) ϑ∈Θ ) heißt<br />

suffizient (für (P ϑ ) ϑ∈Θ ), falls für jedes ϑ ∈ Θ die reguläre bedingte Wahrscheinlichkeit<br />

von P ϑ gegeben T (existiert und) nicht von ϑ abhängt, d.h.<br />

∃k ∀ϑ ∈ Θ, B ∈ F : k(T, B) = P ϑ (B | T ) := E ϑ [1 B | T ]<br />

P ϑ -f.s.<br />

Statt k(t, B) schreiben wir P • (B | T = t) bzw. E • [1 B | T = t].<br />

3.9 Satz (Faktorisierungskriterium von Neyman). Es sei (X, F , (P ϑ ) ϑ∈Θ ) ein<br />

von µ dominiertes Exper<strong>im</strong>ent mit Likelihoodfunktion L sowie T eine (S, S )-<br />

wertige <strong>Statistik</strong>. Dann ist T genau dann suffizient, wenn eine messbare Funktion<br />

h : X → R + existiert, so dass für alle ϑ ∈ Θ eine messbare Funktion<br />

g ϑ : S → R + existiert mit<br />

L(ϑ, x) = g ϑ (T (x))h(x) für µ-f.a. x ∈ X.<br />

3.10 Korollar. Die natürliche suffiziente <strong>Statistik</strong> einer Exponentialfamilie ist<br />

in der Tat suffizient.<br />

3.11 Satz (Rao-Blackwell). Es sei (X, F , (P ϑ ) ϑ∈Θ ) ein statistisches Exper<strong>im</strong>ent,<br />

A ⊆ R k konvex und l(ϑ, a) eine <strong>im</strong> zweiten Argument konvexe Verlustfunktion.<br />

Ist T eine für (P ϑ ) ϑ∈Θ suffiziente <strong>Statistik</strong>, so gilt für jede Entscheidungsregel<br />

ρ die Risikoabschätzung<br />

∀ϑ ∈ Θ : R(ϑ, ˜ρ) R(ϑ, ρ) mit ˜ρ := E • [ρ | T ].<br />

3.12 Satz. Es sei (X, F , (P ϑ ) ϑ∈Θ ) ein statistisches Exper<strong>im</strong>ent und T eine<br />

suffiziente <strong>Statistik</strong>. Dann gibt es zu jedem randomisierten Test ϕ einen randomisierten<br />

Test ˜ϕ, der nur von T abhängt und dieselbe Gütefunktion besitzt,<br />

nämlich ˜ϕ = E • [ϕ | T ].<br />

6


4 Testtheorie<br />

4.1 Neyman-Pearson-Theorie<br />

4.1 Definition. Es sei (X, F , (P ϑ ) ϑ∈Θ ) ein statistisches Exper<strong>im</strong>ent mit Zerlegung<br />

Θ = Θ 0 ˙∪Θ 1 . Jede messbare Funktion ϕ : X → [0, 1] heißt (randomisierter)<br />

Test. ϕ besitzt Niveau α ∈ [0, 1], falls E ϑ [ϕ] α für alle ϑ ∈ Θ 0 gilt.<br />

Die Abbildung ϑ ↦→ E ϑ [ϕ] heißt Gütefunktion von ϕ. Ein Test ϕ der Hypothese<br />

H 0 : ϑ ∈ Θ 0 gegen die Alternative H 1 : ϑ ∈ Θ 1 ist ein gleichmäßig bester Test<br />

zum Niveau α, falls ϕ Niveau α besitzt sowie für alle anderen Tests ϕ ′ vom<br />

Niveau α gilt<br />

∀ϑ ∈ Θ 1 : E ϑ [ϕ] E ϑ [ϕ ′ ].<br />

ϕ heißt gleichmäßig bester unverfälschter Test zum Niveau α, falls ϕ unverfälscht<br />

zum Niveau α ist sowie für alle anderen unverfälschten Tests ϕ ′ zum<br />

Niveau α obige Ungleichung gilt.<br />

4.2 Definition. Es sei (X, F , (P ϑ ) ϑ∈Θ ) ein (binäres) statistisches Exper<strong>im</strong>ent<br />

mit Θ = {0, 1}. Bezeichnet p i , i = 1, 2, die Dichte von P i bezüglich P 0 + P 1 , so<br />

heißt ein Test der Form<br />

⎧<br />

⎪⎨ 1, falls p 1 (x) > kp 0 (x)<br />

ϕ(x) = 0, falls p 1 (x) < kp 0 (x)<br />

⎪⎩<br />

γ(x), falls p 1 (x) = kp 0 (x)<br />

mit k ∈ R + und γ(x) ∈ [0, 1] Neyman-Pearson-Test.<br />

4.3 Satz (Neyman-Pearson-Lemma).<br />

(a) Jeder Neyman-Pearson-Test ϕ ist ein (gleichmäßig) bester Test für H 0 :<br />

ϑ = 0 gegen H 1 : ϑ = 1 zum Niveau E 0 [ϕ].<br />

(b) Für jedes vorgegebene α ∈ (0, 1) gibt es einen Neyman-Pearson-Test zum<br />

Niveau α mit γ(x) = γ ∈ [0, 1] konstant.<br />

4.4 Definition. Es seien (X, F , (P ϑ ) ϑ∈Θ ) ein dominiertes Exper<strong>im</strong>ent mit<br />

Θ ⊆ R und Likelihoodfunktion L(ϑ, x) sowie T eine reellwertige <strong>Statistik</strong>.<br />

Dann hat die Familie (P ϑ ) ϑ∈Θ monotonen Dichtequotienten (oder monotonen<br />

Likelihoodquotienten) in T , falls<br />

(a) ϑ ≠ ϑ ′ ⇒ P ϑ ≠ P ϑ ′;<br />

(b) Für alle ϑ < ϑ ′ gibt es eine monoton wachsende Funktion h(•, ϑ, ϑ ′ ) : R →<br />

R + ∪{+∞} mit (Konvention a/0 := +∞ für a > 0)<br />

L(ϑ, x)<br />

L(ϑ ′ , x) = h(T (x), ϑ, ϑ′ ) für (P ϑ + P ϑ ′)-f.a. x ∈ X.<br />

4.5 Satz. Ist (P ϑ ) ϑ∈Θ mit Θ ⊆ R eine einparametrische Exponentialfamilie in<br />

η(ϑ) und T , so hat sie monotonen Dichtequotienten, sofern η streng monoton<br />

wächst.<br />

7


4.6 Satz. Die Familie (P ϑ ) ϑ∈Θ , Θ ⊆ R, besitze monotonen Dichtequotienten<br />

in T . Für α ∈ (0, 1) und ϑ 0 ∈ Θ gilt dann:<br />

(a) Unter allen Tests ϕ für das einseitige Testproblem H 0 : ϑ ϑ 0 gegen<br />

H 1 : ϑ > ϑ 0 mit der Eigenschaft E ϑ0 [ϕ] = α gibt es einen Test ϕ ∗ , der die<br />

Fehlerwahrscheinlichkeiten erster und zweiter Art gleichmäßig min<strong>im</strong>iert,<br />

nämlich<br />

⎧<br />

⎪⎨ 1, falls T (x) > k,<br />

ϕ ∗ (x) = 0, falls T (x) < k,<br />

⎪⎩<br />

γ, falls T (x) = k,<br />

wobei k ∈ R, γ ∈ [0, 1] gemäß E ϑ0 [ϕ ∗ ] = α best<strong>im</strong>mt werden.<br />

(b) Dieser Test ϕ ∗ ist gleichmäßig bester Test zum Niveau α für H 0 : ϑ ϑ 0<br />

gegen H 1 : ϑ > ϑ 0 .<br />

(c) Für alle ϑ < ϑ ′ gilt E ϑ [ϕ ∗ ] E ϑ ′[ϕ ∗ ], wobei in den Fällen E ϑ [ϕ ∗ ] ∈ (0, 1)<br />

und E ϑ ′[ϕ ∗ ] ∈ (0, 1) sogar die strikte Ungleichung gilt.<br />

4.7 Satz (Verallgemeinertes NP-Lemma). Es seien (P ϑ ) ϑ∈Θ eine Exponentialfamilie<br />

in η(ϑ) und T , L die zugehörige Likelihoodfunktion sowie ϑ 0 , ϑ 1 ∈ Θ<br />

zwei Parameter. Erfüllt ein Test für H 0 : ϑ = ϑ 0 gegen H 1 : ϑ = ϑ 1 der Form<br />

⎧<br />

⎪⎨ 1, falls L(ϑ 1 , x) > kL(ϑ 0 , x) + lT (x)L(ϑ 0 , x)<br />

ϕ(x) = 0, falls L(ϑ 1 , x) < kL(ϑ 0 , x) + lT (x)L(ϑ 0 , x)<br />

⎪⎩<br />

γ, falls L(ϑ 1 , x) = kL(ϑ 0 , x) + lT (x)L(ϑ 0 , x)<br />

mit k, l ∈ R + und γ ∈ [0, 1] die Nebenbedingungen<br />

E ϑ0 [ϕ] = α und E ϑ0 [T ϕ] = α E ϑ0 [T ],<br />

so max<strong>im</strong>iert er die Güte E ϑ1 [ϕ] in der Menge aller Tests, die diese Nebenbedingungen<br />

erfüllen.<br />

4.8 Satz. (P ϑ ) ϑ∈Θ sei eine einparametrische Exponentialfamilie in η(ϑ) und<br />

T . Θ ⊆ R sei offen, ϑ 0 ∈ Θ und η ∈ C 1 (Θ) sei streng monoton (wachsend oder<br />

fallend) mit η ′ (ϑ 0 ) ≠ 0. Für α ∈ (0, 1), c 1 < c 2 und γ 1 , γ 2 ∈ [0, 1] erfülle der<br />

Test<br />

⎧<br />

⎪⎨ 1, falls T (x) < c 1 oder T (x) > c 2<br />

ϕ ∗ (x) = 0, falls T (x) ∈ (c 1 , c 2 )<br />

⎪⎩<br />

γ i , falls T (x) = c i , i = 1, 2<br />

die Nebenbedingungen<br />

E ϑ0 [ϕ ∗ ] = α und E ϑ0 [T ϕ ∗ ] = α E ϑ0 [T ].<br />

Dann ist ϕ ∗ gleichmäßig bester unverfälschter Test zum Niveau α für H 0 : ϑ =<br />

ϑ 0 gegen H 1 : ϑ ≠ ϑ 0 .<br />

8


4.2 Bedingte Tests<br />

4.9 Definition. Eine (S, S )-wertige <strong>Statistik</strong> T auf (X, F , (P ϑ ) ϑ∈Θ ) heißt<br />

vollständig (bezüglich Θ), falls für alle messbaren Funktionen f : S → R gilt<br />

∀ϑ ∈ Θ : E ϑ [f(T )] = 0 (und existiert) ⇒ ∀ϑ ∈ Θ : P ϑ (f(T ) = 0) = 1.<br />

4.10 Definition. Es sei Θ ′ ⊆ Θ. Dann heißt ein Test ϕ α-ähnlich auf Θ ′ , wenn<br />

E ϑ [ϕ] = α für alle ϑ ∈ Θ ′ gilt.<br />

4.11 Satz. Ist T eine bezüglich Θ ′ vollständige und suffiziente <strong>Statistik</strong> und ist<br />

ϕ ein auf Θ ′ α-ähnlicher Test, so gilt E • [ϕ | T ] = α P ϑ -f.s. für alle ϑ ∈ Θ ′ .<br />

4.12 Satz. Es sei (P ϑ ) ϑ∈Θ eine k-parametrische natürliche Exponentialfamilie<br />

in T . Enthält Θ ′ ⊆ Θ eine offene Menge <strong>im</strong> R k , so ist T suffizient und<br />

vollständig bezüglich Θ ′ .<br />

4.13 Satz. Gegeben sei die natürliche Exponentialfamilie<br />

d P ϑ<br />

dµ (x) = C(ϑ)h(x) exp (<br />

ϑ 0 U(x) +<br />

k∑<br />

i=1<br />

)<br />

ϑ i T i (x) , x ∈ X, ϑ ∈ Θ,<br />

sowie α ∈ (0, 1) und ein Punkt ϑ 0 <strong>im</strong> Innern von Θ. Dann ist<br />

⎧<br />

⎪⎨ 1, falls U(x) < K(T (x))<br />

ϕ ∗ (x) = 0, falls U(x) > K(T (x))<br />

⎪⎩<br />

γ(T (x)), falls U(x) = K(T (x))<br />

mit K(t) ∈ R, γ(t) ∈ [0, 1] derart, dass E ϑ0 [ϕ ∗ | T ] = E ϑ 0<br />

0<br />

[ϕ ∗ | T ] = α P ϑ0 -f.s.,<br />

ein gleichmäßig bester unverfälschter Test zum Niveau α von H 0 : ϑ 0 ϑ 0 0<br />

gegen H 1 : ϑ 0 > ϑ 0 0 (d.h. Θ 0 = {ϑ ∈ Θ | ϑ 0 ϑ 0 0 }, Θ 1 = {ϑ ∈ Θ | ϑ 0 > ϑ 0 0 }).<br />

4.14 Satz. Es liege die Situation des vorigen Satzes vor. Dann ist<br />

⎧<br />

⎪⎨ 1, falls U(x) < K 1 (T (x)) oder U(x) > K 2 (T (x))<br />

ϕ ∗ (x) = 0, falls U(x) ∈ (K 1 (T (x)), K 2 (T (x)))<br />

⎪⎩<br />

γ i (T (x)), falls U(x) = K i (T (x)), i = 1, 2,<br />

mit K i (t) ∈ R, γ i (t) ∈ [0, 1] derart, dass<br />

E ϑ 0<br />

0<br />

[ϕ ∗ | T ] = α und E ϑ 0<br />

0<br />

[Uϕ ∗ | T ] = α E ϑ 0<br />

0<br />

[U | T ]<br />

P ϑ0 -f.s.<br />

ein gleichmäßig bester unverfälschter Test zum Niveau α von H 0 : ϑ 0 = ϑ 0 0<br />

gegen H 1 : ϑ 0 ≠ ϑ 0 0 . 9


4.3 Tests <strong>im</strong> Normalverteilungsmodell<br />

4.15 Satz. Es sei X 1 , . . . , X n eine N(µ, σ 2 )-verteilte mathematische Stichprobe<br />

mit µ ∈ R und σ > 0 unbekannt. Für σ 0 > 0 ist ein gleichmäßig bester<br />

unverfälschter Test von H 0 : σ σ 0 gegen H 1 : σ > σ 0 zum Niveau α ∈ (0, 1)<br />

gegeben durch<br />

⎧<br />

⎨1, falls 1 ∑ n<br />

ϕ ∗ σ<br />

(X 1 , . . . , X n ) =<br />

0 2 i=1 (X i − ¯X) 2 > K α<br />

⎩0, falls 1 ∑ n<br />

σ0 2 i=1 (X i − ¯X) 2 K α<br />

mit dem α-Fraktil K α der χ 2 (n − 1)-Verteilung:<br />

∫ ∞<br />

K α<br />

2 −(n−1)/2<br />

Γ((n − 1)/2) z(n−1)/2−1 e −z/2 dz = α.<br />

4.16 Lemma. Sind Z 1 , . . . , Z n unabhängig N(0, σ 2 )-verteilt sowie f : R n →<br />

R messbar mit f(cx) = f(x) für alle c > 0, x ∈ R n , so ist f(Z 1 , . . . , Z n )<br />

unabhängig von ∑ n<br />

i=1 Z2 i . Insbesondere sind jeweils √P<br />

¯Z<br />

i (Z i− ¯Z) und √P<br />

¯Z<br />

2 i Z2 i<br />

unabhängig von ∑ n<br />

i=1 Z2 i .<br />

4.17 Satz. Es sei X 1 , . . . , X n eine N(µ, σ 2 )-verteilte mathematische Stichprobe<br />

mit µ ∈ R und σ > 0 unbekannt. Ein gleichmäßig bester unverfälschter Test von<br />

H 0 : µ = µ 0 gegen H 1 : µ ≠ µ 0 zum Niveau α ∈ (0, 1) ist gegeben durch den<br />

zweiseitigen t-Test<br />

ϕ ∗ (X) = 1 {|t(X)|>Kα/2 }, t(X) :=<br />

√<br />

1<br />

n−1<br />

√ n( ¯X − µ0 )<br />

∑ n<br />

i=1 (X i − ¯X)<br />

,<br />

2<br />

mit dem α/2-Fraktil K α/2 der t(n − 1)-Verteilung :<br />

∫ ∞<br />

K α/2<br />

Γ(n/2)<br />

(<br />

√ 1 + z2 ) −n/2dz<br />

= α/2.<br />

π(n − 1)Γ((n − 1)/2) n − 1<br />

4.18 Satz. Es werden zwei unabhängige mathematische Stichproben<br />

X 1 , . . . , X m ∼ N(µ, σ 2 ) und Y 1 , . . . , Y n ∼ N(ν, σ 2 ) beobachtet mit µ, ν ∈ R und<br />

σ > 0 unbekannt. Ein gleichmäßig bester unverfälschter Test von H 0 : µ = ν<br />

gegen H 1 : µ ≠ ν zum Niveau α ∈ (0, 1) ist gegeben durch<br />

ϕ ∗ (X, Y ) = 1 {|t(X,Y )|>Kα/2 },<br />

( 1 m<br />

mit t(X, Y ) :=<br />

+ 1 n )−1/2 (Ȳ √<br />

− ¯X)<br />

( ∑ m<br />

i=1 (X i − ¯X) 2 + ∑ n<br />

j=1 (Y j − Ȳ )2 )/(m + n − 2)<br />

und dem α/2-Fraktil K α/2 der t(m + n − 2)-Verteilung.<br />

4.19 Satz. Es werden zwei unabhängige mathematische Stichproben<br />

X 1 , . . . , X m ∼ N(µ, σ 2 ) und Y 1 , . . . , Y n ∼ N(ν, τ 2 ) beobachtet mit µ, ν ∈ R<br />

und σ, τ > 0 unbekannt. Für c 0 > 0 ist ein gleichmäßig bester unverfälschter<br />

10


Test von H 0 : τ 2 c 0 σ 2 gegen H 1 : τ 2 > c 0 σ 2 zum Niveau α ∈ (0, 1) gegeben<br />

durch<br />

ϕ ∗ (X, Y ) = 1 {c<br />

−1<br />

0 V (X,Y )>Kα},<br />

∑ n<br />

j=1<br />

mit V (X, Y ) :=<br />

(Y j − Ȳ )2 /(n − 1)<br />

∑ m<br />

i=1 (X i − ¯X) 2 /(m − 1)<br />

und dem α-Fraktil K α der F (n − 1, m − 1)-Verteilung:<br />

∫ ∞<br />

K α<br />

5 Schätztheorie<br />

Γ((m+n−2)/2)( n−1<br />

m−1 )(n−1)/2<br />

Γ((m−1)/2)Γ((n−1)/2)<br />

5.1 Momentenschätzer<br />

(1 + n−1<br />

m−1<br />

z (n−3)/2<br />

z)(m+n−2)/2<br />

dz = α.<br />

5.1 Definition. Es seien (X n , F ⊗n , (P ⊗n<br />

ϑ ) ϑ∈Θ) ein statistisches<br />

(Produkt-)Exper<strong>im</strong>ent mit X ⊆ R, F ⊆ B R und g(ϑ) mit g : Θ → R p<br />

ein abgeleiteter Parameter. Ferner sei ψ = (ψ 1 , . . . , ψ q ) : R → R q derart, dass<br />

ϕ(ϑ) := E ϑ [ψ] = (E ϑ [ψ j ]) j=1,...,q<br />

existiert. Gibt es nun eine Borel-messbare Funktion G : ϕ(Θ) → g(Θ) mit<br />

1<br />

∑<br />

G ◦ ϕ = g und liegt n<br />

n i=1 ψ(x i) in ϕ(Θ) für alle x 1 , . . . , x n ∈ X, so<br />

heißt G( 1 ∑ n<br />

n i=1 ψ(x i)) Momentenschätzer für g(ϑ) mit Momentenfunktionen<br />

ψ 1 , . . . , ψ q .<br />

5.2 Lemma. Existiert für hinreichend großes n der Momentenschätzer ĝ n =<br />

G( 1 n<br />

∑ n<br />

i=1 ψ(x i)) und ist G stetig, so ist ĝ n (stark) konsistent, d.h. l<strong>im</strong> n→∞ ĝ n =<br />

g(ϑ) P ϑ -f.s.<br />

5.3 Satz (∆-Methode). Es seien (X n ) eine Folge von Zufallsvektoren <strong>im</strong> R k ,<br />

σ n > 0, σ n → 0, ϑ 0 ∈ R k sowie Σ ∈ R k×k positiv definit und es gelte<br />

σn<br />

−1 (X n − ϑ 0 ) −→ d N(0, Σ).<br />

Ist f : R k → R in einer Umgebung von ϑ 0 stetig differenzierbar mit<br />

(∇f(ϑ 0 )) ⊤ Σ ∇f(ϑ 0 ) > 0, so folgt<br />

σ −1<br />

n (f(X n ) − f(ϑ 0 )) d −→ N(0, (∇f(ϑ 0 )) ⊤ Σ ∇f(ϑ 0 )).<br />

5.4 Satz. Es seien ϑ 0 ∈ Θ, g : Θ → R und für hinreichend großes n<br />

existiere der Momentenschätzer ĝ n = G( 1 ∑ n<br />

n i=1 ψ(x i)) mit Momentenfunktionen<br />

ψ j ∈ L 2 (P ϑ0 ), j = 1, . . . , q. Setze Σ(ϑ 0 ) := (Cov ϑ0 (ψ i , ψ j )) i,j=1,...,q .<br />

Sofern G in einer Umgebung von ϕ(ϑ 0 ) stetig differenzierbar ist mit σ 2 :=<br />

(∇G(ϕ(ϑ 0 ))) ⊤ Σ(ϑ 0 ) ∇G(ϕ(ϑ 0 )) > 0, ist ĝ n unter P ⊗n<br />

ϑ 0<br />

asymptotisch normalverteilt<br />

mit Rate n −1/2 und asymptotischer Varianz σ 2 :<br />

√ n(ĝn − g(ϑ 0 )) d −→ N(0, σ 2 ).<br />

11


5.2 Max<strong>im</strong>um-Likelihood- und M-Schätzer<br />

5.5 Definition. Es sei (X, F , (P ϑ ) ϑ∈Θ ) ein von µ dominiertes Exper<strong>im</strong>ent mit<br />

Likelihoodfunktion L(ϑ, x). Eine <strong>Statistik</strong> ˆϑ : X → Θ (Θ trage eine σ-Algebra<br />

F Θ ) heißt Max<strong>im</strong>um-Likelihood-Schätzer (MLE) von ϑ, falls L( ˆϑ(x), x) =<br />

sup ϑ∈Θ L(ϑ, x) für P ϑ -fast alle x ∈ X und alle ϑ ∈ Θ gilt.<br />

Mit l(ϑ, x) := log L(ϑ, x) wird die Loglikelihood-Funktion bezeichnet.<br />

5.6 Lemma. Für eine natürliche Exponentialfamilie (P ϑ ) ϑ∈Θ in T (x) ist der<br />

MLE ˆϑ <strong>im</strong>plizit gegeben durch die Momentengleichung E ˆϑ[T ] = T (x), vorausgesetzt<br />

der MLE existiert und liegt <strong>im</strong> Innern int(Θ) von Θ.<br />

5.7 Definition. Es sei (X n , F n , (P n ϑ ) ϑ∈Θ) n1 eine Folge statistischer Exper<strong>im</strong>ente.<br />

Eine Funktion K : Θ × Θ → R ∪{+∞} heißt Kontrastfunktion, falls<br />

ϑ ↦→ K(ϑ 0 , ϑ) ein eindeutiges Min<strong>im</strong>um bei ϑ 0 hat für alle ϑ 0 ∈ Θ. Eine Folge<br />

K n : Θ × X n → R ∪{+∞} heißt zugehöriger Kontrastprozess (oder bloß Kontrast),<br />

falls folgende Bedingungen gelten:<br />

(a) K n (ϑ, •) ist F n -messbar für alle ϑ ∈ Θ;<br />

(b) ∀ϑ, ϑ 0 ∈ Θ : K n (ϑ) Pn ϑ<br />

−−→<br />

0<br />

K(ϑ0 , ϑ) für n → ∞.<br />

Ein zugehöriger M-Schätzer (oder Min<strong>im</strong>um-Kontrast-Schätzer) ist gegeben<br />

durch ˆϑ n (x n ) := argmin ϑ∈Θ K n (ϑ, x n ) (sofern existent; nicht notwendigerweise<br />

eindeutig).<br />

5.8 Satz. Es sei (K n ) n1 ein Kontrastprozess <strong>zur</strong> Kontrastfunktion K. Dann<br />

ist der zugehörige M-Schätzer ˆϑ n konsistent für ϑ 0 ∈ Θ unter folgenden Bedingungen:<br />

(A1) Θ ist ein kompakter Raum;<br />

(A2) ϑ ↦→ K(ϑ 0 , ϑ) ist stetig und ϑ ↦→ K n (ϑ) ist P n ϑ 0<br />

-f.s. stetig;<br />

(A3) sup ϑ∈Θ |K n (ϑ) − K(ϑ 0 , ϑ)| Pn ϑ<br />

−−→<br />

0<br />

0.<br />

5.9 Satz. Es mögen die Annahmen (A1)-(A3) sowie Θ ⊆ R k und ϑ 0 ∈ int(Θ)<br />

gelten. Der Kontrastprozess K n sei zwe<strong>im</strong>al stetig differenzierbar in einer Umgebung<br />

von ϑ 0 (P n ϑ 0<br />

-f.s.), so dass mit<br />

U n (ϑ) := ∇ ϑ K n (ϑ) (Score),<br />

V n (ϑ) := ∇ 2 ϑ K n(ϑ)<br />

folgende Konvergenzen unter P n ϑ 0<br />

gelten:<br />

(a) √ nU n (ϑ 0 ) d −→ N(0, I(ϑ 0 )) mit I(ϑ 0 ) ∈ R k×k positiv definit.<br />

P n ϑ<br />

(b) Aus ϑ<br />

0<br />

n −−→ ϑ0 folgt V n (ϑ n ) Pn ϑ<br />

−−→<br />

0<br />

V (ϑ0 ) mit V (ϑ 0 ) ∈ R k×k regulär.<br />

Dann ist der M-Schätzer ˆϑ n asymptotisch normalverteilt. Genauer gilt unter<br />

P n ϑ 0<br />

:<br />

√ n( ˆϑn − ϑ 0 ) d −→ N(0, V (ϑ 0 ) −1 I(ϑ 0 )V (ϑ 0 ) −1 ).<br />

12


5.10 Satz. Ist Θ ⊆ R k kompakt, (X n (ϑ), ϑ ∈ Θ) n1 eine Folge stetiger Prozesse<br />

mit X n (ϑ) P −→ X(ϑ) für alle ϑ ∈ Θ und stetigem Grenzprozess (X(ϑ), ϑ ∈ Θ),<br />

so gilt max ϑ∈Θ |X n (ϑ)−X(ϑ)| −→ P 0 genau dann, wenn (X n ) straff ist, also wenn<br />

(<br />

)<br />

∀ε, η > 0 ∃δ > 0 : l<strong>im</strong> sup P<br />

n→∞<br />

|X n (ϑ 1 ) − X n (ϑ 2 )| ε η.<br />

sup<br />

|ϑ 1 −ϑ 2 |


5.4 Nichtparametrische Dichteschätzung<br />

5.14 Definition. Eine Funktion K : R → R heißt Kern (oder Kernfunktion),<br />

falls ∫ ∞<br />

−∞ K(x) = 1 und K ∈ L2 (R). Gilt<br />

∫ ∞<br />

−∞<br />

K(x)x p dx = 0, 1 p P,<br />

sowie ∫ |K(x)x P +1 |dx < ∞, so besitzt der Kern K die Ordnung P . Für h > 0<br />

setze K h (x) := h −1 K(h −1 x). Hierbei wird h als Bandweite bezeichnet.<br />

5.15 Definition. Für reellwertige Beobachtungen X 1 , . . . , X n bezeichnet<br />

ˆf h,n (x) = 1 n<br />

n∑<br />

K h (x − X i ),<br />

i=1<br />

x ∈ R<br />

den Kerndichteschätzer zu gegebenem Kern K mit Bandweite h > 0.<br />

5.16 Satz. Es sei X 1 , . . . , X n eine mathematische Stichprobe gemäß einer<br />

Dichte f. Gilt f ∈ C s (R) und besitzt der Kern K die Ordnung P s − 1,<br />

so gilt für das quadratische Risiko der Kerndichteschätzung<br />

∀ x 0 ∈ R : E f [( ˆf h,n (x 0 ) − f(x 0 )) 2 ] C(K, s)‖f (s) ‖ ∞ h s + ‖K‖ 2 L 2 ‖f‖ ∞ (nh) −1 ,<br />

wobei C(K, s) > 0 nur von K und s abhängt.<br />

5.17 Korollar. Setze für s 1, R > 0<br />

D(s, R) := {f : R → R + | f ∈ C s (R), ∫ f(x)dx = 1, max(‖f‖ ∞ , ‖f (s) ‖ ∞ ) R}.<br />

Dann erfüllt der Kerndichteschätzer mit einem Kern der Ordnung P s − 1<br />

und der Bandweite h(n) = Cn −s/(2s+1) , C > 0 beliebig, asymptotisch:<br />

∀ x 0 ∈ R : l<strong>im</strong> sup<br />

n→∞<br />

n 2s/(2s+1)<br />

sup<br />

f∈D(s,R)<br />

E f [( ˆf n,h(n) (x 0 ) − f(x 0 )) 2 ] < ∞.<br />

Insbesondere ergeben sich die Konvergenzraten n −2/3 (s=1), n −4/5 (s=2) sowie<br />

als Grenzwert für s → ∞ die parametrische Rate n −1 für das quadratische<br />

Risiko.<br />

14

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!