Die asymptotische Verteilung des Likelihood-Quotienten-Tests für ...
Die asymptotische Verteilung des Likelihood-Quotienten-Tests für ...
Die asymptotische Verteilung des Likelihood-Quotienten-Tests für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>Die</strong> <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong><br />
<strong>Likelihood</strong>-<strong>Quotienten</strong>-<strong>Tests</strong> <strong>für</strong><br />
allgemeine Hypothesenräume<br />
Diplomarbeit<br />
vorgelegt von<br />
Matthias Mielke<br />
aus Uslar<br />
angefertigt im<br />
Institut <strong>für</strong> Mathematische Stochastik<br />
der Georg-August-Universität Göttingen<br />
2006
Inhaltsverzeichnis<br />
1 Einleitung 3<br />
2 Notationen und Grundlagen 7<br />
2.1 Notationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />
2.2 Modelle und Bedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />
2.3 <strong>Likelihood</strong>-<strong>Quotienten</strong>-Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />
2.4 Approximation zweier Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />
3 Nicht-Unterlegenheitstests im 2-Stichprobenfall unter Normalverteilung 17<br />
3.1 Modell und Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />
3.2 <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test und t-Statistiken . . . . . . . . . . . . . . . . . . 18<br />
3.3 Power- und Fallzahlberechnungen . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />
3.3.1 Rechenprobleme und Approximationen <strong>für</strong> große Stichproben . . . . . 25<br />
4 Asymptotik <strong>des</strong> ML-Schätzers 29<br />
4.1 Asymptotische Normalität <strong>des</strong> ML-Schätzers im 1-Stichprobenfall . . . . . . . 29<br />
4.2 Asymptotische Normalität <strong>des</strong> ML-Schätzers im k-Stichprobenfall . . . . . . . 33<br />
4.3 Asymptotik <strong>des</strong> eingeschränkten ML-Schätzers . . . . . . . . . . . . . . . . . 35<br />
5 Asymptotische <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik auf dem Rand<br />
der Hypothese 41<br />
5.1 Asymptotische <strong>Verteilung</strong> nach Chernoff <strong>für</strong> den k-Stichprobenfall . . . . . . 41<br />
5.2 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46<br />
6 Asymptotische <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik unter fester<br />
Alternative 49<br />
6.1 Asymptotik im 1-Stichprobenfall . . . . . . . . . . . . . . . . . . . . . . . . . 49<br />
6.2 Asymptotik im k-Stichprobenfall . . . . . . . . . . . . . . . . . . . . . . . . . 55<br />
6.3 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />
6.3.1 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />
7 Asymptotische Fallzahlplanung beim <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test 67<br />
8 Ausblick 71<br />
A Verwendete Sätze 73
Kapitel 1<br />
Einleitung<br />
Ziel von klinischen Studien ist es, die Wirksamkeit einer neuen Therapiemethode anhand eines<br />
klinischen Kriteriums nachzuweisen. Mögliche Kriterien sind zum Beispiel die Sterbewahrscheinlichkeit<br />
der Patienten oder die Reduzierung von Schmerzen. Eine klassische Methode<br />
ist die Überlegenheit einer Therapie gegenüber eines Placebos und somit die Wirkung der<br />
Therapie nachzuweisen. <strong>Die</strong> Verwendung von Placebos in der Kontrollgruppe führt bei einigen<br />
Indikationen und Krankheiten zu ethischen Problemen. So konstatiert die World Medical<br />
Association in ihrer Erklärung von Helsinki, siehe WMA: ”<br />
The benefits, risks, burdens and<br />
effectiveness of a new method should be tested against those of the best current prophylactic,<br />
diagnostic, and therapeutic methods. This does not exclude the use of placebo, or no<br />
treatment, in studies where no proven prophylactic, diagnostic or therapeutic method exists.“<br />
Daher ist es heutzutage üblich eine neue Therapie mit einer etablierten Standardtherapie zu<br />
vergleichen, was oftmals kleinere Unterschiede zwischen der neuen Therapie und der Kontrolltherapie<br />
impliziert. Um diese Unterschiede mit einer vorgegebenen Wahrscheinlichkeit (der so<br />
genannten Power) nachzuweisen, wird folglich eine vergleichsweise große Anzahl von Patienten<br />
benötigt. Aus diesem Grund ist es in dem letzten Jahrzehnt zunehmend populär geworden,<br />
die Gleichwertigkeit von einer neuen Therapie und einem etablierten Standard und nicht<br />
die Überlegenheit nachzuweisen. Genauer will man im Allgemeinen die Nicht-Unterlegenheit<br />
(englisch: Non-Inferiority) der neuen Therapie zeigen. Nicht-Unterlegenheit bedeutet, dass<br />
die neue Therapie besser oder nur unbedeutend schlechter ist als die etablierte Standardtherapie.<br />
Hierzu sind neben der Pionierarbeit von Dunnett und Gent (1977) zum Beispiel<br />
Arbeiten von Blackwelder (1982), Farrington und Manning (1990), Chan (1998), Röhmel<br />
und Mansmann (1999), Pigeot u. a. (2003) sowie von Tang und Tang (2004) zu finden. Ein<br />
weiterer Aspekt <strong>für</strong> die Fokussierung auf Nicht-Unterlegenheitstests ist im Fortschritt der<br />
medizinischen Entwicklungsabteilungen zu sehen, der es zunehmend schwieriger macht neue<br />
pharmazeutische Produkte mit besserer Wirkung hinsichtlich <strong>des</strong> eingangs erwähnten klinischen<br />
Kriteriums zu entwickeln. Der therapeutische Fortschritt ist in leichterer Handhabung,<br />
weniger oder schwächeren Nebenwirkungen oder in geringeren finanziellen Aufwendungen zu<br />
sehen. Mit Nicht-Unterlegenheitstests lässt sich dann eine hinreichende Wirkung hinsichtlich<br />
<strong>des</strong> klinischen Primärkriteriums sicherstellen.<br />
Im Folgenden wird die statistische Formulierung <strong>des</strong> Nicht-Unterlegenheitsproblems skizziert.<br />
Zunächst ist dabei ein Diskrepanzmaß, das den Unterschied zweier therapeutischer Effekte<br />
quantifiziert, zu wählen. Zur Quantifizierung eines therapeutischen Effekts ist die Verwendung<br />
3
4 Kaptitel 1: Einleitung<br />
von Lokationsmaßen, wie dem Mittelwert oder dem Median von diskreten und stetigen Kriterien,<br />
üblich. Folglich sind Diskrepanzmaße, wie Differenz der Mittelwerte, standardisierte<br />
Differenz der Mittelwerte oder Quotient der Mittelwerte, geläufig. Bezeichne δ ein Diskrepanzmaß<br />
so, dass δ > 0 im Fall von additiver Diskrepanz (z.B. Differenz der Mittelwerte)<br />
und δ > 1 im Fall von multiplikativer Diskrepanz (z.B. Quotient der Mittelwerte) zur Unterlegenheit<br />
von der Testtherapie gegenüber der Referenztherapie korrespondiert, dann ist die<br />
Hypothese <strong>des</strong> Nicht-Unterlegenheitstests mit Nicht-Unterlegenheitsmarge ∆ gegeben durch<br />
H 0 : δ ≥ ∆ vs. H 1 : δ < ∆ . (1.1)<br />
<strong>Die</strong> Nicht-Unterlegenheitsmarge ∆ ist die negative Abweichung der Testtherapie gegenüber<br />
der Referenztherapie, die aus klinischen Gesichtspunkten noch akzeptabel ist. Für die Differenz<br />
und die standardisierte Differenz der Mittelwerte gilt <strong>für</strong> δ = 0 Gleichheit der beiden<br />
Gruppen und folglich wird ∆ > 0 gewählt. Da <strong>für</strong> den <strong>Quotienten</strong> der Mittelwerte bei δ = 1<br />
Gleichheit gilt, wird hier entsprechend ∆ > 1 gewählt. Es findet aktuell eine umfassende Diskussion<br />
über die Spezifizierung der Nicht-Unterlegenheitsmarge statt. Eine allgemeine Regel<br />
kann hier jedoch nicht formuliert werden. <strong>Die</strong> Marge hängt von klinischen Aspekten wie der<br />
Indikation oder dem Kriterium ab und ist somit von entsprechenden Spezialisten oder anhand<br />
früherer klinischer Studien zu bestimmen. Ein Überblick über die aktuelle Diskussion wird<br />
zum Beispiel von Lange und Freitag (2005) gegeben. <strong>Die</strong> Fragestellung der Spezifizierung der<br />
Nicht-Unterlegenheitsmarge soll hier jedoch nicht weiter verfolgt werden.<br />
Wird die Spezifizierung <strong>des</strong> Testproblems als gegeben angenommen, umfasst der nächste<br />
Schritt die Planung der Stichprobenumfänge in Test- und Referenzgruppe. Hierbei ist aus<br />
ökonomischer Sicht eine Reduzierung <strong>des</strong> Gesamtstichprobenumfangs anzustreben. Dem entgegen<br />
steht die Anforderung, den Fehler zweiter Art unter einem vorgegebenen Niveau zu<br />
halten. Da<strong>für</strong> müssen die Stichprobenumfänge so groß zu gewählt werden, dass eine vorgegebene<br />
Power (1 − Fehler zweiter Art) erreicht wird. Es stellt sich die Frage, ob die Stichprobenaufteilung<br />
in die beiden Gruppen Einfluss auf den benötigten Gesamtstichprobenumfang<br />
nimmt. Wenn ja, welche Aufteilung führt zum minimal benötigten Gesamtstichprobenumfang?<br />
Um eine Fallzahlplanung durchführen zu können, wird die <strong>Verteilung</strong> der <strong>Tests</strong>tatistik<br />
unter der Hypothese H 0 und unter der Alternative H 1 benötigt. In Kapitel 3 werden exemplarisch<br />
<strong>für</strong> zwei normalverteilte Stichproben exakte Nicht-Unterlegenheitstests <strong>für</strong> die oben<br />
erwähnten, geläufigen Dispkrepanzmaße konstruiert und die Fallzahlplanung diskutiert. Es<br />
werden Fallzahlformeln zur Bestimmung der minimal benötigten Fallzahlen angegeben und<br />
optimale Fallzahlaufteilungen auf die Stichproben berechnet.<br />
<strong>Die</strong> präsentierten Fragestellungen zur Planung eines Nicht-Unterlegenheitstests stellen zusammen<br />
mit der Tatsache, dass sich nicht bei allen Testproblemen <strong>Tests</strong>tatistiken mit bekannten<br />
<strong>Verteilung</strong>en unter der Hypothese H 0 und unter der Alternative H 1 finden lassen, die Motivation<br />
<strong>für</strong> das Kernstück dieser Arbeit dar. Als Lösung hierzu wird der <strong>Likelihood</strong>-<strong>Quotienten</strong>-<br />
Test betrachtet, der <strong>für</strong> parametrische Familien von <strong>Verteilung</strong>en eine Methode bereitstellt,<br />
auf Parameterkonstellationen zu testen. Ziel ist es <strong>für</strong> allgemeine Hypothesenräume die <strong>asymptotische</strong><br />
<strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik unter der Hypothese und der Alternative<br />
zu berechnen und so die Konstruktion eines Testes sowie eine Fallzahlplanung zu<br />
ermöglichen. <strong>Die</strong> Arbeit beschränkt sich nicht auf den Zwei-Stichprobenfall, sondern betrachtet<br />
allgemeine Hypothesenräume, die Teilmengen eines gemeinsamen Parameterraumes von k
5<br />
unabhängigen Stichproben sind. Entscheidend ist hierbei, dass die Fallzahlen in den einzelnen<br />
Stichproben nicht von gleicher Größe sein müssen.<br />
Ein klassisches Resultat von Wilks (1938) zur <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> λ unter<br />
der Hypothese ist das folgende. Wenn die Hypothese, dass der Parameter θ in einer<br />
r-dimensionalen Hyperebene <strong>des</strong> d-dimensionalen Paramterraumes liegt, wahr ist, so gilt <strong>für</strong><br />
den <strong>Likelihood</strong>-<strong>Quotienten</strong> λ, dass −2 log λ asymptotisch χ 2 -verteilt mit d−r Freiheitsgraden.<br />
Für viele wichtige Probleme sind die Hypothesen nicht vom obigen Typ. So wird in dieser<br />
Arbeit die <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> auf dem Rand einer allgemeinen Hypothese<br />
basiernd auf Chernoff (1954) bzw. der weiterführenden Arbeit von Self und Liang (1987)<br />
untersucht. Zur <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong>s unter der Alternative wird nicht wie<br />
üblich eine lokale Alternative (siehe zum Beispiel Feder (1968)), sondern eine feste Alternative<br />
betrachtet, d.h. die Stichproben folgen unabhängig vom Stichprobenumfang einer zum festen<br />
Parameter θ (0) gehörigen <strong>Verteilung</strong>.<br />
In Kapitel 2 werden die in der Arbeit verwendeten Notationen, Modelle und Bedingungen<br />
eingeführt und einige theoretische Grundlagen bereitgestellt. In Kapitel 3 werden, wie bereits<br />
oben erwähnt, exemplarisch <strong>für</strong> zwei normalverteilte Stichproben exakte Nicht-Unterlegenheitstests<br />
konstruiert und die Fallzahlplanung diskutiert.<br />
Der Kernteil der Arbeit ist wie folgt aufgebaut: im Kapitel 4 werden theoretische Grundlagen<br />
zur Asymptotik <strong>des</strong> Maximum-<strong>Likelihood</strong>-Schätzers (ML-Schätzers) gelegt. <strong>Die</strong>se umfassen<br />
klassische Resultate zur <strong>asymptotische</strong>n Normalität <strong>des</strong> uneingeschränkten ML-Schätzers im<br />
Ein- und im k-Stichprobenfall sowie die Konvergenz <strong>des</strong> auf die Hypothese H 0 eingeschränkten<br />
ML-Schätzers.<br />
In Kapitel 5 wird die <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong>s λ auf dem Rand<br />
der Hypothese H 0 untersucht. Dazu wird die Arbeit von Chernoff (1954) auf den k-Stichprobenfall<br />
mit ungleichen Fallzahlen in den einzelnen Stichproben verallgemeinert. So wird <strong>für</strong> k unabhängige<br />
Stichproben die <strong>asymptotische</strong> <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik auf<br />
die <strong>asymptotische</strong> <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik unter einer normalverteilten<br />
Zufallsvariablen zurückgeführt. Hierbei wird vorausgesetzt, dass die Fallzahlen der einzelnen<br />
Stichproben asymptotisch von gleicher Ordnung sind und die Hypothese durch einen Kegel (in<br />
der Arbeit: positiv homogene Menge) approximiert werden kann. Das Kapitel wird durch eine<br />
Anwendung der Resultate auf den Zwei-Stichprobenfall mit einer Hypothese, die durch einen<br />
Halbraum approximiert werden kann, abgeschlossen. In diesem Fall folgt die <strong>asymptotische</strong><br />
<strong>Verteilung</strong> von −2 log λ auf dem Rand der Hypothese einer 1 2 + 1 2 χ2 1 -<strong>Verteilung</strong>.<br />
In Kapitel 6 wird die <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong>s unter einer festen<br />
Alternative θ 0 im k-Stichprobenfall untersucht. Hierbei wird gezeigt, dass der auf die Hypothese<br />
H 0 eingeschränkte ML-Schätzer mit Rate √ n gegen den Parameterwert, der den Kullback-<br />
Leibler-Abstand bzw. im k-Stichprobenfall den modifizierten Kullback-Leibler-Abstand zum<br />
wahren Wert θ 0 minimiert, konvergiert. Hierauf basierend wird die <strong>asymptotische</strong> Normalität<br />
<strong>des</strong> Logarithmus der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik unter fester Alternative hergeleitet. <strong>Die</strong><br />
gewonnenen Resultate werden exemplarisch auf den Nicht-Unterlegenheitstest unter zwei normalverteilten<br />
Stichproben und der Mittelwertdifferenz als Diskrepanzmaß angewandt.
6 Kaptitel 1: Einleitung<br />
<strong>Die</strong> Arbeit wird durch eine Diskussion zur <strong>asymptotische</strong>n Fallzahlplanung in Kapitel 7 abgeschlossen.<br />
Hier wird skizziert, wie die Resultate dieser Arbeit genutzt werden können, um<br />
<strong>für</strong> allgemeine Hypothesen einen <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test zu konstruieren und eine Fallzahlplanung<br />
durchzuführen.<br />
Zuletzt soll betont werden, dass der Schwerpunkt dieser Arbeit auf der Herausarbeitung<br />
und Bereitstellung der theoretischen Resultate liegt. Dementsprechend sind die aufgeführten<br />
Beispiele von einfacher und kompakter Natur. Sie dienen primär dazu, die Anwendung der<br />
gewonnenen theoretischen Resultate zu demonstrieren und sind nur exemplarisch an praktische<br />
Fragestellungen angelehnt. Im Gegenzug werden die Resultate unter allgemeinen und<br />
nicht sehr restriktiven Bedingungen bereitgestellt. Der allgemeine Anwendungsbezug wird<br />
schließlich im Rahmen eines Ausblickes in Kapitel 8 aufgezeigt.
Kapitel 2<br />
Notationen und Grundlagen<br />
In diesem Kapitel werden die in der Arbeit verwendeten Notationen, Modelle und Bedingungen<br />
eingeführt und einige theoretische Grundlagen bereitgestellt.<br />
2.1 Notationen<br />
Ableitungen<br />
Für X ⊆ R m ,Y ⊆ R k und eine Funktion f : X × Y → R bezeichne<br />
d<br />
f(x, y)<br />
dy<br />
die partielle Ableitung in Richtung y und entsprechend<br />
d m<br />
f(x, y)<br />
dym die m-te partielle Ableitung in Richtung y <strong>für</strong> m = 2, . . . .<br />
<strong>Likelihood</strong>funktion, ML-Schätzer, Score, Fisher-Information<br />
Seien X 1 , . . . , X n unabhängig, identisch verteilte Zufallsvariablen mit Dichte f(x, θ) bezüglich<br />
einem σ-endlichen Maß ν und Θ ⊆ R d der Parameterraum, dann bezeichne<br />
L n (θ) = L n (X 1 , . . . , X n , θ) =<br />
die <strong>Likelihood</strong>funktion und entsprechend<br />
n∏<br />
f(X i , θ)<br />
i=1<br />
l n (θ) = log L n (θ) =<br />
n∑<br />
log f(X i , θ)<br />
i=1<br />
die log-<strong>Likelihood</strong>funktion. Existiert (d 2 /dθ 2 )f(x, θ) und ist stetig, definieren wir<br />
U(x, θ) =<br />
( d<br />
dθ log f(x, θ) ) T<br />
,<br />
7
8 Kapitel 2: Notationen und Grundlagen<br />
den so genannten Scorevektor und<br />
W (x, θ) = d2<br />
log f(x, θ).<br />
dθ2 Für eine Zufallsvariable X mit Dichte f(x, θ) wird der Erwartungswert als<br />
∫<br />
E θ X := xf(x, θ) dν(x)<br />
eingeführt. <strong>Die</strong> Fisher-Informationsmatrix von X ist gegeben durch<br />
Ein Schätzer ˆθ n , der die Bedingung<br />
J(θ) = E θ [U(X, θ) · U(X, θ) T ].<br />
L n (ˆθ n ) = sup L n (θ) (2.1)<br />
θ∈Θ<br />
erfüllt, heißt Maximum-<strong>Likelihood</strong>-Schätzer (ML-Schätzer). ˆθ n bezeichne in der gesamten Arbeit<br />
stets den ML-Schätzer. Aufgrund der Monotonie <strong>des</strong> Logarithmus ist Bedingung (2.1)<br />
äquivalent zu<br />
l n (ˆθ n ) = sup l n (θ).<br />
θ∈Θ<br />
Weiter bezeichne ˆθ M n<br />
den auf eine Menge M ⊆ Θ eingeschränkten ML-Schätzer, d.h.<br />
ˆθ M n<br />
= arg sup L n (θ). (2.2)<br />
θ∈M<br />
Für k unabhängige Stichproben X 1 , . . . , X k , wobei X i = (X i1 , . . . , X ini ) mit<br />
X i1 , . . . , X ini<br />
i.i.d.<br />
∼ f i (x, θ i )<br />
<strong>für</strong> i = 1, . . . , k, wird die <strong>Likelihood</strong>funktion definiert als<br />
L n (θ) =<br />
k∏ ∏n i<br />
f i (X ij , θ i )<br />
i=1 j=1<br />
mit θ = (θ 1 , . . . , θ k ). Hierbei ist also die Gewichtung gewählt, dass alle Beobachtungen gleich<br />
gewichtet werden. Es wären zum Beispiel auch unterschiedliche Gewichte <strong>für</strong> die jeweiligen<br />
Stichproben möglich. <strong>Die</strong> Definitionen <strong>für</strong> die log-<strong>Likelihood</strong>funktion und den ML-Schätzer,<br />
sowie <strong>für</strong> den eingeschränkten ML-Schätzer übertragen sich entsprechend.<br />
Normen<br />
‖·‖<br />
‖·‖ 1<br />
euklidische Norm auf R d<br />
L 1 -Norm auf R d
2.1. Notationen 9<br />
Matrizen<br />
Für i = 1, . . . , k und beliebige Matrizen B i wird<br />
⎛<br />
⎞<br />
B 1 0 · · · 0<br />
.<br />
diag (B 1 , . . . , B k ) =<br />
0 B .. 2 .<br />
⎜<br />
⎝<br />
.<br />
. .. . ..<br />
⎟ 0 ⎠<br />
0 · · · 0 B k<br />
definiert.<br />
Für eine beliebige Matrix B sei [B] lm der Eintrag aus der l-ten Zeile und der m-ten Spalte<br />
der Matrix B.<br />
Konvergenzen<br />
Sei (X n ) n∈N<br />
eine Folge von Zufallsvektoren, dann konvergiert die Folge fast sicher gegen X,<br />
falls<br />
P (‖X n − X‖ n→∞ −→ 0) = 1,<br />
und man schreibt X n<br />
a.s.<br />
−→ X. <strong>Die</strong> Folge (X n ) n∈N<br />
konvergiert in Wahrscheinlichkeit gegen X,<br />
falls <strong>für</strong> alle ε > 0<br />
P (‖X n − X‖ > ε) n→∞ −→ 0,<br />
P<br />
und man schreibt X n −→ X. <strong>Die</strong> Folge (X n ) n∈N<br />
konvergiert in <strong>Verteilung</strong> gegen X, falls <strong>für</strong><br />
alle Stetigkeitspunkte x von F (x) gilt<br />
und man schreibt X n<br />
Landau-Symbole<br />
F n (x) = P (X n ≤ x) n→∞ −→ P (X ≤ x) = F (x),<br />
D −→ X.<br />
Für zwei deterministische Folgen (a n ) n∈N<br />
, (b n ) n∈N<br />
, b n ≠ 0, schreibt man<br />
und<br />
a n = o(b n ) :⇐⇒ a n<br />
b n<br />
n→∞<br />
−→ 0<br />
a n = O(b n ) :⇐⇒ 0 ≤ lim sup<br />
n→∞<br />
a n<br />
b n<br />
< ∞.<br />
Für zwei Folgen von Zufallsvariablen (X n ) n∈N<br />
, (Y n ) n∈N<br />
, P (Y n ≠ 0) = 1, schreibt man<br />
und<br />
X n = o p (Y n ) :⇐⇒ X n<br />
Y n<br />
P −→ 0<br />
X n = O p (Y n ) :⇐⇒ ∀ ε > 0 ∃ M , so dass sup<br />
n<br />
P<br />
(∥ ∥ )<br />
∥∥∥ X n ∥∥∥<br />
> M < ε.<br />
Y n
10 Kapitel 2: Notationen und Grundlagen<br />
Somit bezeichnet o p (1) die Konvergenz gegen null in Wahrscheinlichkeit und O p (1) die stochastische<br />
Beschränktheit einer Folge von Zufallsvariablen.<br />
Impliziert X n = O(Y n ), dass X n = O(Z n ) gilt, so schreibt man<br />
X n = O(Y n ) = O(Z n ).<br />
O(·) kann durch o(·), O p (·) oder o p (·) ersetzt werden. Zum Beispiel ist X n = o p (Y n ) = O p (Y n )<br />
stets gültig.<br />
2.2 Modelle und Bedingungen<br />
Modelle<br />
Wird im Folgenden vom 1-Stichprobenfall gesprochen, liegt das 1-Stichprobenmodell zugrunde<br />
und <strong>für</strong> den k-Stichprobenfall entsprechend das k-Stichprobenmodell.<br />
1-Stichproben-Modell: Es sei (f(x, θ)) θ∈Θ<br />
eine Familie von Wahrscheinlichkeitsdichten<br />
bezüglich einem σ-endlichen Maß ν mit Θ ⊆ R d . X 1 , . . . , X n seien unabhängig, identisch<br />
verteilte Zufallsvariablen mit Dichte f(x, θ (0) ).<br />
k-Stichproben-Modell: Für i = 1, . . . , k sei (f i (x, θ i )) θi ∈Θ i<br />
eine Familie von Wahrscheinlichkeitsdichten<br />
bezüglich einem σ-endlichen Maß ν mit Θ i ⊆ R d . X 1 , . . . , X k seien unabhängige<br />
Stichproben, wobei X i = (X i1 , . . . , X ini ) mit<br />
X i1 , . . . , X ini<br />
i.i.d.<br />
∼ f i (x, θ (0)<br />
i<br />
).<br />
Der gemeinsame Parameterraum ist gegeben durch<br />
Θ = Θ 1 × . . . × Θ k ⊆ R kd .<br />
Weiter bezeichne n = ∑ k<br />
i=1 n i die Summe der Fallzahlen aus allen k Stichproben.<br />
Bedingungen<br />
Für die Dichte f(x, θ) bezüglich einem σ-endlichen Maß ν einer Zufallsvariablen und θ (0) ,<br />
dem wahren Wert <strong>des</strong> Parameters θ, werden die Regularitätsbedingungen R definiert.<br />
Bedingungen R: Es gelte:<br />
(a) Der Parameterraum Θ ist offene Teilmenge <strong>des</strong> R d .<br />
(b) <strong>Die</strong> dritten partiellen Ableitungen von f(x, θ) bezüglich θ existieren und sind stetig <strong>für</strong><br />
alle x. Es gilt<br />
d m ∫<br />
∫ d<br />
m<br />
dθ m f(x, θ) dν(x) = f(x, θ) dν(x)<br />
dθm <strong>für</strong> m = 1, 2, 3.<br />
(c) Es existiert eine Funktion K(x) mit E θ (0)|K(X)| < ∞, so dass die Norm von d/dθ W (x, θ)<br />
gleichmäßig in einer Umgebung B θ (0) von θ (0) durch K(x) beschränkt ist.
2.2. Modelle und Bedingungen 11<br />
(d) J(θ (0) ) ist endlich und positiv definit.<br />
(e) f(x, θ) = f(x, θ (0) ) ν − f.s.<br />
⇒ θ = θ (0) [Identifizierbarkeit].<br />
(f) Für alle x und <strong>für</strong> (θ n ) n∈N ⊂ Θ mit lim n→∞ ‖ θ n ‖= ∞ gelte<br />
lim f(x, θ n) = 0<br />
n→∞<br />
Im k-Stichprobenfall sind die Regularitätsbedingungen R erfüllt, wenn <strong>für</strong> i = 1, . . . , k die<br />
Regularitätsbedingungen R <strong>für</strong> die Dichte f i (x, θ i ) erfüllt ist.<br />
Bemerkung 2.1. <strong>Die</strong> Bedingung R (b) kann mit Hilfe <strong>des</strong> Satzes von der majorisierten<br />
Konvergenz (auch: Satz von Lebesque) diskutiert werden. Siehe hierzu zum Beispiel Ferguson<br />
(1996, S.124).<br />
<strong>Die</strong> folgende Bedingung F stellt sicher, dass beim k-Stichprobenfall die Fallzahlen asymptotisch<br />
von gleicher Ordnung sind.<br />
Bedingung F: Für alle i = 1, . . . , k existiert ein c i mit 0 < c i < 1, sodass<br />
n i<br />
n −→ c i. (2.3)
12 Kapitel 2: Notationen und Grundlagen<br />
2.3 <strong>Likelihood</strong>-<strong>Quotienten</strong>-Prinzip<br />
Das <strong>Likelihood</strong>-<strong>Quotienten</strong>-Prinzip stellt <strong>für</strong> parametrische Familien von <strong>Verteilung</strong>en eine<br />
Methode bereit, um auf Parameterkonstellationen zu testen. Ein LQ-Test <strong>für</strong> unabhängig,<br />
identisch verteilte Zufallsvariablen lässt sich wie folgt konstruieren. X 1 , . . . , X n seien unabhängige,<br />
identisch verteilte Zufallsvariablen mit Dichte f im stetigen Fall, bzw. Wahrscheinlichkeitsfunktion<br />
f im diskreten Fall. Angenommen, f hängt vom Parameter θ ∈ R d<br />
ab, dann ist die <strong>Likelihood</strong>funktion <strong>für</strong> feste Stichprobe x 1 , . . . , x n gegeben durch<br />
L n (θ) =<br />
n∏<br />
f(x i , θ).<br />
i=1<br />
Es sei ein Testproblem H 0 : θ ∈ Θ 0 vs. H 1 : θ ∈ Θ 1 mit disjunkter Hypothese und Alternative<br />
und Θ = Θ 0 ∪ Θ 1 angenommen, dann ist der <strong>Likelihood</strong>-Quotient gegeben durch<br />
λ n = sup θ∈Θ 0<br />
L n (θ)<br />
sup θ∈Θ L n (θ) .<br />
Im Folgenden wird λ = λ 1 verwendet. Wenn der unbekannte wahre Wert im Parameterraum<br />
der Hypothese liegt, wird der <strong>Likelihood</strong>-Quotient <strong>für</strong> wachsen<strong>des</strong> n gegen 1 gehen,<br />
sonst gegen 0. Somit kann der <strong>Likelihood</strong>-Quotient als konsistente <strong>Tests</strong>tatistik <strong>für</strong> das oben<br />
genannte Testproblem verwendet werden. In einigen Fällen kann die exakte <strong>Verteilung</strong> <strong>des</strong><br />
<strong>Likelihood</strong>-<strong>Quotienten</strong> unter der Hypothese bestimmt werden. In anderen Fällen bestimmt<br />
man die <strong>asymptotische</strong> <strong>Verteilung</strong> von −2 log λ n . Hierbei ist die Approximation durch die<br />
<strong>asymptotische</strong> <strong>Verteilung</strong> <strong>für</strong> kleine Stichproben zu überprüfen, ob diese zu zufrieden stellenden<br />
Ergebnissen führen, d.h. das Niveau also eingehalten wird.<br />
Das <strong>Likelihood</strong>-<strong>Quotienten</strong>-Prinzip überträgt sich in analoger Weise auf k unabhängige Stichproben.<br />
<strong>Die</strong> <strong>Likelihood</strong>funktion ist dann das Produkt der <strong>Likelihood</strong>funktionen der einzelnen<br />
Stichproben und der Hypothesenraum ist Teilmenge <strong>des</strong> gemeinsamen Parameterraumes.<br />
Beispiel 2.2 (Normalverteilung). Seien die Beobachtungen multivariat normal verteilt<br />
mit Erwartungswert θ ∈ R d und bekannter Kovarianzmatrix Σ. Der empirische Mittelwert ¯X<br />
ist nach Brown (1986, Kapitel 1) eine suffiziente Statistik <strong>für</strong> θ. Da ¯X ∼ N (θ, n −1 Σ) gilt, ist<br />
es somit ausreichend, den Fall mit Stichprobenumfang 1 zu behandeln. Sei also x Beobachtung<br />
von X ∼ N (θ, Σ), dann gilt<br />
P Θ (x) := sup<br />
θ∈Θ<br />
(2π) −d/2 (det Σ) −1/2 e − 1 2 (x−θ)T Σ −1 (x−θ)<br />
= (2π) −d/2 (det Σ) −1/2 e −K Θ(x)/2 ,<br />
wobei K Θ (x) = inf θ∈Θ (x − θ) T Σ −1 (x − θ). Deshalb erhält man folgende vereinfachte Darstellung<br />
<strong>für</strong> den <strong>Likelihood</strong>-<strong>Quotienten</strong><br />
−2 log λ(x) = −2 log P Θ 0<br />
(x)<br />
P Θ (x)<br />
= K Θ0 (x) − K Θ (x).
2.4. Approximation zweier Mengen 13<br />
2.4 Approximation zweier Mengen<br />
Im Folgenden wird definiert, was unter der gegenseitigen Approximation von zwei Mengen zu<br />
verstehen ist. <strong>Die</strong> Definition ist symmetrisch in dem Sinne, dass die Rollen von der approximierten<br />
und der approximierenden Menge vertauscht werden können. <strong>Die</strong> Definition von der<br />
gegenseitigen Approximation ist so, dass die beiden Mengen beim Punkt a ∈ R d bzw. bei<br />
Annäherung an diesen Punkt nahezu ”<br />
identisch“ sind.<br />
Definition 2.3. Eine Menge M ist positiv homogen, wenn θ ∈ M ⇒ aθ ∈ M <strong>für</strong> ∀a > 0 gilt.<br />
Definition 2.4. <strong>Die</strong> Menge M ⊆ R d wird in a ∈ R d durch die Menge C M ⊆ R d approximiert,<br />
wenn<br />
und<br />
inf ‖ x − y ‖ = o(‖ y − a ‖) <strong>für</strong> y ∈ M, y → a<br />
x∈C M<br />
inf ‖ x − y ‖ = o(‖ x − a ‖) <strong>für</strong> x ∈ C M, x → a<br />
y∈M<br />
gilt. Man sagt, M wird durch C M approximiert, wenn M durch C M im Nullpunkt approximiert<br />
wird.<br />
Beispiel 2.5. <strong>Die</strong> Menge {(x, √ x) : x ∈ R} ⊆ R 2 wird durch die Menge {(0, x) : x ∈ R} im<br />
Nullpunkt approximiert, aber nicht durch {(x, 0) : x ∈ R}.<br />
Bemerkung 2.6. (a) Nach Definition ist a Häufungspunkt von M.<br />
(b) Kann die Menge M in a durch eine positiv homogene Menge, ungleich <strong>des</strong> gesamten<br />
Raumes, approximiert werden, so ist a Randpunkt der Menge M.<br />
(c) In Kapitel 5 zur <strong>asymptotische</strong>n <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik wird die<br />
zu approximierende Menge der Parameterraum der Hypothese bzw. der gesamte Parameterraum<br />
sein. <strong>Die</strong> Menge soll im Nullpunkt durch eine positiv homogene Menge approximiert<br />
werden können. <strong>Die</strong>ses ist zum Beispiel dann möglich, wenn die zu approximierende Menge<br />
durch eine glatte, den Nullpunkt enthaltende Fläche begrenzt wird. <strong>Die</strong> Menge wird dann<br />
durch die tangentiale Hyperebene am Nullpunkt und einen entsprechenden Halbraum approximiert.<br />
Das nachstehende Lemma 2.7 betrachtet den Abstand einer Folge (x n ) n∈N ⊆ R d zu einer<br />
Menge M ⊆ R d und den Abstand dieses Punktes zu einer M approximierenden Menge C M ⊆<br />
R d . Es liefert, dass die Differenz der quadrierten Abstände zu den Mengen M bzw. C M von<br />
der Ordnung o(‖ x n ‖ 2 ) <strong>für</strong> x n → 0 ist. Es gibt dementsprechend eine Fehlerabschätzung<br />
<strong>für</strong> den Wechsel von einer Menge auf die sie approximierende Menge an. Bezeichne M den<br />
Abschluss einer Menge M ⊆ R d .
14 Kapitel 2: Notationen und Grundlagen<br />
Lemma 2.7. Sei M ⊆ R d mit 0 ∈ M eine Menge, die durch die Menge C M ⊆ R d approximiert<br />
wird, so gilt <strong>für</strong> eine positiv definite Matrix P ∈ R d×d und <strong>für</strong> (x n ) n∈N ⊆ R d mit x n → 0<br />
inf (x n − θ) T P (x n − θ) = inf (x n − θ) T P (x n − θ) + o(‖ x n ‖ 2 ).<br />
θ∈M θ∈C M<br />
Beweis. Da P positiv definit ist, stellt ‖ x − θ ‖ P , definiert durch<br />
‖ x − θ ‖ 2 P = (x − θ) T P (x − θ),<br />
eine Norm auf dem R d dar. Da alle Normen auf einem endlich dimensionalen Vektorraum<br />
äquivalent sind, kann <strong>für</strong> den Beweis ohne Einschränkung der Allgemeinheit angenommen<br />
werden, dass P = I gilt, wobei I Identitätsmatrix ist. Sei (x n ) n∈N ⊆ R d Folge mit x n → 0.<br />
Betrachtet wird die Projektion der Punkte x n auf die Menge M bzw. C M<br />
θ M (x n ) := arg inf<br />
θ∈M ‖ x n − θ ‖ 2 , (2.4)<br />
θ CM (x n ) := arg inf<br />
θ∈C M<br />
‖ x n − θ ‖ 2 . (2.5)<br />
Sei M der Abschluss von M, dann folgt aus der Stetigkeit von ‖ x n − θ ‖ 2 in θ, dass<br />
inf ‖ x n − θ ‖ 2 = inf ‖ x n − θ ‖ 2<br />
θ∈M θ∈M<br />
<strong>für</strong> alle n ∈ N. Analoges gilt <strong>für</strong> die Menge C M . Deshalb kann ohne Einschränkung der<br />
Allgemeinheit angenommen werden, dass M und C M abgeschlossen in R∪{±∞} sind. Folglich<br />
sind θ M (x n ) und θ CM (x n ) <strong>für</strong> alle n ∈ N wohldefiniert.<br />
Es ist 0 ∈ C M , da nach Definition 2.4 die Null Häufungspunkt von C M ist und C M als<br />
abgeschlossen angenommen werden kann. Folglich gilt nach Definition (2.5) von θ CM (x n )<br />
‖ x n ‖≥‖ x n − θ CM (x n ) ‖ (2.6)<br />
und somit<br />
‖ θ CM (x n ) ‖<br />
‖ x n ‖<br />
≤<br />
‖ x n ‖ + ‖ x n − θ CM (x n ) ‖<br />
‖ x n ‖<br />
≤ 2. (2.7)<br />
Aus (2.7) erhält man, dass<br />
o(‖ θ CM (x n ) ‖) = o(‖ x n ‖) (2.8)<br />
und<br />
o(‖ θ CM (x n ) ‖ 2 ) = o(‖ x n ‖ 2 ) (2.9)<br />
gilt.<br />
Weiter gilt <strong>für</strong> eine beliebige Funktion L : R d → R d<br />
inf<br />
θ∈M<br />
{<br />
‖ L(θ) ‖ + ‖ L(θ) ‖<br />
2 } = inf ‖ L(θ) ‖ + inf ‖ L(θ)<br />
θ∈M θ∈M ‖2 .
2.4. Approximation zweier Mengen 15<br />
<strong>Die</strong>ses liefert<br />
inf ‖ x n − θ ‖ 2 = inf ‖ x n − θ CM (x n ) + θ CM (x n ) − θ ‖ 2<br />
θ∈M θ∈M<br />
[<br />
≤ ‖ xn − θ CM (x n ) ‖ 2 + 2 ‖ x n − θ CM (x n ) ‖ ‖ θ CM (x n ) − θ ‖ + ‖ θ CM (x n ) − θ ‖ 2]<br />
inf<br />
θ∈M<br />
= ‖ x n − θ CM (x n ) ‖ 2 + 2 ‖ x n − θ CM (x n ) ‖ inf<br />
θ∈M ‖ θ C M<br />
(x n ) − θ ‖ + inf<br />
θ∈M ‖ θ C M<br />
(x n ) − θ ‖ 2<br />
= ‖ x n − θ CM (x n ) ‖ 2 + 2 ‖ x n − θ CM (x n ) ‖ o(‖ θ CM (x n ) ‖) + o(‖ θ CM (x n ) ‖ 2 )<br />
= inf<br />
θ∈C M<br />
‖ x n − θ ‖ 2 + 2 ‖ x n − θ CM (x n ) ‖ o(‖ θ CM (x n ) ‖) + o(‖ θ CM (x n ) ‖ 2 ).<br />
<strong>Die</strong> vorletzte Gleichheit folgt durch Anwendung der Definition 2.4 <strong>für</strong> die gegenseitige Approximation<br />
zweier Mengen, die letzte Gleichheit folgt nach Definition (2.5) von θ CM (x n ).<br />
Beachte <strong>für</strong> die vorletzte Gleichheit, dass θ CM (x n ) ∈ C M und θ CM (x n ) → 0 <strong>für</strong> x n → 0 gilt.<br />
Mit den Gleichungen (2.7),(2.8) und (2.9) erhält man<br />
inf ‖ x n − θ ‖ 2 ≤ inf ‖ x n − θ ‖ 2 + 2 ‖ x n ‖ o(‖ x n ‖) + o(‖ x n ‖ 2 )<br />
θ∈M θ∈C M<br />
= inf<br />
θ∈C M<br />
‖ x n − θ ‖ 2 +o(‖ x n ‖ 2 ).<br />
Analog erhält man mit vertauschten Rollen von M und C M<br />
inf ‖ x n − θ ‖ 2 ≤ inf ‖ x n − θ ‖ 2 + o(‖ x n ‖ 2 ).<br />
θ∈C M θ∈M<br />
Zusammen liefert dieses die Behauptung<br />
inf ‖ x n − θ ‖ 2 = inf ‖ x n − θ ‖ 2 + o(‖ x n ‖ 2 ).<br />
θ∈M θ∈C M
Kapitel 3<br />
Nicht-Unterlegenheitstests im<br />
2-Stichprobenfall unter<br />
Normalverteilung<br />
In diesem Kapitel werden unter der Annahme von zwei normalverteilten Stichproben Nicht-<br />
Unterlegenheitstests konstruiert, wobei die exakten <strong>Verteilung</strong>en der zugehörigen <strong>Tests</strong>tatistiken<br />
unter der Hypothese wie auch unter der Alternative bekannt sind. Somit können <strong>für</strong> die<br />
Planung einer klinischen Studie die optimalen Fallzahlaufteilungen auf die beiden Stichproben<br />
berechnet und die benötigten Fallzahlen bei zu erreichender Power angegeben werden.<br />
Eine optimale Fallzahlaufteilung ist gegeben, wenn keine andere Aufteilung der Fallzahlen<br />
eine bessere Power bei gleicher Gesamtfallzahl aufweist. Im Abschnitt 3.3.1 werden Approximationen<br />
<strong>für</strong> die Fallzahlformeln aufgeführt, <strong>für</strong> den Fall, dass die exakten Formeln mangels<br />
entsprechender Software nicht angewandt werden können.<br />
3.1 Modell und Hypothesen<br />
Es werden zwei normalverteilte Stichproben betrachtet. <strong>Die</strong> Varianzen werden als homogen<br />
angenommen, d.h. die Varianzen in den beiden Gruppen sind identisch. <strong>Die</strong>se Voraussetzung<br />
ist a priori nicht immer gegeben und sollte zunächst durch einen Test überprüft werden. Im<br />
Fall von homogenen Varianzen kann der Vergleich zweier Gruppen jedoch auf den Vergleich<br />
der Mittelwerte reduziert werden, d.h. der Äquivalenzparameter, der die ”<br />
Differenz“ zwischen<br />
den Gruppen beschreibt, kann durch einen Term der Diskrepanz der Mittelwerte definiert<br />
werden. <strong>Die</strong>ses ermöglicht eine bedeutend einfachere Interpretation der Ergebnisse als im Fall<br />
heterogener Varianzen.<br />
Seien<br />
und<br />
X R1 , . . . , X RnR<br />
i.i.d.<br />
∼ N(µ R , σ 2 )<br />
X T 1 , . . . , X T nT<br />
i.i.d.<br />
∼ N(µ T , σ 2 )<br />
17
18 Kapitel 3: Nicht-Unterlegenheitstests im 2-Stichprobenfall unter Normalverteilung<br />
zwei unabhängige Zufallsvektoren mit gleicher, unbekannter Varianz. Beim Diskriminieren<br />
zwischen zwei Gruppen ist die Differenz zwischen den Mittelwerten,<br />
δ md = µ R − µ T ,<br />
das meist verwendete Abstandsmaß. Einige Autoren schlagen <strong>für</strong> bestimmte Situationen die<br />
Verwendung vom <strong>Quotienten</strong> der Mittelwerte,<br />
δ mr = µ R /µ T ,<br />
vor (Liu und Weng, 1994; Hauschke u. a., 1999). Wenn keine Vorinformation über die Varianzen<br />
der Daten verfügbar ist, kann die standardisierte Differenz der Mittelwerte,<br />
δ std = (µ R − µ T )/σ,<br />
verwendet werden. <strong>Die</strong>se Größe hat den zusätzlichen Anreiz, dass sie frei von Messeinheiten<br />
ist.<br />
Im folgenden wird angenommen, dass δ md , δ mr und δ std die Unterlegenheit der Testgruppe<br />
gegenüber der Referenzgruppe messen. Für δ ∈ {δ md , δ mr , δ std } ist das Testproblem, um<br />
Nicht-Unterlegenheit aufzudecken, gegeben durch<br />
H 0 : δ ≥ ∆ vs. H 1 : δ < ∆ , (3.1)<br />
wobei ∆ eine feste Nicht-Unterlegenheitsmarge ist (∆ > 0 <strong>für</strong> δ md bzw. δ std und ∆ > 1 <strong>für</strong><br />
δ mr ). <strong>Die</strong> empirischen Mittelwerte der Gruppen sind mit ¯x R beziehungsweise ¯x T bezeichnet.<br />
Ein Schätzer <strong>für</strong> die zusammengefasste Standardabweichung ist gegeben durch<br />
√ ∑nR<br />
s p = i=1<br />
(x Ri − ¯x R ) 2 + ∑ n T<br />
i=1 (x T i − ¯x T ) 2<br />
.<br />
n R + n T − 2<br />
Ferner sei (t m,ncp ) α das α-Quantil der nichtzentralen t-<strong>Verteilung</strong> mit m Freiheitsgraden und<br />
Nichtzentralitätsparameter ncp, während (t m ) α das α-Quantil der zentralen t-<strong>Verteilung</strong> ist.<br />
3.2 <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test und t-Statistiken<br />
Testen der Differenz δ md<br />
Der klassische Test <strong>für</strong> Differenzen der Mittelwerte ist der Zwei-Stichproben t-Test. <strong>Die</strong> <strong>Tests</strong>tatistik<br />
T d = x R − x T − ∆<br />
√<br />
s 1 p n R<br />
+ 1<br />
n T<br />
folgt einer nicht-zentralen t-<strong>Verteilung</strong> mit n R + n T − 2 Freiheitsgraden und Nichtzentralitätsparameter<br />
ncp d = µ R − µ T − ∆<br />
=<br />
σ√ δ md − ∆<br />
. (3.2)<br />
1<br />
n R<br />
+ 1<br />
n T<br />
σ√<br />
1<br />
n R<br />
+ 1<br />
n T
3.2 LQ-Test und t-Statistiken 19<br />
Auf dem Rand der Hypothese (δ md = ∆) folgt die <strong>Tests</strong>tatistik T d einer zentralen t-<strong>Verteilung</strong><br />
mit n R + n T − 2 Freiheitsgraden. <strong>Die</strong> Hypothese H 0 : δ md ≥ ∆ in (3.1) wird zum Niveau α<br />
<strong>für</strong><br />
T d < (t nR +n T −2) α<br />
verworfen, wobei (t m ) α das α-Quantil einer zentral t-verteilten Zufallsvariable mit m Freiheitsgraden<br />
ist. Der vorliegende Test ist äquivalent zum <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test, da <strong>für</strong><br />
¯x R −¯x T < ∆ die <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik <strong>für</strong> δ md eine strikt monotone Transformation<br />
von T d ist,<br />
λ n = sup ϑ∈Θ 0<br />
L n (ϑ)<br />
sup ϑ∈Θ L n (ϑ)<br />
=<br />
=<br />
[<br />
1 + n Rn T (x R − x T − ∆) 2<br />
n R + n T<br />
[<br />
1 +<br />
T 2 d<br />
n R + n T − 2<br />
(n R + n T − 2)s 2 p<br />
] −<br />
n R +n T<br />
2<br />
.<br />
] −<br />
n R +n T<br />
2<br />
Testen <strong>des</strong> <strong>Quotienten</strong> δ mr<br />
Verwendet man <strong>für</strong> µ T ≠ 0 den <strong>Quotienten</strong> δ mr als Abstandsmaß, kann gezeigt werden, dass<br />
der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test ebenfalls äquivalent zum t-Test ist. <strong>Die</strong> <strong>Tests</strong>tatistik<br />
T r =<br />
x R − ∆x<br />
√ T<br />
∼ t nR +n T −2,ncp r<br />
,<br />
1<br />
s p n R<br />
+ ∆2<br />
n T<br />
ist nicht-zentral t-verteilt mit n R + n T − 2 Freiheitsgraden und Nichtzentralitätsparameter<br />
ncp r =<br />
µ R − ∆µ<br />
√ T<br />
= δ mr − ∆<br />
√ . (3.3)<br />
1<br />
σ<br />
n R<br />
+ ∆2 σ 1<br />
n T µ T n R<br />
+ ∆2<br />
n T<br />
Für δ mr = ∆ vereinfacht sich die <strong>Verteilung</strong> zur zentralen t-<strong>Verteilung</strong>. Somit wird die Hypothese<br />
H 0 : δ mr ≥ ∆ zum Niveau α <strong>für</strong><br />
verworfen.<br />
T r < (t nR +n T −2) α<br />
<strong>Die</strong> <strong>Tests</strong>tatistik T d ist bezüglich Shifts invariant ist, d.h. wenn auf die Daten der Stichproben<br />
eine Konstante addiert wird, bleibt die Testentscheidung invariant. Weiter ist die<br />
<strong>Tests</strong>tatistik bezüglich Reskalierung ebenfalls invariant, vorausgesetzt, das Testproblem ist<br />
entsprechend reskaliert. Das bedeutet, dass die Testentscheidung invariant bleibt, wenn die<br />
Beobachtungen statt in x in Einheiten c · x gemessen werden und die Hypothese mit Nicht-<br />
Unterlegenheitsmarge c · ∆ umgeschrieben wird. Ein entscheidender Aspekt, der gegen die<br />
Verwendung von T r als <strong>Tests</strong>tatistik spricht, besteht darin, dass bei T r Veränderungen in der<br />
Lokation, also Shifts der Daten, zu unterschiedlichen Testergebnissen führen können. Wenn<br />
µ T nahe null ist, treten außerdem numerische Instabilitäten auf, d.h. kleine Messfehler von<br />
¯X T beeinflussen das Testergebnis stark.
20 Kapitel 3: Nicht-Unterlegenheitstests im 2-Stichprobenfall unter Normalverteilung<br />
Testen der standardisierten Differenz δ std<br />
Bei Verwendung der standardisierten Differenz als Äquivalenzparameter treten diese Probleme<br />
nicht auf. In diesem Fall wird die <strong>Tests</strong>tatistik T d mit ∆ = 0 verwendet,<br />
T s =<br />
x R − x<br />
√ T<br />
.<br />
s 1 p n R<br />
+ 1<br />
n T<br />
<strong>Die</strong> <strong>Tests</strong>tatistik T s folgt einer nicht-zentralen t-<strong>Verteilung</strong> mit n R + n T − 2 Freiheitsgraden<br />
und Nichtzentralitätsparameter<br />
ncp s :=<br />
µ R − µ T<br />
=<br />
σ√<br />
1<br />
n R<br />
+ 1<br />
n T<br />
δ std<br />
√<br />
1<br />
n R<br />
+ 1<br />
n T<br />
. (3.4)<br />
Um einen Test durchzuführen, muss das α-Quantil einer nicht-zentralen t-<strong>Verteilung</strong> berechnet<br />
werden. <strong>Die</strong> Hypothese H 0 : δ std ≥ ∆ wird verworfen <strong>für</strong><br />
T s < (t nR +n T −2,ncp s(∆)) α ,<br />
wobei ncp s (∆) der Nichtzentralitätsparameter aus (3.4) mit δ std = ∆ ist.<br />
Lehmann (1986, p. 294) hat gezeigt, dass dieser nicht-zentrale t-Test in der Klasse der invarianten<br />
<strong>Tests</strong> bezüglich Skalentransformationen der Test mit gleichmäßig größter Power ist.<br />
Es lässt sich zeigen, dass der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test bezüglich Skalentransformationen<br />
ebenfalls invariant und nicht äquivalent zum hier betrachteten Test ist. Nach Lehmann (1986)<br />
weist aber der hier betrachtete Test eine bessere Power als der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test<br />
auf. Somit ist der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test nicht weiter zu betrachten. Da unter der Hypothese<br />
die Differenz der Mittelwerte durch die Standardabweichung beschränkt ist, wären <strong>für</strong><br />
die Bestimmung <strong>des</strong> eingeschränkten ML-Schätzers weitere numerische Berechnungen nötig.<br />
3.3 Power- und Fallzahlberechnungen<br />
<strong>Die</strong> <strong>Verteilung</strong> der <strong>Tests</strong>tatistiken T d , T r und T s ist bei normalverteilten Daten <strong>für</strong> jede Parameterkonstellation<br />
(µ R , µ T , σ 2 ) bekannt. Folglich ist es möglich bei gegebenen Fallzahlen<br />
die Power und die minimal benötigten Fallzahlen bei zu erreichender Power <strong>für</strong> alle drei<br />
Abstandsmaße zu berechnen.<br />
Testen der Differenz δ md<br />
<strong>Die</strong> <strong>Tests</strong>tatistik T d ist nicht-zentral t-verteilt mit n R + n T − 2 Freiheitsgraden und Nichtzentralitätsparameter<br />
ncp d gegeben in (3.2). Demnach kann die Power <strong>für</strong> festgelegte Fallzahlen<br />
n R und n T und einen Abstand δ md (< ∆) berechnet werden nach<br />
1 − β = P δmd (T d < (t nR +n T −2) α ) = F nR +n T −2,ncp d<br />
((t nR +n T −2) α ) , (3.5)<br />
wobei F m,ncp die kumulative <strong>Verteilung</strong>sfunktion der nichtzentralen t-<strong>Verteilung</strong> mit m Freiheitsgraden<br />
und Nichtzentralitätsparameter ncp ist. <strong>Die</strong>se Funktion ist in den meisten Softwarepaketen<br />
verfügbar.
3.3 Power- und Fallzahlberechnungen 21<br />
Bei der Planung einer klinischen Studie muss die benötigte Fallzahl, um eine gegebene Power<br />
1 − β zu erreichen, bestimmt werden. Bevor diese Fragestellung diskutiert wird, wird die<br />
optimale Aufteilung auf die Fallzahlen n R und n T bei fester Gesamtfallzahl n = n R + n T<br />
bestimmt. Optimal bedeutet, dass keine andere Aufteilung der Fallzahlen eine bessere Power<br />
bei gleicher Gesamtfallzahl aufweist. Bezeichne ɛ := n R /n T das Verhältnis der Fallzahlen. Das<br />
nachstehende Lemma 3.1 liefert als Anwendung das optimale Fallzahlenverhältnis.<br />
Lemma 3.1. <strong>Die</strong> <strong>Verteilung</strong>sfunktion F m,ncp (z) der nicht-zentralen t-<strong>Verteilung</strong> mit m Freiheitsgraden<br />
und Nichtzentralitätsparameter ncp ist strikt monoton fallend im Nichtzentralitätsparameter<br />
<strong>für</strong> festes z.<br />
Nach Lemma 3.1 muss der Nichtzentralitätsparameter<br />
ncp d =<br />
δ md − ∆<br />
σ√<br />
1<br />
n R<br />
+ 1<br />
n T<br />
(3.6)<br />
in (3.5) minimiert werden um die Power <strong>für</strong> feste Gesamtfallzahl zu maximieren. Da unter<br />
der Alternative δ md − ∆ ≤ 0 gilt, muss<br />
√<br />
1/nR + 1/n T<br />
unter der Nebenbindung n R + n T = n minimiert werden. Direkte Rechnung liefert n R = n/2<br />
und daher n R = n T . Somit ist das Fallzahlverhältnis ɛ = 1 optimal in dem Sinne, dass<br />
keine andere Aufteilung der Gesamtfallzahl n eine größere Power liefert. Folglich sind bei der<br />
Berechung der benötigten Fallzahlen nur Fallzahlen mit einem Fallzahlverhältnis von eins zu<br />
berücksichtigen. Also ist die minimale Fallzahl N ∗ , die eine gegebene Power 1 − β erreicht,<br />
gegeben durch<br />
N ∗ = min{n ∈ N : F n− 2,ncp ∗<br />
d<br />
((t n− 2 ) α ) ≥ 1 − β} , (3.7)<br />
wobei ncp ∗ d = √ n(δ md − ∆)/2σ.<br />
Abbildung 3.1 zeigt die benötigten Fallzahlen <strong>für</strong> verschiedene β unter der Alternative δ md =<br />
0, d.h. µ T = µ R , in Abhängigkeit vom <strong>Quotienten</strong> ∆/σ.<br />
Der nachstehende Beweis von Lemma 3.1 wird über die Theorie der totalen Positivität geführt.<br />
Mit dieser Theorie lassen sich mehrere Eigenschaften der <strong>Verteilung</strong>sfunktion F m,ncp (z) zeigen.<br />
Der Beweis ist nicht sehr intuitiv. Jedoch zeigt er auf, wie man sich die Theorie der<br />
totalen Positivität <strong>für</strong> andere, der Theorie fernen, Problemstellungen zu nutze machen kann.<br />
Zur Vollständigkeit und zum besseren Verständnis wird anschließend noch ein direkter und<br />
intuitiverer Beweis angegeben.<br />
Beweis von 3.1 Version A. Zunächst werden die wesentlichen, auf unseren Fall zugeschnittenen<br />
Eigenschaften eines variationsreduzierenden Kerns wiedergegeben. Sei<br />
f(θ, x) : R × R → [0, ∞)<br />
ein strikt variationsreduzierender Kern der Ordnung unendlich (SV R ∞ ), h(x) : X → R eine<br />
Funktion mit ∫ |h|dx > 0 und<br />
∫<br />
g(θ) := f(θ, x)h(x)dx.
22 Kapitel 3: Nicht-Unterlegenheitstests im 2-Stichprobenfall unter Normalverteilung<br />
Gesamtfallzahl N<br />
200 400 600 800<br />
Power: 70%<br />
Power: 80%<br />
Power: 90%<br />
0.2 0.3 0.4 0.5 0.6<br />
∆ σ<br />
Abbildung 3.1: Benötigte Fallzahlen <strong>für</strong> die <strong>Tests</strong>tatistik T d unter der Alternative δ md = 0.<br />
Dann gelten die folgenden Eigenschaften<br />
S + (g) ≤ S − (h) und (3.8)<br />
S + (g) = S − (h) impliziert IS + (g) = IS − (h), (3.9)<br />
wobei S − (S + ) die Anzahl (strikter) Vorzeichenwechsel und IS − (IS + ) das initiale Vorzeichen<br />
der jeweiligen Funktion ist. Für detaillierte Informationen siehe Brown u. a. (1981), insbesondere<br />
zur Definition der Vorzeichenwechsel und initialen Vorzeichen.<br />
Karlin (1968, Kapitel 3 §4) zeigt, dass die Dichte einer nicht-zentralen t-<strong>Verteilung</strong> f m (ncp, x)<br />
strikt total positiv der Ordnung unendlich ist, was äquivalent zur variationsreduzierenden<br />
Eigenschaft ist. Demzufolge ist f m (ncp, x) in der Klasse SV R ∞ . Gesetzt wird<br />
<strong>für</strong> beliebige z, c ∈ R. Dann gilt<br />
h(x) = 1 (−∞,z] (x) − c<br />
S − (h) ≤ 1 ∀ z, c ∈ R.<br />
Weiter ist<br />
∫<br />
g(ncp) =<br />
f m (ncp, x) ( 1 (−∞,z] (x) − c ) dx = F m,z (ncp) − c.<br />
Mit der variationsreduzierenden Eigenschaft (3.8) folgt<br />
S + (F m,z (ncp) − c) ≤ 1 ∀ c ∈ R (3.10)
3.3 Power- und Fallzahlberechnungen 23<br />
<strong>für</strong> beliebiges z ∈ R. Somit gilt <strong>für</strong> beliebiges c, dass die Funktion F m,z (ncp) − c <strong>für</strong> festes z<br />
höchstens einen Vorzeichenwechsel hat, was die strikte Monotonie von F m,z (ncp) in ncp nach<br />
sich zieht.<br />
Zur Vereinfachung wird F (ncp) statt F m,z (ncp) geschrieben. Es bleibt zu zeigen, dass F (ncp)<br />
eine fallende Funktion ist. Gesetzt wird<br />
k := F (ncp 1) + F (ncp 2 )<br />
2<br />
<strong>für</strong> beliebige ncp 1 , ncp 2 ∈ R mit ncp 1 ≠ ncp 2 . Nach Definition von k und der strikten Monotonie<br />
von F (ncp) gilt:<br />
oder<br />
und somit zusammen mit (3.10)<br />
F (ncp 1 ) < k < F (ncp 2 )<br />
F (ncp 2 ) < k < F (ncp 1 )<br />
S + (F (ncp) − k) = 1 .<br />
Da F (ncp) ∈ ]0, 1[ <strong>für</strong> alle ncp ∈ R gilt, erhält man k ∈ ]0, 1[. <strong>Die</strong>ses liefert<br />
S − (1 (−∞,z] (x) − k) = 1<br />
IS − (1 (−∞,z] (x) − k) = + .<br />
Somit schließt man mit der variationsreduzierenden Eigenschaft (3.9)<br />
IS + (F (ncp) − k) = IS − (1 (−∞,z] (x) − k) = + .<br />
Zusammenfassend ist F (ncp) − k eine strikt monotone Funktion, welche <strong>für</strong> ausreichend kleinen<br />
ncp positiv ist und dann einen Vorzeichenwechsel hat. Somit muss F (ncp)−k und folglich<br />
F (ncp) eine strikt monotone Funktion sein.<br />
Im Folgenden wird ein direkter und intuitiverer Beweis <strong>des</strong> Lemmas 3.1 dargestellt.<br />
Beweis vom Lemma 3.1 Version B. Sei t m,ncp eine t-verteilte Zufallsvariable mit m Freiheitsgraden<br />
und Nichtzentralitätsparameter ncp. Dann lässt sich diese schreiben als<br />
t m,ncp =<br />
X ncp<br />
√<br />
Y/m<br />
mit<br />
X ncp ∼ N (µ ncp , 1) und Y ∼ χ 2 m,<br />
wobei<br />
µ ncp = C · ncp<br />
mit C := E[ √ Y/m] ≥ 1 (Nach Jensenungleichung und E[Y ] = m gilt C ≥ 1).
24 Kapitel 3: Nicht-Unterlegenheitstests im 2-Stichprobenfall unter Normalverteilung<br />
Sei nun ncp 1 > ncp 2 . Dann gilt<br />
(<br />
)<br />
X ncp1<br />
F m,ncp1 (x) = P (t m,ncp1 ≤ x) = P √Y/m ≤ x = P<br />
= P<br />
= P<br />
(<br />
X 0 + µ ncp1 √Y/m<br />
(<br />
X 0 + µ ncp2 √Y/m<br />
+ µ ncp 2<br />
− µ ncp2 √Y/m<br />
≤ x<br />
)<br />
)<br />
≤ x − µ ncp 1<br />
− µ ncp2 √Y/m<br />
(<br />
)<br />
X ncp2<br />
= P √Y/m ≤ x − µ ncp 1<br />
− µ ncp2 √Y/m<br />
= P<br />
(<br />
)<br />
t m,ncp2 ≤ x − µ ncp 1<br />
− µ ncp2 √Y/m<br />
(<br />
X 0 + µ ncp1 √Y/m<br />
≤ x<br />
)<br />
Da<br />
gilt, kann man<br />
µ ncp1 − µ ncp2 = C · (ncp 1 − ncp 2 ) > 0<br />
F m,ncp1 (x) = P (t m,ncp2 ≤ x − Z)<br />
schreiben mit einer Zufallsvariablen Z, die mit Wahrscheinlichkeit 1 echt größer als null ist<br />
(Z > 0 f.s.). Mit der Isotonie der <strong>Verteilung</strong>sfunktion F m,ncp (x) in x erhält man dann<br />
F m,ncp1 (x) = P (t m,ncp2 ≤ x − Z) < F m,ncp2 (x).<br />
Testen <strong>des</strong> <strong>Quotienten</strong> δ mr<br />
<strong>Die</strong> Power <strong>für</strong> T r mit vorgegebenen Fallzahlen n R und n T unter einer festgelegten Alternative<br />
δ mr (< ∆) wird ähnlich wie oben bei T d berechnet nach<br />
1 − β = P δmr (T r < (t nR +n T −2) α ) = F nR +n T −2,ncp r<br />
((t nR +n T −2) α ) .<br />
Im Gegensatz zur Differenz δ md ist die 1:1 Aufteilung n R = n T nicht mehr optimal, wenn der<br />
Quotient δ mr als Abstandsmaß verwendet wird. Mit den oben genannten Argumenten muss<br />
hier der Nichtzentralitätsparameter<br />
ncp r =<br />
δ mr − ∆<br />
√<br />
σ 1<br />
µ T n R<br />
+ ∆2<br />
n T<br />
minimiert werden um die Power zu maximieren. Somit muss<br />
√<br />
1/nR + ∆ 2 /n T<br />
unter der Nebenbedingung n R + n T = N minimiert werden. Direkte Rechnung liefert n R =<br />
n/(1 + ∆) und folglich n T = ∆n/(1 + ∆). Demnach ist in diesem Fall ein Fallzahlverhältnis<br />
von ɛ = ∆ −1 optimal.
3.3 Power- und Fallzahlberechnungen 25<br />
∆<br />
µ T /σ<br />
Abbildung 3.2: Benötigte Fallzahl <strong>für</strong> die <strong>Tests</strong>tatistik T r unter der Alternative δ mr = 1 und<br />
einer Power von 80%.<br />
Abbildung 3.2 zeigt die benötigte Fallzahl <strong>für</strong> die <strong>Tests</strong>tatistik T r unter der Alternative<br />
δ mr = 1, d.h. µ T = µ R , <strong>für</strong> eine Power von 80% in Abhängigkeit der Nicht-Unterlegenheitsmarge<br />
∆ und <strong>des</strong> Kehrwertes <strong>des</strong> Variationskoeffizienten µ T /σ. Abbildung 3.2 stellt heraus,<br />
dass bei fallenden µ T die benötigten Fallzahlen steigen. Es besteht also eine Abhängigkeit<br />
der benötigten Fallzahlen von der Lokation der Daten. <strong>Die</strong>se Beobachtung steht in Übereinstimmung<br />
mit dem Problem der Invarianz bezüglich Shifts in den Daten beim Testen <strong>des</strong><br />
<strong>Quotienten</strong> δ mr . In Abbildung 3.3 ist µ T /σ = 10 festgehalten und die benötigte Fallzahl in<br />
Abhängigkeit von der Nicht-Unterlegenheitsmarge abgetragen.<br />
Testen der standardisierten Differenz δ std<br />
Unter Verwendung der standardisierten Differenz als Abstandsmaß lässt sich die Power <strong>für</strong><br />
gegebenen Wert von δ std (< ∆) berechnen nach<br />
1 − β = P δstd (T s < (t nR +n T −2,ncp s (∆)) α )<br />
= F nR +n T −2,ncp s<br />
((t nR +n T −2,ncp s(∆)) α ) ,<br />
wobei ncp s (∆) der Nichtzentralitätsparameter aus (3.4) ist, mit δ std = ∆. Wie bei der Differenz<br />
δ md erhält man mit gleichen Argumenten, dass die Stichproben <strong>für</strong> δ std vom gleichen<br />
Umfang (ɛ = 1) sein müssen, um die Power zu maximieren.<br />
3.3.1 Rechenprobleme und Approximationen <strong>für</strong> große Stichproben<br />
Wenn kein statistisches Softwarepaket <strong>für</strong> die Berechnung der nicht-zentralen t-<strong>Verteilung</strong><br />
zur Verfügung steht, kann die folgende Approximation <strong>des</strong> α-Quantils der nicht-zentralen<br />
t-<strong>Verteilung</strong> benutzt werden (Johnson und Welch, 1940, p. 207). Zudem ergeben sich aus<br />
den folgenden Überlegungen einfache <strong>asymptotische</strong> Formeln <strong>für</strong> die Powerberechnung, welche,<br />
wie sich herausstellen wird, zu befriedigenden und zweckmäßigen Lösungen führen. Für
26 Kapitel 3: Nicht-Unterlegenheitstests im 2-Stichprobenfall unter Normalverteilung<br />
Gesamtfallzahl N<br />
0 200 400 600 800<br />
Power: 70%<br />
Power: 80%<br />
Power: 90%<br />
1.02 1.04 1.06 1.08 1.10<br />
∆<br />
Abbildung 3.3: Benötigte Fallzahl <strong>für</strong> die <strong>Tests</strong>tatistik T r unter der Alternative δ mr = 1 und<br />
<strong>für</strong> festes µ T /σ = 10.<br />
große Stichprobenumfänge, d.h. n → ∞, und somit großer Anzahl von Freiheitsgraden in den<br />
Formeln <strong>für</strong> die Powerberechnung, gilt:<br />
(t n− 2 ) α = u α + o(1) ,<br />
√<br />
(t n− 2,ncp ) α = ncp + u α 1 + ncp2<br />
2(n− 2)<br />
+ o(1) , (3.11)<br />
wobei u α das α-Quantil der Standard-Normalverteilung ist. Somit kann N ∗ in (3.7) über<br />
Quantile der Normalverteilung approximiert werden. Mit<br />
∆ d := (δ md − ∆)/σ<br />
und somit ncp d = ∆ d<br />
√<br />
n/4 <strong>für</strong> ɛ = 1 ist die Anforderung (3.7)<br />
asymptotisch äquivalent zu<br />
∆ d<br />
√ n<br />
4 + u 1−β<br />
(t n− 2,ncpd ) 1−β ≤ (t n− 2 ) α<br />
√<br />
1 +<br />
∆ 2 d<br />
2(n − 2)<br />
n<br />
4 ≥ u α + o(1) .<br />
<strong>Die</strong>s ist bei Verwendung der optimalen Fallzahlaufteilung von ɛ = 1 äquivalent zu<br />
n ≥<br />
√ ) 2<br />
4<br />
(u α − u 1−β 1 + ∆2 d<br />
8<br />
∆ 2 d<br />
+ o(1). (3.12)
3.3 Power- und Fallzahlberechnungen 27<br />
Analog lässt sich <strong>für</strong> die <strong>Tests</strong>tatistik T r eine Approximation der minimalen Fallzahl, die eine<br />
Power von 1 − β erreicht, mit optimaler Fallzahlaufteilung ɛ = ∆ −1 herleiten. Sie ist gegeben<br />
durch<br />
(<br />
) 2<br />
u α − u 1−β<br />
√1 + ∆2 r<br />
n ≥ (1 + ∆) 2 2(1+∆) 2 ,<br />
wobei ∆ r = µ T (δ mr − ∆)/σ.<br />
Für T s erhält man auf gleiche Art<br />
n ≥<br />
∆ 2 r<br />
√<br />
√ ) 2<br />
4<br />
(u α 1 + δ2 std<br />
8<br />
− u 1−β 1 + ∆2<br />
8<br />
(δ std − ∆) 2 ,<br />
wobei die optimale Fallzahlaufteilung von ɛ = 1 verwendet wurde.<br />
Wahre Power<br />
0.70 0.75 0.80 0.85 0.90 0.95 1.00<br />
0 200 400 600 800 1000<br />
Benötigte Gesamtfallzahl<br />
Abbildung 3.4: Wahre und approximative Power aus (3.12)<br />
Um die Genauigkeit der Approximation zu untersuchen, wird folgen<strong>des</strong> Szenario angenommen:<br />
T d <strong>Tests</strong>tatistik, δ md = 0, Signifikanzniveau 5% und eine erwünschte Power von 80%. Für<br />
unterschiedliche benötigte Fallzahlen, d.h. berechnet nach der Approximationsformel (3.12),<br />
wird die wahre Power exakt durch die nicht-zentrale t-<strong>Verteilung</strong> in (3.7) berechnet. <strong>Die</strong><br />
Ergebnisse sind in Abbildung 3.4 dargestellt. Zum Vergleich ist die Linie <strong>für</strong> die erwünschte<br />
Power von 80% eingezeichnet. <strong>Die</strong> Abbildung zeigt, dass die Approximationsformel stets zu<br />
einer größeren Power als die nominelle von 80% führt. Für Fallzahlen größer als 400 ist die<br />
Approximation recht zufrieden stellend. Demnach ist die Approximation stets konservativ, in<br />
dem Sinne, dass die wahre Power niemals kleiner als die erwünschte Power ist.
Kapitel 4<br />
Asymptotik <strong>des</strong> ML-Schätzers<br />
<strong>Die</strong>ses Kapitel stellt die wesentlichen theoretischen Resultate <strong>für</strong> die nachfolgenden Kapitel<br />
5 und 6 zur Asymptotik <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> bereit. Zunächst wird in den Abschnitten<br />
4.1 und 4.2 die <strong>asymptotische</strong> Normalität <strong>des</strong> uneingeschränkten ML-Schätzers sowohl<br />
im 1-Stichprobenfall als auch im k-Stichprobenfall gezeigt. Weiter wird in Abschnitt 4.3 gezeigt,<br />
dass unter geeigneten Bedingungen aus der Konvergenz in Wahrscheinlichkeit <strong>des</strong> eingeschränkten<br />
ML-Schätzers die Konvergenz in Wahrscheinlichkeit dieses Schätzers mit Rate<br />
√ n folgt.<br />
4.1 Asymptotische Normalität <strong>des</strong> ML-Schätzers<br />
im 1-Stichprobenfall<br />
In diesem Abschnitt wird die <strong>asymptotische</strong> Normalität <strong>des</strong> ML-Schätzers im 1-Stichprobenfall<br />
unter den Regularitätsbedingungen R gezeigt. <strong>Die</strong>ses umfasst den k-Stichprobenfall mit gleichen<br />
Fallzahlen in allen k Stichproben. Der Beweis <strong>des</strong> Theorems 4.3 ist in Anlehnung an<br />
Ferguson (1996) geführt.<br />
Lemma 4.1. X sei eine Zufallsvariable mit Dichte f(x, θ) bezüglich einem σ-endlichen Maß<br />
ν und Θ ⊆ R d der Parameterraum. Existiert (d 2 /dθ 2 )f(x, θ) und ist stetig und können die<br />
ersten und zweiten partiellen Ableitungen unter das Integralzeichen in ∫ f(x, θ)dν(x) gezogen<br />
werden, so gilt<br />
(i) E θ [U(X, θ)] = 0 und somit J(θ) = Var θ [U(X, θ)],<br />
(ii) J(θ) = −E θ [W (X, θ)].<br />
Beweis. (i) rechnet man wie folgt nach:<br />
E θ [U(X, θ)] =<br />
= d dθ<br />
∫ (d/dθ)f(x, θ)<br />
∫<br />
f(x, θ)<br />
f(x, θ)dν(x) = 0.<br />
∫ d<br />
f(x, θ)dν(x) = f(x, θ)dν(x)<br />
dθ<br />
29
30 Kapitel 4: Asymptotik <strong>des</strong> ML-Schätzers<br />
Mit folgender Gleichung<br />
d 2<br />
dθ 2 log f(x, θ) = d (d/dθ)f(x, θ)<br />
dθ f(x, θ)<br />
= (d2 /dθ 2 )f(x, θ)<br />
f(x, θ)<br />
= (d2 /dθ 2 )f(x, θ)<br />
f(x, θ)<br />
− [(d/dθ)f(x, θ)]T · [(d/dθ)f(x, θ)]<br />
(f(x, θ)) 2<br />
[ ] d T [ ]<br />
d<br />
−<br />
dθ log f(x, θ) ·<br />
dθ log f(x, θ)<br />
erhält man (ii):<br />
E θ [W (X, θ)] =<br />
−<br />
∫ d<br />
2<br />
∫<br />
∫<br />
d2<br />
log f(x, θ) f(x, θ)dν(x) =<br />
dθ2 dθ 2<br />
f(x, θ)dν(x)<br />
[(d/dθ) log f(x, θ)] · [(d/dθ) log f(x, θ)] T · f(x, θ)dν(x)<br />
= −E θ [U(X, θ) · U(X, θ) T ] = J(θ).<br />
Im Folgenden wird das 1-Stichprobenmodell mit Regularitätsbedingungen R vorausgesetzt.<br />
Definiere<br />
und<br />
Weiter wird<br />
n∑<br />
A n (θ) = n −1 U(X i , θ) (4.1)<br />
i=1<br />
n∑<br />
B n (θ) = n −1 W (X i , θ). (4.2)<br />
i=1<br />
A n = A n (θ (0) ) und B n = B n (θ (0) )<br />
gesetzt. Betrachtet wird θ ∈ B θ (0) mit B θ (0) aus Regularitätsbedingung R (c). Für θ ∈ B θ (0)<br />
liefert die Taylorentwicklung zweiter Ordnung von l n (θ) um den wahren Wert θ (0)<br />
1<br />
n l n(θ) = 1 n l n(θ (0) ) + A T n · (θ − θ (0) ) + 1 2 (θ − θ(0) ) T B n · (θ − θ (0) ) + R(θ),<br />
wobei das Restglied R(θ) von der Form<br />
R(θ) =<br />
⎛<br />
⎝ 1<br />
6n<br />
n∑<br />
∑<br />
i=1 j,l,m=1,...,d<br />
⎞<br />
(θ j − θ (0)<br />
j<br />
)(θ l − θ (0)<br />
l<br />
)(θ m − θ m (0) d 3<br />
) log f(X i , θ) ⎠<br />
dθ j dθ l dθ m<br />
∣<br />
ist mit ˜θ = αθ+(1−α)θ (0) <strong>für</strong> ein α ∈ [0, 1]. Folglich gilt stets ˜θ ∈ B θ (0). Regularitätsbedingung<br />
R (c) gibt die gleichmäßige Beschränktheit der dritten Ableitung der log-<strong>Likelihood</strong>funktion<br />
∣<br />
θ=˜θ
4.1. ML-Schätzer im 1-Stichprobenfall 31<br />
<strong>für</strong> alle θ ∈ B θ (0) und liefert somit <strong>für</strong> das Restglied der Taylorentwicklung<br />
R(θ) ≤ 3d ‖ θ − θ(0) ‖ 3 1<br />
n∑<br />
6 n ·<br />
∑<br />
d 3<br />
log f(X i , θ) ∣<br />
i=1 ∥ dθ j dθ l dθ m<br />
j,l,m=1,...,d<br />
≤ ‖ θ − θ (0) ‖ 3 · 1 n∑<br />
K(X i ) · O(1)<br />
n<br />
i=1<br />
Nach dem schwachen Gesetz der großen Zahlen (A.1) gilt<br />
und es wird somit<br />
1<br />
n<br />
n∑<br />
P<br />
K(X i ) −→ E θ (0)K(X 1 ) < ∞<br />
i=1<br />
R(θ) =‖ θ − θ (0) ‖ 3 · O p (1).<br />
geschlossen. <strong>Die</strong> Taylorentwicklung zweiter Ordnung schreibt sich folglich als<br />
1<br />
n l n(θ) = 1 n l n(θ (0) ) + A T n · (θ − θ (0) ) + 1 2 (θ − θ(0) ) T B n · (θ − θ (0) )+ ‖ θ − θ (0) ‖ 3 O p (1).<br />
∣<br />
θ=˜θ<br />
∥<br />
Lemma 4.2. Das 1-Stichproben-Modell sei gegeben, das heißt X 1 , X 2 , . . . seien unabhängig,<br />
identisch verteilte Zufallsvariablen mit Dichte f(x, θ (0) ) bezüglich einem σ-endlichen Maß ν,<br />
Θ der Parameterraum. Sind die Regularitätsbedingungen R erfüllt, so gilt mit J = J(θ (0) )<br />
(i)<br />
(ii)<br />
√ D nAn −→ N (0, J),<br />
a.s.<br />
B n −→ −J.<br />
Beweis. Der Zentrale Grenzwertsatz (siehe A.2) liefert zusammen mit Lemma 4.1, dass √ nA n<br />
asymptotisch normalverteilt ist mit Erwartungswert 0 und Kovarianzmatrix J. Weiter ist<br />
nach Lemma 4.1 E θ [W (X, θ)] = −J(θ). Somit konvergiert B n fast sicher gegen −J nach dem<br />
starken Gesetz der großen Zahlen (siehe A.1).<br />
Theorem 4.3. Für unabhängig, identisch verteilte Zufallsvariablen X 1 , X 2 , . . . , die die Regularitätsbedingungen<br />
R erfüllen, gilt mit J = J(θ (0) )<br />
√ n (ˆθn − θ (0) )<br />
D −→ N (0, J −1 ).<br />
Beweis. Unter den gegebenen Regularitätsbedingungen existiert der ML-Schätzer ˆθ n und ist<br />
stark konsistent, d.h. ˆθ a.s.<br />
n −→ θ (0) . Der Beweis wird hier ausgelassen und zum Beispiel auf<br />
die Originalarbeit von Wald (1949) oder auf das Buch von Ferguson (1996, Satz 17), das die<br />
Resultate von Wald nutzt, verwiesen.<br />
Es bezeichne ˙l n (θ) die Ableitung von l n nach θ. Es wird die Taylorentwicklung von ˙l n um<br />
θ ∈ B θ (0) betrachtet,<br />
1<br />
n ˙l n (θ) = A n + B n (θ − θ (0) )+ ‖ θ − θ (0) ‖ 2 O p (1), (4.3)
32 Kapitel 4: Asymptotik <strong>des</strong> ML-Schätzers<br />
wobei auch hier erneut die Form <strong>des</strong> Restglie<strong>des</strong> durch Bedingung (c) begründet ist. Da<br />
der ML-Schätzer den log-<strong>Likelihood</strong> in Θ maximiert und Θ offen ist, schließt man mit der<br />
Differenzierbarkeit <strong>des</strong> log-<strong>Likelihood</strong>s, dass <strong>für</strong> den ML-Schätzer ˆθ n gilt<br />
˙l n (ˆθ n ) = 0. (4.4)<br />
Nach der starken Konsistenz liegt ˆθ n <strong>für</strong> ausreichend großes n fast sicher in B θ (0). Folglich ist<br />
(4.3) anwendbar <strong>für</strong> ausreichend großes n mit θ = ˆθ n . (4.3) und (4.4) liefern zusammen<br />
a.s.<br />
− A n = +B n (ˆθ n − θ (0) )+ ‖ ˆθ n − θ (0) ‖ 2 O p (1). (4.5)<br />
Aus B n −→ −J (Lemma 4.2) und der Existenz von J −1 folgt mit der Stetigkeit der Determinante,<br />
dass auch Bn<br />
−1 <strong>für</strong> ausreichend großes n existiert und (4.5) lässt sich schreiben<br />
als<br />
(<br />
)<br />
1 + Bn −1 (ˆθ n − θ (0) ) T O p (1) √n(ˆθn − θ (0) ) = − √ nBn −1 A n ,<br />
was wiederum<br />
√ n (ˆθn − θ (0) )(1 + o p (1)) = − √ n Bn<br />
−1 A n<br />
impliziert. Mit den Resultaten aus Lemma 4.2, √ D<br />
a.s.<br />
nA n −→ N (0, J) und −Bn −→ J, und<br />
Slutsky’s Theorem (siehe A.3) ist die rechte Seite asymptotisch normalverteilt mit Erwartungswart<br />
0 und Kovarianzmatrix J −1 . Beachte hierbei, dass das Invertieren einer Matrix<br />
stetig ist. Somit gilt auch<br />
√ n (ˆθn − θ (0) )<br />
D −→ N (0, J −1 ).
4.2. ML-Schätzer im k-Stichprobenfall 33<br />
4.2 Asymptotische Normalität <strong>des</strong> ML-Schätzers<br />
im k-Stichprobenfall<br />
<strong>Die</strong> Ergebnisse <strong>des</strong> vorigen Abschnittes werden nun auf den k-Stichprobenfall erweitert, wobei<br />
hierbei entscheidend ist, dass die Fallzahlen in den einzelnen Stichproben unterschiedlich<br />
seien können. Deshalb können die Stichproben nicht zu einer zusammengefasst und wie der<br />
1-Stichprobenfall behandelt werden. Unter der Annahme F, dass die Fallzahlen asymptotisch<br />
von gleicher Ordnung, lassen sich jedoch analoge Ergebnisse zur <strong>asymptotische</strong>n Normalität<br />
<strong>des</strong> ML-Schätzers herleiten. Es wird sich zeigen, dass sich die Kovarianzmatrix der <strong>asymptotische</strong>n<br />
<strong>Verteilung</strong> aus den Fisher-Informationsmatrizen der einzelnen Stichproben zusammensetzt,<br />
mit Gewichtung entsprechend ihrer relativen <strong>asymptotische</strong>n Fallzahlen.<br />
Es wird also der k-Stichprobenfall mit Regularitätsbedingungen R und Bedingung F betrachtet.<br />
Analog zu (4.1) und (4.2) wird <strong>für</strong> jede Stichprobe i = 1, . . . , k<br />
definiert. Es wird<br />
A (i)<br />
n i<br />
(θ i ) = 1 ∑n i<br />
U i (X ij , θ i ) = 1 ∑n i<br />
( ) d<br />
T<br />
log f i (X ij , θ i ) , (4.6)<br />
n i n<br />
j=1<br />
i dθ<br />
j=1 i<br />
B n (i)<br />
i<br />
(θ i ) = 1 ∑n i<br />
W i (X ij , θ i ) = 1 ∑n i<br />
d 2<br />
log f i (X ij , θ i ) (4.7)<br />
n i n i<br />
A (i)<br />
n i<br />
j=1<br />
dθ 2 j=1 i<br />
= A (i)<br />
n i<br />
(θ (0)<br />
i<br />
) und B n (i)<br />
i<br />
= B n (i)<br />
i<br />
(θ (0)<br />
i<br />
)<br />
gesetzt. Weiter sei J i die Fisher-Informationsmatrix der i-ten Stichprobe, ausgewertet an der<br />
Stelle <strong>des</strong> wahren Parameters θ (0)<br />
i<br />
, d.h.<br />
[<br />
]<br />
J i = E (0) θ<br />
U i (X i1 , θ (0)<br />
i<br />
) · U i (X i1 , θ (0)<br />
i<br />
) T<br />
i<br />
mit<br />
U i (x, θ) =<br />
( ) d<br />
T<br />
log f i (x, θ) .<br />
dθ i<br />
Es wird mit n = (n 1 , . . . , n k )<br />
A n =<br />
(<br />
A (1) n T<br />
1<br />
B n = diag<br />
, . . . , A (k) T<br />
n k<br />
) T<br />
,<br />
(<br />
)<br />
B n (1)<br />
1<br />
, . . . , B n (k)<br />
k<br />
,<br />
J = diag (J 1 , . . . , J k ) ,<br />
C = diag (c 1 I d , . . . , c k I d )<br />
gesetzt, wobei c i ∈ [0, 1] so, dass n i /n → c i <strong>für</strong> n → ∞ (siehe Bedingung F).
34 Kapitel 4: Asymptotik <strong>des</strong> ML-Schätzers<br />
Lemma 4.4. Sei der k-Stichprobenfall mit Regularitätsbedingungen R und Bedindung F<br />
gegeben, dann gilt<br />
√ D<br />
(i) nAn −→ N (0, C −1 J),<br />
a.s.<br />
(ii) B n −→ −J.<br />
Beweis. Aus dem 1-Stichprobenfall, Lemma 4.2, erhält man <strong>für</strong> i = 1, . . . , k<br />
√<br />
ni A (i) D<br />
n i −→ N (0, Ji ).<br />
Hieraus schließt man mit dem Lemma von Slutzky (siehe A.3)<br />
√ n A<br />
(i)<br />
n i<br />
=<br />
√ n<br />
n i<br />
√<br />
ni A (i)<br />
n i<br />
D −→ N (0, c<br />
−1<br />
i<br />
J i ). (4.8)<br />
Nach dem Blockungslemma sind A (1)<br />
n 1<br />
, . . . , A (k)<br />
n k<br />
unabhängig, da die zugrunde liegenden Beobachtungen<br />
unabhängig sind. Folglich erhält man mit (4.8)<br />
√ D n An −→ N (0, C −1 J).<br />
Damit ist Aussage (i) bewiesen. <strong>Die</strong> Aussage (ii) folgt mit dem Lemma von Slutzky direkt<br />
aus dem 1-Stichprobenfall.<br />
Theorem 4.5. Sei der k-Stichprobenfall mit Regularitätsbedingungen R und Bedindung F<br />
gegeben, dann gilt<br />
√ n (ˆθn − θ (0) ) −→ D N (0, (CJ) −1 ).<br />
Beweis. Der Beweis verläuft analog zu dem Beweis von Lemma 4.4. Für den ML-Schätzer ˆθ n<br />
der gemeinsamen Stichprobe gilt<br />
ˆθ n = arg sup<br />
θ∈Θ<br />
k∏ ∏n i<br />
f i (x ij , θ i ) =<br />
i=1 j=1<br />
k∏<br />
i=1<br />
arg sup<br />
∏n i<br />
θ i ∈Θ i j=1<br />
f i (x ij , θ i )<br />
und somit ˆθ n = (ˆθ 1, n , . . . , ˆθ k, n ), wobei ˆθ i, n der ML-Schätzer der einzelnen Stichprobe i ist.<br />
Das heißt der ML-Schätzer der gemeinsamen Stichprobe setzt sich aus denen der einzelnen<br />
Stichproben zusammen. Aus dem 1-Stichprobenfall, Lemma 4.2, erhält man <strong>für</strong> i = 1, . . . , k<br />
√<br />
ni (ˆθ i, n − θ (0)<br />
i<br />
) −→ D N (0, Ji −1 ).<br />
Mit dem Lemma von Slutzky (siehe A.3) wird<br />
√ n (ˆθi, n − θ (0)<br />
i<br />
) =<br />
√ n<br />
n i<br />
√<br />
ni (ˆθ i, n − θ (0)<br />
i<br />
) D<br />
−→ N (0, c −1<br />
i<br />
J −1<br />
i<br />
) (4.9)<br />
geschlossen. Nach dem Blockungslemma sind ˆθ 1, n1 , . . . , ˆθ k, nk unabhängig, da die zugrundeliegenden<br />
Beobachtungen unabhängig sind. Folglich erhält man mit (4.9)<br />
√ n (ˆθn − θ (0) ) −→ D N (0, (CJ) −1 ).
4.3. Eingeschränkter ML-Schätzer 35<br />
4.3 Asymptotik <strong>des</strong> eingeschränkten ML-Schätzers<br />
Es wird der auf eine Menge M ⊆ R kd eingeschränkte ML-Schätzer betrachtet. Konvergiert<br />
dieser in Wahrscheinlichkeit gegen einen Punkt θ ∗ ∈ M, so gibt Theorem 4.6 unter geeigneten<br />
Regularitätsbedingungen die Konvergenz mit Rate √ n. Als Spezialfall erhält man mit<br />
θ ∗ = θ (0) Korollar 4.8, das unter den Regularitätsbedingungen R <strong>für</strong> einen konsistenten<br />
ML-Schätzer automatisch die √ n-Konsistenz dieses Schätzer liefert. Korollar 4.8 wurde <strong>für</strong><br />
den 1-Stichprobenfall bereits von Chernoff (1954) formuliert. Allerdings führt er nur eine<br />
Beweisskizze an. Theorem 4.6 stellt eine Verallgemeinerung auf den k-Stichprobenfall und<br />
θ ∗ ≠ θ (0) dar. Insbesondere muss somit der wahre Wert θ (0) <strong>des</strong> Parameters θ nicht in der<br />
Menge M liegen.<br />
Theorem 4.6. Der k-Stichprobenfall sei gegeben, θ ∗ = (θ1 ∗, . . . , θ∗ k ) ∈ M ⊆ Rkd und es gelte<br />
P<br />
→ θ ∗ . Weiter seien die nachstehenden Bedingungen erfüllt:<br />
ˆθ M n<br />
(i) <strong>Die</strong> Bedingung F ist erfüllt mit n i<br />
n = c i + o(1/ √ n).<br />
(ii) Für i = 1, . . . , k existieren die partiellen Ableitungen von f i (x, θ i ) bezüglich θ i und sind<br />
stetig.<br />
(iii) Es existiert eine Funktion K(x) mit E θ (0)K(X) < ∞, so dass die Norm von d/dθ W (x, θ)<br />
gleichmäßig in einer Umgebung von θ ∗ durch K(x) beschränkt ist.<br />
[ ] 2<br />
(iv) Für i = 1, . . . , k existiert E (0) d/dθi θ<br />
log f i (X i1 , θ i )| θi =θi<br />
∗ und <strong>für</strong><br />
i<br />
[ ] T<br />
µ i := E (0) d/dθi θ<br />
log f i (X i1 , θ i )| θi =θi<br />
∗ gilt<br />
i<br />
k∑<br />
c i µ i (ˆθ i, M n − θi ∗ ) =<br />
i=1<br />
(v) Für i = 1, . . . , k existiert D i := −E (0) θ i<br />
D := diag (D 1 , . . . , D k ) gilt<br />
Dann gilt<br />
<strong>für</strong> ein α > 0.<br />
k∑<br />
o p (‖ ˆθ i, M n − θi ∗ ‖ 2 ).<br />
i=1<br />
[<br />
d 2 /dθ 2 i log f i (X i1 , θ i )| θi =θ ∗ i<br />
(ˆθ M i, n − θ ∗ i ) T D (ˆθ M i, n − θ ∗ i ) ≥ α ‖ ˆθ M i, n − θ ∗ i ‖ 2<br />
√ n<br />
(ˆθM n − θ ∗) = O p (1).<br />
]<br />
und <strong>für</strong><br />
Bemerkung 4.7. Bedingung (iii) wird <strong>für</strong> die Abschätzung <strong>des</strong> Restglie<strong>des</strong> der Taylorentwicklung<br />
um θ ∗ benötigt. Bedingung (iv) besagt, dass die erwartete Ableitung <strong>des</strong> log-<br />
<strong>Likelihood</strong>s an der Stelle θ ∗ in Richtung <strong>des</strong> auf M eingeschränkten ML-Schätzers schneller<br />
gegen null konvergiert als ‖ ˆθ n<br />
M − θ ∗ ‖ 2 . Bedingung (v) sichert, dass sich die Matrix D gegenüber<br />
dem eingeschränkten Schätzer ˆθ n<br />
M wie eine positiv definite und symmetrische Matrix<br />
verhält. Somit ist Bedingung (v) <strong>für</strong> eine positiv definite und symmetrische Matrix D automatisch<br />
erfüllt mit α gleich dem kleinsten Eigenwert von D. Für θ ∗ = θ (0) werden die<br />
Bedingungen (ii)-(v) durch die Regularitätsbedingungen R abgedeckt, siehe Korollar 4.8.
36 Kapitel 4: Asymptotik <strong>des</strong> ML-Schätzers<br />
Beweis. Ohne Einschränkung der Allgemeinheit wird angenommen, dass θ ∗ = 0 ist. <strong>Die</strong>ses<br />
kann durch Umparametrisierung mit θ ↦→ θ − θ ∗ erreicht werden. Im Folgenden <strong>des</strong> Beweises<br />
wird ˆθ n statt ˆθ n<br />
M geschrieben. Für ˆθ n = 0 ist die Aussage trivial. Somit wird im Folgenden<br />
ˆθ n ≠ 0 angenommen. <strong>Die</strong> Taylorentwicklung <strong>des</strong> log-<strong>Likelihood</strong>s um den wahren Wert θ ∗ = 0<br />
liefert<br />
1<br />
(<br />
)<br />
l n (ˆθ n ) − l n (0) =<br />
n<br />
k∑<br />
i=1<br />
n i<br />
n A(i) n i<br />
ˆθi, n + 1 2<br />
k∑<br />
i=1<br />
n i<br />
n ˆθ T i, nB (i)<br />
n i<br />
ˆθi, n +<br />
k∑<br />
‖ ˆθ i, n ‖ 3 O p (1).<br />
Nach Definition <strong>des</strong> ML-Schätzers ist die linke Seite größer oder gleich null. Folglich gilt dieses<br />
auch <strong>für</strong> die rechte Seite<br />
0 ≤<br />
k∑<br />
i=1<br />
n i<br />
n A(i) n i<br />
ˆθi, n + 1 2<br />
Mit Voraussetzung (i) und (iv) gilt<br />
k∑<br />
i=1<br />
n i<br />
n µ i ˆθ i, n =<br />
=<br />
k∑<br />
i=1<br />
n i<br />
n ˆθ T i, nB (i)<br />
n i<br />
ˆθi, n +<br />
k∑<br />
c i µ i ˆθi, n +<br />
i=1<br />
i=1<br />
k∑<br />
‖ ˆθ i, n ‖ 3 O p (1). (4.10)<br />
i=1<br />
k∑<br />
o(1/ √ n)µ i ˆθi, n (4.11)<br />
i=1<br />
k∑<br />
o p (‖ ˆθ i, n ‖ 2 ) +<br />
i=1<br />
Somit liefern (4.10) und (4.12) zusammen<br />
k∑<br />
o p (‖ ˆθ i, n ‖ / √ n). (4.12)<br />
i=1<br />
0 ≤<br />
k∑<br />
i=1<br />
+<br />
n i<br />
n (A(i) n i<br />
− µ i ) ˆθ i, n + 1 2<br />
k∑<br />
o p (‖ ˆθ i, n ‖ 2 ) +<br />
i=1<br />
k∑<br />
i=1<br />
n i<br />
n ˆθ T i, nB (i)<br />
n i<br />
ˆθi, n +<br />
k∑<br />
‖ ˆθ i, n ‖ 3 O p (1) (4.13)<br />
i=1<br />
k∑<br />
o p (‖ ˆθ i, n ‖ / √ n). (4.14)<br />
i=1<br />
Es ist vorausgesetzt, dass ˆθ n in Wahrscheinlichkeit gegen null konvergiert, d.h. ˆθ P<br />
n → 0. Weiter<br />
gilt nach dem Zentralen Grenzwertsatz (siehe A.2) √ n i (A (i)<br />
n i<br />
− µ i ) = O p (1) und dem starken<br />
Gesetz der großen Zahlen (siehe A.1) B n (i) a.s.<br />
i<br />
−→ −D i . Somit können eine Folge d n → 0 und ein<br />
K so gewählt werden, dass <strong>für</strong> beliebiges ɛ > 0 mit Wahrscheinlichkeit größer als 1 − ɛ <strong>für</strong><br />
i = 1, . . . , k gilt:<br />
‖ A (i)<br />
n i<br />
− µ i ‖≤ K √<br />
ni<br />
,<br />
d∑<br />
l,m=1<br />
‖ [B (i)<br />
n i<br />
] lm + [D i ] lm ‖≤ d n , ‖ ˆθ n ‖≤ d n<br />
und <strong>für</strong> die Landau-Symbole aus (4.13)und (4.14) gilt:<br />
O p (1) ≤ K , o p (‖ ˆθ i, n ‖ 2 ) ≤ d n ‖ ˆθ i, n ‖ 2 , o p (‖ ˆθ i, n ‖ / √ n) ≤ d n<br />
‖ ˆθ i, n ‖<br />
√ n<br />
.<br />
Aus<br />
d∑<br />
d∑<br />
x T Bx = x i x j [B] ij ≤ ‖ x ‖ 2 1 ‖ [B] ij ‖ ≤ √ d∑<br />
d ‖ x ‖ 2 ‖ [B] ij ‖<br />
i,j=1<br />
i,j=1<br />
i,j=1
4.3. Eingeschränkter ML-Schätzer 37<br />
<strong>für</strong> einen beliebigen Vektor x ∈ R d und eine beliebige Matrix B ∈ R d×d schließt man<br />
k∑<br />
i=1<br />
n i<br />
n ˆθ T i, nB (i)<br />
n i<br />
ˆθi, n ≤ −<br />
≤<br />
−<br />
k∑<br />
i=1<br />
k∑<br />
i=1<br />
n i<br />
n ˆθ T i, nD i ˆθi, n +<br />
k∑<br />
i=1<br />
n i<br />
n ˆθ<br />
√ k∑<br />
i, T nD i ˆθi, n + d n d<br />
√<br />
d<br />
n i<br />
n ‖ ˆθ i, n ‖ 2 ·<br />
i=1<br />
‖ ˆθ i, n ‖ 2 .<br />
d∑<br />
l,m=1<br />
‖ [B (i)<br />
n i<br />
] lm + [D i ] lm ‖<br />
Somit erhält man zusammen mit Wahrscheinlichkeit größer als 1 − ɛ, dass<br />
0 ≤<br />
≤<br />
k∑<br />
i=1<br />
+<br />
k∑<br />
i=1<br />
n i<br />
n (A(i) n i<br />
− µ i ) ˆθ i, n + 1 2<br />
k∑<br />
o p (‖ ˆθ i, n ‖ 2 ) +<br />
i=1<br />
n i<br />
n<br />
K<br />
√<br />
ni<br />
‖ ˆθ i, n ‖ − 1 2<br />
k∑<br />
i=1<br />
n i<br />
n ˆθ T i, nB (i)<br />
n i<br />
ˆθi, n +<br />
k∑<br />
o p (‖ ˆθ i, n ‖ / √ n)<br />
i=1<br />
k∑<br />
i=1<br />
k∑<br />
+ d n ‖ ˆθ<br />
k∑<br />
i, n ‖ 2 + d n<br />
= − 1 2<br />
i=1<br />
k∑<br />
i=1<br />
i=1<br />
k∑<br />
‖ ˆθ i, n ‖ 3 O p (1)<br />
i=1<br />
n i<br />
n ˆθ i, T nD i ˆθi, n + 1 2 d √ k∑<br />
n d ‖ ˆθ i, n ‖ 2 +<br />
i=1<br />
‖ ˆθ i, n ‖<br />
√ n<br />
n i<br />
n ˆθ i, T nD i ˆθi, n + 1 2 d √ k∑<br />
n d ‖ ˆθ i, n ‖ 2 +K<br />
i=1<br />
k∑<br />
+ d n ‖ ˆθ<br />
k∑<br />
i, n ‖ 2 + d n<br />
≤ − 1 2<br />
i=1<br />
k∑<br />
i=1<br />
i=1<br />
‖ ˆθ i, n ‖<br />
√ n<br />
n i<br />
n ˆθ i, T nD i ˆθi, n + 1 2 d √ k∑<br />
n d ‖ ˆθ i, n ‖ 2 +K<br />
i=1<br />
k∑<br />
+ d n ‖ ˆθ<br />
k∑<br />
i, n ‖ 2 + d n<br />
≤ − 1 2<br />
i=1<br />
k∑<br />
i=1<br />
i=1<br />
n i<br />
n ˆθ T i, nD i ˆθi, n + K 2<br />
‖ ˆθ i, n ‖<br />
√ n<br />
(<br />
k∑<br />
i=1<br />
(<br />
k∑<br />
i=1<br />
‖ ˆθ i, n ‖ 3 + n i<br />
n<br />
k∑<br />
‖ ˆθ i, n ‖ 3 K<br />
i=1<br />
‖ ˆθ<br />
)<br />
i, n ‖<br />
√<br />
ni<br />
(<br />
k∑<br />
d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ<br />
)<br />
i, n ‖<br />
√<br />
ni<br />
i=1<br />
d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ i, n ‖<br />
√<br />
ni<br />
‖<br />
+ d ˆθ<br />
)<br />
i, n ‖<br />
n √ n<br />
mit K 2 = K + √ d + 1. Da <strong>für</strong> alle i = 1, . . . , k der Quotient n i /n gegen eine positive Zahl<br />
größer null konvergiert, lässt sich ein b > 0 finden, dass n i /n <strong>für</strong> alle i = 1, . . . , k stets größer<br />
als b ist und man erhält<br />
1<br />
2 b ˆθ n T D ˆθ<br />
k∑<br />
n ≤ K 2<br />
i=1<br />
(<br />
d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ i, n ‖<br />
√<br />
ni<br />
+ d n<br />
‖ ˆθ i, n ‖<br />
√ n<br />
)<br />
.
38 Kapitel 4: Asymptotik <strong>des</strong> ML-Schätzers<br />
Mit K 3 = 2K 2 /b ergibt dieses<br />
(<br />
ˆθ n T D ˆθ<br />
k∑<br />
n ≤ K 3 d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ i, n ‖ ‖<br />
√ + d ˆθ<br />
)<br />
i, n ‖<br />
n √<br />
ni n<br />
i=1<br />
(<br />
k∑<br />
≤ K 3 d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ i, n ‖ ‖<br />
√ + d ˆθ<br />
)<br />
i, n ‖<br />
n √<br />
i=1<br />
bn n<br />
(<br />
= K 3 d n ‖ ˆθ n ‖ 2 + 1 + d √ )<br />
n b<br />
k∑<br />
√ ‖ ˆθ i, n ‖<br />
bn<br />
<strong>Die</strong> Abbildung x ↦→ ∑ k<br />
i=1 ‖ x i ‖ mit x i ∈ R d definiert eine Norm auf dem R kd . Auf einem<br />
endlich dimensionalen Vektorraum sind alle Normen äquivalent. Das heißt, es gibt a > 0 mit<br />
k∑<br />
‖ x i ‖ ≤ a ‖ x ‖<br />
i=1<br />
<strong>für</strong> alle x ∈ R kd . Weiter gilt nach Voraussetzung (v)<br />
ˆθ T n D ˆθ n ≥ α ‖ ˆθ n ‖ 2<br />
mit α > 0. Folglich erhält man<br />
(<br />
α ‖ ˆθ n ‖ 2 ≤ K 3 d n ‖ ˆθ n ‖ 2 + a(1 + d √ )<br />
n b) ‖ ˆθn ‖<br />
√ ,<br />
bn<br />
i=1<br />
was wiederum mit K 4 = K 3 α −1 · min(1, a/ √ b) > 0 äquivalent zu folgendem ist<br />
(<br />
‖ ˆθ n ‖ 2 ≤ K 4 d n ‖ ˆθ<br />
√<br />
n ‖ 2 ‖<br />
+(1 + d ˆθ<br />
)<br />
n ‖<br />
n b) √ n<br />
⇔<br />
⇔<br />
1 ≤ d n + 1 + d √<br />
n b<br />
√<br />
K 4 n ‖ ˆθn ‖<br />
√ n ‖ ˆθ n ‖≤ 1 + d √<br />
n b<br />
.<br />
1/K 4 − d n<br />
Da d n → 0, gilt <strong>für</strong> geeignetes K ∗ mit Wahrscheinlichkeit größer 1 − ɛ<br />
√ n ‖ ˆθn ‖≤ K ∗ .<br />
Korollar 4.8. Sei der k-Stichprobenfall mit Regularitätsbedingungen R und Bedingung F<br />
gegeben, dann folgt aus θ (0) ∈ M ⊆ R kd und ˆθ n<br />
M P<br />
→ θ (0) , dass<br />
√ n<br />
(ˆθM n − θ (0)) = O p (1).<br />
Beweis. Unter den gegebenen Voraussetzungen kann Theorem 4.6 angewandt werden. <strong>Die</strong><br />
Bedingungen (ii) und (iii) folgen direkt aus den Regularitätsbedingungen R. <strong>Die</strong> Bedingungen<br />
(iv) und (v) folgen nach Anwendung von Lemma 4.4 mit D = J(θ (0) ). Beachte, dass nach<br />
Regularitätsbedingungen R J(θ (0) ) positiv definit ist.
4.3. Eingeschränkter ML-Schätzer 39<br />
Bemerkung 4.9. Lässt sich der eingeschränkte ML-Schätzer ˆθ n<br />
M<br />
ˆη n M und ˆξ n M aufteilen, d.h.<br />
in zwei unabhängige Schätzer<br />
(ˆθ M π(1), n , . . . , ˆθ M π(k), n ) = (ˆηM n , ˆξ M n )<br />
mit einer Permutation π der Menge {1, . . . , k}, so können diese auch getrennt untersucht<br />
werden. Für ˆη n<br />
M = ˆη n , wobei ˆη n der entsprechend aufgeteilte uneingeschränkte ML-Schätzer<br />
ist, übertragen sich die Konvergenzeigenschaften aus dem uneingeschränkten Fall auf ˆη n<br />
M und<br />
die Asymptotik von ˆξ n M kann unabhängig von ˆη n M beispielsweise mit Theorem 4.6 untersucht<br />
werden.
Kapitel 5<br />
Asymptotische <strong>Verteilung</strong> der<br />
<strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik auf<br />
dem Rand der Hypothese<br />
In diesem Kapitel wird die <strong>asymptotische</strong> <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik auf<br />
dem Rand der Hypothese im k-Stichprobenfall untersucht. Der Abschnitt ist in Anlehnung an<br />
die Arbeit von Chernoff (1954), der den entsprechenden 1-Stichprobenfall behandelt, geschrieben<br />
und stellt eine Verallgemeinerung auf den k-Stichprobenfall mit ungleichen Fallzahlen dar.<br />
Chernoff betrachtet in seiner Arbeit die <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong><br />
im 1-Stichprobenfall, wenn der wahre Parameter auf dem Rand der Hypothese und der Alternative<br />
liegt. Folgende Annahmen werden gestellt: <strong>Die</strong> <strong>Verteilung</strong> der Beobachtungen genügen<br />
den Regularitätsbedingungen R, der auf die Hypothese eingeschränkte ML-Schätzer ist konsistent<br />
und die Parameterräume der Hypothese und der Alternative können durch positiv<br />
homogene Mengen approximiert werden, deren Eigenschaften später dargestellt werden. So<br />
kann Chernoff zeigen, dass die <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> asymptotisch gleich der<br />
<strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong>, wenn diese auf einer Beobachtung einer normalverteilten Zufallsvariablen<br />
mit Erwartungswert θ 0 und Kovarianzmatrix J(θ (0) ) −1 basiert, wobei die approximierenden<br />
Mengen der Hypothese und der Alternative gegeneinander getestet werden. Im<br />
Abschnitt 5.1 werden entsprechende Ergebnisse <strong>für</strong> den k-Stichprobenfall hergeleitet.<br />
5.1 Asymptotische <strong>Verteilung</strong> nach Chernoff<br />
<strong>für</strong> den k-Stichprobenfall<br />
Es wird der k-Stichprobenfall mit Regularitätsbedingungen R und Bedingung F betrachtet.<br />
Zur Vereinfachung und Lesbarkeit wird im Folgenden ohne Einschränkung der Allgemeinheit<br />
angenommen, dass der wahre Wert <strong>des</strong> Parameters θ (0) = 0 ist. <strong>Die</strong>ses kann durch Umparametrisierung<br />
mit θ ↦→ θ − θ (0) erreicht werden.<br />
Betrachtet wird der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test von der Hypothese H 0 : θ ∈ Θ 0 gegen die<br />
Alternative H 1 : θ ∈ Θ 1 . Wie im vorangegangenen Abschnitt wird angenommen, dass die<br />
Hypothese und die Alternative den Parameterraum in zwei disjunkte Mengen teilen. Des<br />
Weiteren soll die Hypothese wie auch der Parameterraum selbst durch eine positiv homogene<br />
41
42 Kapitel 5: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Hypothese<br />
Menge approximiert werden können. <strong>Die</strong> Definition 2.4 zur gegenseitigen Approximation von<br />
zwei Mengen wie auch die Definition einer positiv homogenen Menge sind in Abschnitt 2.4<br />
gegeben.<br />
Das folgende Theorem 5.1 stellt eine Verallgemeinerung <strong>des</strong> Resultates von Chernoff (1954)<br />
auf den k-Stichprobenfall mit ungleichen Fallzahlen dar. Gezeigt wird, dass die <strong>asymptotische</strong><br />
<strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> unter k Stichproben, die die Regularitätsbedingungen<br />
R und die Bedingung F <strong>für</strong> die <strong>asymptotische</strong> Fallzahlenverhältnisse erfüllen, gleich der <strong>Verteilung</strong><br />
<strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> unter einer Beobachtung einer normalverteilten Zufallsvariablen<br />
mit geeignetem Erwartungswert und geeigneter Varianz ist, wenn Hypothese Θ 0 und<br />
Parameterraum Θ durch positiv homogene Mengen approximiert werden können, wenn der<br />
wahre Wert θ (0) <strong>des</strong> Parameters θ auf dem Rand der Hypothese liegt und wenn der auf die<br />
Hypothese eingeschränkte ML-Schätzer in Wahrscheinlichkeit gegen den wahren Wert konvergiert.<br />
Kurz gefasst, bedeutet das, dass man sich bei <strong>asymptotische</strong>n Untersuchungen <strong>des</strong><br />
<strong>Likelihood</strong>-<strong>Quotienten</strong> auf eine normalverteilte Zufallsvariable Z und die approximierenden<br />
Mengen der Hypothese und <strong>des</strong> Parameterraums zurückziehen kann, wobei Z den Erwartungswert<br />
θ (0) hat und die Kovarianzmatrix von Z die Inverse der Diagonalmatrix mit gewichteten<br />
Fisher-Informationsmatrizen der einzelnen Stichproben auf der Diagonalen ist. Wie bereits<br />
erwähnt, wird ohne Einschränkung der Allgemeinheit θ (0) = 0 vorausgesetzt. <strong>Die</strong> im Abschnitt<br />
4.2 eingeführten Notationen <strong>für</strong> A (i)<br />
n i<br />
, B n (i)<br />
i<br />
, A n ,B n , J und C werden übernommen.<br />
Theorem 5.1. Der k-Stichprobenfall sei gegeben und folgende Bedingungen erfüllt:<br />
(i) <strong>Die</strong> Dichten f i erfüllen die Regularitätsbedingungen R <strong>für</strong> i = 1, . . . , k.<br />
(ii) <strong>Die</strong> Bedingung F ist erfüllt, d.h. n i<br />
n → c i <strong>für</strong> n → ∞ mit 0 < c i < 1, i = 1, . . . , k.<br />
(iii) Es gilt ˆθ Θ 0<br />
n<br />
P<br />
−→ 0.<br />
(iv) <strong>Die</strong> Mengen Θ und Θ 0 können durch die nicht leeren und positiv homogenen Mengen<br />
M bzw. M 0 approximiert werden.<br />
Dann ist die <strong>asymptotische</strong> <strong>Verteilung</strong> von −2 log λ n gegeben durch die <strong>Verteilung</strong> von<br />
inf (Z − θ) T CJ (Z − θ) − inf (Z −<br />
θ∈M 0 θ∈M θ)T CJ (Z − θ)<br />
mit Z ∼ N (0, (CJ) −1 ) und (CJ) −1 = diag ( 1 c 1<br />
J −1<br />
1 , . . . , 1<br />
c k<br />
J −1<br />
k<br />
Bemerkung 5.2. Beispiel 2.2 zeigt, dass die <strong>Verteilung</strong> von<br />
) ist.<br />
inf (Z − θ) T CJ (Z − θ) − inf (Z −<br />
θ∈M 0 θ∈M θ)T CJ (Z − θ)<br />
mit Z ∼ N (0, (CJ) −1 ) gerade die <strong>Verteilung</strong> von minus zweimal dem Logarithmus <strong>des</strong><br />
<strong>Likelihood</strong>-<strong>Quotienten</strong>s <strong>für</strong> den Test von θ ∈ M 0 gegen θ ∈ M\M 0 basierend auf einer Beobachtung<br />
einer normalverteilten Zufallsvariablen mit Erwartungswert 0 und Kovarianzmatrix<br />
(CJ) −1 ist.
5.1. Chernoff <strong>für</strong> den k-Stichprobenfall 43<br />
Beweis von Theorem 5.1. Da der <strong>Likelihood</strong>-Quotient durch<br />
λ n = sup θ∈Θ 0<br />
L n (θ)<br />
sup θ∈Θ L n (θ)<br />
gegeben ist, sind der ML-Schätzer und der auf die Hypothese Θ 0 eingeschränkte ML-Schätzer<br />
zu betrachten. Zunächst wird gezeigt, dass beide Schätzer folgende Eigenschaft aufweisen:<br />
ˆθ n = J −1 A n + η(ˆθ n ) mit η(ˆθ n ) = O p (1/ √ n). (5.1)<br />
Da nach Lemma 4.4 (i)<br />
J −1 A n = O p (1/ √ n)<br />
gilt, reicht es aus zu zeigen, dass ˆθ n ebenfalls ein O p (1/ √ n) ist, damit die Eigenschaft (5.1)<br />
gegegeben ist. <strong>Die</strong>ses gilt nach Theorem 4.5 <strong>für</strong> den ML-Schätzer ˆθ n . <strong>Die</strong> Bedingung (iii)<br />
der Voraussetzungen stellt sicher, dass der auf die Hypothese eingeschränkte Schätzer ˆθ Θ 0<br />
P<br />
konsistent ist, d.h. ˆθ Θ 0<br />
n −→ 0. Folglich kann Theorem 4.6 <strong>für</strong> ˆθ Θ 0<br />
n angewandt werden und man<br />
erhält ˆθ Θ 0<br />
n = O p (1/ √ n). Somit ist die Eigenschaft (5.1) <strong>für</strong> beide Schätzer gezeigt.<br />
Zur Vereinfachung der Schreibweise wird<br />
à n =<br />
eingeführt.<br />
(<br />
n 1 A (1) T<br />
n 1<br />
, . . . , n k A (k) T<br />
n k<br />
) T<br />
und ˜Bn = diag<br />
(<br />
)<br />
n 1 B n (1)<br />
1<br />
, . . . , n k B n (k)<br />
k<br />
<strong>Die</strong> Taylorentwicklung um den Nullpunkt (wahrer Wert <strong>des</strong> Parameters) liefert<br />
l n (θ) = l n (0) +<br />
k∑<br />
i=1<br />
n i A (i)<br />
n i<br />
θ i + 1 2<br />
k∑<br />
i=1<br />
n i θ T i B (i)<br />
n i<br />
θ i +<br />
k∑<br />
‖ θ i ‖ 3 O p (n i ).<br />
Wie schon in vorangegangenen Abschnitten erwähnt, sichert Punkt (c) der Regularitätsbedingungen<br />
R die Form <strong>des</strong> Restglie<strong>des</strong>. Wird vorausgesetzt, dass θ = O p (1/ √ n) ist, so ist das<br />
Restglied ‖ θ i ‖ 3 O p (n i ) <strong>für</strong> alle i = 1, . . . , k ein O p (1/ √ n) und damit ein o p (1). Ein θ, das<br />
Eigenschaft (5.1) aufweist, erfüllt die Voraussetzung θ = O p (1/ √ n). <strong>Die</strong>ses liefert<br />
i=1<br />
n<br />
l n (θ) = l n (0) + ÃT nθ + 1 2 θT ˜Bn θ + o p (1).<br />
Für θ, welches die Eigenschaft (5.1) erfüllt, kann an dieser Stelle θ durch J −1 A n + η(θ) mit<br />
η(θ) = O p (1/ √ n) ersetzt werden und man erhält<br />
l n (θ) = l n (0) + ÃT nJ −1 A n + ÃT nη(θ) + 1 2 (J −1 A n + η(θ)) T ˜Bn (J −1 A n + η(θ)) + o p (1)<br />
= l n (0) + ÃT nJ −1 A n + ÃT nη(θ) + 1 2 ÃT nJ −1 B n J −1 A n<br />
+ÃT nJ −1 B n η(θ) + 1 2 η(θ) ˜B n η(θ) + o p (1). (5.2)<br />
Beachte hierbei, dass J −1 = diag (J1 −1 , . . . , J −1 ) und diag(n 1I d , . . . , n k I d ) kommutieren.<br />
k
44 Kapitel 5: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Hypothese<br />
Mit B n = −J + o p (1) (Lemma 4.4 (ii)) gilt<br />
à T nJ −1 B n η(θ) = −Ãnη(θ) + ÃnJ −1 o p (1)η(θ)<br />
Analog erhält man mit gleichen Argumenten<br />
Weiter gilt analog mit n i /n = c i + o(1)<br />
η(θ) ˜B n η(θ) =<br />
= −Ãnη(θ) + O p ( √ n)o p (1)O p (1/ √ n)<br />
= −Ãnη(θ) + o p (1).<br />
à T nJ −1 B n J −1 A n = −ÃT nJ −1 A n + o p (1).<br />
k∑<br />
i=1<br />
= −n<br />
= −n<br />
= −n<br />
η(θ) T i n i B (i)<br />
n i<br />
k∑<br />
η(θ) T i<br />
i=1<br />
k∑<br />
η(θ) T i<br />
i=1<br />
η(θ) i = n<br />
k∑<br />
η(θ) T i<br />
i=1<br />
n i<br />
n J i η(θ) i + n<br />
n i<br />
n B(i) n i<br />
η(θ) i<br />
k∑<br />
η(θ) T i o p (1) η(θ) i<br />
i=1<br />
n j<br />
n J i η(θ) i + n O p (1/ √ n)o p (1)O p (1/ √ n)<br />
k∑<br />
η(θ) T i c i J i η(θ) i + n η(θ) T o(1) η(θ) + o p (1)<br />
i=1<br />
= −n η(θ) T CJη(θ) + o p (1).<br />
Einsetzen in (5.2) liefert<br />
l n (θ) = l n (0) + 1 2ÃT nJ −1 A n − n 2 η(θ)T CJη(θ) + o p (1). (5.3)<br />
Weiter gilt <strong>für</strong> eine beliebige Menge M ∈ R kd<br />
sup<br />
θ∈M<br />
(<br />
l n (0) + 2ÃT 1 nJ −1 A n − n )<br />
2 η(θ)T CJη(θ) + o p (1)<br />
= l n (0) + 1 2ÃT nJ −1 A n + sup<br />
θ∈M<br />
(<br />
− n )<br />
2 η(θ)T CJη(θ) + o p (1).<br />
Somit kann mit (5.3) der log-<strong>Likelihood</strong> als<br />
[<br />
]<br />
−2 log λ n (x) = 2 sup l n (θ) − sup l n (θ)<br />
θ∈Θ θ∈Θ 0<br />
[ (<br />
= 2 sup − n )<br />
2 η(θ)T CJη(θ)<br />
geschrieben werden.<br />
[<br />
= n<br />
θ∈Θ<br />
[<br />
]<br />
= 2 l n (ˆθ n ) − l n (ˆθ Θ 0<br />
n )<br />
inf η(θ) T CJη(θ) − inf<br />
θ∈Θ 0 θ∈Θ η(θ)T CJη(θ)<br />
(<br />
− sup − n CJη(θ)) ]<br />
θ∈Θ 0<br />
2 η(θ)T + o p (1)<br />
]<br />
+ o p (1)
5.1. Chernoff <strong>für</strong> den k-Stichprobenfall 45<br />
Wird nun wieder η(θ) durch J −1 A n − θ ersetzt, erhält man<br />
[<br />
]<br />
−2 log λ n (x) = n inf (J −1 A n − θ) T CJ(J −1 A n − θ) − inf (J −1 A n − θ) T CJ(J −1 A n − θ)<br />
θ∈Θ 0 θ∈Θ<br />
+ o p (1).<br />
Anwenden von Lemma 2.7 liefert<br />
[<br />
]<br />
−2 log λ n (x) = n inf (J −1 A n − θ) T CJ(J −1 A n − θ) − inf (J −1 A n − θ) T CJ(J −1 A n − θ)<br />
θ∈M 0 θ∈M<br />
mit<br />
+ n o(‖ J −1 A n ‖ 2 ) + o p (1)<br />
n o(‖ J −1 A n ‖ 2 ) = n o p (1/n) = o p (1).<br />
Somit gilt<br />
−2 log λ n (x) = n · inf<br />
θ∈M 0<br />
(J −1 A n − θ) T CJ (J −1 A n − θ)<br />
−n · inf<br />
θ∈M (J −1 A n − θ) T CJ (J −1 A n − θ) + o p (1)<br />
= inf<br />
θ∈M 0<br />
( √ nJ −1 A n − √ nθ) T CJ ( √ nJ −1 A n − √ nθ)<br />
− inf<br />
θ∈M (√ nJ −1 A n − √ nθ) T CJ ( √ nJ −1 A n − √ nθ) + o p (1)<br />
= inf<br />
θ∈M 0<br />
( √ nJ −1 A n − θ) T CJ ( √ nJ −1 A n − θ)<br />
− inf<br />
θ∈M (√ nJ −1 A n − θ) T CJ ( √ nJ −1 A n − θ) + o p (1)<br />
= inf<br />
θ∈M 0<br />
(Z n − θ) T CJ (Z n − θ) − inf<br />
θ∈M (Z n − θ) T CJ (Z n − θ) + o p (1)<br />
mit Z n = √ nJ −1 A n . <strong>Die</strong> dritte Gleichheit folgt daraus, dass M und M 0 positiv homogene<br />
Mengen sind. Nach Punkt (i) von Lemma 4.4 gilt<br />
√ nAn<br />
D −→ N (0, C −1 J)<br />
und folglich<br />
Z n = √ nJ −1 A n<br />
D −→ N (0, (CJ) −1 ).<br />
Da die Abbildung x ↦→ inf θ∈M0 (x − θ) T CJ (x − θ) stetig ist, folgt nach dem Lemma von<br />
Slutzky (siehe A.3), dass die <strong>asymptotische</strong> <strong>Verteilung</strong> von −2 log λ n die von<br />
mit Z ∼ N (0, (CJ) −1 ) ist.<br />
inf (Z − θ) T CJ (Z − θ) − inf (Z −<br />
θ∈M 0 θ∈M θ)T CJ (Z − θ)
46 Kapitel 5: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Hypothese<br />
Korollar 5.3. In Theorem 5.1 kann die Kovarianzmatrix CJ durch d · CJ mit beliebigem<br />
d > 0 ersetzt werden.<br />
Beweis. Wie in Theorem 5.1 gezeigt, ist die <strong>asymptotische</strong> <strong>Verteilung</strong> von −2 log λ n (x) durch<br />
die <strong>Verteilung</strong> von<br />
mit Z ∼ N (0, (CJ) −1 ) gegeben.<br />
inf (Z − θ) T CJ (Z − θ) − inf (Z −<br />
θ∈M 0 θ∈M θ)T CJ (Z − θ)<br />
Da nun M und M 0 positiv homogene Mengen sind, gilt<br />
inf (Z − θ) T CJ (Z − θ) − inf (Z −<br />
θ∈M 0 θ∈M θ)T CJ (Z − θ)<br />
1<br />
= inf √d (Z − θ) T d · CJ 1<br />
1<br />
√ (Z − θ) − inf √ (Z − θ) T d · CJ √ 1 (Z − θ)<br />
θ∈M 0 d θ∈M d d<br />
= inf ( √ 1 Z − θ) T d · CJ ( √ 1 Z − θ) − inf ( √ 1 Z − θ) T d · CJ ( √ 1 Z − θ)<br />
θ∈M 0 d d θ∈M d d<br />
= inf<br />
θ∈M 0<br />
(Y − θ) T d · CJ (Y − θ) − inf<br />
θ∈M (Y − θ)T d · CJ (Y − θ)<br />
mit Y ∼ N (0, d −1 (CJ) −1 ).<br />
Bemerkung 5.4 (Konsistenz mit Chernoff’s 1-Stichprobenfall). Betrachtet wird der<br />
k-Stichprobenfall mit gleichen Fallzahlen in allen Stichproben, d.h. n i = n j <strong>für</strong> alle i, j =<br />
1, . . . , k, dann können die Stichproben zu einer zusammengefasst und das Resultat von Chernoff<br />
<strong>für</strong> den 1-Stichprobenfall angewandt werden. So erhält man, dass die <strong>Verteilung</strong> von<br />
−2 log λ n (x) asymptotisch gleich der von −2 log λ n (x) ist <strong>für</strong> den Test von θ ∈ M 0 gegen<br />
θ ∈ M\M 0 basierend auf einer normalverteilten Zufallsvariablen mit Erwartungswert 0 und<br />
Kovarianzmatrix J −1 . Wird hingegen Theorem 5.1 mit c i = 1/k <strong>für</strong> alle i = 1, , . . . , k angewandt,<br />
erhält man statt der Kovarianzmatrix J −1 nun k · J −1 . Korollar 5.3 zeigt mit d = 1/k,<br />
dass die Ergebnisse konsistent sind.<br />
5.2 Beispiele<br />
An einem einfachen Beispiel soll exemplarisch gezeigt werden, wie die Resultate von Theorem<br />
5.1 genutzt werden können, um die <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> unter<br />
der Hypothese zu bestimmen. Im Beispiel 5.5 wird eine normalverteilte Zufallsvariable X ∼<br />
N (θ (0) , I 2 ) mit θ (0) ∈ R 2 betrachtet (I 2 = 2 × 2 Identitätsmatrix). Der Hypothesenraum<br />
Θ 0 ist ein Halbraum und θ (0) liegt auf dem Rand der Hypothese. Dann ist −2 log λ verteilt<br />
nach 1/2 + 1/2χ 2 1 . Nach Beispiel 5.6 bleibt die <strong>Verteilung</strong> von −2 log λ unverändert, wenn<br />
I 2 durch eine beliebige, aber bekannte Kovarianzmatrix Σ ersetzt wird. Entsprechend kann<br />
dieses Ergebnis auf zwei unabhängige Stichproben übertragen werden, wenn die Bedingungen<br />
von Theorem 5.1 erfüllt sind. −2 log λ ist dann asymptotisch verteilt nach 1/2 + 1/2χ 2 1 (siehe<br />
Beispiel 5.7).
5.2 Beispiele 47<br />
Beispiel 5.7 umfasst die nachstehenden Hypothesenräume. Für eine differenzierbare Funktion<br />
h : R → R ist der Hypothesenraum<br />
Θ 0 = { θ ∈ R 2 : θ 1 ≥ h(θ 2 ) }<br />
durch einen Halbraum approximierbar. <strong>Die</strong>ses deckt die Hypothesenräume<br />
Θ 0 = { θ ∈ R 2 : θ 1 − θ 2 ≥ ∆ }<br />
und<br />
Θ 0 = { θ ∈ R 2 : θ 1 /θ 2 ≥ ∆ }<br />
ab, die bei Nicht-Unterlegenheitstests auftreten (siehe Kapitel 3).<br />
Beispiel 5.5. Betrachtet wird eine normalverteilte Zufallsvariable X ∼ N (θ (0) , I 2 ) mit<br />
θ (0) ∈ R 2 . Der Hypothesenraum Θ 0 sei ein Halbraum, also<br />
Θ 0 = {θ : a 1 θ 1 + a 2 θ 2 + b ≤ 0} .<br />
θ (0) liege auf dem Rand der Hypothese. Ohne Einschränkung der Allgemeinheit sei θ (0) = (0, 0)<br />
und b = 0, d.h. Θ 0 = {θ : a 1 θ 1 + a 2 θ 2 ≤ 0}. Im Folgenden wird gezeigt, dass <strong>für</strong> die Bestimmung<br />
der <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik sogar<br />
Θ 0 = {θ : θ 1 ≤ 0}<br />
angenommen werden kann. Es wird eine orthogonale Matrix Q so gewählt, dass<br />
QΘ 0 := {Qθ : a 1 θ 1 + a 2 θ 2 ≤ 0} = {θ : θ 1 ≤ 0}<br />
gilt. Da der empirische Mittelwert ¯x suffiziente Statistik <strong>für</strong> θ (0) ist (¯x ∼ N (θ (0) , n −1 I 2 )),<br />
reicht es aus, den Stichprobenumfang 1 zu behandeln (siehe Beispiel 2.2). <strong>Die</strong> <strong>Likelihood</strong>-<br />
<strong>Quotienten</strong>-Statistik lässt sich nach Beispiel 2.2 mit<br />
−2 log λ = inf<br />
θ∈Θ 0<br />
(X − θ) T (X − θ)<br />
aufstellen. Dann gilt mit Q T Q = I 2 und Z := QX ∼ N (0, I 2 )<br />
−2 log λ = inf<br />
θ∈Θ 0<br />
(X − θ) T Q T Q(X − θ)<br />
= inf<br />
θ∈Θ 0<br />
(QX − Qθ) T (QX − Qθ)<br />
= inf<br />
θ∈QΘ 0<br />
(QX − θ) T (QX − θ)<br />
= inf<br />
θ∈QΘ 0<br />
(Z − θ) T (Z − θ)<br />
= inf<br />
θ: θ 1 ≤0 (Z − θ)T (Z − θ).<br />
Somit folgert man<br />
−2 log λ =<br />
{ Z<br />
2<br />
1 <strong>für</strong> Z 1 > 0<br />
0 <strong>für</strong> Z 1 ≤ 0<br />
mit Z 2 1 ∼ χ2 1 und P (Z 1 ≤ 0) = P (Z 1 > 0) = 1/2. Also<br />
−2 log λ ∼ 1 2 + 1 2 χ2 1.
48 Kapitel 5: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Hypothese<br />
Beispiel 5.6. Betrachtet wird eine normalverteilte Zufallsvariable X ∼ N (θ (0) , Σ) mit θ (0) ∈ R 2<br />
und bekannter Kovarianzmatrix Σ ∈ R 2×2 . Der Hypothesenraum Θ 0 sei ein Halbraum. θ (0)<br />
liege auf dem Rand der Hypothese und sei ohne Einschränkung der Allgemeinheit mit null angenommen,<br />
θ (0) = (0, 0). Da Σ symmetrisch und positiv definit ist, existiert eine orthogonale<br />
Matrix Q und eine Diagonalmatrix V mit<br />
Es gilt<br />
und Σ −1/2 kann definiert werden als<br />
Σ = Q T V Q.<br />
Σ −1 = (Q T V Q) −1 = Q T V −1 Q<br />
Σ −1/2 = Q T V −1/2 Q.<br />
Nach Definition gilt Σ −1 = Σ −1/2 Σ −1/2 und Σ −1/2 ΣΣ −1/2 = I 2 . Weiter ist<br />
˜Θ 0 := {Σ −1/2 θ : θ ∈ Θ 0 }<br />
wieder ein Halbraum, da Σ −1/2 = Q T V −1/2 Q eine lineare Abbildung mit vollem Rang definiert.<br />
Für die <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik gilt nach Beispiel 2.2<br />
−2 log λ = inf<br />
θ∈Θ 0<br />
(X − θ) T Σ −1 (X − θ)<br />
= inf<br />
θ∈Θ 0<br />
(X − θ) T Σ −1/2 Σ −1/2 (X − θ)<br />
= inf<br />
θ∈Θ 0<br />
(Σ −1/2 X − Σ −1/2 θ) T (Σ −1/2 X − Σ −1/2 θ)<br />
= inf<br />
θ∈ ˜Θ 0<br />
(Z − θ) T (Z − θ)<br />
mit Z = Σ −1/2 X ∼ N (0, I 2 ). Da ˜Θ 0 wieder ein Halbraum ist, folgt nach obigem Beispiel 5.5<br />
−2 log λ ∼ 1 2 + 1 2 χ2 1.<br />
Beispiel 5.7. Es seien zwei unabhängige Stichproben X 11 , . . . , X 1n1 ∼ f 1 (x, θ (0)<br />
1 ), θ(0) 1 ∈ R,<br />
und X 21 , . . . , X 2n2 ∼ f 2 (x, θ (0)<br />
2 ), θ(0) 2 ∈ R, gegeben, die die Regularitätsbedingungen R erfüllen<br />
und sei Bedingung F erfüllt. Es wird θ (0) = (θ (0) ) gesetzt und der Hypothesenraum<br />
1 , θ(0) 2<br />
Θ 0 ⊆ R 2 soll in θ (0) durch einen Halbraum M 0 approximiert werden können. Weiter gilt<br />
ˆθ Θ P<br />
0<br />
n −→ θ (0) . Somit sind die Voraussetzungen von Theorem 5.1 erfüllt und man erhält<br />
−2 log λ n<br />
D −→ inf<br />
θ∈M 0<br />
(Z − θ) T Σ −1 (Z − θ)<br />
mit Z ∼ N (θ (0) , Σ) und geeigneter Kovarianzmatrix Σ. Mit obigem Beispiel 5.7 folgt<br />
−2 log λ n<br />
D −→<br />
1<br />
2 + 1 2 χ2 1.
Kapitel 6<br />
Asymptotische <strong>Verteilung</strong> der<br />
<strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik<br />
unter fester Alternative<br />
Betrachtet wird der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test von der Hypothese H 0 : θ ∈ Θ 0 gegen die<br />
Alternative H 1 : θ ∈ Θ 1 . Wie im vorangegangenen Kapitel wird angenommen, dass die<br />
Hypothese und die Alternative den Parameterraum in zwei disjunkte Mengen teilen. <strong>Die</strong><br />
<strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> soll in diesem Kapitel unter einer festen<br />
Alternative θ (0) ∈ Θ 1 untersucht werden. Wie in den obigen Abschnitten werden zum besseren<br />
Verständnis zunächst die Resultate <strong>des</strong> 1-Stichprobenfalls herausgearbeitet und diese<br />
dann auf den k-Stichprobenfall mit unterschiedlichen Fallzahlen in den einzelnen Stichproben<br />
verallgemeinert. In Theorem 6.2 (k-Stichprobenfall: Theorem 6.7) wird gezeigt, dass der log-<br />
<strong>Likelihood</strong>, genauer 1/ √ n log λ n , unter der Alternative θ (0) ∈ Θ 1 asymptotisch normalverteilt<br />
ist. Hier<strong>für</strong> wird neben Regularitätsbedingungen vorausgesetzt, dass ein Punkt θ ∗ ∈ Θ 0 mit<br />
l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n) (6.1)<br />
existiert, wobei ˆθ r n der auf die Hypothese Θ 0 eingeschränkte ML-Schätzer ist. <strong>Die</strong>se Bedingung<br />
ist im Allgemeinen nicht leicht zu prüfen und es bedarf weiterer Diskussion, unter welchen<br />
Voraussetzungen sie erfüllt ist. Zunächst wird im Korollar 6.5 (k-Stichprobenfall: Korollar<br />
6.9) herausgearbeitet, dass unter geeigneten Bedingungen nur der Punkt in der Hypothese,<br />
der den Kullback-Leibler Abstand zum wahren Wert <strong>des</strong> Parameters θ (0) minimiert, <strong>für</strong> θ ∗<br />
in Frage kommt. Hierauf basierend werden am Ende <strong>des</strong> k-Stichprobenabschnitts in Korollar<br />
6.12 Bedingungen angegeben, unter denen die Bedingung (6.1) erfüllt sind.<br />
6.1 Asymptotik im 1-Stichprobenfall<br />
Betrachtet werden Zufallsvariablen, die die Regularitätsbedingungen R erfüllen.<br />
Definition 6.1. f 0 und f 1 seien Dichten bezüglich einem σ-endlichen Maß ν. Es wird f 0 ≪ f 1<br />
geschrieben, wenn f 0 absolut stetig bezüglich f 1 ist. Dann ist der Kullback-Leibler Abstand<br />
49
50 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />
definiert als<br />
∫<br />
K(f 0 , f 1 ) =<br />
log<br />
[ ]<br />
f0 (x)<br />
f 0 (x)dν(x)<br />
f 1 (x)<br />
<strong>für</strong> f 0 ≪ f 1 und unendlich sonst.<br />
Der Kullback-Leibler Abstand stellt ein Maß <strong>für</strong> die Unterschiedlichkeit zweier Wahrscheinlichkeitsverteilungen<br />
dar. Trotz <strong>des</strong> irreführenden Namens ”<br />
Abstand“ definiert der Kullback-<br />
Leibler Abstand keine Metrik, da die Symmetrie-Eigenschaft wie auch die Definitheit verletzt<br />
ist. Für f θ und f˜θ<br />
wird<br />
K(θ, ˜θ) = K(f θ , f˜θ)<br />
gesetzt.<br />
[<br />
Bedingung B1: Es existieren E θ (0) log f(X1 , θ (0) ) ] und eine Funktion K(x), so dass log f(x, θ)<br />
gleichmäßig in Θ 0 im Betrag durch K(x) beschränkt ist und E θ (0) [K(X 1 )] < ∞ gilt.<br />
Bedingung B2: E θ (0) [log f(X 1 , θ)] 2 existiert <strong>für</strong> θ ∈ Θ 0 ∪ {θ (0) }.<br />
<strong>Die</strong> Bedingung B1 stellt sicher, dass der Kullback-Leibler Abstand zwischen der wahren <strong>Verteilung</strong><br />
und den zur Hypothese<br />
[<br />
gehörigen <strong>Verteilung</strong>en wohldefiniert ist. Bedingung B2 sichert<br />
die Existenz von Var θ (0) log f(X1 , θ (0) ) − log f(X 1 , θ) ] <strong>für</strong> θ ∈ Θ 0 , wie es in Theorem 6.2<br />
benötigt wird. Im Folgenden wird ˆθ n r = ˆθ Θ 0<br />
n <strong>für</strong> den auf die Hypothese Θ 0 eingeschränkten<br />
ML-Schätzer geschrieben. Es wird ˆθ n r als restringierter ML-Schätzer bezeichnet.<br />
Das nachstehende Theorem 6.2 gibt die <strong>asymptotische</strong> <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-<br />
Statistik λ n an, wenn θ (0) in der Alternative Θ 1 liegt.<br />
Theorem 6.2. Der 1-Stichprobenfall sei mit nachstehenden Bedingungen gegeben:<br />
(i) <strong>Die</strong> Regularitätsbedingungen R sind erfüllt.<br />
(ii) Der wahre Wert <strong>des</strong> Parameters θ (0) liege in der Alternative Θ 1 .<br />
(iii) <strong>Die</strong> Bedingungen B1 und B2 sind erfüllt.<br />
(iv) Es gibt θ ∗ ∈ Θ 0 mit<br />
l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n). (6.2)<br />
Dann gilt<br />
wobei<br />
( )<br />
√ 1 n<br />
n log λ n + K(θ (0) , θ ∗ D<br />
) −→ N (0, σ 2 (θ (0) , θ ∗ )),<br />
σ 2 (θ (0) , θ ∗ ) = Var θ (0)<br />
[<br />
]<br />
log f(X 1 , θ (0) ) − log f(X 1 , θ ∗ ) .
6.1. Asymptotik im 1-Stichprobenfall 51<br />
Zum Beweis <strong>des</strong> Theorems wird ein Resultat der klassischen <strong>Likelihood</strong>-<strong>Quotienten</strong>-Theorie<br />
benutzt, formuliert in Lemma 6.3. Demnach ist −2 log λ n unter der Hypothese H 0 : θ = θ 0<br />
asymptotisch χ 2 -verteilt. Das Lemma stellt einen Spezialfall der Arbeit von Wilks (1938)<br />
dar, die zusammengesetzte Hypothesen im Allgemeinen abdeckt. Ein Beweis <strong>des</strong> Resultates<br />
ist zum Beispiel auch im Buch von Ferguson (1996, Kapitel 22, Satz 22) zu finden.<br />
Lemma 6.3. Unter den Regularitätsbedingungen R und der Hypothese H 0 : θ = θ 0 gilt<br />
−2 log λ n = −2[l n (θ (0) ) − l n (ˆθ n )]<br />
wobei d die Dimension <strong>des</strong> Parameterraumes ist.<br />
D<br />
−→ χ 2 d ,<br />
Beweis von Theorem 6.2. Betrachtet wird der log-<strong>Likelihood</strong><br />
log λ n = l n (ˆθ r n) − l n (ˆθ n )<br />
= [l n (ˆθ r n) − l n (θ ∗ )] + [l n (θ ∗ ) − l n (θ (0) )] + [l n (θ (0) ) − l n (ˆθ n )],<br />
so gilt <strong>für</strong> den dritten Term nach Lemma 6.3<br />
und folglich<br />
[l n (θ (0) ) − l n (ˆθ n )] = O p (1)<br />
1<br />
√ n<br />
[l n (θ (0) ) − l n (ˆθ n )] = o p (1).<br />
Zusammen mit der Voraussetzung (6.2)<br />
l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n)<br />
erhält man<br />
( )<br />
√ 1 n<br />
n log λ n + K(θ (0) , θ ∗ )<br />
= √ n 1 n<br />
n∑<br />
i=1<br />
[<br />
log f(X i, θ ∗ ]<br />
)<br />
f(X i , θ (0) ) + K(θ(0) , θ ∗ )<br />
+ o p (1). (6.3) .<br />
Es gilt<br />
[<br />
E log f(X i, θ ∗ ]<br />
)<br />
f(X i , θ (0) = −K(θ (0) , θ ∗ )<br />
)<br />
<strong>für</strong> alle i = 1, . . . , n. Somit schließt man mit dem zentralen Grenzwertsatz (siehe A.2), dass<br />
die rechte Seite von 6.3 und folglich auch die linke asymptotisch normalverteilt sind mit<br />
Erwartungswert null und Varianz<br />
[<br />
]<br />
σ 2 (θ (0) , θ ∗ ) = Var θ (0) log f(X 1 , θ (0) ) − log f(X 1 , θ ∗ ) .<br />
Bedingung B1 und B2 sichern die Existenz von K(θ (0) , θ ∗ ) und σ 2 (θ (0) , θ ∗ ) und somit auch<br />
die Anwendung <strong>des</strong> zentralen Grenzwertsatzes.
52 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />
Grenzwert <strong>des</strong> restringierten ML-Schätzers<br />
Im Folgendem ist zu diskutieren, welche Parameter θ ∗ die Bedingung (6.2) erfüllen können.<br />
Ist die Bedingung B1 erfüllt, so wird<br />
θ min = arg min<br />
θ∈Θ 0<br />
K(θ (0) , θ) (6.4)<br />
als der Parameter in der Hypothese definiert, der den Kullback-Leibler Abstand zum wahren<br />
Wert <strong>des</strong> Parameters θ (0) minimiert. Ist wird sich herausstellen, dass unter geeigneten Voraussetzungen,<br />
welche im Wesentlichen die Eindeutigkeit von θ min umfassen, <strong>für</strong> θ ∗ nur θ min<br />
in Frage kommt, um die Bedingung (6.2) zu erfüllen (siehe hierzu Korollar 6.5).<br />
White (1982, Theorem 2.2) zeigt in seiner Arbeit, dass der restringierte ML-Schätzer ˆθ r n gegen<br />
θ min aus (6.4) konvergiert. Der Beweis geht auf White (1981, Theorem 2.1) zurück. White<br />
betrachtet in seiner Arbeit den ML-Schätzer über eine kompakte Menge. <strong>Die</strong> Einschränkung<br />
auf eine kompakte Menge ist in Theorem 6.4 nicht nötig.<br />
Theorem 6.4. Seien die Bedingungen R und B1 erfüllt und das Minimum min θ∈Θ K(θ (0) , θ)<br />
bei θ min eindeutig. Dann gilt<br />
a.s.<br />
−→ θ min .<br />
ˆθ r n<br />
Beweis. Seien<br />
und<br />
so gilt<br />
Q n (θ) = − 1 n l n(θ) = − 1 n<br />
n∑<br />
log f(X i , θ)<br />
i=1<br />
Q(θ) = −E θ (0) [log f(X 1 , θ)] ,<br />
K(θ (0) , θ) = Q(θ) − Q(θ (0) ).<br />
Folglich minimiert θ min = arg min θ∈Θ0 K(θ (0) , θ) ebenfalls Q(θ) eindeutig in Θ 0 .<br />
Zunächst wird gezeigt, dass der restringierte ML-Schätzer ˆθ n r asymptotisch in einer präkompakten,<br />
d.h. beschränkten Teilmenge von Θ 0 liegt. Wenn Θ 0 nicht schon beschränkt ist, wird<br />
hier<strong>für</strong><br />
g(x, r) = sup<br />
θ∈Θ 0 : ‖θ‖≥r<br />
f(x, θ)<br />
betrachtet. Wald (1949, Lemma 3) zeigt, dass<br />
Folglich kann ein r 0 so gewählt werden, dass<br />
was äquivalent zu<br />
lim E<br />
r→∞<br />
θ (0) [log g(X 1, r)] = −∞.<br />
E θ (0) [log g(X 1 , r 0 )] < E θ (0) [log f(X 1 , θ min )] ,<br />
E θ (0) [log g(X 1 , r 0 ) − log f(X 1 , θ min )] < 0
6.1. Asymptotik im 1-Stichprobenfall 53<br />
ist. Nach dem starken Gesetz der großen Zahlen (siehe A.1) gilt dann<br />
( (<br />
) )<br />
1<br />
n∑<br />
P lim log g(X i , r 0 ) − 1 n∑<br />
log f(X i , θ min ) < 0 = 1 .<br />
n→∞ n<br />
n<br />
i=1<br />
i=1<br />
<strong>Die</strong>ses impliziert<br />
(<br />
P<br />
lim<br />
n→∞<br />
(<br />
)<br />
Q n (θ min ) − inf Q n (θ)<br />
θ∈Θ 0 : ‖θ‖≥r 0<br />
)<br />
< 0 = 1.<br />
Somit schließt man θ min ∈ B r0 := {θ : ‖ θ ‖≤ r 0 } ∩ Θ 0 und<br />
(<br />
P<br />
(ˆθr n − ˜θ<br />
)<br />
n<br />
lim<br />
n→∞<br />
)<br />
= 0 = 1 (6.5)<br />
mit<br />
Weiter gilt auch<br />
˜θ n = inf<br />
θ∈B r0<br />
Q n (θ) .<br />
Q(θ min ) = inf<br />
θ∈B r0<br />
Q(θ).<br />
Da B r0<br />
präkompakt ist, gilt nach Mickey’s Theorem (siehe A.4)<br />
Q n (θ) a.s. −→ Q(θ)<br />
gleichmäßig <strong>für</strong> alle θ in B r0 .<br />
Wenn ˜θ n nun Q n (θ) in B r0 minimiert und θ min Q(θ) eindeutig in B r0 minimiert, so ergibt<br />
White’s Lemma (siehe A.5), dass aus Q n (θ) a.s. −→ Q(θ) gleichmäßig in B r0<br />
˜θ n<br />
a.s.<br />
−→ θ min<br />
folgt. Mit (6.5) wird<br />
geschlossen.<br />
ˆθ r n<br />
a.s.<br />
−→ θ min .<br />
Korollar 6.5. Seien die Bedingungen R, B1 und B3 erfüllt und das Minimum min θ∈Θ K(θ (0) , θ)<br />
bei θ min eindeutig. Sei θ ∗ ∈ Θ 0 wie in Theorem 6.2 mit l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n), so gilt<br />
θ ∗ = θ min = arg min<br />
θ∈Θ 0<br />
K(θ (0) , θ).<br />
Beweis. <strong>Die</strong> Notationen <strong>für</strong> Q und Q n aus dem Beweis von Theorem 6.4 werden übernommen.<br />
Aus<br />
folgt<br />
l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n) = o p (n)<br />
Q n (ˆθ r n)<br />
P<br />
−→ Q n (θ ∗ ).
54 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />
Nach dem schwachen Gesetz der großen Zahlen (siehe A.1) gilt Q n (θ ∗ ) = Q(θ ∗ )+o p (1). Somit<br />
erhält man<br />
Q n (ˆθ r n)<br />
P<br />
−→ Q(θ ∗ ). (6.6)<br />
Mit dem Ergebnis aus Theorem 6.4, ˆθ n<br />
r<br />
Lemma (siehe A.6) erhält man mit<br />
Q n (ˆθ r n)<br />
Aufgrund der Eindeutigkeit <strong>des</strong> Minimums muss<br />
a.s.<br />
−→ θ min , und unter Anwendung von Amemiya’s<br />
P<br />
−→ Q(θ min ).<br />
θ ∗<br />
= θ min<br />
gelten.<br />
Im anschließenden Abschnitt zum k-Stichprobenfall werden Voraussetzungen aufgeführt, unter<br />
denen die Bedingung (6.2)<br />
l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n)<br />
aus Theorem 6.2 erfüllt ist, siehe Korollar 6.12.
6.2. Asymptotik im k-Stichprobenfall 55<br />
6.2 Asymptotik im k-Stichprobenfall<br />
<strong>Die</strong> Ergebnisse <strong>des</strong> 1-Stichprobenfalls werden auf den k-Stichprobenfall mit ungleichen Fallzahlen<br />
übertragen. Es wird somit der k-Stichprobenfall mit Regularitätsbedingungen R und<br />
Bedingung F betrachtet. Sei c = (c 1 , . . . , c k ) mit n i /n → c i .<br />
Der Kullback-Leibler Abstand ist <strong>für</strong> den k-Stichprobenfall zu modifizieren.<br />
Definition 6.6. Seien (f i,0 , f i,1 ), i = 1, . . . , k Paare von Dichten bezüglich einem σ-endlichen<br />
Maß ν und w = (w 1 , . . . , w k ), w i > 0, ein Gewichtungsvektor, dann ist der gewichtete<br />
Kullback-Leibler Abstand <strong>für</strong> f 0 = (f 1,0 , . . . , f k,0 ) und f 1 = (f 1,1 , . . . , f k,1 ) definiert als<br />
K(f 0 , f 1 , w) =<br />
k∑<br />
w i K(f i,0 , f i,1 ),<br />
i=1<br />
wenn f i,0 ≪ f i,1 <strong>für</strong> alle i = 1, . . . , k und unendlich sonst.<br />
Für f θ (·) = (f 1 (θ 1 , ·), . . . , f k (θ k , ·)) und f˜θ(·) = (f 1 (˜θ 1 , ·), . . . , f k (˜θ k , ·)) wird<br />
gesetzt.<br />
K(θ, ˜θ, c) = K(f θ , f˜θ,<br />
c)<br />
Bedingung B3: Für i = 1, . . . , k existiert E (0) θ<br />
log f i (X i1 , θ (0)<br />
i<br />
) und es existiert eine Funktion<br />
i<br />
K i (x) mit E (0) θ<br />
K i (X i1 ) < ∞, so dass log f i (x, θ i ) gleichmäßig in Θ 0 im Betrag durch K i (x)<br />
i<br />
beschränkt ist.<br />
Bedingung B4: E (0) θ i<br />
<strong>für</strong> alle i = 1, . . . , k.<br />
[log f i (X i1 , θ i )] 2 existiert <strong>für</strong> θ i ∈ {θ i : θ = (θ 1 , . . . , θ k ) ∈ Θ 0 } ∪ {θ (0)<br />
i<br />
}<br />
Bedingung B3 stellt die zu Bedingung B1 entsprechende k-Stichprobenbedingung dar und<br />
sichert die Wohldefiniertheit <strong>des</strong> gewichteten Kullback-Leibler Abstands zwischen der wahren<br />
<strong>Verteilung</strong> und denen zur Hypothese gehörigen <strong>Verteilung</strong>en. Entsprechend sichert Bedingung<br />
B4 die Existenz von<br />
k∑<br />
i=1<br />
c i Var θ<br />
(0)<br />
i<br />
[<br />
]<br />
log f(X i1 , θ (0)<br />
i<br />
) − log f(X i1 , θ i )<br />
<strong>für</strong> θ ∈ Θ 0 . Im Folgenden wird erneut ˆθ n r = ˆθ Θ 0<br />
n <strong>für</strong> den auf die Hypothese Θ 0 eingeschränkten<br />
ML-Schätzer geschrieben. ˆθ n r wird als restringierter ML-Schätzer bezeichnet.<br />
So kann das Theorem 6.2 entsprechend <strong>für</strong> den k-Stichprobenfall formuliert werden. <strong>Die</strong> Rolle<br />
von θ ∗ wird auch hier anschließend diskutiert.<br />
Theorem 6.7. Der k-Stichprobenfall sei mit nachstehenden Bedingungen gegeben:<br />
(i) <strong>Die</strong> Regularitätsbedingungen R sind <strong>für</strong> alle f i , i = 1, . . . , k erfüllt.
56 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />
(ii) <strong>Die</strong> Bedingung F ist erfüllt mit n i<br />
n = c i + o(1/ √ n).<br />
(iii) Der wahre Wert <strong>des</strong> Parameters θ (0) liege in der Alternative Θ 1 .<br />
(iv) <strong>Die</strong> Bedingungen B3 und B4 sind erfüllt.<br />
(v) Es gibt θ ∗ ∈ Θ 0 mit<br />
l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n). (6.7)<br />
Dann gilt<br />
( )<br />
√ 1 n<br />
n log λ n + K(θ (0) , θ ∗ D<br />
, c) −→ N (0, σ 2 (θ (0) , θ ∗ , c)),<br />
wobei<br />
σ 2 (θ (0) , θ ∗ , c) =<br />
k∑<br />
i=1<br />
c i σ 2 i (θ (0)<br />
i<br />
, θ ∗ i )<br />
mit<br />
[<br />
]<br />
σi 2 (θ (0)<br />
i<br />
, θi ∗ ) = Var (0) θ<br />
log f(X i1 , θ (0)<br />
i<br />
) − log f(X i1 , θi ∗ ) .<br />
i<br />
Beweis. Betrachtet wird der log-<strong>Likelihood</strong><br />
log λ n = l n (ˆθ r n) − l n (ˆθ n )<br />
= [l n (ˆθ r n) − l n (θ ∗ )] + [l n (θ ∗ ) − l n (θ (0) )] + [l n (θ (0) ) − l n (ˆθ n )].<br />
Für den dritten Term gilt nach wiederholten Anwenden von Lemma 6.3 <strong>für</strong> die einzelnen<br />
Stichproben i = 1, . . . , k<br />
[l n (θ (0) ) − l n (ˆθ n )] =<br />
k∑ ∑n i<br />
log f i (X ij , θ (0)<br />
i<br />
) − log f i (X ij , ˆθ i, n ) =<br />
i=1 j=1<br />
k∑<br />
O p (1) = O p (1).<br />
i=1<br />
Beachte hierbei, dass sich der gemeinsame ML-Schätzer ˆθ n aus den ML-Schätzern ˆθ i, n der<br />
einzelnen Stichproben zusammensetzt, da die Stichproben unabhängig sind. Somit erhält man<br />
1<br />
√ n<br />
[l n (θ (0) ) − l n (ˆθ n )] = o p (1).<br />
Zusammen mit der Voraussetzung (6.7)<br />
l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n)
6.2. Asymptotik im k-Stichprobenfall 57<br />
erhält man<br />
( )<br />
√ 1 n<br />
n log λ n + K(θ (0) , θ ∗ , c)<br />
mit<br />
= 1 √ n<br />
= 1 √ n<br />
= 1 √ n<br />
= 1 √ n<br />
=<br />
=<br />
=<br />
k∑<br />
i=1<br />
k∑<br />
i=1<br />
k∑ ∑n i<br />
i=1 j=1<br />
k∑ ∑n i<br />
i=1 j=1<br />
k∑ ∑n i<br />
i=1 j=1<br />
k∑ ∑n i<br />
i=1 j=1<br />
√<br />
ni<br />
n<br />
1<br />
√<br />
ni<br />
[<br />
log f(X ij, θ ∗ ]<br />
)<br />
f(X ij , θ (0) + √ n<br />
)<br />
[<br />
log f(X ij, θ ∗ ]<br />
)<br />
f(X ij , θ (0) + √ n<br />
)<br />
[<br />
log f(X ij, θ ∗ ]<br />
)<br />
f(X ij , θ (0) + √ 1<br />
) n<br />
= 1 √ n<br />
[l n (θ ∗ ) − l n (θ (0) )] + √ nK(θ (0) , θ ∗ , c) + o p (1)<br />
k∑<br />
i=1<br />
k∑<br />
i=1<br />
k∑<br />
i=1<br />
[<br />
log f(X ij, θ ∗ )<br />
f(X ij , θ (0) ) + K(θ(0) i<br />
, θ ∗ i )<br />
∑n i<br />
j=1<br />
√ [Z i,ni c i + o p (1/ √ ]<br />
n)<br />
k∑<br />
[Z i,ni ( √ c i + o p (1))] + o p (1)<br />
i=1<br />
Z i,ni = 1 √<br />
ni<br />
c i K(θ (0)<br />
i<br />
, θ ∗ i ) + o p (1)<br />
( ni<br />
n + o p(1/ √ )<br />
n) K(θ (0)<br />
i<br />
, θi ∗ ) + o p (1)<br />
n i K(θ (0)<br />
i<br />
, θ ∗ i ) + o p (1)<br />
]<br />
+ o p (1)<br />
[<br />
log f(X ij, θ ∗ ]<br />
)<br />
f(X ij , θ (0) ) + K(θ(0) i<br />
, θi ∗ )<br />
∑n i<br />
j=1<br />
+ o p (1)<br />
[<br />
log f(X ij, θ ∗ ]<br />
)<br />
f(X ij , θ (0) )<br />
+ o p (1)<br />
D<br />
−→ N (0, σ 2 i (θ (0)<br />
i<br />
, θ ∗ i )).<br />
nach dem zentralen Grenzwert Satz (siehe A.2). Mit Z i,ni = O p (1) <strong>für</strong> i = 1, . . . , k erhält man<br />
( )<br />
√ 1 n<br />
n log λ n + K(θ (0) , θ ∗ , c)<br />
=<br />
k∑<br />
[ √ c i Z i,ni ] + o p (1).<br />
Aufgrund der Unabhängigkeit der Stichproben X 1 , . . . , X k sind nach dem Blockungslemma<br />
Z 1,n1 , . . . , Z k,nk ebenfalls unabhängig.<br />
Sind X und Y unabhängig normalverteilt mit X ∼ N (µ x , σx) 2 und Y ∼ N (µ y , σy), 2 so gilt <strong>für</strong><br />
die Faltung X+Y , dass sie ebenfalls normalverteilt ist mit X+Y ∼ N (µ x +µ y , σx+σ 2 y). 2 <strong>Die</strong>ses<br />
Resultat ist beispielsweise in Krengel (1988, S.141) zu finden. Somit erhält man zusammen<br />
mit dem Lemma von Slutsky (siehe A.3)<br />
( )<br />
√ 1 n<br />
n log λ n + K(θ (0) , θ ∗ D<br />
, c) −→ N (0, σ 2 (θ (0) , θ ∗ , c)).<br />
i=1<br />
<strong>Die</strong> Bedingungen B3 und B4 sichern die Existenz von K(θ (0) , θ ∗ , c) und σ 2 (θ (0) , θ ∗ , c) und<br />
somit auch die Anwendung <strong>des</strong> zentralen Grenzwertsatzes.
58 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />
Grenzwert <strong>des</strong> restringierten ML-Schätzers<br />
Im Folgenden ist wie im 1-Stichprobenfall zu diskutieren, welche Parameter θ ∗ die Bedingung<br />
(6.7) erfüllen können. Ist Bedingung B4 erfüllt, so wird<br />
θ ∗ = arg min<br />
θ∈Θ 0<br />
K(θ (0) , θ, c)<br />
als der Parameter in der Hypothese definiert, der den gewichteten Kullback-Leibler Abstand<br />
zum wahren Parameter θ (0) minimiert. Auch hier lässt sich wie im 1-Stichprobenfall zeigen,<br />
dass unter geeigneten Voraussetzungen, welche im Wesentlichen erneut die Eindeutigkeit von<br />
θ min umfassen, <strong>für</strong> θ ∗ nur θ min in Frage kommt, um die Bedingung (6.7) zu erfüllen (siehe<br />
hierzu Korollar 6.9).<br />
Bedingung B5: Für alle x = (x 1 , . . . , x k ) und θ n ∈ Θ 0 mit lim n→∞ ‖ θ n ‖= ∞ gelte<br />
lim<br />
n→∞<br />
i=1<br />
k∏<br />
f i (x i , θ i, n ) = 0 .<br />
Bedingung B5 stellt eine auf den k-Stichprobenfall modifizierte Version von Bedingung R<br />
(f) dar. Sie sichert, dass der restringierte ML-Schätzer asymptotisch in einer präkompakten<br />
Teilmenge von Θ 0 liegt.<br />
Theorem 6.8. Seien die Bedingungen R, F sowie die Bedingungen B3 und B5 erfüllt und<br />
das Minimum min θ∈Θ K(θ (0) , θ, c) bei θ min eindeutig. Dann gilt<br />
ˆθ r n<br />
a.s.<br />
−→ θ min .<br />
Beweis. Sei<br />
<strong>für</strong> i = 1, . . . , k und<br />
sowie<br />
<strong>für</strong> i = 1, . . . , k und<br />
so gilt<br />
Q i,n (θ i ) = 1 n i<br />
Q n (θ) = −<br />
Q i (θ i ) = E θ<br />
(0)<br />
i<br />
Q(θ) = −<br />
∑n i<br />
j=1<br />
k∑<br />
i=1<br />
log f i (X ij , θ i )<br />
n i<br />
n Q i,n(θ i )<br />
[log f(X i1 , θ i )]<br />
k∑<br />
c i Q i (θ i ),<br />
i=1<br />
K(θ (0) , θ, c) = Q(θ) − Q(θ (0) )<br />
Folglich minimiert θ min = arg min θ∈Θ0 K(θ (0) , θ, c) ebenfalls Q(θ) eindeutig in Θ 0 .
6.2. Asymptotik im k-Stichprobenfall 59<br />
Zunächst wird gezeigt, dass der restringierte ML-Schätzer ˆθ n r asymptotisch in einer präkompakten,<br />
d.h. beschränkten Teilmenge von Θ 0 liegt. Wenn Θ 0 nicht schon beschränkt ist, wird<br />
hier<strong>für</strong><br />
k∏<br />
g(x 1 , . . . , x k , r) = sup f i (x i , θ i ) c i<br />
und<br />
˜g(x 1 , . . . , x k , r) =<br />
θ∈Θ 0 : ‖θ‖≥r i=1<br />
sup<br />
k∏<br />
θ∈Θ 0 : ‖θ‖≥r i=1<br />
f i (x i , θ i ) n i<br />
n ,<br />
betrachtet. Aus Bedingung B5 folgt <strong>für</strong> θ n ∈ Θ 0 mit lim n→∞ ‖ θ n ‖= ∞ gilt<br />
Wald (1949, Lemma 3) zeigt, dass<br />
lim<br />
n→∞<br />
i=1<br />
k∏<br />
f i (x i , θ i, n ) c i<br />
= 0 .<br />
lim E<br />
r→∞<br />
θ (0) [log g(X 11, . . . , X k1 , r)] = −∞.<br />
Folglich kann ein r 0 so gewählt werden, dass<br />
[ k∑<br />
]<br />
E θ (0) [log g(X 11 , . . . , X k1 , r 0 )] < E θ (0) c i log f(X i1 , θ min ) .<br />
i=1<br />
Da n i /n → c i <strong>für</strong> n → ∞, kann ein n 0 so gewählt werden, dass <strong>für</strong> n ≥ n 0<br />
[ k∑<br />
]<br />
n i<br />
E θ (0) [log ˜g(X 11 , . . . , X k1 , r 0 )] < E θ (0)<br />
n log f(X i1, θ min ) .<br />
i=1<br />
Nach dem starken Gesetz der großen Zahlen (A.1) gilt<br />
⎛ ⎛<br />
⎞ ⎞<br />
k∑<br />
n<br />
P ⎝ lim ⎝<br />
n i 1 ∑ i<br />
(log f i (X ij , θ r0 ) − log f i (X ij , θ min )) ⎠ < 0⎠ = 1.<br />
n→∞ n<br />
i=1<br />
n i<br />
j=1<br />
<strong>Die</strong>ses impliziert<br />
(<br />
P<br />
lim<br />
n→∞<br />
(<br />
)<br />
Q n (θ min ) − inf Q n (θ)<br />
θ∈Θ 0 : ‖θ‖≥r 0<br />
)<br />
< 0 = 1.<br />
Der Rest <strong>des</strong> Beweises verläuft analog zum Beweis <strong>des</strong> 1-Stichprobenfall, Theorem 6.4.<br />
Korollar 6.9. Seien Bedingungen B3 und B5 erfüllt und das Minimum min θ∈Θ K(θ (0) , θ, c)<br />
eindeutig bei θ min bestimmt. Sei θ ∗ ∈ Θ 0 wie in Theorem 6.2 mit l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n),<br />
so gilt<br />
θ ∗ = θ min = arg min<br />
θ∈Θ 0<br />
K(θ (0) , θ, c).<br />
Beweis. Der Beweis aus dem 1-Stichprobenfall, Korollar 6.5, ist mit Q n und Q aus Theorem<br />
6.8 direkt übertragbar.
60 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />
<strong>Die</strong> Bedingung: l n (θ ∗ ) − l n (ˆθ r n ) = o p( √ n)<br />
Es bleibt die Bedingung (6.7) aus Theorem 6.7 (bzw. Bedingung (6.2) aus Theorem 6.2)<br />
l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n)<br />
zu diskutieren. In Korollar 6.12 werden Voraussetzungen aufgeführt unter denen diese Bedingung<br />
erfüllt ist.<br />
Theorem 6.10 liefert die Konvergenz mit Rate √ n <strong>des</strong> restringierten ML-Schätzers ˆθ r n gegen<br />
den Minimierer <strong>des</strong> Kullback-Leibler Abstan<strong>des</strong> θ ∗ .<br />
Theorem 6.10. Der k-Stichprobenfall sei mit den Regularitätsbedingungen R gegeben. Weiter<br />
seien die nachstehenden Bedingungen erfüllt:<br />
(i) <strong>Die</strong> Bedingung F ist erfüllt mit n i<br />
n = c i + o(1/ √ n).<br />
(ii) <strong>Die</strong> Bedingungen B3 und B5 sind erfüllt.<br />
(iii) Das Minimum min θ∈Θ K(θ (0) , θ, c) sei eindeutig bei θ ∗ bestimmt.<br />
(iv) Es existiert eine Funktion K(x) mit E θ (0)K(X) < ∞, so dass die Norm von d/dθ W (x, θ)<br />
gleichmäßig in einer Umgebung von θ ∗ durch K(x) beschränkt ist.<br />
[ ] 2<br />
(v) Für i = 1, . . . , k existiert E (0) d/dθi θ<br />
log f i (X i1 , θ i )| θi =θi<br />
∗ und <strong>für</strong><br />
i<br />
[ ] T<br />
µ i := E (0) d/dθi θ<br />
log f i (X i1 , θ i )| θi =θi<br />
∗ gilt<br />
i<br />
k∑<br />
c i µ i (ˆθ i, r n − θi ∗ ) =<br />
i=1<br />
(vi) Für i = 1, . . . , k existiert D i := −E (0) θ i<br />
D := diag (D 1 , . . . , D k ) gilt<br />
Dann gilt<br />
<strong>für</strong> ein α > 0.<br />
k∑<br />
o p (‖ ˆθ i, r n − θi ∗ ‖ 2 ).<br />
i=1<br />
[<br />
d 2 /dθ 2 i log f i (X i1 , θ i )| θi =θ ∗ i<br />
(ˆθ r i, n − θ ∗ i ) T D (ˆθ r i, n − θ ∗ i ) ≥ α ‖ ˆθ r i, n − θ ∗ i ‖ 2<br />
√ n<br />
(ˆθr n − θ ∗) = O p (1).<br />
]<br />
und <strong>für</strong><br />
Beweis. <strong>Die</strong> Voraussetzungen von Theorem 6.8 sind erfüllt und man erhält<br />
ˆθ r n<br />
a.s.<br />
−→ θ ∗ .<br />
Folglich sind auch die Voraussetzungen von Theorem 4.6 erfüllt und die Aussage folgt.<br />
Bemerkung 6.11. <strong>Die</strong> Bedingung<br />
( k∑<br />
)<br />
P θ (0) c i µ i (ˆθ i, r n − θi ∗ ) = 0 ∀n ≥ N<br />
i=1<br />
N→∞<br />
−→ 1<br />
impliziert (iii) von Theorem 6.10.
6.2. Asymptotik im k-Stichprobenfall 61<br />
Korollar 6.12. Unter den Voraussetzungen von Theorem 6.10 gilt<br />
und folglich insbesondere auch<br />
l n (θ ∗ ) − l n (ˆθ r n) = O p (1)<br />
l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n).<br />
Beweis. Ohne Einschränkung der Allgemeinheit wird angenommen, dass θ ∗ = 0 ist. <strong>Die</strong>ses<br />
kann durch Umparametrisierung mit θ ↦→ θ − θ ∗ erreicht werden. <strong>Die</strong> Taylorentwicklung<br />
zweiter Ordnung um null liefert<br />
l n (ˆθ r i, n) − l n (0) =<br />
k∑<br />
i=1<br />
n i A (i)<br />
n i<br />
ˆθr i, n +<br />
Mit Voraussetzung (i) und (v) gilt<br />
k∑<br />
i=1<br />
n i<br />
n µ i ˆθ r i, n =<br />
Somit erhält man zusammen<br />
Mit √ n i (A (i)<br />
n i<br />
l n (ˆθ r i, n) − l n (0) =<br />
+<br />
=<br />
k∑<br />
i=1<br />
k∑<br />
i=1<br />
k∑<br />
c i µ i ˆθr i, n +<br />
i=1<br />
n i<br />
2 ˆθ r i, nB (i)<br />
n i<br />
ˆθr i, n +<br />
k∑<br />
n ‖ ˆθ i, r n ‖ 3 O p (1).<br />
i=1<br />
k∑<br />
o(1/ √ n)µ i ˆθr i, n<br />
i=1<br />
k∑<br />
o p (‖ ˆθ i, r n ‖ 2 ) +<br />
i=1<br />
k∑<br />
n ‖ ˆθ i, r n ‖ 3 O p (1) +<br />
i=1<br />
n i (A (i)<br />
n i<br />
− µ i )ˆθ r i, n +<br />
k∑<br />
i=1<br />
k∑<br />
o p (‖ ˆθ i, r n ‖ / √ n).<br />
i=1<br />
k∑<br />
n o p (‖ ˆθ i, r n ‖ 2 ) +<br />
i=1<br />
=: I + II + III + IV + V.<br />
− µ i ) = O p (1), B (i)<br />
n i<br />
n i<br />
2 ˆθ r i, nB (i)<br />
n i<br />
ˆθr i, n<br />
k∑ √ n op (‖ ˆθ i, r n ‖)<br />
i=1<br />
= −D i + o p (1) und ˆθ r i, n = O p(n − 1 2 ) gilt<br />
I =<br />
II =<br />
III =<br />
IV =<br />
V =<br />
k∑<br />
i=1<br />
k∑<br />
i=1<br />
√<br />
ni<br />
√<br />
ni (A (i)<br />
n i<br />
− µ i )ˆθ r i, n =<br />
n i<br />
2 ˆθ r i, nB (i)<br />
n i<br />
ˆθr i, n =<br />
k∑<br />
i=1<br />
k∑<br />
n ‖ ˆθ i, r n ‖ 3 O p (1) =<br />
i=1<br />
k∑<br />
n o p (‖ ˆθ i, r n ‖ 2 ) =<br />
i=1<br />
k∑ √ √ n ( ci + o(1)) O p (1)O p (n − 1 2 ) = Op (1),<br />
i=1<br />
n c i + o(1)<br />
2<br />
O p (n − 1 2 )(−Di + o p (1))O p (n − 1 2 ) = Op (1),<br />
k∑<br />
n O p (n − 3 2 )Op (1) = O p (n − 1 2 ) = Op (1),<br />
i=1<br />
k∑<br />
n o p (n −1 ) = o p (1) = O p (1),<br />
i=1<br />
k∑ √ n op (‖ ˆθ i, r n ‖) = √ n o p (n − 1 2 ) = op (1) = O p (1).<br />
i=1
62 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />
Bemerkung 6.13. Theorem 6.10 umfasst bis auf Bedingung B4 auch die Voraussetzungen<br />
von Theorem 6.7. Somit stellen diese zusammen Bedingungen dar, unter denen die <strong>asymptotische</strong><br />
Normalität der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik gilt.<br />
6.3 Beispiel<br />
Beispiel 6.14. Betrachtet werden zwei normalverteilte Stichproben X 11 , . . . , X 1n1 ∼ N (θ 1 , σ 2 )<br />
und X 21 , . . . , X 2n2 ∼ N (θ 2 , σ 2 ) mit bekannter Varianz σ 2 . Für n = n 1 + n 2 wird<br />
vorausgesetzt. Der Hypothesenraum sei<br />
n 1<br />
n = c 1 + o(n −1 )<br />
Θ 0 = { θ = (θ 1 , θ 2 ) ∈ R 2 : θ 1 − θ 2 ≥ ∆ }<br />
mit ∆ > 0. Es soll die <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> unter der Alternative<br />
θ (0) = (0, 0) hergeleitet werden.<br />
<strong>Die</strong> Voraussetzungen von Theorem 6.7 und 6.10 sollen hier nicht im einzelnen diskutiert werden,<br />
da die Anwendung der Resultate im Vordergrund stehen sollen. <strong>Die</strong> vorliegende Normalverteilung<br />
gehört einer exponentiellen Familie an. <strong>Die</strong> meisten Voraussetzungen folgen dann<br />
aus den Eigenschaften einer exponentiellen Familie (siehe hierzu zum Beispiel Brown u. a.<br />
(1981)). <strong>Die</strong> Voraussetzungen (v) und (vi) von Theorem 6.10 sind hingegen nicht ersichtlich<br />
und werden kurz diskutiert. Für i = 1, 2 erhält man<br />
E θ<br />
(0)<br />
i<br />
[<br />
d 2 /dθ 2 i log f i (X i1 , θ i ) ] = − 1 σ 2<br />
unabhängig von θ i . Folglich ist Bedingung (vi) erfüllt. Der restringierte ML-Schätzer liegt<br />
asymptotisch fast sicher auf dem Rand der Hypothese Θ 0 . Mit Hilfe <strong>des</strong> Satzes von der<br />
majorisierten Konvergenz kann Integration und Differentiation so vertauscht werden [siehe<br />
hierzu Ferguson (1996, S.124)], dass<br />
E θ<br />
(0)<br />
i<br />
[d/dθ i log f i (X i1 , θ i )] = d/dθ i E θ<br />
(0)<br />
i<br />
[log f i (X i1 , θ i )]<br />
gilt. Folglich ist Bedingung (v) erfüllt, wenn die Richtungsableitung <strong>des</strong> Kullback-Leibler<br />
Abstands in Richtung <strong>des</strong> Ran<strong>des</strong> der Hypothese Θ 0 im Punkt θ ∗ null ist. Nachstehende<br />
Rechnungen zur Bestimmung von θ ∗ werden dieses zeigen.<br />
Um Theorem 6.7 anwenden zu können, wird zunächst der Punkt in der Hypothese bestimmt,<br />
der den gewichteten Kullback-Leibler Abstand mit Gewichten (c 1 , 1 − c 1 ) zu θ (0) = (0, 0)<br />
minimiert. Hier<strong>für</strong> bezeichne f(x, µ, σ 2 ) die Dichte der Normalverteilung mit Erwartungswert<br />
µ und Standardabweichung σ. Es gilt <strong>für</strong> i = 1, 2 und X i ∼ N (θ i , σ 2 )<br />
K(0, θ i ) = E [ log f(X i , 0, σ 2 ) − log f(X i , θ i , σ 2 ) ]<br />
= 1<br />
2σ 2 E [ (X i − θ i ) 2 − X 2 i<br />
= 1<br />
2σ 2 (<br />
σ 2 + θ 2 i − σ 2) = θ2 i<br />
2σ 2 .<br />
]
6.3. Beispiel 63<br />
Somit gilt<br />
K(θ) := K(0, θ, (c 1 , 1 − c 1 )) = c 1 θ 2 1 + (1 − c 1) θ 2 2<br />
2σ 2 . (6.8)<br />
Das Minimum von K(θ) in Θ 0 wird auf dem Rand von Θ 0 angenommen. Folglich ist<br />
in θ 2 zu minimieren. Aus<br />
G(θ 2 ) := K((θ 2 + ∆, θ 2 )) = c 1 (θ 2 + ∆) 2 + (1 − c 1 ) θ 2 2<br />
2σ 2<br />
d<br />
dθ 2<br />
G(θ ∗ 2) = 2c 1(θ ∗ 2 + ∆) + 2(1 − c 1)θ ∗ 2<br />
σ 2 = 2(c 1∆ − θ ∗ 2 )<br />
σ 2 !<br />
= 0<br />
schließt man θ ∗ 2 = −c 1∆ und somit θ ∗ 1 = θ∗ 2 + ∆ = −c 1∆ + ∆ = ∆(1 − c 1 ). Also ist<br />
θ ∗ = ∆(1 − c 1 , −c 1 ) der Punkt in der Hypothese, der den gewichteten Kullback-Leibler Abstand<br />
mit Gewichten (c 1 , 1 − c 1 ) zu θ (0) = (0, 0) minimiert. Einsetzen in 6.8 liefert<br />
Mit<br />
µ := K(0, θ ∗ , (c 1 , 1 − c 1 )) = c 1 ∆ 2 (1 − c 1 ) 2 + (1 − c 1 ) ∆ 2 c 2 1<br />
2σ 2 = c 1(1 − c 1 )∆ 2<br />
2σ 2 .<br />
Var [ log f(X i , 0, σ 2 ) − log f(X i , θ i , σ 2 ) ] = 1<br />
4σ 4 Var [ (X i − θ i ) 2 − Xi<br />
2 ]<br />
= 1<br />
4σ 4 Var [ −X i θ i + θi<br />
2 ]<br />
<strong>für</strong> i = 1, 2 und X i ∼ N (θ i , σ 2 ) erhält man<br />
= θ2 i<br />
4σ 4 Var [X i] = θ2 i<br />
4σ 2<br />
τ 2 := c 1 Var [ log f(X, 0, σ 2 ) − log f(X, θ ∗ 1, σ 2 ) ]<br />
+(1 − c 1 ) Var [ log f(X, 0, σ 2 ) − log f(X, θ ∗ 2, σ 2 ) ]<br />
= c 1(1 − c 1 ) 2 ∆ 2 + (1 − c 1 )c 2 1 ∆2<br />
4σ 2<br />
= c 1(1 − c 1 )∆ 2<br />
4σ 2 .<br />
Nach Theorem 6.7 ist dann die <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> λ n unter<br />
der Alternative θ (0) = (0, 0) gegeben durch<br />
( )<br />
√ 1 n<br />
n log λ D<br />
n + µ −→ N (0, τ 2 ) (6.9)<br />
6.3.1 Simulation<br />
<strong>Die</strong> Güte der Approximation (6.9) hängt vom Stichprobenumfang n ab. <strong>Die</strong> Frage ist, <strong>für</strong><br />
welche Stichprobenumfänge die Approximation zu zufrieden stellenden Ergebnissen führt.<br />
Hier<strong>für</strong> wird <strong>für</strong> n = 50, 100, 200, σ = 1, c 1 = 0.5, ∆ = 0.1, 0.5<br />
( )<br />
√ 1 n<br />
n log λ n + µ<br />
(6.10)
64 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />
mit jeweils 10000 Wiederholungen simuliert. <strong>Die</strong> so gewonnenen empirischen <strong>Verteilung</strong>en<br />
werden mit Hilfe eines QQ-Plots mit der <strong>asymptotische</strong>n <strong>Verteilung</strong> verglichen. <strong>Die</strong> Abbildungen<br />
6.1 und 6.2 zeigen QQ-Plots <strong>für</strong> die drei Stichprobenumfänge von n = 50, 100, 200<br />
und <strong>für</strong> ∆ = 0.1 bzw. <strong>für</strong> ∆ = 0.5.<br />
n=50<br />
n=100<br />
n=200<br />
Sample Quantiles<br />
−0.10 −0.05 0.00 0.05 0.10<br />
Sample Quantiles<br />
−0.10 −0.05 0.00 0.05 0.10<br />
Sample Quantiles<br />
−0.10 −0.05 0.00 0.05 0.10<br />
−4 −2 0 2 4<br />
−4 −2 0 2 4<br />
−4 −2 0 2 4<br />
Theoretical Quantiles<br />
Theoretical Quantiles<br />
Theoretical Quantiles<br />
Abbildung 6.1: P-Plots <strong>für</strong> ∆ = 0.1<br />
In einem QQ-Plot werden die empirischen Quantile gegen die einer Standardnormalverteilten<br />
abgetragen. Liegen die Punkte auf einer Geraden, stammen die simulierten Werte aus<br />
einer Normalverteilung mit Erwartungswert gleich dem y-Achsenabschnitt der Geraden und<br />
Standardabweichung gleich der Steigung. Für den Vergleich der empirischen <strong>Verteilung</strong> mit<br />
der <strong>asymptotische</strong>n <strong>Verteilung</strong> ist somit die Ursprungsgerade mit Steigung τ in die QQ-Plots<br />
einzufügen. Liegen die Punkte auf dieser Geraden stimmen die <strong>Verteilung</strong>en überein. Weiter<br />
ist die Gerade mit y-Aschenabschnitt √ nµ und Steigung null eingefügt.<br />
n=50<br />
n=100<br />
n=200<br />
Sample Quantiles<br />
−0.4 −0.2 0.0 0.2 0.4<br />
Sample Quantiles<br />
−0.4 −0.2 0.0 0.2 0.4<br />
Sample Quantiles<br />
−0.4 −0.2 0.0 0.2 0.4<br />
−4 −2 0 2 4<br />
Theoretical Quantiles<br />
−4 −2 0 2 4<br />
Theoretical Quantiles<br />
−4 −2 0 2 4<br />
Theoretical Quantiles<br />
Abbildung 6.2: P-Plots <strong>für</strong> ∆ = 0.5<br />
<strong>Die</strong> Abbildungen 6.1 und 6.2 zeigen, dass die empirischen <strong>Verteilung</strong>en der <strong>Verteilung</strong> von<br />
min(Z, √ nµ) mit Z ∼ N (0, τ 2 ) folgen. <strong>Die</strong> Punktmasse bei √ nµ entspricht gerade der Wahrscheinlichkeit,<br />
dass der unrestringierte ML-Schätzer in der Hypothese Θ 0 liegt. <strong>Die</strong>ses folgt<br />
aus der Tatsache, dass der <strong>Likelihood</strong>-Quotient stets kleiner als eins ist und genau dann eins
6.3. Beispiel 65<br />
ist, wenn der restringierte ML-Schätzer in der Hypothese liegt.<br />
In Abbildung 6.2 ist die Abhängigkeit der Approximation von der Fallzahl n gut zu erkennen.<br />
Je größer die Fallzahl ist, <strong>des</strong>to besser ist die Approximation.<br />
Ein Vergleich der Abbildungen 6.1 und 6.2 zeigt die Abhängigkeit der Approximation von ∆.<br />
Je größer ∆ ist bei gleicher Fallzahl n, <strong>des</strong>to besser ist die Approximation.<br />
Bemerkung 6.15. Dass die empirische <strong>Verteilung</strong> von (6.10) wie beim oben aufgeführten<br />
Beispiel den Wahrscheinlichkeitsträger (−∞, √ nµ] besitzt, ist ein allgemein gültiges Phänomen,<br />
unabhängig von der zugrunde liegenden <strong>Verteilung</strong> der Stichprobe. <strong>Die</strong> <strong>asymptotische</strong><br />
<strong>Verteilung</strong> von (6.10) (Normalverteilung) hat hingegen den Träger R. Dennoch ist <strong>für</strong> die Fallzahlplanung<br />
die Approximation durch die <strong>asymptotische</strong> <strong>Verteilung</strong> hinsichtlich <strong>des</strong> beschriebenen<br />
Phänomens unproblematisch, da bei der Fallzahlplanung nach Kapitel 7 der p-Wert<br />
von<br />
√ c α n µ + √ n<br />
mit c α < 0 approximiert wird, also ein Wert kleiner √ nµ betrachtet wird.
Kapitel 7<br />
Asymptotische Fallzahlplanung<br />
beim <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test<br />
In diesem Kapitel wird kurz skizziert, wie die Resultate aus den vorhergehenden Kapiteln zur<br />
Konstruktion eines <strong>Likelihood</strong>-<strong>Quotienten</strong>-<strong>Tests</strong> und zur Fallzahlplanung beim <strong>Likelihood</strong>-<br />
<strong>Quotienten</strong>-Test genutzt werden können. Insbesondere wird gezeigt, dass die asymptotisch<br />
optimale Fallzahlaufteilung den <strong>Quotienten</strong><br />
K(θ (0) , θ ∗ , c)<br />
τ(θ (0) , θ ∗ , c)<br />
mit τ 2 (θ (0) , θ ∗ , c) = ∑ [<br />
]<br />
k<br />
i=1 c i Var (0) θ<br />
log f(X i1 , θ (0)<br />
i<br />
) − log f(X i1 , θi ∗) in c maximiert. Im Folgenden<br />
wird angenommen, dass die jeweils benötigten Bedingungen zur Anwendung der Theo-<br />
i<br />
reme erfüllt sind.<br />
Konstruktion <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong>-<strong>Tests</strong><br />
Zur Konstruktion <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong>-<strong>Tests</strong> ist <strong>für</strong> das gegebene Testproblem zunächst<br />
mit Hilfe von Theorem 5.1 die <strong>asymptotische</strong> <strong>Verteilung</strong> von −2 log λ n auf dem Rand der<br />
Hypothese Θ 0 zu bestimmen. Im Beispiel 5.7 ausreichend regulärer Stichproben und einer<br />
Hypothese, die durch einen Halbraum approximiert werden kann, führt dieses zum Beispiel<br />
zu einer <strong>asymptotische</strong>n <strong>Verteilung</strong> von 1/2 + 1/2χ 2 1 . Über die so gewonnene <strong>Verteilung</strong> kann<br />
ein kritischer Wert c α so bestimmt werden, dass die Hypothese Θ 0 <strong>für</strong> log λ n ≤ c α asymptotisch<br />
zum Signifikanzniveau α verworfen wird. Im finiten Fall wird der kritische Wert dann<br />
über den <strong>asymptotische</strong>n Wert c α approximiert, d.h. die Hypothese Θ 0 wird unabhängig vom<br />
Stichprobenumfang <strong>für</strong> log λ n ≤ c α verworfen.<br />
Fallzahlplanung beim <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test<br />
Für einen gegebenen Parameterpunkt θ (0) in der Alternative Θ 1 wird eine Power von 1 − β<br />
erreicht, wenn<br />
P θ (0) (log λ n ≤ c α ) ≥ 1 − β (7.1)<br />
67
68 Kapitel 7: Asymptotische Fallzahlplanung beim LQ-Test<br />
gilt. <strong>Die</strong> <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> unter der Alternative θ (0) ∈ Θ 1<br />
ist nach Theorem 6.7 gegeben durch<br />
( )<br />
√ 1 n<br />
n log λ D<br />
n + µ(c) −→ N (0, τ 2 (c)),<br />
mit<br />
und<br />
τ 2 (c) =<br />
k∑<br />
i=1<br />
c i Var θ<br />
(0)<br />
i<br />
µ(c) = K(θ (0) , θ ∗ , c)<br />
[<br />
]<br />
log f(X i1 , θ (0)<br />
i<br />
) − log f(X i1 , θi ∗ ) .<br />
Sei u α das α-Quantil der Standard-Normalverteilung. Für die Bedingung (7.1) gilt<br />
P θ (0) (log λ n ≤ c α ) ≥ 1 − β<br />
( ( √n τ(c)<br />
−1 1<br />
n log λ n + µ(c))<br />
⇔ P θ (0)<br />
≤ √ ( ))<br />
1<br />
n τ(c) −1 n c α + µ(c) ≥ 1 − β,<br />
was wiederum asymptotisch äquivalent zu<br />
√ n τ(c)<br />
−1<br />
( 1<br />
n c α + µ(c))<br />
≥ u 1−β<br />
⇔<br />
√ n µ(c)<br />
τ(c) +<br />
c α<br />
√ n τ(c)<br />
≥ u 1−β<br />
ist. Ist die Fallzahlaufteilung c gegeben, ist folglich die benötigte minimale Gesamtfallzahl<br />
gegeben durch<br />
{<br />
N ∗ = min n ∈ N : √ n µ(c)<br />
}<br />
τ(c) + c<br />
√ α<br />
≥ u 1−β .<br />
n τ(c)<br />
Ist hingegen die Fallzahlaufteilung c nicht festgelegt, so ist zur Reduzierung der benötigten<br />
Gesamtfallzahl zunächst die optimale <strong>asymptotische</strong> Fallzahlaufteilung zu berechnen. Eine<br />
optimale Fallzahlaufteilung ist gegeben, wenn keine andere Aufteilung der Fallzahlen eine<br />
bessere Power bei gleicher Gesamtfallzahl aufweist. Folglich ist<br />
√ n<br />
µ(c)<br />
τ(c) +<br />
c α<br />
√ n τ(c)<br />
in c zu maximieren. Da <strong>für</strong> großes n der Term µ(c)/τ(c) dominiert, ist die asymptotisch<br />
optimale Fallzahl gegeben durch<br />
{<br />
}<br />
c ∗ µ(c)<br />
k∑<br />
= arg sup<br />
τ(c) : c ∈ [0, 1]k mit c i = 1 .<br />
<strong>Die</strong> minimal benötigte Gesamtfallzahl ist dann gegeben durch<br />
{<br />
N ∗ = min n ∈ N : √ n µ(c∗ )<br />
τ(c ∗ ) +<br />
i=1<br />
c α<br />
√ n τ(c ∗ ) ≥ u 1−β<br />
}<br />
.
69<br />
Beispiel 7.1. Das Beispiel 6.14 zweier normalverteilter Stichproben X 11 , . . . , X 1n1 ∼ N (θ 1 , σ 2 )<br />
und X 21 , . . . , X 2n2 ∼ N (θ 2 , σ 2 ) mit bekannter Varianz σ 2 wird fortgeführt. Also sei der Hypothesenraum<br />
wieder<br />
Θ 0 = { θ = (θ 1 , θ 2 ) ∈ R 2 : θ 1 − θ 2 ≥ ∆ }<br />
mit ∆ > 0 und θ (0) = (0, 0). Dann gilt nach Beispiel 6.14<br />
µ(c)<br />
τ(c) = c 1(1 − c 1 )∆ 2<br />
2σ 2<br />
√<br />
2σ<br />
√<br />
c1 (1 − c 1 )∆ = c1 (1 − c 1 )∆<br />
.<br />
σ<br />
Folglich ist asymptotisch die Fallzahlaufteilung c ∗ = (0.5, 0.5) optimal, d.h. die Aufteilung der<br />
Gesamtstichprobe auf die beiden Gruppen erfolgt zu gleichen Teilen. In Tabelle 7.1 ist eine<br />
Auswahl von benötigten Gesamtfallzahlen in Abhängigkeit von ∆/σ und der zu erreichenden<br />
Power 1 − β aufgeführt. Hierbei wurde ein Signifikanzniveau von 5% angenommen.<br />
1 − β<br />
∆/σ 0.7 0.8 0.9<br />
0.1 1487 1796 2316<br />
0.2 372 449 579<br />
0.3 166 200 258<br />
0.4 93 113 145<br />
0.5 60 72 93<br />
Tabelle 7.1: Benötigte Gesamtfallzahlen
Kapitel 8<br />
Ausblick<br />
Für allgemeine Hypothesenräume und k-Stichproben wurde die <strong>asymptotische</strong> <strong>Verteilung</strong><br />
der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik unter der Hypothese und unter einer festen Alternative<br />
bestimmt. <strong>Die</strong>se ermöglichen die Konstruktion eines <strong>Likelihood</strong>-<strong>Quotienten</strong>-<strong>Tests</strong> sowie die<br />
Durchführung einer Fallzahlplanung.<br />
<strong>Die</strong> Anwendung der vorgestellten Resultate ist in einer Vielzahl von praktisch relevanten Testproblemen<br />
zu finden. Neben den in dieser Arbeit untersuchten Nicht-Unterlegenheitstests<br />
<strong>für</strong> den Zwei-Stichprobenfall ist inbesonders der 3-Stichprobenfall von aktuellem Interesse.<br />
Hierzu sind bisher wenige methodische Arbeiten zu finden. Das zunehmende Interesse an<br />
dreiarmigen Nicht-Unterlegenheitstests ist vor dem Hintergrund der so genannten ”<br />
assay sensitivity“<br />
zu sehen. <strong>Die</strong>se bezeichnet die Fähigkeit einer Studie bzw. eines Testes zwischen<br />
einer wirksamen und einer nicht wirksamen Therapie zu unterscheiden. So empfehlen Pigeot<br />
u. a. (2003) das Einbeziehen eines zusätzlichen Placebos zur aktiven Kontrollgruppe beim<br />
Nicht-Unterlegenheitstest. Basierend auf einen modifizierten t-Test leiten Pigeot u. a. (2003)<br />
eine Testentscheidung <strong>für</strong> den dreiarmigen Nicht-Unterlegenheitstest unter normalverteilten<br />
Stichproben mit homogenen Varianzen her. Ng (2000) hingegen löst Testprobleme mit drei<br />
oder mehr Stichproben über ”<br />
Intersection-Union-<strong>Tests</strong>“ mit paarweise durchgeführten Vergleichen.<br />
<strong>Die</strong> in dieser Arbeit vorgestellte Methodik ist bei Munk u. a. (2006) wieder zu finden.<br />
Sie untersuchen basierend auf der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik allgemeine Hypothesen in<br />
dreiarmigen klinischen Studien unter binomialverteilten Stichproben.<br />
Aus medizinischer Sicht können die folgenden Problemstellungen von Interesse sein:<br />
1. <strong>Die</strong> Nicht-Unterlegenheit der Testtherapie T gegenüber einer Referenztherapie R 1 und/<br />
oder einer Referenztherapie R 2 .<br />
2. <strong>Die</strong> Nicht-Unterlegenheit der Testtherapie T 1 und/oder der Testtherapie T 2 gegenüber<br />
einer Referenztherapie R.<br />
3. <strong>Die</strong> Nicht-Unterlegenheit der Testtherapie T gegenüber einer Referenztherapie R und<br />
die Überlegenheit der Referenztherapie R gegenüber einem Placebo P .<br />
4. <strong>Die</strong> Nicht-Unterlegenheit der Testtherapie T gegenüber einer Referenztherapie R und<br />
die Überlegenheit der Testtherapie T gegenüber einem Placebo P .<br />
71
72 Kapitel 8: Ausblick<br />
<strong>Die</strong>se Problemstellungen werden jeweils durch eine der drei nachstehenden Hypothesen beschrieben.<br />
Sei δ i,j ein Diskrepanzmaß <strong>für</strong> Gruppe i und j, i, j = 1, 2, 3:<br />
(a) H 0 : δ 1,2 ≥ ∆ 1 ∨ δ 1,3 ≥ ∆ 2 vs. H 1 : δ 1,2 < ∆ 1 ∧ δ 1,3 < ∆ 2 ,<br />
(b) H 0 : δ 1,2 ≥ ∆ 1 ∧ δ 1,3 ≥ ∆ 2 vs. H 1 : δ 1,2 < ∆ 1 ∨ δ 1,3 < ∆ 2 ,<br />
(c) H 0 : δ 1,2 ≥ ∆ 1 ∨ δ 2,3 ≥ ∆ 2 vs. H 1 : δ 1,2 < ∆ 1 ∧ δ 2,3 < ∆ 2 .<br />
In dieser Arbeit wurden die theoretischen Grundlagen gelegt, um <strong>Likelihood</strong>-<strong>Quotienten</strong>-<strong>Tests</strong><br />
<strong>für</strong> die aufgeführten Hypothesen (a)-(c) zu konstruieren und eine Fallzahlplanung durchzuführen.<br />
<strong>Die</strong> explizite Durchführung stellt eine interessante Aufgabenstellung <strong>für</strong> weitere<br />
Arbeiten dar.<br />
Weitere interessante Fragestellungen tauchen im Rahmen von dreiarmigen Nicht-Unterlegenheitstests<br />
sind bei <strong>Tests</strong> zur Retention eines Kontrolleffektes auf. Hierbei wird die Nichtunterlegenheit<br />
einer Test- gegenüber einer Referenztherapie über die Retention eines vorgegebenen<br />
Anteils eines Kontrolleffektes definiert statt über eine feste Nicht-Unterlegenheitsmarge, wie<br />
in dieser Arbeit vorgestellt wurde. <strong>Die</strong>ses führt <strong>für</strong> normalverteilte Stichproben beispielsweise<br />
zu folgender Hypothese:<br />
H 0 : µ 1 ≥ µ 2 ∨ µ 1 ≤ h(µ 2 , µ 3 ),<br />
wobei µ i Erwartungswert der jeweiligen Stichprobe ist und h : R 2 → R bestimmte Regularitätsbedingungen<br />
erfüllt. Bei anderen <strong>Verteilung</strong>en der Stichproben treten Hypothesen<br />
gleichen Typs auf, und folglich können die zugehörigen Testprobleme mit der in dieser Arbeit<br />
vorgestellten Vorgehensweise gelöst werden.<br />
Abschließend wird erneut hervorgehoben, dass die präsentierten Resultate zwar durch Nicht-<br />
Unterlegenheits-<strong>Tests</strong> motiviert sind, aber dennoch Allgemeingültigkeit besitzen und folglich<br />
auf weitere Fragestellungen angewandt werden können.
Anhang A<br />
Verwendete Sätze<br />
Theorem A.1 (Gesetz der großen Zahlen). X 1 , X 2 , . . . seien unabhängig, identisch verteilte<br />
Zufallsvariablen und X n = n −1 ∑ n<br />
i=1 X i.<br />
(i) (Schwaches Gesetz) Für E|X 1 | < ∞ gilt X n<br />
P<br />
−→ µ = EX 1 .<br />
(ii) (Starkes Gesetz) X n<br />
a.s.<br />
−→ µ ⇔ E|X 1 | < ∞ und µ = EX 1<br />
Beweis. Siehe Ferguson (1996, Kapitel 4, Satz 4).<br />
Theorem A.2 (Zentraler Grenzwertsatz). X 1 , X 2 , . . . seien unabhängig, identisch verteilte<br />
Zufallsvariablen mit Erwartungswert µ und endlicher Kovarianzmatrix Σ. Dann gilt <strong>für</strong><br />
X n = n −1 ∑ n<br />
i=1 X i<br />
√ n (Xn − µ)<br />
Beweis. Siehe Ferguson (1996, Kapitel 5, Satz 5).<br />
D −→ N (0, Σ).<br />
Theorem A.3 (Slutsky’s Theorem). X n und Y n seien Folgen von Zufallsvariablen. C(f)<br />
bezeichne die Menge der Stetigkeitsstellen von der Funktion f.<br />
(i) Wenn X n ∈ R d , X n<br />
(ii) Wenn X n<br />
D −→ X und f : R d → R k mit P (X ∈ C(f)) gilt, dann gilt<br />
f(X n )<br />
D −→ f(X).<br />
D<br />
P<br />
−→ X und (Xn − Y n ) −→ 0 gilt, dann gilt<br />
(iii) Wenn X n ∈ R d , Y n ∈ R k , X n<br />
(iv) Wenn X n ∈ R d , X n<br />
Y n<br />
D −→ X.<br />
D<br />
D<br />
−→ X und Yn −→ c gilt, dann gilt<br />
(X n , Y n ) D −→ (X, c).<br />
P<br />
−→ X und f : R d → R k mit P (X ∈ C(f)) gilt, dann gilt<br />
f(X n )<br />
73<br />
P<br />
−→ f(X).
74<br />
(v) Wenn X n<br />
P<br />
P<br />
−→ X und (X n − Y n ) −→ 0 gilt, dann gilt<br />
(vi) Wenn X n ∈ R d , Y n ∈ R k , X n<br />
Y n<br />
P<br />
−→ X.<br />
P<br />
P<br />
−→ X und Y n −→ Y gilt, dann gilt<br />
(X n , Y n )<br />
P<br />
−→ (X, Y ).<br />
(vii) <strong>Die</strong> Aussagen (iv)-(vi) sind ebenfalls <strong>für</strong> fast sichere Konvergenz gültig. Das heißt, überall<br />
wo −→ P in (iv)-(vi) auftaucht, ist es durch −→ a.s. zu ersetzen, damit die Aussagen gültig<br />
bleiben.<br />
Beweis. Siehe Ferguson (1996, Kapitel 6, Satz 6 und 6’).<br />
Theorem A.4 (Mickey’s Theorem). Q sei eine Funktion, die auf X×Θ definiert ist, wobei<br />
X ein euklidischer Raum und Θ kompakte Teilmenge eines euklidischen Raumes sind. <strong>Die</strong><br />
Funktion Q(x, θ) sei in θ <strong>für</strong> alle x stetig und in x <strong>für</strong> alle θ messbar. Weiter sei h eine bezüglich<br />
einer auf X definierten <strong>Verteilung</strong>sfunktion F integrierbare Funktion mit |g(x, θ)| ≤ h(x) <strong>für</strong><br />
alle x und θ. Dann gilt <strong>für</strong> X 1 , X 2 , . . . mit X i ∼ F , dass<br />
n∑<br />
∫<br />
n −1 Q(X i , θ) −→<br />
a.s. Q(x, θ) dF (x)<br />
gleichmäßig in θ ∈ Θ.<br />
i=1<br />
Beweis. Siehe Jennrich (1969, Theorem 2).<br />
Theorem A.5 (White’s Lemma). Seien Q n Funktionen, die auf X × Θ definiert sind,<br />
wobei X ein euklidischer Raum und Θ kompakte Teilmenge eines euklidischen Raumes ist.<br />
<strong>Die</strong> Funktionen Q n (x, θ) seien in θ <strong>für</strong> alle x stetig und in x <strong>für</strong> alle θ messbar. Dann existieren<br />
messbare Funktionen ˆθ n (x) mit<br />
<strong>für</strong> alle x in X. Wenn<br />
Q n (x, ˆθ n (x)) = inf<br />
θ∈Θ Q n(x, θ)<br />
|Q n (x, θ) − ¯Q n (θ)| a.s. −→ 0<br />
gleichmäßig <strong>für</strong> alle θ ∈ Θ gilt und ¯Q n (θ) eindeutiges Minimum bei θ 0 hat, dann gilt<br />
Beweis. Siehe White (1980, Lemma 2.2).<br />
ˆθ n<br />
a.s.<br />
−→ θ 0 .<br />
Theorem A.6 (Amemiya’s Lemma). Q n seien Funktionen, die auf X × Θ definiert sind,<br />
wobei X ein euklidischer Raum und Θ kompakte Teilmenge eines euklidischen Raumes sind.<br />
<strong>Die</strong> Funktionen Q n (x, θ) seien in θ <strong>für</strong> alle x stetig und in x <strong>für</strong> alle θ messbar. Wenn<br />
Q n (x, θ) a.s. −→ Q(θ)<br />
gleichmäßig <strong>für</strong> alle θ ∈ Θ gilt, dann gilt <strong>für</strong> ˆθ n (x) a.s. −→ θ 0<br />
Beweis. Siehe Amemiya (1973, Lemma 4).<br />
Q n (x, ˆθ n (x)) a.s. −→ Q(θ 0 ).
Literaturverzeichnis<br />
[Amemiya 1973] Amemiya, T.: Regression analysis when the dependent variable is truncated<br />
normal. In: Econometrica 41 (1973), S. 997–1016<br />
[Blackwelder 1982] Blackwelder, W. C.: Proving the null hypothesis“in clinical trials.<br />
”<br />
In: Controlled Clinical Trials 3 (1982), S. 345–353<br />
[Brown u. a. 1981] Brown, L. ; Johnstone, I. ; MacGibbon, B.: Variation diminishing<br />
transformations: A direct approach to total positivity and its statistical applications. In:<br />
J. Amer. Statist. Assoc. 76 (1981), S. 824–832<br />
[Brown 1986] Brown, L.D.: Fundamentals of statistical exponential families : with applications<br />
in statistical decision theory. Hayward, Calif. : Inst. of Math. Statist., 1986<br />
[Chan 1998] Chan, I. S. F.: Exact tests of equivalence and efficacy with a non-zero lower<br />
bound for comparative studies. In: Statistics in Medicine 17 (1998), S. 1403–1413<br />
[Chernoff 1954] Chernoff, H.: On the distribution of the likelihood ratio. In: Ann. Math.<br />
Statist. 25 (1954), S. 573–578<br />
[Dunnett und Gent 1977] Dunnett, C. W. ; Gent, M.: Significance testing to establish<br />
equivalence between treatments, with special reference to data in the form of 2x2 tables.<br />
In: Biometrics 33 (1977), S. 593–602<br />
[Farrington und Manning 1990] Farrington, C. P. ; Manning, G.: Test statistics and<br />
sample size formulae for comparative binomial trials with null hypothesis of non-zero risk<br />
difference or non-unity relative risk. In: Statistics in Medicine 9 (1990), S. 1447–1454<br />
[Feder 1968] Feder, P.I.: On the distribution of the log likelihood ratio test statistic when<br />
the true parameter is near the boundaries of the hypothesis regions. In: Ann. Math. Statist.<br />
39 (1968), S. 2044–2055<br />
[Ferguson 1996] Ferguson, T.S.: A course in large sample theory. Chapman & Hall, 1996<br />
[Hauschke u. a. 1999] Hauschke, D. ; Kieser, M. ; Diletti, E. ; Burke, M.: Sample<br />
size determination for proving equivalence based on the ratio of two means for normally<br />
distributed data. In: Statistics in Medicine 18 (1999), S. 93–105<br />
[Jennrich 1969] Jennrich, R.: Asymptotic Properties of Non-linear Least Squares Estimators.<br />
In: Ann. Math. Statist. 40 (1969), S. 633–643<br />
[Johnson und Welch 1940] Johnson, N.L. ; Welch, B.L.: Applications of the non-Central<br />
t-distribution. In: Biometrika 31 (1940), S. 362–389<br />
75
76<br />
[Karlin 1968] Karlin, S.: Total Positivity. Stanford University Press, 1968<br />
[Krengel 1988]<br />
Vieweg, 1988<br />
Krengel, U.: Einführung in die Wahrscheinlichkeitstheorie und Statistik.<br />
[Lange und Freitag 2005] Lange, S. ; Freitag, G.: Choice of Delta: Requirements and Reality<br />
- Results of a Systematic Review. In: Biometrical Journal (Special Issue on Therapeutic<br />
Equivalence: Editors A. Munk, H.-J. Trampisch) 47 (2005), Nr. 1, S. 12–27<br />
[Lehmann 1986]<br />
Verlag, 1986<br />
Lehmann, E. L.: Testing Statistical Hypotheses. 2. New York : Springer<br />
[Liu und Weng 1994] Liu, J. P. ; Weng, C. S.: Evaluation of log-transformation in assessing<br />
bioequivalence. In: Comm. in Statist. - Theory and Methods 23 (1994), S. 421–434<br />
[Munk u. a. 2006] Munk, A. ; Skipka, G. ; Freitag, G.: Testing non-inferiority in threearmed<br />
clinical trials based on the likelihood ratio statistics. In: Can. J. Stat. (acc.) (2006)<br />
[Ng 2000] Ng, T.-H.: Equivalence testing with three or more treatment groups. In: J.<br />
Amer. Statist. Assoc.: Proceeding of the Biopharmaceutical Section (2000), S. 156–160<br />
[Pigeot u. a. 2003] Pigeot, I. ; Schäfer, J. ; Röhmel, J. ; Hauschke, D.: Assessing<br />
non-inferiority of a new treatment in a three-arm clinical trial including a placebo. In:<br />
Statistics in Medicine 22 (2003), S. 883–899<br />
[Röhmel und Mansmann 1999] Röhmel, J. ; Mansmann, U.: Unconditional nonasymptotic<br />
one-sided tests for independent binomial proportions when the interest lies in<br />
showing non-inferiority and/or superiority. In: Biometrical Journal 41 (1999), S. 149–170<br />
[Self und Liang 1987] Self, S.G ; Liang, K.-Y.: Asymptotic Properties of Maximum<br />
<strong>Likelihood</strong> Estimators and <strong>Likelihood</strong> Ratio <strong>Tests</strong> Under Nonstandard Conditions. In: J.<br />
Amer. Statist. Assoc. 82 (1987), S. 605–610<br />
[Tang und Tang 2004] Tang, M.-L. ; Tang, N.-S.: <strong>Tests</strong> of noninferiority via rate difference<br />
for three-arm clinical trials with placebo. In: Journal of Biopharmaceutical Statistics 14<br />
(2004), S. 337–347<br />
[Wald 1949] Wald, A.: Note on the consistency of the maximum likelihood estimate. In:<br />
Ann. Math. Statist. 20 (1949), S. 595–601<br />
[White 1980] White, H.: Nonlinear regression on cross-section data. In: Econometrica 48<br />
(1980), S. 721–746<br />
[White 1981] White, H.: Consequences and detection of misspecified nonlinear regression<br />
models. In: J. Amer. Statist. Assoc. 76 (1981), S. 419–433<br />
[White 1982] White, H.: Maximum likelihood estimation of misspecified models. In:<br />
Econometrica 50 (1982), S. 1–26<br />
[Wilks 1938] Wilks, S.S.: The large-sample distribution of the likelihood ratio for testing<br />
composite hypotheses. In: Ann. Math. Statist. 9 (1938), S. 60–62<br />
[WMA ] WMA: World Medical Association Declaration of Helsinki. Ethical Principles for<br />
Medical Research Involving Human Subjects. http://www.wma.net/e/policy/b3.htm
Danksagung<br />
Als Erstes möchte ich Herrn Prof. Dr. Axel Munk <strong>für</strong> die intensive persönliche Betreuung<br />
nicht nur meiner Diplomarbeit, sondern meines gesamten Studiums ganz herzlich danken.<br />
Des Weiteren möchte ich mich bei Frau Dr. Fadoua Balabdaoui, Herrn Dr. Leif Boysen und<br />
Herrn Dr. Hajo Holzmann <strong>für</strong> anregende Diskussionen und ihre Korrekturen bedanken. Ausserdem<br />
danke ich Herrn Prof. Dr. Martin Schlather <strong>für</strong> die Übernahme <strong>des</strong> Koreferats.<br />
Daneben möchte ich mich bei meinen Kommilitonen Jörn und Andreas, bei meiner Freundin<br />
Merle und natürlich ganz besonders bei meinen Eltern, Rainer und Waltraud Mielke, <strong>für</strong> ihre<br />
Unterstützung bedanken.<br />
79