Die asymptotische Verteilung des Likelihood-Quotienten-Tests für ...

Die asymptotische Verteilung des 

Likelihood-Quotienten-Tests für 

allgemeine Hypothesenräume 

Diplomarbeit 

vorgelegt von 

Matthias Mielke 

aus Uslar 

angefertigt im 

Institut für Mathematische Stochastik 

der Georg-August-Universität Göttingen 

2006

Inhaltsverzeichnis 

1 Einleitung 3 

2 Notationen und Grundlagen 7 

2.1 Notationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

2.2 Modelle und Bedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.3 Likelihood-Quotienten-Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

2.4 Approximation zweier Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

3 Nicht-Unterlegenheitstests im 2-Stichprobenfall unter Normalverteilung 17 

3.1 Modell und Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

3.2 Likelihood-Quotienten-Test und t-Statistiken . . . . . . . . . . . . . . . . . . 18 

3.3 Power- und Fallzahlberechnungen . . . . . . . . . . . . . . . . . . . . . . . . . 20 

3.3.1 Rechenprobleme und Approximationen für große Stichproben . . . . . 25 

4 Asymptotik des ML-Schätzers 29 

4.1 Asymptotische Normalität des ML-Schätzers im 1-Stichprobenfall . . . . . . . 29 

4.2 Asymptotische Normalität des ML-Schätzers im k-Stichprobenfall . . . . . . . 33 

4.3 Asymptotik des eingeschränkten ML-Schätzers . . . . . . . . . . . . . . . . . 35 

5 Asymptotische Verteilung der Likelihood-Quotienten-Statistik auf dem Rand 

der Hypothese 41 

5.1 Asymptotische Verteilung nach Chernoff für den k-Stichprobenfall . . . . . . 41 

5.2 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 

6 Asymptotische Verteilung der Likelihood-Quotienten-Statistik unter fester 

Alternative 49 

6.1 Asymptotik im 1-Stichprobenfall . . . . . . . . . . . . . . . . . . . . . . . . . 49 

6.2 Asymptotik im k-Stichprobenfall . . . . . . . . . . . . . . . . . . . . . . . . . 55 

6.3 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 

6.3.1 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

7 Asymptotische Fallzahlplanung beim Likelihood-Quotienten-Test 67 

8 Ausblick 71 

A Verwendete Sätze 73

Kapitel 1 

Einleitung 

Ziel von klinischen Studien ist es, die Wirksamkeit einer neuen Therapiemethode anhand eines 

klinischen Kriteriums nachzuweisen. Mögliche Kriterien sind zum Beispiel die Sterbewahrscheinlichkeit 

der Patienten oder die Reduzierung von Schmerzen. Eine klassische Methode 

ist die Überlegenheit einer Therapie gegenüber eines Placebos und somit die Wirkung der 

Therapie nachzuweisen. Die Verwendung von Placebos in der Kontrollgruppe führt bei einigen 

Indikationen und Krankheiten zu ethischen Problemen. So konstatiert die World Medical 

Association in ihrer Erklärung von Helsinki, siehe WMA: ” 

The benefits, risks, burdens and 

effectiveness of a new method should be tested against those of the best current prophylactic, 

diagnostic, and therapeutic methods. This does not exclude the use of placebo, or no 

treatment, in studies where no proven prophylactic, diagnostic or therapeutic method exists.“ 

Daher ist es heutzutage üblich eine neue Therapie mit einer etablierten Standardtherapie zu 

vergleichen, was oftmals kleinere Unterschiede zwischen der neuen Therapie und der Kontrolltherapie 

impliziert. Um diese Unterschiede mit einer vorgegebenen Wahrscheinlichkeit (der so 

genannten Power) nachzuweisen, wird folglich eine vergleichsweise große Anzahl von Patienten 

benötigt. Aus diesem Grund ist es in dem letzten Jahrzehnt zunehmend populär geworden, 

die Gleichwertigkeit von einer neuen Therapie und einem etablierten Standard und nicht 

die Überlegenheit nachzuweisen. Genauer will man im Allgemeinen die Nicht-Unterlegenheit 

(englisch: Non-Inferiority) der neuen Therapie zeigen. Nicht-Unterlegenheit bedeutet, dass 

die neue Therapie besser oder nur unbedeutend schlechter ist als die etablierte Standardtherapie. 

Hierzu sind neben der Pionierarbeit von Dunnett und Gent (1977) zum Beispiel 

Arbeiten von Blackwelder (1982), Farrington und Manning (1990), Chan (1998), Röhmel 

und Mansmann (1999), Pigeot u. a. (2003) sowie von Tang und Tang (2004) zu finden. Ein 

weiterer Aspekt für die Fokussierung auf Nicht-Unterlegenheitstests ist im Fortschritt der 

medizinischen Entwicklungsabteilungen zu sehen, der es zunehmend schwieriger macht neue 

pharmazeutische Produkte mit besserer Wirkung hinsichtlich des eingangs erwähnten klinischen 

Kriteriums zu entwickeln. Der therapeutische Fortschritt ist in leichterer Handhabung, 

weniger oder schwächeren Nebenwirkungen oder in geringeren finanziellen Aufwendungen zu 

sehen. Mit Nicht-Unterlegenheitstests lässt sich dann eine hinreichende Wirkung hinsichtlich 

des klinischen Primärkriteriums sicherstellen. 

Im Folgenden wird die statistische Formulierung des Nicht-Unterlegenheitsproblems skizziert. 

Zunächst ist dabei ein Diskrepanzmaß, das den Unterschied zweier therapeutischer Effekte 

quantifiziert, zu wählen. Zur Quantifizierung eines therapeutischen Effekts ist die Verwendung 

3

4 Kaptitel 1: Einleitung 

von Lokationsmaßen, wie dem Mittelwert oder dem Median von diskreten und stetigen Kriterien, 

üblich. Folglich sind Diskrepanzmaße, wie Differenz der Mittelwerte, standardisierte 

Differenz der Mittelwerte oder Quotient der Mittelwerte, geläufig. Bezeichne δ ein Diskrepanzmaß 

so, dass δ > 0 im Fall von additiver Diskrepanz (z.B. Differenz der Mittelwerte) 

und δ > 1 im Fall von multiplikativer Diskrepanz (z.B. Quotient der Mittelwerte) zur Unterlegenheit 

von der Testtherapie gegenüber der Referenztherapie korrespondiert, dann ist die 

Hypothese des Nicht-Unterlegenheitstests mit Nicht-Unterlegenheitsmarge ∆ gegeben durch 

H 0 : δ ≥ ∆ vs. H 1 : δ < ∆ . (1.1) 

Die Nicht-Unterlegenheitsmarge ∆ ist die negative Abweichung der Testtherapie gegenüber 

der Referenztherapie, die aus klinischen Gesichtspunkten noch akzeptabel ist. Für die Differenz 

und die standardisierte Differenz der Mittelwerte gilt für δ = 0 Gleichheit der beiden 

Gruppen und folglich wird ∆ > 0 gewählt. Da für den Quotienten der Mittelwerte bei δ = 1 

Gleichheit gilt, wird hier entsprechend ∆ > 1 gewählt. Es findet aktuell eine umfassende Diskussion 

über die Spezifizierung der Nicht-Unterlegenheitsmarge statt. Eine allgemeine Regel 

kann hier jedoch nicht formuliert werden. Die Marge hängt von klinischen Aspekten wie der 

Indikation oder dem Kriterium ab und ist somit von entsprechenden Spezialisten oder anhand 

früherer klinischer Studien zu bestimmen. Ein Überblick über die aktuelle Diskussion wird 

zum Beispiel von Lange und Freitag (2005) gegeben. Die Fragestellung der Spezifizierung der 

Nicht-Unterlegenheitsmarge soll hier jedoch nicht weiter verfolgt werden. 

Wird die Spezifizierung des Testproblems als gegeben angenommen, umfasst der nächste 

Schritt die Planung der Stichprobenumfänge in Test- und Referenzgruppe. Hierbei ist aus 

ökonomischer Sicht eine Reduzierung des Gesamtstichprobenumfangs anzustreben. Dem entgegen 

steht die Anforderung, den Fehler zweiter Art unter einem vorgegebenen Niveau zu 

halten. Dafür müssen die Stichprobenumfänge so groß zu gewählt werden, dass eine vorgegebene 

Power (1 − Fehler zweiter Art) erreicht wird. Es stellt sich die Frage, ob die Stichprobenaufteilung 

in die beiden Gruppen Einfluss auf den benötigten Gesamtstichprobenumfang 

nimmt. Wenn ja, welche Aufteilung führt zum minimal benötigten Gesamtstichprobenumfang? 

Um eine Fallzahlplanung durchführen zu können, wird die Verteilung der Teststatistik 

unter der Hypothese H 0 und unter der Alternative H 1 benötigt. In Kapitel 3 werden exemplarisch 

für zwei normalverteilte Stichproben exakte Nicht-Unterlegenheitstests für die oben 

erwähnten, geläufigen Dispkrepanzmaße konstruiert und die Fallzahlplanung diskutiert. Es 

werden Fallzahlformeln zur Bestimmung der minimal benötigten Fallzahlen angegeben und 

optimale Fallzahlaufteilungen auf die Stichproben berechnet. 

Die präsentierten Fragestellungen zur Planung eines Nicht-Unterlegenheitstests stellen zusammen 

mit der Tatsache, dass sich nicht bei allen Testproblemen Teststatistiken mit bekannten 

Verteilungen unter der Hypothese H 0 und unter der Alternative H 1 finden lassen, die Motivation 

für das Kernstück dieser Arbeit dar. Als Lösung hierzu wird der Likelihood-Quotienten- 

Test betrachtet, der für parametrische Familien von Verteilungen eine Methode bereitstellt, 

auf Parameterkonstellationen zu testen. Ziel ist es für allgemeine Hypothesenräume die asymptotische 

Verteilung der Likelihood-Quotienten-Statistik unter der Hypothese und der Alternative 

zu berechnen und so die Konstruktion eines Testes sowie eine Fallzahlplanung zu 

ermöglichen. Die Arbeit beschränkt sich nicht auf den Zwei-Stichprobenfall, sondern betrachtet 

allgemeine Hypothesenräume, die Teilmengen eines gemeinsamen Parameterraumes von k

5 

unabhängigen Stichproben sind. Entscheidend ist hierbei, dass die Fallzahlen in den einzelnen 

Stichproben nicht von gleicher Größe sein müssen. 

Ein klassisches Resultat von Wilks (1938) zur Verteilung des Likelihood-Quotienten λ unter 

der Hypothese ist das folgende. Wenn die Hypothese, dass der Parameter θ in einer 

r-dimensionalen Hyperebene des d-dimensionalen Paramterraumes liegt, wahr ist, so gilt für 

den Likelihood-Quotienten λ, dass −2 log λ asymptotisch χ 2 -verteilt mit d−r Freiheitsgraden. 

Für viele wichtige Probleme sind die Hypothesen nicht vom obigen Typ. So wird in dieser 

Arbeit die Verteilung des Likelihood-Quotienten auf dem Rand einer allgemeinen Hypothese 

basiernd auf Chernoff (1954) bzw. der weiterführenden Arbeit von Self und Liang (1987) 

untersucht. Zur Verteilung des Likelihood-Quotientens unter der Alternative wird nicht wie 

üblich eine lokale Alternative (siehe zum Beispiel Feder (1968)), sondern eine feste Alternative 

betrachtet, d.h. die Stichproben folgen unabhängig vom Stichprobenumfang einer zum festen 

Parameter θ (0) gehörigen Verteilung. 

In Kapitel 2 werden die in der Arbeit verwendeten Notationen, Modelle und Bedingungen 

eingeführt und einige theoretische Grundlagen bereitgestellt. In Kapitel 3 werden, wie bereits 

oben erwähnt, exemplarisch für zwei normalverteilte Stichproben exakte Nicht-Unterlegenheitstests 

konstruiert und die Fallzahlplanung diskutiert. 

Der Kernteil der Arbeit ist wie folgt aufgebaut: im Kapitel 4 werden theoretische Grundlagen 

zur Asymptotik des Maximum-Likelihood-Schätzers (ML-Schätzers) gelegt. Diese umfassen 

klassische Resultate zur asymptotischen Normalität des uneingeschränkten ML-Schätzers im 

Ein- und im k-Stichprobenfall sowie die Konvergenz des auf die Hypothese H 0 eingeschränkten 

ML-Schätzers. 

In Kapitel 5 wird die asymptotische Verteilung des Likelihood-Quotientens λ auf dem Rand 

der Hypothese H 0 untersucht. Dazu wird die Arbeit von Chernoff (1954) auf den k-Stichprobenfall 

mit ungleichen Fallzahlen in den einzelnen Stichproben verallgemeinert. So wird für k unabhängige 

Stichproben die asymptotische Verteilung der Likelihood-Quotienten-Statistik auf 

die asymptotische Verteilung der Likelihood-Quotienten-Statistik unter einer normalverteilten 

Zufallsvariablen zurückgeführt. Hierbei wird vorausgesetzt, dass die Fallzahlen der einzelnen 

Stichproben asymptotisch von gleicher Ordnung sind und die Hypothese durch einen Kegel (in 

der Arbeit: positiv homogene Menge) approximiert werden kann. Das Kapitel wird durch eine 

Anwendung der Resultate auf den Zwei-Stichprobenfall mit einer Hypothese, die durch einen 

Halbraum approximiert werden kann, abgeschlossen. In diesem Fall folgt die asymptotische 

Verteilung von −2 log λ auf dem Rand der Hypothese einer 1 2 + 1 2 χ2 1 -Verteilung. 

In Kapitel 6 wird die asymptotische Verteilung des Likelihood-Quotientens unter einer festen 

Alternative θ 0 im k-Stichprobenfall untersucht. Hierbei wird gezeigt, dass der auf die Hypothese 

H 0 eingeschränkte ML-Schätzer mit Rate √ n gegen den Parameterwert, der den Kullback- 

Leibler-Abstand bzw. im k-Stichprobenfall den modifizierten Kullback-Leibler-Abstand zum 

wahren Wert θ 0 minimiert, konvergiert. Hierauf basierend wird die asymptotische Normalität 

des Logarithmus der Likelihood-Quotienten-Statistik unter fester Alternative hergeleitet. Die 

gewonnenen Resultate werden exemplarisch auf den Nicht-Unterlegenheitstest unter zwei normalverteilten 

Stichproben und der Mittelwertdifferenz als Diskrepanzmaß angewandt.

6 Kaptitel 1: Einleitung 

Die Arbeit wird durch eine Diskussion zur asymptotischen Fallzahlplanung in Kapitel 7 abgeschlossen. 

Hier wird skizziert, wie die Resultate dieser Arbeit genutzt werden können, um 

für allgemeine Hypothesen einen Likelihood-Quotienten-Test zu konstruieren und eine Fallzahlplanung 

durchzuführen. 

Zuletzt soll betont werden, dass der Schwerpunkt dieser Arbeit auf der Herausarbeitung 

und Bereitstellung der theoretischen Resultate liegt. Dementsprechend sind die aufgeführten 

Beispiele von einfacher und kompakter Natur. Sie dienen primär dazu, die Anwendung der 

gewonnenen theoretischen Resultate zu demonstrieren und sind nur exemplarisch an praktische 

Fragestellungen angelehnt. Im Gegenzug werden die Resultate unter allgemeinen und 

nicht sehr restriktiven Bedingungen bereitgestellt. Der allgemeine Anwendungsbezug wird 

schließlich im Rahmen eines Ausblickes in Kapitel 8 aufgezeigt.

Kapitel 2 

Notationen und Grundlagen 

In diesem Kapitel werden die in der Arbeit verwendeten Notationen, Modelle und Bedingungen 

eingeführt und einige theoretische Grundlagen bereitgestellt. 

2.1 Notationen 

Ableitungen 

Für X ⊆ R m ,Y ⊆ R k und eine Funktion f : X × Y → R bezeichne 

d 

f(x, y) 

dy 

die partielle Ableitung in Richtung y und entsprechend 

d m 

f(x, y) 

dym die m-te partielle Ableitung in Richtung y für m = 2, . . . . 

Likelihoodfunktion, ML-Schätzer, Score, Fisher-Information 

Seien X 1 , . . . , X n unabhängig, identisch verteilte Zufallsvariablen mit Dichte f(x, θ) bezüglich 

einem σ-endlichen Maß ν und Θ ⊆ R d der Parameterraum, dann bezeichne 

L n (θ) = L n (X 1 , . . . , X n , θ) = 

die Likelihoodfunktion und entsprechend 

n∏ 

f(X i , θ) 

i=1 

l n (θ) = log L n (θ) = 

n∑ 

log f(X i , θ) 

i=1 

die log-Likelihoodfunktion. Existiert (d 2 /dθ 2 )f(x, θ) und ist stetig, definieren wir 

U(x, θ) = 

( d 

dθ log f(x, θ) ) T 

, 

7

8 Kapitel 2: Notationen und Grundlagen 

den so genannten Scorevektor und 

W (x, θ) = d2 

log f(x, θ). 

dθ2 Für eine Zufallsvariable X mit Dichte f(x, θ) wird der Erwartungswert als 

∫ 

E θ X := xf(x, θ) dν(x) 

eingeführt. Die Fisher-Informationsmatrix von X ist gegeben durch 

Ein Schätzer ˆθ n , der die Bedingung 

J(θ) = E θ [U(X, θ) · U(X, θ) T ]. 

L n (ˆθ n ) = sup L n (θ) (2.1) 

θ∈Θ 

erfüllt, heißt Maximum-Likelihood-Schätzer (ML-Schätzer). ˆθ n bezeichne in der gesamten Arbeit 

stets den ML-Schätzer. Aufgrund der Monotonie des Logarithmus ist Bedingung (2.1) 

äquivalent zu 

l n (ˆθ n ) = sup l n (θ). 

θ∈Θ 

Weiter bezeichne ˆθ M n 

den auf eine Menge M ⊆ Θ eingeschränkten ML-Schätzer, d.h. 

ˆθ M n 

= arg sup L n (θ). (2.2) 

θ∈M 

Für k unabhängige Stichproben X 1 , . . . , X k , wobei X i = (X i1 , . . . , X ini ) mit 

X i1 , . . . , X ini 

i.i.d. 

∼ f i (x, θ i ) 

für i = 1, . . . , k, wird die Likelihoodfunktion definiert als 

L n (θ) = 

k∏ ∏n i 

f i (X ij , θ i ) 

i=1 j=1 

mit θ = (θ 1 , . . . , θ k ). Hierbei ist also die Gewichtung gewählt, dass alle Beobachtungen gleich 

gewichtet werden. Es wären zum Beispiel auch unterschiedliche Gewichte für die jeweiligen 

Stichproben möglich. Die Definitionen für die log-Likelihoodfunktion und den ML-Schätzer, 

sowie für den eingeschränkten ML-Schätzer übertragen sich entsprechend. 

Normen 

‖·‖ 

‖·‖ 1 

euklidische Norm auf R d 

L 1 -Norm auf R d

2.1. Notationen 9 

Matrizen 

Für i = 1, . . . , k und beliebige Matrizen B i wird 

⎛ 

⎞ 

B 1 0 · · · 0 

. 

diag (B 1 , . . . , B k ) = 

0 B .. 2 . 

⎜ 

⎝ 

. 

. .. . .. 

⎟ 0 ⎠ 

0 · · · 0 B k 

definiert. 

Für eine beliebige Matrix B sei [B] lm der Eintrag aus der l-ten Zeile und der m-ten Spalte 

der Matrix B. 

Konvergenzen 

Sei (X n ) n∈N 

eine Folge von Zufallsvektoren, dann konvergiert die Folge fast sicher gegen X, 

falls 

P (‖X n − X‖ n→∞ −→ 0) = 1, 

und man schreibt X n 

a.s. 

−→ X. Die Folge (X n ) n∈N 

konvergiert in Wahrscheinlichkeit gegen X, 

falls für alle ε > 0 

P (‖X n − X‖ > ε) n→∞ −→ 0, 

P 

und man schreibt X n −→ X. Die Folge (X n ) n∈N 

konvergiert in Verteilung gegen X, falls für 

alle Stetigkeitspunkte x von F (x) gilt 

und man schreibt X n 

Landau-Symbole 

F n (x) = P (X n ≤ x) n→∞ −→ P (X ≤ x) = F (x), 

D −→ X. 

Für zwei deterministische Folgen (a n ) n∈N 

, (b n ) n∈N 

, b n ≠ 0, schreibt man 

und 

a n = o(b n ) :⇐⇒ a n 

b n 

n→∞ 

−→ 0 

a n = O(b n ) :⇐⇒ 0 ≤ lim sup 

n→∞ 

a n 

b n 

< ∞. 

Für zwei Folgen von Zufallsvariablen (X n ) n∈N 

, (Y n ) n∈N 

, P (Y n ≠ 0) = 1, schreibt man 

und 

X n = o p (Y n ) :⇐⇒ X n 

Y n 

P −→ 0 

X n = O p (Y n ) :⇐⇒ ∀ ε > 0 ∃ M , so dass sup 

n 

P 

(∥ ∥ ) 

∥∥∥ X n ∥∥∥ 

> M < ε. 

Y n


Somit bezeichnet o p (1) die Konvergenz gegen null in Wahrscheinlichkeit und O p (1) die stochastische 

Beschränktheit einer Folge von Zufallsvariablen. 

Impliziert X n = O(Y n ), dass X n = O(Z n ) gilt, so schreibt man 

X n = O(Y n ) = O(Z n ). 

O(·) kann durch o(·), O p (·) oder o p (·) ersetzt werden. Zum Beispiel ist X n = o p (Y n ) = O p (Y n ) 

stets gültig. 

2.2 Modelle und Bedingungen 

Modelle 

Wird im Folgenden vom 1-Stichprobenfall gesprochen, liegt das 1-Stichprobenmodell zugrunde 

und für den k-Stichprobenfall entsprechend das k-Stichprobenmodell. 

1-Stichproben-Modell: Es sei (f(x, θ)) θ∈Θ 

eine Familie von Wahrscheinlichkeitsdichten 

bezüglich einem σ-endlichen Maß ν mit Θ ⊆ R d . X 1 , . . . , X n seien unabhängig, identisch 

verteilte Zufallsvariablen mit Dichte f(x, θ (0) ). 

k-Stichproben-Modell: Für i = 1, . . . , k sei (f i (x, θ i )) θi ∈Θ i 

eine Familie von Wahrscheinlichkeitsdichten 

bezüglich einem σ-endlichen Maß ν mit Θ i ⊆ R d . X 1 , . . . , X k seien unabhängige 

Stichproben, wobei X i = (X i1 , . . . , X ini ) mit 

X i1 , . . . , X ini 

i.i.d. 

∼ f i (x, θ (0) 

i 

). 

Der gemeinsame Parameterraum ist gegeben durch 

Θ = Θ 1 × . . . × Θ k ⊆ R kd . 

Weiter bezeichne n = ∑ k 

i=1 n i die Summe der Fallzahlen aus allen k Stichproben. 

Bedingungen 

Für die Dichte f(x, θ) bezüglich einem σ-endlichen Maß ν einer Zufallsvariablen und θ (0) , 

dem wahren Wert des Parameters θ, werden die Regularitätsbedingungen R definiert. 

Bedingungen R: Es gelte: 

(a) Der Parameterraum Θ ist offene Teilmenge des R d . 

(b) Die dritten partiellen Ableitungen von f(x, θ) bezüglich θ existieren und sind stetig für 

alle x. Es gilt 

d m ∫ 

∫ d 

m 

dθ m f(x, θ) dν(x) = f(x, θ) dν(x) 

dθm für m = 1, 2, 3. 

(c) Es existiert eine Funktion K(x) mit E θ (0)|K(X)| < ∞, so dass die Norm von d/dθ W (x, θ) 

gleichmäßig in einer Umgebung B θ (0) von θ (0) durch K(x) beschränkt ist.

2.2. Modelle und Bedingungen 11 

(d) J(θ (0) ) ist endlich und positiv definit. 

(e) f(x, θ) = f(x, θ (0) ) ν − f.s. 

⇒ θ = θ (0) [Identifizierbarkeit]. 

(f) Für alle x und für (θ n ) n∈N ⊂ Θ mit lim n→∞ ‖ θ n ‖= ∞ gelte 

lim f(x, θ n) = 0 

n→∞ 

Im k-Stichprobenfall sind die Regularitätsbedingungen R erfüllt, wenn für i = 1, . . . , k die 

Regularitätsbedingungen R für die Dichte f i (x, θ i ) erfüllt ist. 

Bemerkung 2.1. Die Bedingung R (b) kann mit Hilfe des Satzes von der majorisierten 

Konvergenz (auch: Satz von Lebesque) diskutiert werden. Siehe hierzu zum Beispiel Ferguson 

(1996, S.124). 

Die folgende Bedingung F stellt sicher, dass beim k-Stichprobenfall die Fallzahlen asymptotisch 

von gleicher Ordnung sind. 

Bedingung F: Für alle i = 1, . . . , k existiert ein c i mit 0 < c i < 1, sodass 

n i 

n −→ c i. (2.3)


2.3 Likelihood-Quotienten-Prinzip 

Das Likelihood-Quotienten-Prinzip stellt für parametrische Familien von Verteilungen eine 

Methode bereit, um auf Parameterkonstellationen zu testen. Ein LQ-Test für unabhängig, 

identisch verteilte Zufallsvariablen lässt sich wie folgt konstruieren. X 1 , . . . , X n seien unabhängige, 

identisch verteilte Zufallsvariablen mit Dichte f im stetigen Fall, bzw. Wahrscheinlichkeitsfunktion 

f im diskreten Fall. Angenommen, f hängt vom Parameter θ ∈ R d 

ab, dann ist die Likelihoodfunktion für feste Stichprobe x 1 , . . . , x n gegeben durch 

L n (θ) = 

n∏ 

f(x i , θ). 

i=1 

Es sei ein Testproblem H 0 : θ ∈ Θ 0 vs. H 1 : θ ∈ Θ 1 mit disjunkter Hypothese und Alternative 

und Θ = Θ 0 ∪ Θ 1 angenommen, dann ist der Likelihood-Quotient gegeben durch 

λ n = sup θ∈Θ 0 

L n (θ) 

sup θ∈Θ L n (θ) . 

Im Folgenden wird λ = λ 1 verwendet. Wenn der unbekannte wahre Wert im Parameterraum 

der Hypothese liegt, wird der Likelihood-Quotient für wachsendes n gegen 1 gehen, 

sonst gegen 0. Somit kann der Likelihood-Quotient als konsistente Teststatistik für das oben 

genannte Testproblem verwendet werden. In einigen Fällen kann die exakte Verteilung des 

Likelihood-Quotienten unter der Hypothese bestimmt werden. In anderen Fällen bestimmt 

man die asymptotische Verteilung von −2 log λ n . Hierbei ist die Approximation durch die 

asymptotische Verteilung für kleine Stichproben zu überprüfen, ob diese zu zufrieden stellenden 

Ergebnissen führen, d.h. das Niveau also eingehalten wird. 

Das Likelihood-Quotienten-Prinzip überträgt sich in analoger Weise auf k unabhängige Stichproben. 

Die Likelihoodfunktion ist dann das Produkt der Likelihoodfunktionen der einzelnen 

Stichproben und der Hypothesenraum ist Teilmenge des gemeinsamen Parameterraumes. 

Beispiel 2.2 (Normalverteilung). Seien die Beobachtungen multivariat normal verteilt 

mit Erwartungswert θ ∈ R d und bekannter Kovarianzmatrix Σ. Der empirische Mittelwert ¯X 

ist nach Brown (1986, Kapitel 1) eine suffiziente Statistik für θ. Da ¯X ∼ N (θ, n −1 Σ) gilt, ist 

es somit ausreichend, den Fall mit Stichprobenumfang 1 zu behandeln. Sei also x Beobachtung 

von X ∼ N (θ, Σ), dann gilt 

P Θ (x) := sup 

θ∈Θ 

(2π) −d/2 (det Σ) −1/2 e − 1 2 (x−θ)T Σ −1 (x−θ) 

= (2π) −d/2 (det Σ) −1/2 e −K Θ(x)/2 , 

wobei K Θ (x) = inf θ∈Θ (x − θ) T Σ −1 (x − θ). Deshalb erhält man folgende vereinfachte Darstellung 

für den Likelihood-Quotienten 

−2 log λ(x) = −2 log P Θ 0 

(x) 

P Θ (x) 

= K Θ0 (x) − K Θ (x).

2.4. Approximation zweier Mengen 13 

2.4 Approximation zweier Mengen 

Im Folgenden wird definiert, was unter der gegenseitigen Approximation von zwei Mengen zu 

verstehen ist. Die Definition ist symmetrisch in dem Sinne, dass die Rollen von der approximierten 

und der approximierenden Menge vertauscht werden können. Die Definition von der 

gegenseitigen Approximation ist so, dass die beiden Mengen beim Punkt a ∈ R d bzw. bei 

Annäherung an diesen Punkt nahezu ” 

identisch“ sind. 

Definition 2.3. Eine Menge M ist positiv homogen, wenn θ ∈ M ⇒ aθ ∈ M für ∀a > 0 gilt. 

Definition 2.4. Die Menge M ⊆ R d wird in a ∈ R d durch die Menge C M ⊆ R d approximiert, 

wenn 

und 

inf ‖ x − y ‖ = o(‖ y − a ‖) für y ∈ M, y → a 

x∈C M 

inf ‖ x − y ‖ = o(‖ x − a ‖) für x ∈ C M, x → a 

y∈M 

gilt. Man sagt, M wird durch C M approximiert, wenn M durch C M im Nullpunkt approximiert 

wird. 

Beispiel 2.5. Die Menge {(x, √ x) : x ∈ R} ⊆ R 2 wird durch die Menge {(0, x) : x ∈ R} im 

Nullpunkt approximiert, aber nicht durch {(x, 0) : x ∈ R}. 

Bemerkung 2.6. (a) Nach Definition ist a Häufungspunkt von M. 

(b) Kann die Menge M in a durch eine positiv homogene Menge, ungleich des gesamten 

Raumes, approximiert werden, so ist a Randpunkt der Menge M. 

(c) In Kapitel 5 zur asymptotischen Verteilung der Likelihood-Quotienten-Statistik wird die 

zu approximierende Menge der Parameterraum der Hypothese bzw. der gesamte Parameterraum 

sein. Die Menge soll im Nullpunkt durch eine positiv homogene Menge approximiert 

werden können. Dieses ist zum Beispiel dann möglich, wenn die zu approximierende Menge 

durch eine glatte, den Nullpunkt enthaltende Fläche begrenzt wird. Die Menge wird dann 

durch die tangentiale Hyperebene am Nullpunkt und einen entsprechenden Halbraum approximiert. 

Das nachstehende Lemma 2.7 betrachtet den Abstand einer Folge (x n ) n∈N ⊆ R d zu einer 

Menge M ⊆ R d und den Abstand dieses Punktes zu einer M approximierenden Menge C M ⊆ 

R d . Es liefert, dass die Differenz der quadrierten Abstände zu den Mengen M bzw. C M von 

der Ordnung o(‖ x n ‖ 2 ) für x n → 0 ist. Es gibt dementsprechend eine Fehlerabschätzung 

für den Wechsel von einer Menge auf die sie approximierende Menge an. Bezeichne M den 

Abschluss einer Menge M ⊆ R d .


Lemma 2.7. Sei M ⊆ R d mit 0 ∈ M eine Menge, die durch die Menge C M ⊆ R d approximiert 

wird, so gilt für eine positiv definite Matrix P ∈ R d×d und für (x n ) n∈N ⊆ R d mit x n → 0 

inf (x n − θ) T P (x n − θ) = inf (x n − θ) T P (x n − θ) + o(‖ x n ‖ 2 ). 

θ∈M θ∈C M 

Beweis. Da P positiv definit ist, stellt ‖ x − θ ‖ P , definiert durch 

‖ x − θ ‖ 2 P = (x − θ) T P (x − θ), 

eine Norm auf dem R d dar. Da alle Normen auf einem endlich dimensionalen Vektorraum 

äquivalent sind, kann für den Beweis ohne Einschränkung der Allgemeinheit angenommen 

werden, dass P = I gilt, wobei I Identitätsmatrix ist. Sei (x n ) n∈N ⊆ R d Folge mit x n → 0. 

Betrachtet wird die Projektion der Punkte x n auf die Menge M bzw. C M 

θ M (x n ) := arg inf 

θ∈M ‖ x n − θ ‖ 2 , (2.4) 

θ CM (x n ) := arg inf 

θ∈C M 

‖ x n − θ ‖ 2 . (2.5) 

Sei M der Abschluss von M, dann folgt aus der Stetigkeit von ‖ x n − θ ‖ 2 in θ, dass 

inf ‖ x n − θ ‖ 2 = inf ‖ x n − θ ‖ 2 

θ∈M θ∈M 

für alle n ∈ N. Analoges gilt für die Menge C M . Deshalb kann ohne Einschränkung der 

Allgemeinheit angenommen werden, dass M und C M abgeschlossen in R∪{±∞} sind. Folglich 

sind θ M (x n ) und θ CM (x n ) für alle n ∈ N wohldefiniert. 

Es ist 0 ∈ C M , da nach Definition 2.4 die Null Häufungspunkt von C M ist und C M als 

abgeschlossen angenommen werden kann. Folglich gilt nach Definition (2.5) von θ CM (x n ) 

‖ x n ‖≥‖ x n − θ CM (x n ) ‖ (2.6) 

und somit 

‖ θ CM (x n ) ‖ 

‖ x n ‖ 

≤ 

‖ x n ‖ + ‖ x n − θ CM (x n ) ‖ 

‖ x n ‖ 

≤ 2. (2.7) 

Aus (2.7) erhält man, dass 

o(‖ θ CM (x n ) ‖) = o(‖ x n ‖) (2.8) 

und 

o(‖ θ CM (x n ) ‖ 2 ) = o(‖ x n ‖ 2 ) (2.9) 

gilt. 

Weiter gilt für eine beliebige Funktion L : R d → R d 

inf 

θ∈M 

{ 

‖ L(θ) ‖ + ‖ L(θ) ‖ 

2 } = inf ‖ L(θ) ‖ + inf ‖ L(θ) 

θ∈M θ∈M ‖2 .

2.4. Approximation zweier Mengen 15 

Dieses liefert 

inf ‖ x n − θ ‖ 2 = inf ‖ x n − θ CM (x n ) + θ CM (x n ) − θ ‖ 2 

θ∈M θ∈M 

[ 

≤ ‖ xn − θ CM (x n ) ‖ 2 + 2 ‖ x n − θ CM (x n ) ‖ ‖ θ CM (x n ) − θ ‖ + ‖ θ CM (x n ) − θ ‖ 2] 

inf 

θ∈M 

= ‖ x n − θ CM (x n ) ‖ 2 + 2 ‖ x n − θ CM (x n ) ‖ inf 

θ∈M ‖ θ C M 

(x n ) − θ ‖ + inf 

θ∈M ‖ θ C M 

(x n ) − θ ‖ 2 

= ‖ x n − θ CM (x n ) ‖ 2 + 2 ‖ x n − θ CM (x n ) ‖ o(‖ θ CM (x n ) ‖) + o(‖ θ CM (x n ) ‖ 2 ) 

= inf 

θ∈C M 

‖ x n − θ ‖ 2 + 2 ‖ x n − θ CM (x n ) ‖ o(‖ θ CM (x n ) ‖) + o(‖ θ CM (x n ) ‖ 2 ). 

Die vorletzte Gleichheit folgt durch Anwendung der Definition 2.4 für die gegenseitige Approximation 

zweier Mengen, die letzte Gleichheit folgt nach Definition (2.5) von θ CM (x n ). 

Beachte für die vorletzte Gleichheit, dass θ CM (x n ) ∈ C M und θ CM (x n ) → 0 für x n → 0 gilt. 

Mit den Gleichungen (2.7),(2.8) und (2.9) erhält man 

inf ‖ x n − θ ‖ 2 ≤ inf ‖ x n − θ ‖ 2 + 2 ‖ x n ‖ o(‖ x n ‖) + o(‖ x n ‖ 2 ) 

θ∈M θ∈C M 

= inf 

θ∈C M 

‖ x n − θ ‖ 2 +o(‖ x n ‖ 2 ). 

Analog erhält man mit vertauschten Rollen von M und C M 

inf ‖ x n − θ ‖ 2 ≤ inf ‖ x n − θ ‖ 2 + o(‖ x n ‖ 2 ). 

θ∈C M θ∈M 

Zusammen liefert dieses die Behauptung 

inf ‖ x n − θ ‖ 2 = inf ‖ x n − θ ‖ 2 + o(‖ x n ‖ 2 ). 

θ∈M θ∈C M

Kapitel 3 

Nicht-Unterlegenheitstests im 

2-Stichprobenfall unter 

Normalverteilung 

In diesem Kapitel werden unter der Annahme von zwei normalverteilten Stichproben Nicht- 

Unterlegenheitstests konstruiert, wobei die exakten Verteilungen der zugehörigen Teststatistiken 

unter der Hypothese wie auch unter der Alternative bekannt sind. Somit können für die 

Planung einer klinischen Studie die optimalen Fallzahlaufteilungen auf die beiden Stichproben 

berechnet und die benötigten Fallzahlen bei zu erreichender Power angegeben werden. 

Eine optimale Fallzahlaufteilung ist gegeben, wenn keine andere Aufteilung der Fallzahlen 

eine bessere Power bei gleicher Gesamtfallzahl aufweist. Im Abschnitt 3.3.1 werden Approximationen 

für die Fallzahlformeln aufgeführt, für den Fall, dass die exakten Formeln mangels 

entsprechender Software nicht angewandt werden können. 

3.1 Modell und Hypothesen 

Es werden zwei normalverteilte Stichproben betrachtet. Die Varianzen werden als homogen 

angenommen, d.h. die Varianzen in den beiden Gruppen sind identisch. Diese Voraussetzung 

ist a priori nicht immer gegeben und sollte zunächst durch einen Test überprüft werden. Im 

Fall von homogenen Varianzen kann der Vergleich zweier Gruppen jedoch auf den Vergleich 

der Mittelwerte reduziert werden, d.h. der Äquivalenzparameter, der die ” 

Differenz“ zwischen 

den Gruppen beschreibt, kann durch einen Term der Diskrepanz der Mittelwerte definiert 

werden. Dieses ermöglicht eine bedeutend einfachere Interpretation der Ergebnisse als im Fall 

heterogener Varianzen. 

Seien 

und 

X R1 , . . . , X RnR 

i.i.d. 

∼ N(µ R , σ 2 ) 

X T 1 , . . . , X T nT 

i.i.d. 

∼ N(µ T , σ 2 ) 

17

18 Kapitel 3: Nicht-Unterlegenheitstests im 2-Stichprobenfall unter Normalverteilung 

zwei unabhängige Zufallsvektoren mit gleicher, unbekannter Varianz. Beim Diskriminieren 

zwischen zwei Gruppen ist die Differenz zwischen den Mittelwerten, 

δ md = µ R − µ T , 

das meist verwendete Abstandsmaß. Einige Autoren schlagen für bestimmte Situationen die 

Verwendung vom Quotienten der Mittelwerte, 

δ mr = µ R /µ T , 

vor (Liu und Weng, 1994; Hauschke u. a., 1999). Wenn keine Vorinformation über die Varianzen 

der Daten verfügbar ist, kann die standardisierte Differenz der Mittelwerte, 

δ std = (µ R − µ T )/σ, 

verwendet werden. Diese Größe hat den zusätzlichen Anreiz, dass sie frei von Messeinheiten 

ist. 

Im folgenden wird angenommen, dass δ md , δ mr und δ std die Unterlegenheit der Testgruppe 

gegenüber der Referenzgruppe messen. Für δ ∈ {δ md , δ mr , δ std } ist das Testproblem, um 

Nicht-Unterlegenheit aufzudecken, gegeben durch 

H 0 : δ ≥ ∆ vs. H 1 : δ < ∆ , (3.1) 

wobei ∆ eine feste Nicht-Unterlegenheitsmarge ist (∆ > 0 für δ md bzw. δ std und ∆ > 1 für 

δ mr ). Die empirischen Mittelwerte der Gruppen sind mit ¯x R beziehungsweise ¯x T bezeichnet. 

Ein Schätzer für die zusammengefasste Standardabweichung ist gegeben durch 

√ ∑nR 

s p = i=1 

(x Ri − ¯x R ) 2 + ∑ n T 

i=1 (x T i − ¯x T ) 2 

. 

n R + n T − 2 

Ferner sei (t m,ncp ) α das α-Quantil der nichtzentralen t-Verteilung mit m Freiheitsgraden und 

Nichtzentralitätsparameter ncp, während (t m ) α das α-Quantil der zentralen t-Verteilung ist. 

3.2 Likelihood-Quotienten-Test und t-Statistiken 

Testen der Differenz δ md 

Der klassische Test für Differenzen der Mittelwerte ist der Zwei-Stichproben t-Test. Die Teststatistik 

T d = x R − x T − ∆ 

√ 

s 1 p n R 

+ 1 

n T 

folgt einer nicht-zentralen t-Verteilung mit n R + n T − 2 Freiheitsgraden und Nichtzentralitätsparameter 

ncp d = µ R − µ T − ∆ 

= 

σ√ δ md − ∆ 

. (3.2) 

1 

n R 

+ 1 

n T 

σ√ 

1 

n R 

+ 1 

n T

3.2 LQ-Test und t-Statistiken 19 

Auf dem Rand der Hypothese (δ md = ∆) folgt die Teststatistik T d einer zentralen t-Verteilung 

mit n R + n T − 2 Freiheitsgraden. Die Hypothese H 0 : δ md ≥ ∆ in (3.1) wird zum Niveau α 

für 

T d < (t nR +n T −2) α 

verworfen, wobei (t m ) α das α-Quantil einer zentral t-verteilten Zufallsvariable mit m Freiheitsgraden 

ist. Der vorliegende Test ist äquivalent zum Likelihood-Quotienten-Test, da für 

¯x R −¯x T < ∆ die Likelihood-Quotienten-Statistik für δ md eine strikt monotone Transformation 

von T d ist, 

λ n = sup ϑ∈Θ 0 

L n (ϑ) 

sup ϑ∈Θ L n (ϑ) 

= 

= 

[ 

1 + n Rn T (x R − x T − ∆) 2 

n R + n T 

[ 

1 + 

T 2 d 

n R + n T − 2 

(n R + n T − 2)s 2 p 

] − 

n R +n T 

2 

. 

] − 

n R +n T 

2 

Testen des Quotienten δ mr 

Verwendet man für µ T ≠ 0 den Quotienten δ mr als Abstandsmaß, kann gezeigt werden, dass 

der Likelihood-Quotienten-Test ebenfalls äquivalent zum t-Test ist. Die Teststatistik 

T r = 

x R − ∆x 

√ T 

∼ t nR +n T −2,ncp r 

, 

1 

s p n R 

+ ∆2 

n T 

ist nicht-zentral t-verteilt mit n R + n T − 2 Freiheitsgraden und Nichtzentralitätsparameter 

ncp r = 

µ R − ∆µ 

√ T 

= δ mr − ∆ 

√ . (3.3) 

1 

σ 

n R 

+ ∆2 σ 1 

n T µ T n R 

+ ∆2 

n T 

Für δ mr = ∆ vereinfacht sich die Verteilung zur zentralen t-Verteilung. Somit wird die Hypothese 

H 0 : δ mr ≥ ∆ zum Niveau α für 

verworfen. 

T r < (t nR +n T −2) α 

Die Teststatistik T d ist bezüglich Shifts invariant ist, d.h. wenn auf die Daten der Stichproben 

eine Konstante addiert wird, bleibt die Testentscheidung invariant. Weiter ist die 

Teststatistik bezüglich Reskalierung ebenfalls invariant, vorausgesetzt, das Testproblem ist 

entsprechend reskaliert. Das bedeutet, dass die Testentscheidung invariant bleibt, wenn die 

Beobachtungen statt in x in Einheiten c · x gemessen werden und die Hypothese mit Nicht- 

Unterlegenheitsmarge c · ∆ umgeschrieben wird. Ein entscheidender Aspekt, der gegen die 

Verwendung von T r als Teststatistik spricht, besteht darin, dass bei T r Veränderungen in der 

Lokation, also Shifts der Daten, zu unterschiedlichen Testergebnissen führen können. Wenn 

µ T nahe null ist, treten außerdem numerische Instabilitäten auf, d.h. kleine Messfehler von 

¯X T beeinflussen das Testergebnis stark.


Testen der standardisierten Differenz δ std 

Bei Verwendung der standardisierten Differenz als Äquivalenzparameter treten diese Probleme 

nicht auf. In diesem Fall wird die Teststatistik T d mit ∆ = 0 verwendet, 

T s = 

x R − x 

√ T 

. 

s 1 p n R 

+ 1 

n T 

Die Teststatistik T s folgt einer nicht-zentralen t-Verteilung mit n R + n T − 2 Freiheitsgraden 

und Nichtzentralitätsparameter 

ncp s := 

µ R − µ T 

= 

σ√ 

1 

n R 

+ 1 

n T 

δ std 

√ 

1 

n R 

+ 1 

n T 

. (3.4) 

Um einen Test durchzuführen, muss das α-Quantil einer nicht-zentralen t-Verteilung berechnet 

werden. Die Hypothese H 0 : δ std ≥ ∆ wird verworfen für 

T s < (t nR +n T −2,ncp s(∆)) α , 

wobei ncp s (∆) der Nichtzentralitätsparameter aus (3.4) mit δ std = ∆ ist. 

Lehmann (1986, p. 294) hat gezeigt, dass dieser nicht-zentrale t-Test in der Klasse der invarianten 

Tests bezüglich Skalentransformationen der Test mit gleichmäßig größter Power ist. 

Es lässt sich zeigen, dass der Likelihood-Quotienten-Test bezüglich Skalentransformationen 

ebenfalls invariant und nicht äquivalent zum hier betrachteten Test ist. Nach Lehmann (1986) 

weist aber der hier betrachtete Test eine bessere Power als der Likelihood-Quotienten-Test 

auf. Somit ist der Likelihood-Quotienten-Test nicht weiter zu betrachten. Da unter der Hypothese 

die Differenz der Mittelwerte durch die Standardabweichung beschränkt ist, wären für 

die Bestimmung des eingeschränkten ML-Schätzers weitere numerische Berechnungen nötig. 

3.3 Power- und Fallzahlberechnungen 

Die Verteilung der Teststatistiken T d , T r und T s ist bei normalverteilten Daten für jede Parameterkonstellation 

(µ R , µ T , σ 2 ) bekannt. Folglich ist es möglich bei gegebenen Fallzahlen 

die Power und die minimal benötigten Fallzahlen bei zu erreichender Power für alle drei 

Abstandsmaße zu berechnen. 

Testen der Differenz δ md 

Die Teststatistik T d ist nicht-zentral t-verteilt mit n R + n T − 2 Freiheitsgraden und Nichtzentralitätsparameter 

ncp d gegeben in (3.2). Demnach kann die Power für festgelegte Fallzahlen 

n R und n T und einen Abstand δ md (< ∆) berechnet werden nach 

1 − β = P δmd (T d < (t nR +n T −2) α ) = F nR +n T −2,ncp d 

((t nR +n T −2) α ) , (3.5) 

wobei F m,ncp die kumulative Verteilungsfunktion der nichtzentralen t-Verteilung mit m Freiheitsgraden 

und Nichtzentralitätsparameter ncp ist. Diese Funktion ist in den meisten Softwarepaketen 

verfügbar.

3.3 Power- und Fallzahlberechnungen 21 

Bei der Planung einer klinischen Studie muss die benötigte Fallzahl, um eine gegebene Power 

1 − β zu erreichen, bestimmt werden. Bevor diese Fragestellung diskutiert wird, wird die 

optimale Aufteilung auf die Fallzahlen n R und n T bei fester Gesamtfallzahl n = n R + n T 

bestimmt. Optimal bedeutet, dass keine andere Aufteilung der Fallzahlen eine bessere Power 

bei gleicher Gesamtfallzahl aufweist. Bezeichne ɛ := n R /n T das Verhältnis der Fallzahlen. Das 

nachstehende Lemma 3.1 liefert als Anwendung das optimale Fallzahlenverhältnis. 

Lemma 3.1. Die Verteilungsfunktion F m,ncp (z) der nicht-zentralen t-Verteilung mit m Freiheitsgraden 

und Nichtzentralitätsparameter ncp ist strikt monoton fallend im Nichtzentralitätsparameter 

für festes z. 

Nach Lemma 3.1 muss der Nichtzentralitätsparameter 

ncp d = 

δ md − ∆ 

σ√ 

1 

n R 

+ 1 

n T 

(3.6) 

in (3.5) minimiert werden um die Power für feste Gesamtfallzahl zu maximieren. Da unter 

der Alternative δ md − ∆ ≤ 0 gilt, muss 

√ 

1/nR + 1/n T 

unter der Nebenbindung n R + n T = n minimiert werden. Direkte Rechnung liefert n R = n/2 

und daher n R = n T . Somit ist das Fallzahlverhältnis ɛ = 1 optimal in dem Sinne, dass 

keine andere Aufteilung der Gesamtfallzahl n eine größere Power liefert. Folglich sind bei der 

Berechung der benötigten Fallzahlen nur Fallzahlen mit einem Fallzahlverhältnis von eins zu 

berücksichtigen. Also ist die minimale Fallzahl N ∗ , die eine gegebene Power 1 − β erreicht, 

gegeben durch 

N ∗ = min{n ∈ N : F n− 2,ncp ∗ 

d 

((t n− 2 ) α ) ≥ 1 − β} , (3.7) 

wobei ncp ∗ d = √ n(δ md − ∆)/2σ. 

Abbildung 3.1 zeigt die benötigten Fallzahlen für verschiedene β unter der Alternative δ md = 

0, d.h. µ T = µ R , in Abhängigkeit vom Quotienten ∆/σ. 

Der nachstehende Beweis von Lemma 3.1 wird über die Theorie der totalen Positivität geführt. 

Mit dieser Theorie lassen sich mehrere Eigenschaften der Verteilungsfunktion F m,ncp (z) zeigen. 

Der Beweis ist nicht sehr intuitiv. Jedoch zeigt er auf, wie man sich die Theorie der 

totalen Positivität für andere, der Theorie fernen, Problemstellungen zu nutze machen kann. 

Zur Vollständigkeit und zum besseren Verständnis wird anschließend noch ein direkter und 

intuitiverer Beweis angegeben. 

Beweis von 3.1 Version A. Zunächst werden die wesentlichen, auf unseren Fall zugeschnittenen 

Eigenschaften eines variationsreduzierenden Kerns wiedergegeben. Sei 

f(θ, x) : R × R → [0, ∞) 

ein strikt variationsreduzierender Kern der Ordnung unendlich (SV R ∞ ), h(x) : X → R eine 

Funktion mit ∫ |h|dx > 0 und 

∫ 

g(θ) := f(θ, x)h(x)dx.


Gesamtfallzahl N 

200 400 600 800 

Power: 70% 

Power: 80% 

Power: 90% 

0.2 0.3 0.4 0.5 0.6 

∆ σ 

Abbildung 3.1: Benötigte Fallzahlen für die Teststatistik T d unter der Alternative δ md = 0. 

Dann gelten die folgenden Eigenschaften 

S + (g) ≤ S − (h) und (3.8) 

S + (g) = S − (h) impliziert IS + (g) = IS − (h), (3.9) 

wobei S − (S + ) die Anzahl (strikter) Vorzeichenwechsel und IS − (IS + ) das initiale Vorzeichen 

der jeweiligen Funktion ist. Für detaillierte Informationen siehe Brown u. a. (1981), insbesondere 

zur Definition der Vorzeichenwechsel und initialen Vorzeichen. 

Karlin (1968, Kapitel 3 §4) zeigt, dass die Dichte einer nicht-zentralen t-Verteilung f m (ncp, x) 

strikt total positiv der Ordnung unendlich ist, was äquivalent zur variationsreduzierenden 

Eigenschaft ist. Demzufolge ist f m (ncp, x) in der Klasse SV R ∞ . Gesetzt wird 

für beliebige z, c ∈ R. Dann gilt 

h(x) = 1 (−∞,z] (x) − c 

S − (h) ≤ 1 ∀ z, c ∈ R. 

Weiter ist 

∫ 

g(ncp) = 

f m (ncp, x) ( 1 (−∞,z] (x) − c ) dx = F m,z (ncp) − c. 

Mit der variationsreduzierenden Eigenschaft (3.8) folgt 

S + (F m,z (ncp) − c) ≤ 1 ∀ c ∈ R (3.10)


für beliebiges z ∈ R. Somit gilt für beliebiges c, dass die Funktion F m,z (ncp) − c für festes z 

höchstens einen Vorzeichenwechsel hat, was die strikte Monotonie von F m,z (ncp) in ncp nach 

sich zieht. 

Zur Vereinfachung wird F (ncp) statt F m,z (ncp) geschrieben. Es bleibt zu zeigen, dass F (ncp) 

eine fallende Funktion ist. Gesetzt wird 

k := F (ncp 1) + F (ncp 2 ) 

2 

für beliebige ncp 1 , ncp 2 ∈ R mit ncp 1 ≠ ncp 2 . Nach Definition von k und der strikten Monotonie 

von F (ncp) gilt: 

oder 

und somit zusammen mit (3.10) 

F (ncp 1 ) < k < F (ncp 2 ) 

F (ncp 2 ) < k < F (ncp 1 ) 

S + (F (ncp) − k) = 1 . 

Da F (ncp) ∈ ]0, 1[ für alle ncp ∈ R gilt, erhält man k ∈ ]0, 1[. Dieses liefert 

S − (1 (−∞,z] (x) − k) = 1 

IS − (1 (−∞,z] (x) − k) = + . 

Somit schließt man mit der variationsreduzierenden Eigenschaft (3.9) 

IS + (F (ncp) − k) = IS − (1 (−∞,z] (x) − k) = + . 

Zusammenfassend ist F (ncp) − k eine strikt monotone Funktion, welche für ausreichend kleinen 

ncp positiv ist und dann einen Vorzeichenwechsel hat. Somit muss F (ncp)−k und folglich 

F (ncp) eine strikt monotone Funktion sein. 

Im Folgenden wird ein direkter und intuitiverer Beweis des Lemmas 3.1 dargestellt. 

Beweis vom Lemma 3.1 Version B. Sei t m,ncp eine t-verteilte Zufallsvariable mit m Freiheitsgraden 

und Nichtzentralitätsparameter ncp. Dann lässt sich diese schreiben als 

t m,ncp = 

X ncp 

√ 

Y/m 

mit 

X ncp ∼ N (µ ncp , 1) und Y ∼ χ 2 m, 

wobei 

µ ncp = C · ncp 

mit C := E[ √ Y/m] ≥ 1 (Nach Jensenungleichung und E[Y ] = m gilt C ≥ 1).


Sei nun ncp 1 > ncp 2 . Dann gilt 

( 

) 

X ncp1 

F m,ncp1 (x) = P (t m,ncp1 ≤ x) = P √Y/m ≤ x = P 

= P 

= P 

( 

X 0 + µ ncp1 √Y/m 

( 

X 0 + µ ncp2 √Y/m 

+ µ ncp 2 

− µ ncp2 √Y/m 

≤ x 

) 

) 

≤ x − µ ncp 1 


( 

) 

X ncp2 

= P √Y/m ≤ x − µ ncp 1 


= P 

( 

) 

t m,ncp2 ≤ x − µ ncp 1 


( 

X 0 + µ ncp1 √Y/m 

≤ x 

) 

Da 

gilt, kann man 

µ ncp1 − µ ncp2 = C · (ncp 1 − ncp 2 ) > 0 

F m,ncp1 (x) = P (t m,ncp2 ≤ x − Z) 

schreiben mit einer Zufallsvariablen Z, die mit Wahrscheinlichkeit 1 echt größer als null ist 

(Z > 0 f.s.). Mit der Isotonie der Verteilungsfunktion F m,ncp (x) in x erhält man dann 

F m,ncp1 (x) = P (t m,ncp2 ≤ x − Z) < F m,ncp2 (x). 

Testen des Quotienten δ mr 

Die Power für T r mit vorgegebenen Fallzahlen n R und n T unter einer festgelegten Alternative 

δ mr (< ∆) wird ähnlich wie oben bei T d berechnet nach 

1 − β = P δmr (T r < (t nR +n T −2) α ) = F nR +n T −2,ncp r 

((t nR +n T −2) α ) . 

Im Gegensatz zur Differenz δ md ist die 1:1 Aufteilung n R = n T nicht mehr optimal, wenn der 

Quotient δ mr als Abstandsmaß verwendet wird. Mit den oben genannten Argumenten muss 

hier der Nichtzentralitätsparameter 

ncp r = 

δ mr − ∆ 

√ 

σ 1 

µ T n R 

+ ∆2 

n T 

minimiert werden um die Power zu maximieren. Somit muss 

√ 

1/nR + ∆ 2 /n T 

unter der Nebenbedingung n R + n T = N minimiert werden. Direkte Rechnung liefert n R = 

n/(1 + ∆) und folglich n T = ∆n/(1 + ∆). Demnach ist in diesem Fall ein Fallzahlverhältnis 

von ɛ = ∆ −1 optimal.


∆ 

µ T /σ 

Abbildung 3.2: Benötigte Fallzahl für die Teststatistik T r unter der Alternative δ mr = 1 und 

einer Power von 80%. 

Abbildung 3.2 zeigt die benötigte Fallzahl für die Teststatistik T r unter der Alternative 

δ mr = 1, d.h. µ T = µ R , für eine Power von 80% in Abhängigkeit der Nicht-Unterlegenheitsmarge 

∆ und des Kehrwertes des Variationskoeffizienten µ T /σ. Abbildung 3.2 stellt heraus, 

dass bei fallenden µ T die benötigten Fallzahlen steigen. Es besteht also eine Abhängigkeit 

der benötigten Fallzahlen von der Lokation der Daten. Diese Beobachtung steht in Übereinstimmung 

mit dem Problem der Invarianz bezüglich Shifts in den Daten beim Testen des 

Quotienten δ mr . In Abbildung 3.3 ist µ T /σ = 10 festgehalten und die benötigte Fallzahl in 

Abhängigkeit von der Nicht-Unterlegenheitsmarge abgetragen. 

Testen der standardisierten Differenz δ std 

Unter Verwendung der standardisierten Differenz als Abstandsmaß lässt sich die Power für 

gegebenen Wert von δ std (< ∆) berechnen nach 

1 − β = P δstd (T s < (t nR +n T −2,ncp s (∆)) α ) 

= F nR +n T −2,ncp s 

((t nR +n T −2,ncp s(∆)) α ) , 

wobei ncp s (∆) der Nichtzentralitätsparameter aus (3.4) ist, mit δ std = ∆. Wie bei der Differenz 

δ md erhält man mit gleichen Argumenten, dass die Stichproben für δ std vom gleichen 

Umfang (ɛ = 1) sein müssen, um die Power zu maximieren. 

3.3.1 Rechenprobleme und Approximationen für große Stichproben 

Wenn kein statistisches Softwarepaket für die Berechnung der nicht-zentralen t-Verteilung 

zur Verfügung steht, kann die folgende Approximation des α-Quantils der nicht-zentralen 

t-Verteilung benutzt werden (Johnson und Welch, 1940, p. 207). Zudem ergeben sich aus 

den folgenden Überlegungen einfache asymptotische Formeln für die Powerberechnung, welche, 

wie sich herausstellen wird, zu befriedigenden und zweckmäßigen Lösungen führen. Für


Gesamtfallzahl N 

0 200 400 600 800 

Power: 70% 

Power: 80% 

Power: 90% 

1.02 1.04 1.06 1.08 1.10 

∆ 

Abbildung 3.3: Benötigte Fallzahl für die Teststatistik T r unter der Alternative δ mr = 1 und 

für festes µ T /σ = 10. 

große Stichprobenumfänge, d.h. n → ∞, und somit großer Anzahl von Freiheitsgraden in den 

Formeln für die Powerberechnung, gilt: 

(t n− 2 ) α = u α + o(1) , 

√ 

(t n− 2,ncp ) α = ncp + u α 1 + ncp2 

2(n− 2) 

+ o(1) , (3.11) 

wobei u α das α-Quantil der Standard-Normalverteilung ist. Somit kann N ∗ in (3.7) über 

Quantile der Normalverteilung approximiert werden. Mit 

∆ d := (δ md − ∆)/σ 

und somit ncp d = ∆ d 

√ 

n/4 für ɛ = 1 ist die Anforderung (3.7) 

asymptotisch äquivalent zu 

∆ d 

√ n 

4 + u 1−β 

(t n− 2,ncpd ) 1−β ≤ (t n− 2 ) α 

√ 

1 + 

∆ 2 d 

2(n − 2) 

n 

4 ≥ u α + o(1) . 

Dies ist bei Verwendung der optimalen Fallzahlaufteilung von ɛ = 1 äquivalent zu 

n ≥ 

√ ) 2 

4 

(u α − u 1−β 1 + ∆2 d 

8 

∆ 2 d 

+ o(1). (3.12)


Analog lässt sich für die Teststatistik T r eine Approximation der minimalen Fallzahl, die eine 

Power von 1 − β erreicht, mit optimaler Fallzahlaufteilung ɛ = ∆ −1 herleiten. Sie ist gegeben 

durch 

( 

) 2 

u α − u 1−β 

√1 + ∆2 r 

n ≥ (1 + ∆) 2 2(1+∆) 2 , 

wobei ∆ r = µ T (δ mr − ∆)/σ. 

Für T s erhält man auf gleiche Art 

n ≥ 

∆ 2 r 

√ 

√ ) 2 

4 

(u α 1 + δ2 std 

8 

− u 1−β 1 + ∆2 

8 

(δ std − ∆) 2 , 

wobei die optimale Fallzahlaufteilung von ɛ = 1 verwendet wurde. 

Wahre Power 

0.70 0.75 0.80 0.85 0.90 0.95 1.00 

0 200 400 600 800 1000 

Benötigte Gesamtfallzahl 

Abbildung 3.4: Wahre und approximative Power aus (3.12) 

Um die Genauigkeit der Approximation zu untersuchen, wird folgendes Szenario angenommen: 

T d Teststatistik, δ md = 0, Signifikanzniveau 5% und eine erwünschte Power von 80%. Für 

unterschiedliche benötigte Fallzahlen, d.h. berechnet nach der Approximationsformel (3.12), 

wird die wahre Power exakt durch die nicht-zentrale t-Verteilung in (3.7) berechnet. Die 

Ergebnisse sind in Abbildung 3.4 dargestellt. Zum Vergleich ist die Linie für die erwünschte 

Power von 80% eingezeichnet. Die Abbildung zeigt, dass die Approximationsformel stets zu 

einer größeren Power als die nominelle von 80% führt. Für Fallzahlen größer als 400 ist die 

Approximation recht zufrieden stellend. Demnach ist die Approximation stets konservativ, in 

dem Sinne, dass die wahre Power niemals kleiner als die erwünschte Power ist.

Kapitel 4 

Asymptotik des ML-Schätzers 

Dieses Kapitel stellt die wesentlichen theoretischen Resultate für die nachfolgenden Kapitel 

5 und 6 zur Asymptotik des Likelihood-Quotienten bereit. Zunächst wird in den Abschnitten 

4.1 und 4.2 die asymptotische Normalität des uneingeschränkten ML-Schätzers sowohl 

im 1-Stichprobenfall als auch im k-Stichprobenfall gezeigt. Weiter wird in Abschnitt 4.3 gezeigt, 

dass unter geeigneten Bedingungen aus der Konvergenz in Wahrscheinlichkeit des eingeschränkten 

ML-Schätzers die Konvergenz in Wahrscheinlichkeit dieses Schätzers mit Rate 

√ n folgt. 

4.1 Asymptotische Normalität des ML-Schätzers 

im 1-Stichprobenfall 

In diesem Abschnitt wird die asymptotische Normalität des ML-Schätzers im 1-Stichprobenfall 

unter den Regularitätsbedingungen R gezeigt. Dieses umfasst den k-Stichprobenfall mit gleichen 

Fallzahlen in allen k Stichproben. Der Beweis des Theorems 4.3 ist in Anlehnung an 

Ferguson (1996) geführt. 

Lemma 4.1. X sei eine Zufallsvariable mit Dichte f(x, θ) bezüglich einem σ-endlichen Maß 

ν und Θ ⊆ R d der Parameterraum. Existiert (d 2 /dθ 2 )f(x, θ) und ist stetig und können die 

ersten und zweiten partiellen Ableitungen unter das Integralzeichen in ∫ f(x, θ)dν(x) gezogen 

werden, so gilt 

(i) E θ [U(X, θ)] = 0 und somit J(θ) = Var θ [U(X, θ)], 

(ii) J(θ) = −E θ [W (X, θ)]. 

Beweis. (i) rechnet man wie folgt nach: 

E θ [U(X, θ)] = 

= d dθ 

∫ (d/dθ)f(x, θ) 

∫ 

f(x, θ) 

f(x, θ)dν(x) = 0. 

∫ d 

f(x, θ)dν(x) = f(x, θ)dν(x) 

dθ 

29

30 Kapitel 4: Asymptotik des ML-Schätzers 

Mit folgender Gleichung 

d 2 

dθ 2 log f(x, θ) = d (d/dθ)f(x, θ) 

dθ f(x, θ) 

= (d2 /dθ 2 )f(x, θ) 

f(x, θ) 

= (d2 /dθ 2 )f(x, θ) 

f(x, θ) 

− [(d/dθ)f(x, θ)]T · [(d/dθ)f(x, θ)] 

(f(x, θ)) 2 

[ ] d T [ ] 

d 

− 

dθ log f(x, θ) · 

dθ log f(x, θ) 

erhält man (ii): 

E θ [W (X, θ)] = 

− 

∫ d 

2 

∫ 

∫ 

d2 

log f(x, θ) f(x, θ)dν(x) = 

dθ2 dθ 2 

f(x, θ)dν(x) 

[(d/dθ) log f(x, θ)] · [(d/dθ) log f(x, θ)] T · f(x, θ)dν(x) 

= −E θ [U(X, θ) · U(X, θ) T ] = J(θ). 

Im Folgenden wird das 1-Stichprobenmodell mit Regularitätsbedingungen R vorausgesetzt. 

Definiere 

und 

Weiter wird 

n∑ 

A n (θ) = n −1 U(X i , θ) (4.1) 

i=1 

n∑ 

B n (θ) = n −1 W (X i , θ). (4.2) 

i=1 

A n = A n (θ (0) ) und B n = B n (θ (0) ) 

gesetzt. Betrachtet wird θ ∈ B θ (0) mit B θ (0) aus Regularitätsbedingung R (c). Für θ ∈ B θ (0) 

liefert die Taylorentwicklung zweiter Ordnung von l n (θ) um den wahren Wert θ (0) 

1 

n l n(θ) = 1 n l n(θ (0) ) + A T n · (θ − θ (0) ) + 1 2 (θ − θ(0) ) T B n · (θ − θ (0) ) + R(θ), 

wobei das Restglied R(θ) von der Form 

R(θ) = 

⎛ 

⎝ 1 

6n 

n∑ 

∑ 

i=1 j,l,m=1,...,d 

⎞ 

(θ j − θ (0) 

j 

)(θ l − θ (0) 

l 

)(θ m − θ m (0) d 3 

) log f(X i , θ) ⎠ 

dθ j dθ l dθ m 

∣ 

ist mit ˜θ = αθ+(1−α)θ (0) für ein α ∈ [0, 1]. Folglich gilt stets ˜θ ∈ B θ (0). Regularitätsbedingung 

R (c) gibt die gleichmäßige Beschränktheit der dritten Ableitung der log-Likelihoodfunktion 

∣ 

θ=˜θ

4.1. ML-Schätzer im 1-Stichprobenfall 31 

für alle θ ∈ B θ (0) und liefert somit für das Restglied der Taylorentwicklung 

R(θ) ≤ 3d ‖ θ − θ(0) ‖ 3 1 

n∑ 

6 n · 

∑ 

d 3 

log f(X i , θ) ∣ 

i=1 ∥ dθ j dθ l dθ m 

j,l,m=1,...,d 

≤ ‖ θ − θ (0) ‖ 3 · 1 n∑ 

K(X i ) · O(1) 

n 

i=1 

Nach dem schwachen Gesetz der großen Zahlen (A.1) gilt 

und es wird somit 

1 

n 

n∑ 

P 

K(X i ) −→ E θ (0)K(X 1 ) < ∞ 

i=1 

R(θ) =‖ θ − θ (0) ‖ 3 · O p (1). 

geschlossen. Die Taylorentwicklung zweiter Ordnung schreibt sich folglich als 

1 

n l n(θ) = 1 n l n(θ (0) ) + A T n · (θ − θ (0) ) + 1 2 (θ − θ(0) ) T B n · (θ − θ (0) )+ ‖ θ − θ (0) ‖ 3 O p (1). 

∣ 

θ=˜θ 

∥ 

Lemma 4.2. Das 1-Stichproben-Modell sei gegeben, das heißt X 1 , X 2 , . . . seien unabhängig, 

identisch verteilte Zufallsvariablen mit Dichte f(x, θ (0) ) bezüglich einem σ-endlichen Maß ν, 

Θ der Parameterraum. Sind die Regularitätsbedingungen R erfüllt, so gilt mit J = J(θ (0) ) 

(i) 

(ii) 

√ D nAn −→ N (0, J), 

a.s. 

B n −→ −J. 

Beweis. Der Zentrale Grenzwertsatz (siehe A.2) liefert zusammen mit Lemma 4.1, dass √ nA n 

asymptotisch normalverteilt ist mit Erwartungswert 0 und Kovarianzmatrix J. Weiter ist 

nach Lemma 4.1 E θ [W (X, θ)] = −J(θ). Somit konvergiert B n fast sicher gegen −J nach dem 

starken Gesetz der großen Zahlen (siehe A.1). 

Theorem 4.3. Für unabhängig, identisch verteilte Zufallsvariablen X 1 , X 2 , . . . , die die Regularitätsbedingungen 

R erfüllen, gilt mit J = J(θ (0) ) 

√ n (ˆθn − θ (0) ) 

D −→ N (0, J −1 ). 

Beweis. Unter den gegebenen Regularitätsbedingungen existiert der ML-Schätzer ˆθ n und ist 

stark konsistent, d.h. ˆθ a.s. 

n −→ θ (0) . Der Beweis wird hier ausgelassen und zum Beispiel auf 

die Originalarbeit von Wald (1949) oder auf das Buch von Ferguson (1996, Satz 17), das die 

Resultate von Wald nutzt, verwiesen. 

Es bezeichne ˙l n (θ) die Ableitung von l n nach θ. Es wird die Taylorentwicklung von ˙l n um 

θ ∈ B θ (0) betrachtet, 

1 

n ˙l n (θ) = A n + B n (θ − θ (0) )+ ‖ θ − θ (0) ‖ 2 O p (1), (4.3)


wobei auch hier erneut die Form des Restgliedes durch Bedingung (c) begründet ist. Da 

der ML-Schätzer den log-Likelihood in Θ maximiert und Θ offen ist, schließt man mit der 

Differenzierbarkeit des log-Likelihoods, dass für den ML-Schätzer ˆθ n gilt 

˙l n (ˆθ n ) = 0. (4.4) 

Nach der starken Konsistenz liegt ˆθ n für ausreichend großes n fast sicher in B θ (0). Folglich ist 

(4.3) anwendbar für ausreichend großes n mit θ = ˆθ n . (4.3) und (4.4) liefern zusammen 

a.s. 

− A n = +B n (ˆθ n − θ (0) )+ ‖ ˆθ n − θ (0) ‖ 2 O p (1). (4.5) 

Aus B n −→ −J (Lemma 4.2) und der Existenz von J −1 folgt mit der Stetigkeit der Determinante, 

dass auch Bn 

−1 für ausreichend großes n existiert und (4.5) lässt sich schreiben 

als 

( 

) 

1 + Bn −1 (ˆθ n − θ (0) ) T O p (1) √n(ˆθn − θ (0) ) = − √ nBn −1 A n , 

was wiederum 

√ n (ˆθn − θ (0) )(1 + o p (1)) = − √ n Bn 

−1 A n 

impliziert. Mit den Resultaten aus Lemma 4.2, √ D 

a.s. 

nA n −→ N (0, J) und −Bn −→ J, und 

Slutsky’s Theorem (siehe A.3) ist die rechte Seite asymptotisch normalverteilt mit Erwartungswart 

0 und Kovarianzmatrix J −1 . Beachte hierbei, dass das Invertieren einer Matrix 

stetig ist. Somit gilt auch 

√ n (ˆθn − θ (0) ) 

D −→ N (0, J −1 ).

4.2. ML-Schätzer im k-Stichprobenfall 33 

4.2 Asymptotische Normalität des ML-Schätzers 

im k-Stichprobenfall 

Die Ergebnisse des vorigen Abschnittes werden nun auf den k-Stichprobenfall erweitert, wobei 

hierbei entscheidend ist, dass die Fallzahlen in den einzelnen Stichproben unterschiedlich 

seien können. Deshalb können die Stichproben nicht zu einer zusammengefasst und wie der 

1-Stichprobenfall behandelt werden. Unter der Annahme F, dass die Fallzahlen asymptotisch 

von gleicher Ordnung, lassen sich jedoch analoge Ergebnisse zur asymptotischen Normalität 

des ML-Schätzers herleiten. Es wird sich zeigen, dass sich die Kovarianzmatrix der asymptotischen 

Verteilung aus den Fisher-Informationsmatrizen der einzelnen Stichproben zusammensetzt, 

mit Gewichtung entsprechend ihrer relativen asymptotischen Fallzahlen. 

Es wird also der k-Stichprobenfall mit Regularitätsbedingungen R und Bedingung F betrachtet. 

Analog zu (4.1) und (4.2) wird für jede Stichprobe i = 1, . . . , k 

definiert. Es wird 

A (i) 

n i 

(θ i ) = 1 ∑n i 

U i (X ij , θ i ) = 1 ∑n i 

( ) d 

T 

log f i (X ij , θ i ) , (4.6) 

n i n 

j=1 

i dθ 

j=1 i 

B n (i) 

i 

(θ i ) = 1 ∑n i 

W i (X ij , θ i ) = 1 ∑n i 

d 2 

log f i (X ij , θ i ) (4.7) 

n i n i 

A (i) 

n i 

j=1 

dθ 2 j=1 i 

= A (i) 

n i 

(θ (0) 

i 

) und B n (i) 

i 

= B n (i) 

i 

(θ (0) 

i 

) 

gesetzt. Weiter sei J i die Fisher-Informationsmatrix der i-ten Stichprobe, ausgewertet an der 

Stelle des wahren Parameters θ (0) 

i 

, d.h. 

[ 

] 

J i = E (0) θ 

U i (X i1 , θ (0) 

i 

) · U i (X i1 , θ (0) 

i 

) T 

i 

mit 

U i (x, θ) = 

( ) d 

T 

log f i (x, θ) . 

dθ i 

Es wird mit n = (n 1 , . . . , n k ) 

A n = 

( 

A (1) n T 

1 

B n = diag 

, . . . , A (k) T 

n k 

) T 

, 

( 

) 

B n (1) 

1 

, . . . , B n (k) 

k 

, 

J = diag (J 1 , . . . , J k ) , 

C = diag (c 1 I d , . . . , c k I d ) 

gesetzt, wobei c i ∈ [0, 1] so, dass n i /n → c i für n → ∞ (siehe Bedingung F).


Lemma 4.4. Sei der k-Stichprobenfall mit Regularitätsbedingungen R und Bedindung F 

gegeben, dann gilt 

√ D 

(i) nAn −→ N (0, C −1 J), 

a.s. 

(ii) B n −→ −J. 

Beweis. Aus dem 1-Stichprobenfall, Lemma 4.2, erhält man für i = 1, . . . , k 

√ 

ni A (i) D 

n i −→ N (0, Ji ). 

Hieraus schließt man mit dem Lemma von Slutzky (siehe A.3) 

√ n A 

(i) 

n i 

= 

√ n 

n i 

√ 

ni A (i) 

n i 

D −→ N (0, c 

−1 

i 

J i ). (4.8) 

Nach dem Blockungslemma sind A (1) 

n 1 

, . . . , A (k) 

n k 

unabhängig, da die zugrunde liegenden Beobachtungen 

unabhängig sind. Folglich erhält man mit (4.8) 

√ D n An −→ N (0, C −1 J). 

Damit ist Aussage (i) bewiesen. Die Aussage (ii) folgt mit dem Lemma von Slutzky direkt 

aus dem 1-Stichprobenfall. 

Theorem 4.5. Sei der k-Stichprobenfall mit Regularitätsbedingungen R und Bedindung F 

gegeben, dann gilt 

√ n (ˆθn − θ (0) ) −→ D N (0, (CJ) −1 ). 

Beweis. Der Beweis verläuft analog zu dem Beweis von Lemma 4.4. Für den ML-Schätzer ˆθ n 

der gemeinsamen Stichprobe gilt 

ˆθ n = arg sup 

θ∈Θ 

k∏ ∏n i 

f i (x ij , θ i ) = 

i=1 j=1 

k∏ 

i=1 

arg sup 

∏n i 

θ i ∈Θ i j=1 

f i (x ij , θ i ) 

und somit ˆθ n = (ˆθ 1, n , . . . , ˆθ k, n ), wobei ˆθ i, n der ML-Schätzer der einzelnen Stichprobe i ist. 

Das heißt der ML-Schätzer der gemeinsamen Stichprobe setzt sich aus denen der einzelnen 

Stichproben zusammen. Aus dem 1-Stichprobenfall, Lemma 4.2, erhält man für i = 1, . . . , k 

√ 

ni (ˆθ i, n − θ (0) 

i 

) −→ D N (0, Ji −1 ). 

Mit dem Lemma von Slutzky (siehe A.3) wird 

√ n (ˆθi, n − θ (0) 

i 

) = 

√ n 

n i 

√ 

ni (ˆθ i, n − θ (0) 

i 

) D 

−→ N (0, c −1 

i 

J −1 

i 

) (4.9) 

geschlossen. Nach dem Blockungslemma sind ˆθ 1, n1 , . . . , ˆθ k, nk unabhängig, da die zugrundeliegenden 

Beobachtungen unabhängig sind. Folglich erhält man mit (4.9) 

√ n (ˆθn − θ (0) ) −→ D N (0, (CJ) −1 ).

4.3. Eingeschränkter ML-Schätzer 35 

4.3 Asymptotik des eingeschränkten ML-Schätzers 

Es wird der auf eine Menge M ⊆ R kd eingeschränkte ML-Schätzer betrachtet. Konvergiert 

dieser in Wahrscheinlichkeit gegen einen Punkt θ ∗ ∈ M, so gibt Theorem 4.6 unter geeigneten 

Regularitätsbedingungen die Konvergenz mit Rate √ n. Als Spezialfall erhält man mit 

θ ∗ = θ (0) Korollar 4.8, das unter den Regularitätsbedingungen R für einen konsistenten 

ML-Schätzer automatisch die √ n-Konsistenz dieses Schätzer liefert. Korollar 4.8 wurde für 

den 1-Stichprobenfall bereits von Chernoff (1954) formuliert. Allerdings führt er nur eine 

Beweisskizze an. Theorem 4.6 stellt eine Verallgemeinerung auf den k-Stichprobenfall und 

θ ∗ ≠ θ (0) dar. Insbesondere muss somit der wahre Wert θ (0) des Parameters θ nicht in der 

Menge M liegen. 

Theorem 4.6. Der k-Stichprobenfall sei gegeben, θ ∗ = (θ1 ∗, . . . , θ∗ k ) ∈ M ⊆ Rkd und es gelte 

P 

→ θ ∗ . Weiter seien die nachstehenden Bedingungen erfüllt: 

ˆθ M n 

(i) Die Bedingung F ist erfüllt mit n i 

n = c i + o(1/ √ n). 

(ii) Für i = 1, . . . , k existieren die partiellen Ableitungen von f i (x, θ i ) bezüglich θ i und sind 

stetig. 

(iii) Es existiert eine Funktion K(x) mit E θ (0)K(X) < ∞, so dass die Norm von d/dθ W (x, θ) 

gleichmäßig in einer Umgebung von θ ∗ durch K(x) beschränkt ist. 

[ ] 2 

(iv) Für i = 1, . . . , k existiert E (0) d/dθi θ 

log f i (X i1 , θ i )| θi =θi 

∗ und für 

i 

[ ] T 

µ i := E (0) d/dθi θ 


∗ gilt 

i 

k∑ 

c i µ i (ˆθ i, M n − θi ∗ ) = 

i=1 

(v) Für i = 1, . . . , k existiert D i := −E (0) θ i 

D := diag (D 1 , . . . , D k ) gilt 

Dann gilt 

für ein α > 0. 

k∑ 

o p (‖ ˆθ i, M n − θi ∗ ‖ 2 ). 

i=1 

[ 

d 2 /dθ 2 i log f i (X i1 , θ i )| θi =θ ∗ i 

(ˆθ M i, n − θ ∗ i ) T D (ˆθ M i, n − θ ∗ i ) ≥ α ‖ ˆθ M i, n − θ ∗ i ‖ 2 

√ n 

(ˆθM n − θ ∗) = O p (1). 

] 

und für 

Bemerkung 4.7. Bedingung (iii) wird für die Abschätzung des Restgliedes der Taylorentwicklung 

um θ ∗ benötigt. Bedingung (iv) besagt, dass die erwartete Ableitung des log- 

Likelihoods an der Stelle θ ∗ in Richtung des auf M eingeschränkten ML-Schätzers schneller 

gegen null konvergiert als ‖ ˆθ n 

M − θ ∗ ‖ 2 . Bedingung (v) sichert, dass sich die Matrix D gegenüber 

dem eingeschränkten Schätzer ˆθ n 

M wie eine positiv definite und symmetrische Matrix 

verhält. Somit ist Bedingung (v) für eine positiv definite und symmetrische Matrix D automatisch 

erfüllt mit α gleich dem kleinsten Eigenwert von D. Für θ ∗ = θ (0) werden die 

Bedingungen (ii)-(v) durch die Regularitätsbedingungen R abgedeckt, siehe Korollar 4.8.


Beweis. Ohne Einschränkung der Allgemeinheit wird angenommen, dass θ ∗ = 0 ist. Dieses 

kann durch Umparametrisierung mit θ ↦→ θ − θ ∗ erreicht werden. Im Folgenden des Beweises 

wird ˆθ n statt ˆθ n 

M geschrieben. Für ˆθ n = 0 ist die Aussage trivial. Somit wird im Folgenden 

ˆθ n ≠ 0 angenommen. Die Taylorentwicklung des log-Likelihoods um den wahren Wert θ ∗ = 0 

liefert 

1 

( 

) 

l n (ˆθ n ) − l n (0) = 

n 

k∑ 

i=1 

n i 

n A(i) n i 

ˆθi, n + 1 2 

k∑ 

i=1 

n i 

n ˆθ T i, nB (i) 

n i 

ˆθi, n + 

k∑ 

‖ ˆθ i, n ‖ 3 O p (1). 

Nach Definition des ML-Schätzers ist die linke Seite größer oder gleich null. Folglich gilt dieses 

auch für die rechte Seite 

0 ≤ 

k∑ 

i=1 

n i 

n A(i) n i 

ˆθi, n + 1 2 

Mit Voraussetzung (i) und (iv) gilt 

k∑ 

i=1 

n i 

n µ i ˆθ i, n = 

= 

k∑ 

i=1 

n i 


n i 

ˆθi, n + 

k∑ 

c i µ i ˆθi, n + 

i=1 

i=1 

k∑ 

‖ ˆθ i, n ‖ 3 O p (1). (4.10) 

i=1 

k∑ 

o(1/ √ n)µ i ˆθi, n (4.11) 

i=1 

k∑ 

o p (‖ ˆθ i, n ‖ 2 ) + 

i=1 

Somit liefern (4.10) und (4.12) zusammen 

k∑ 

o p (‖ ˆθ i, n ‖ / √ n). (4.12) 

i=1 

0 ≤ 

k∑ 

i=1 

+ 

n i 

n (A(i) n i 

− µ i ) ˆθ i, n + 1 2 

k∑ 

o p (‖ ˆθ i, n ‖ 2 ) + 

i=1 

k∑ 

i=1 

n i 


n i 

ˆθi, n + 

k∑ 

‖ ˆθ i, n ‖ 3 O p (1) (4.13) 

i=1 

k∑ 

o p (‖ ˆθ i, n ‖ / √ n). (4.14) 

i=1 

Es ist vorausgesetzt, dass ˆθ n in Wahrscheinlichkeit gegen null konvergiert, d.h. ˆθ P 

n → 0. Weiter 

gilt nach dem Zentralen Grenzwertsatz (siehe A.2) √ n i (A (i) 

n i 

− µ i ) = O p (1) und dem starken 

Gesetz der großen Zahlen (siehe A.1) B n (i) a.s. 

i 

−→ −D i . Somit können eine Folge d n → 0 und ein 

K so gewählt werden, dass für beliebiges ɛ > 0 mit Wahrscheinlichkeit größer als 1 − ɛ für 

i = 1, . . . , k gilt: 

‖ A (i) 

n i 

− µ i ‖≤ K √ 

ni 

, 

d∑ 

l,m=1 

‖ [B (i) 

n i 

] lm + [D i ] lm ‖≤ d n , ‖ ˆθ n ‖≤ d n 

und für die Landau-Symbole aus (4.13)und (4.14) gilt: 

O p (1) ≤ K , o p (‖ ˆθ i, n ‖ 2 ) ≤ d n ‖ ˆθ i, n ‖ 2 , o p (‖ ˆθ i, n ‖ / √ n) ≤ d n 

‖ ˆθ i, n ‖ 

√ n 

. 

Aus 

d∑ 

d∑ 

x T Bx = x i x j [B] ij ≤ ‖ x ‖ 2 1 ‖ [B] ij ‖ ≤ √ d∑ 

d ‖ x ‖ 2 ‖ [B] ij ‖ 

i,j=1 

i,j=1 

i,j=1


für einen beliebigen Vektor x ∈ R d und eine beliebige Matrix B ∈ R d×d schließt man 

k∑ 

i=1 

n i 


n i 

ˆθi, n ≤ − 

≤ 

− 

k∑ 

i=1 

k∑ 

i=1 

n i 

n ˆθ T i, nD i ˆθi, n + 

k∑ 

i=1 

n i 

n ˆθ 

√ k∑ 

i, T nD i ˆθi, n + d n d 

√ 

d 

n i 

n ‖ ˆθ i, n ‖ 2 · 

i=1 

‖ ˆθ i, n ‖ 2 . 

d∑ 

l,m=1 

‖ [B (i) 

n i 

] lm + [D i ] lm ‖ 

Somit erhält man zusammen mit Wahrscheinlichkeit größer als 1 − ɛ, dass 

0 ≤ 

≤ 

k∑ 

i=1 

+ 

k∑ 

i=1 

n i 

n (A(i) n i 

− µ i ) ˆθ i, n + 1 2 

k∑ 

o p (‖ ˆθ i, n ‖ 2 ) + 

i=1 

n i 

n 

K 

√ 

ni 

‖ ˆθ i, n ‖ − 1 2 

k∑ 

i=1 

n i 


n i 

ˆθi, n + 

k∑ 

o p (‖ ˆθ i, n ‖ / √ n) 

i=1 

k∑ 

i=1 

k∑ 

+ d n ‖ ˆθ 

k∑ 

i, n ‖ 2 + d n 

= − 1 2 

i=1 

k∑ 

i=1 

i=1 

k∑ 

‖ ˆθ i, n ‖ 3 O p (1) 

i=1 

n i 

n ˆθ i, T nD i ˆθi, n + 1 2 d √ k∑ 

n d ‖ ˆθ i, n ‖ 2 + 

i=1 

‖ ˆθ i, n ‖ 

√ n 

n i 


n d ‖ ˆθ i, n ‖ 2 +K 

i=1 

k∑ 

+ d n ‖ ˆθ 

k∑ 

i, n ‖ 2 + d n 

≤ − 1 2 

i=1 

k∑ 

i=1 

i=1 

‖ ˆθ i, n ‖ 

√ n 

n i 


n d ‖ ˆθ i, n ‖ 2 +K 

i=1 

k∑ 

+ d n ‖ ˆθ 

k∑ 

i, n ‖ 2 + d n 

≤ − 1 2 

i=1 

k∑ 

i=1 

i=1 

n i 

n ˆθ T i, nD i ˆθi, n + K 2 

‖ ˆθ i, n ‖ 

√ n 

( 

k∑ 

i=1 

( 

k∑ 

i=1 

‖ ˆθ i, n ‖ 3 + n i 

n 

k∑ 

‖ ˆθ i, n ‖ 3 K 

i=1 

‖ ˆθ 

) 

i, n ‖ 

√ 

ni 

( 

k∑ 

d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ 

) 

i, n ‖ 

√ 

ni 

i=1 

d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ i, n ‖ 

√ 

ni 

‖ 

+ d ˆθ 

) 

i, n ‖ 

n √ n 

mit K 2 = K + √ d + 1. Da für alle i = 1, . . . , k der Quotient n i /n gegen eine positive Zahl 

größer null konvergiert, lässt sich ein b > 0 finden, dass n i /n für alle i = 1, . . . , k stets größer 

als b ist und man erhält 

1 

2 b ˆθ n T D ˆθ 

k∑ 

n ≤ K 2 

i=1 

( 

d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ i, n ‖ 

√ 

ni 

+ d n 

‖ ˆθ i, n ‖ 

√ n 

) 

.


Mit K 3 = 2K 2 /b ergibt dieses 

( 

ˆθ n T D ˆθ 

k∑ 

n ≤ K 3 d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ i, n ‖ ‖ 

√ + d ˆθ 

) 

i, n ‖ 

n √ 

ni n 

i=1 

( 

k∑ 

≤ K 3 d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ i, n ‖ ‖ 

√ + d ˆθ 

) 

i, n ‖ 

n √ 

i=1 

bn n 

( 

= K 3 d n ‖ ˆθ n ‖ 2 + 1 + d √ ) 

n b 

k∑ 

√ ‖ ˆθ i, n ‖ 

bn 

Die Abbildung x ↦→ ∑ k 

i=1 ‖ x i ‖ mit x i ∈ R d definiert eine Norm auf dem R kd . Auf einem 

endlich dimensionalen Vektorraum sind alle Normen äquivalent. Das heißt, es gibt a > 0 mit 

k∑ 

‖ x i ‖ ≤ a ‖ x ‖ 

i=1 

für alle x ∈ R kd . Weiter gilt nach Voraussetzung (v) 

ˆθ T n D ˆθ n ≥ α ‖ ˆθ n ‖ 2 

mit α > 0. Folglich erhält man 

( 

α ‖ ˆθ n ‖ 2 ≤ K 3 d n ‖ ˆθ n ‖ 2 + a(1 + d √ ) 

n b) ‖ ˆθn ‖ 

√ , 

bn 

i=1 

was wiederum mit K 4 = K 3 α −1 · min(1, a/ √ b) > 0 äquivalent zu folgendem ist 

( 

‖ ˆθ n ‖ 2 ≤ K 4 d n ‖ ˆθ 

√ 

n ‖ 2 ‖ 

+(1 + d ˆθ 

) 

n ‖ 

n b) √ n 

⇔ 

⇔ 

1 ≤ d n + 1 + d √ 

n b 

√ 

K 4 n ‖ ˆθn ‖ 

√ n ‖ ˆθ n ‖≤ 1 + d √ 

n b 

. 

1/K 4 − d n 

Da d n → 0, gilt für geeignetes K ∗ mit Wahrscheinlichkeit größer 1 − ɛ 

√ n ‖ ˆθn ‖≤ K ∗ . 

Korollar 4.8. Sei der k-Stichprobenfall mit Regularitätsbedingungen R und Bedingung F 

gegeben, dann folgt aus θ (0) ∈ M ⊆ R kd und ˆθ n 

M P 

→ θ (0) , dass 

√ n 

(ˆθM n − θ (0)) = O p (1). 

Beweis. Unter den gegebenen Voraussetzungen kann Theorem 4.6 angewandt werden. Die 

Bedingungen (ii) und (iii) folgen direkt aus den Regularitätsbedingungen R. Die Bedingungen 

(iv) und (v) folgen nach Anwendung von Lemma 4.4 mit D = J(θ (0) ). Beachte, dass nach 

Regularitätsbedingungen R J(θ (0) ) positiv definit ist.


Bemerkung 4.9. Lässt sich der eingeschränkte ML-Schätzer ˆθ n 

M 

ˆη n M und ˆξ n M aufteilen, d.h. 

in zwei unabhängige Schätzer 

(ˆθ M π(1), n , . . . , ˆθ M π(k), n ) = (ˆηM n , ˆξ M n ) 

mit einer Permutation π der Menge {1, . . . , k}, so können diese auch getrennt untersucht 

werden. Für ˆη n 

M = ˆη n , wobei ˆη n der entsprechend aufgeteilte uneingeschränkte ML-Schätzer 

ist, übertragen sich die Konvergenzeigenschaften aus dem uneingeschränkten Fall auf ˆη n 

M und 

die Asymptotik von ˆξ n M kann unabhängig von ˆη n M beispielsweise mit Theorem 4.6 untersucht 

werden.

Kapitel 5 

Asymptotische Verteilung der 

Likelihood-Quotienten-Statistik auf 

dem Rand der Hypothese 

In diesem Kapitel wird die asymptotische Verteilung der Likelihood-Quotienten-Statistik auf 

dem Rand der Hypothese im k-Stichprobenfall untersucht. Der Abschnitt ist in Anlehnung an 

die Arbeit von Chernoff (1954), der den entsprechenden 1-Stichprobenfall behandelt, geschrieben 

und stellt eine Verallgemeinerung auf den k-Stichprobenfall mit ungleichen Fallzahlen dar. 

Chernoff betrachtet in seiner Arbeit die asymptotische Verteilung des Likelihood-Quotienten 

im 1-Stichprobenfall, wenn der wahre Parameter auf dem Rand der Hypothese und der Alternative 

liegt. Folgende Annahmen werden gestellt: Die Verteilung der Beobachtungen genügen 

den Regularitätsbedingungen R, der auf die Hypothese eingeschränkte ML-Schätzer ist konsistent 

und die Parameterräume der Hypothese und der Alternative können durch positiv 

homogene Mengen approximiert werden, deren Eigenschaften später dargestellt werden. So 

kann Chernoff zeigen, dass die Verteilung des Likelihood-Quotienten asymptotisch gleich der 

des Likelihood-Quotienten, wenn diese auf einer Beobachtung einer normalverteilten Zufallsvariablen 

mit Erwartungswert θ 0 und Kovarianzmatrix J(θ (0) ) −1 basiert, wobei die approximierenden 

Mengen der Hypothese und der Alternative gegeneinander getestet werden. Im 

Abschnitt 5.1 werden entsprechende Ergebnisse für den k-Stichprobenfall hergeleitet. 

5.1 Asymptotische Verteilung nach Chernoff 

für den k-Stichprobenfall 

Es wird der k-Stichprobenfall mit Regularitätsbedingungen R und Bedingung F betrachtet. 

Zur Vereinfachung und Lesbarkeit wird im Folgenden ohne Einschränkung der Allgemeinheit 

angenommen, dass der wahre Wert des Parameters θ (0) = 0 ist. Dieses kann durch Umparametrisierung 

mit θ ↦→ θ − θ (0) erreicht werden. 

Betrachtet wird der Likelihood-Quotienten-Test von der Hypothese H 0 : θ ∈ Θ 0 gegen die 

Alternative H 1 : θ ∈ Θ 1 . Wie im vorangegangenen Abschnitt wird angenommen, dass die 

Hypothese und die Alternative den Parameterraum in zwei disjunkte Mengen teilen. Des 

Weiteren soll die Hypothese wie auch der Parameterraum selbst durch eine positiv homogene 

41

42 Kapitel 5: Asymptotische Verteilung der LQ-Statistik unter Hypothese 

Menge approximiert werden können. Die Definition 2.4 zur gegenseitigen Approximation von 

zwei Mengen wie auch die Definition einer positiv homogenen Menge sind in Abschnitt 2.4 

gegeben. 

Das folgende Theorem 5.1 stellt eine Verallgemeinerung des Resultates von Chernoff (1954) 

auf den k-Stichprobenfall mit ungleichen Fallzahlen dar. Gezeigt wird, dass die asymptotische 

Verteilung des Likelihood-Quotienten unter k Stichproben, die die Regularitätsbedingungen 

R und die Bedingung F für die asymptotische Fallzahlenverhältnisse erfüllen, gleich der Verteilung 

des Likelihood-Quotienten unter einer Beobachtung einer normalverteilten Zufallsvariablen 

mit geeignetem Erwartungswert und geeigneter Varianz ist, wenn Hypothese Θ 0 und 

Parameterraum Θ durch positiv homogene Mengen approximiert werden können, wenn der 

wahre Wert θ (0) des Parameters θ auf dem Rand der Hypothese liegt und wenn der auf die 

Hypothese eingeschränkte ML-Schätzer in Wahrscheinlichkeit gegen den wahren Wert konvergiert. 

Kurz gefasst, bedeutet das, dass man sich bei asymptotischen Untersuchungen des 

Likelihood-Quotienten auf eine normalverteilte Zufallsvariable Z und die approximierenden 

Mengen der Hypothese und des Parameterraums zurückziehen kann, wobei Z den Erwartungswert 

θ (0) hat und die Kovarianzmatrix von Z die Inverse der Diagonalmatrix mit gewichteten 

Fisher-Informationsmatrizen der einzelnen Stichproben auf der Diagonalen ist. Wie bereits 

erwähnt, wird ohne Einschränkung der Allgemeinheit θ (0) = 0 vorausgesetzt. Die im Abschnitt 

4.2 eingeführten Notationen für A (i) 

n i 

, B n (i) 

i 

, A n ,B n , J und C werden übernommen. 

Theorem 5.1. Der k-Stichprobenfall sei gegeben und folgende Bedingungen erfüllt: 

(i) Die Dichten f i erfüllen die Regularitätsbedingungen R für i = 1, . . . , k. 

(ii) Die Bedingung F ist erfüllt, d.h. n i 

n → c i für n → ∞ mit 0 < c i < 1, i = 1, . . . , k. 

(iii) Es gilt ˆθ Θ 0 

n 

P 

−→ 0. 

(iv) Die Mengen Θ und Θ 0 können durch die nicht leeren und positiv homogenen Mengen 

M bzw. M 0 approximiert werden. 

Dann ist die asymptotische Verteilung von −2 log λ n gegeben durch die Verteilung von 

inf (Z − θ) T CJ (Z − θ) − inf (Z − 

θ∈M 0 θ∈M θ)T CJ (Z − θ) 

mit Z ∼ N (0, (CJ) −1 ) und (CJ) −1 = diag ( 1 c 1 

J −1 

1 , . . . , 1 

c k 

J −1 

k 

Bemerkung 5.2. Beispiel 2.2 zeigt, dass die Verteilung von 

) ist. 



mit Z ∼ N (0, (CJ) −1 ) gerade die Verteilung von minus zweimal dem Logarithmus des 

Likelihood-Quotientens für den Test von θ ∈ M 0 gegen θ ∈ M\M 0 basierend auf einer Beobachtung 

einer normalverteilten Zufallsvariablen mit Erwartungswert 0 und Kovarianzmatrix 

(CJ) −1 ist.

5.1. Chernoff für den k-Stichprobenfall 43 

Beweis von Theorem 5.1. Da der Likelihood-Quotient durch 

λ n = sup θ∈Θ 0 

L n (θ) 

sup θ∈Θ L n (θ) 

gegeben ist, sind der ML-Schätzer und der auf die Hypothese Θ 0 eingeschränkte ML-Schätzer 

zu betrachten. Zunächst wird gezeigt, dass beide Schätzer folgende Eigenschaft aufweisen: 

ˆθ n = J −1 A n + η(ˆθ n ) mit η(ˆθ n ) = O p (1/ √ n). (5.1) 

Da nach Lemma 4.4 (i) 

J −1 A n = O p (1/ √ n) 

gilt, reicht es aus zu zeigen, dass ˆθ n ebenfalls ein O p (1/ √ n) ist, damit die Eigenschaft (5.1) 

gegegeben ist. Dieses gilt nach Theorem 4.5 für den ML-Schätzer ˆθ n . Die Bedingung (iii) 

der Voraussetzungen stellt sicher, dass der auf die Hypothese eingeschränkte Schätzer ˆθ Θ 0 

P 

konsistent ist, d.h. ˆθ Θ 0 

n −→ 0. Folglich kann Theorem 4.6 für ˆθ Θ 0 

n angewandt werden und man 

erhält ˆθ Θ 0 

n = O p (1/ √ n). Somit ist die Eigenschaft (5.1) für beide Schätzer gezeigt. 

Zur Vereinfachung der Schreibweise wird 

Ã n = 

eingeführt. 

( 

n 1 A (1) T 

n 1 

, . . . , n k A (k) T 

n k 

) T 

und ˜Bn = diag 

( 

) 

n 1 B n (1) 

1 

, . . . , n k B n (k) 

k 

Die Taylorentwicklung um den Nullpunkt (wahrer Wert des Parameters) liefert 

l n (θ) = l n (0) + 

k∑ 

i=1 

n i A (i) 

n i 

θ i + 1 2 

k∑ 

i=1 

n i θ T i B (i) 

n i 

θ i + 

k∑ 

‖ θ i ‖ 3 O p (n i ). 

Wie schon in vorangegangenen Abschnitten erwähnt, sichert Punkt (c) der Regularitätsbedingungen 

R die Form des Restgliedes. Wird vorausgesetzt, dass θ = O p (1/ √ n) ist, so ist das 

Restglied ‖ θ i ‖ 3 O p (n i ) für alle i = 1, . . . , k ein O p (1/ √ n) und damit ein o p (1). Ein θ, das 

Eigenschaft (5.1) aufweist, erfüllt die Voraussetzung θ = O p (1/ √ n). Dieses liefert 

i=1 

n 

l n (θ) = l n (0) + ÃT nθ + 1 2 θT ˜Bn θ + o p (1). 

Für θ, welches die Eigenschaft (5.1) erfüllt, kann an dieser Stelle θ durch J −1 A n + η(θ) mit 

η(θ) = O p (1/ √ n) ersetzt werden und man erhält 

l n (θ) = l n (0) + ÃT nJ −1 A n + ÃT nη(θ) + 1 2 (J −1 A n + η(θ)) T ˜Bn (J −1 A n + η(θ)) + o p (1) 

= l n (0) + ÃT nJ −1 A n + ÃT nη(θ) + 1 2 ÃT nJ −1 B n J −1 A n 

+ÃT nJ −1 B n η(θ) + 1 2 η(θ) ˜B n η(θ) + o p (1). (5.2) 

Beachte hierbei, dass J −1 = diag (J1 −1 , . . . , J −1 ) und diag(n 1I d , . . . , n k I d ) kommutieren. 

k


Mit B n = −J + o p (1) (Lemma 4.4 (ii)) gilt 

Ã T nJ −1 B n η(θ) = −Ãnη(θ) + ÃnJ −1 o p (1)η(θ) 

Analog erhält man mit gleichen Argumenten 

Weiter gilt analog mit n i /n = c i + o(1) 

η(θ) ˜B n η(θ) = 

= −Ãnη(θ) + O p ( √ n)o p (1)O p (1/ √ n) 

= −Ãnη(θ) + o p (1). 

Ã T nJ −1 B n J −1 A n = −ÃT nJ −1 A n + o p (1). 

k∑ 

i=1 

= −n 

= −n 

= −n 

η(θ) T i n i B (i) 

n i 

k∑ 

η(θ) T i 

i=1 

k∑ 

η(θ) T i 

i=1 

η(θ) i = n 

k∑ 

η(θ) T i 

i=1 

n i 

n J i η(θ) i + n 

n i 

n B(i) n i 

η(θ) i 

k∑ 

η(θ) T i o p (1) η(θ) i 

i=1 

n j 

n J i η(θ) i + n O p (1/ √ n)o p (1)O p (1/ √ n) 

k∑ 

η(θ) T i c i J i η(θ) i + n η(θ) T o(1) η(θ) + o p (1) 

i=1 

= −n η(θ) T CJη(θ) + o p (1). 

Einsetzen in (5.2) liefert 

l n (θ) = l n (0) + 1 2ÃT nJ −1 A n − n 2 η(θ)T CJη(θ) + o p (1). (5.3) 

Weiter gilt für eine beliebige Menge M ∈ R kd 

sup 

θ∈M 

( 

l n (0) + 2ÃT 1 nJ −1 A n − n ) 

2 η(θ)T CJη(θ) + o p (1) 

= l n (0) + 1 2ÃT nJ −1 A n + sup 

θ∈M 

( 

− n ) 

2 η(θ)T CJη(θ) + o p (1). 

Somit kann mit (5.3) der log-Likelihood als 

[ 

] 

−2 log λ n (x) = 2 sup l n (θ) − sup l n (θ) 

θ∈Θ θ∈Θ 0 

[ ( 

= 2 sup − n ) 

2 η(θ)T CJη(θ) 

geschrieben werden. 

[ 

= n 

θ∈Θ 

[ 

] 

= 2 l n (ˆθ n ) − l n (ˆθ Θ 0 

n ) 

inf η(θ) T CJη(θ) − inf 

θ∈Θ 0 θ∈Θ η(θ)T CJη(θ) 

( 

− sup − n CJη(θ)) ] 

θ∈Θ 0 

2 η(θ)T + o p (1) 

] 

+ o p (1)

5.1. Chernoff für den k-Stichprobenfall 45 

Wird nun wieder η(θ) durch J −1 A n − θ ersetzt, erhält man 

[ 

] 

−2 log λ n (x) = n inf (J −1 A n − θ) T CJ(J −1 A n − θ) − inf (J −1 A n − θ) T CJ(J −1 A n − θ) 

θ∈Θ 0 θ∈Θ 

+ o p (1). 

Anwenden von Lemma 2.7 liefert 

[ 

] 

−2 log λ n (x) = n inf (J −1 A n − θ) T CJ(J −1 A n − θ) − inf (J −1 A n − θ) T CJ(J −1 A n − θ) 

θ∈M 0 θ∈M 

mit 

+ n o(‖ J −1 A n ‖ 2 ) + o p (1) 

n o(‖ J −1 A n ‖ 2 ) = n o p (1/n) = o p (1). 

Somit gilt 

−2 log λ n (x) = n · inf 

θ∈M 0 

(J −1 A n − θ) T CJ (J −1 A n − θ) 

−n · inf 

θ∈M (J −1 A n − θ) T CJ (J −1 A n − θ) + o p (1) 

= inf 

θ∈M 0 

( √ nJ −1 A n − √ nθ) T CJ ( √ nJ −1 A n − √ nθ) 

− inf 

θ∈M (√ nJ −1 A n − √ nθ) T CJ ( √ nJ −1 A n − √ nθ) + o p (1) 

= inf 

θ∈M 0 

( √ nJ −1 A n − θ) T CJ ( √ nJ −1 A n − θ) 

− inf 

θ∈M (√ nJ −1 A n − θ) T CJ ( √ nJ −1 A n − θ) + o p (1) 

= inf 

θ∈M 0 

(Z n − θ) T CJ (Z n − θ) − inf 

θ∈M (Z n − θ) T CJ (Z n − θ) + o p (1) 

mit Z n = √ nJ −1 A n . Die dritte Gleichheit folgt daraus, dass M und M 0 positiv homogene 

Mengen sind. Nach Punkt (i) von Lemma 4.4 gilt 

√ nAn 

D −→ N (0, C −1 J) 

und folglich 

Z n = √ nJ −1 A n 

D −→ N (0, (CJ) −1 ). 

Da die Abbildung x ↦→ inf θ∈M0 (x − θ) T CJ (x − θ) stetig ist, folgt nach dem Lemma von 

Slutzky (siehe A.3), dass die asymptotische Verteilung von −2 log λ n die von 

mit Z ∼ N (0, (CJ) −1 ) ist. 


θ∈M 0 θ∈M θ)T CJ (Z − θ)


Korollar 5.3. In Theorem 5.1 kann die Kovarianzmatrix CJ durch d · CJ mit beliebigem 

d > 0 ersetzt werden. 

Beweis. Wie in Theorem 5.1 gezeigt, ist die asymptotische Verteilung von −2 log λ n (x) durch 

die Verteilung von 

mit Z ∼ N (0, (CJ) −1 ) gegeben. 



Da nun M und M 0 positiv homogene Mengen sind, gilt 



1 

= inf √d (Z − θ) T d · CJ 1 

1 

√ (Z − θ) − inf √ (Z − θ) T d · CJ √ 1 (Z − θ) 

θ∈M 0 d θ∈M d d 

= inf ( √ 1 Z − θ) T d · CJ ( √ 1 Z − θ) − inf ( √ 1 Z − θ) T d · CJ ( √ 1 Z − θ) 

θ∈M 0 d d θ∈M d d 

= inf 

θ∈M 0 

(Y − θ) T d · CJ (Y − θ) − inf 

θ∈M (Y − θ)T d · CJ (Y − θ) 

mit Y ∼ N (0, d −1 (CJ) −1 ). 

Bemerkung 5.4 (Konsistenz mit Chernoff’s 1-Stichprobenfall). Betrachtet wird der 

k-Stichprobenfall mit gleichen Fallzahlen in allen Stichproben, d.h. n i = n j für alle i, j = 

1, . . . , k, dann können die Stichproben zu einer zusammengefasst und das Resultat von Chernoff 

für den 1-Stichprobenfall angewandt werden. So erhält man, dass die Verteilung von 

−2 log λ n (x) asymptotisch gleich der von −2 log λ n (x) ist für den Test von θ ∈ M 0 gegen 

θ ∈ M\M 0 basierend auf einer normalverteilten Zufallsvariablen mit Erwartungswert 0 und 

Kovarianzmatrix J −1 . Wird hingegen Theorem 5.1 mit c i = 1/k für alle i = 1, , . . . , k angewandt, 

erhält man statt der Kovarianzmatrix J −1 nun k · J −1 . Korollar 5.3 zeigt mit d = 1/k, 

dass die Ergebnisse konsistent sind. 

5.2 Beispiele 

An einem einfachen Beispiel soll exemplarisch gezeigt werden, wie die Resultate von Theorem 

5.1 genutzt werden können, um die asymptotische Verteilung des Likelihood-Quotienten unter 

der Hypothese zu bestimmen. Im Beispiel 5.5 wird eine normalverteilte Zufallsvariable X ∼ 

N (θ (0) , I 2 ) mit θ (0) ∈ R 2 betrachtet (I 2 = 2 × 2 Identitätsmatrix). Der Hypothesenraum 

Θ 0 ist ein Halbraum und θ (0) liegt auf dem Rand der Hypothese. Dann ist −2 log λ verteilt 

nach 1/2 + 1/2χ 2 1 . Nach Beispiel 5.6 bleibt die Verteilung von −2 log λ unverändert, wenn 

I 2 durch eine beliebige, aber bekannte Kovarianzmatrix Σ ersetzt wird. Entsprechend kann 

dieses Ergebnis auf zwei unabhängige Stichproben übertragen werden, wenn die Bedingungen 

von Theorem 5.1 erfüllt sind. −2 log λ ist dann asymptotisch verteilt nach 1/2 + 1/2χ 2 1 (siehe 

Beispiel 5.7).

5.2 Beispiele 47 

Beispiel 5.7 umfasst die nachstehenden Hypothesenräume. Für eine differenzierbare Funktion 

h : R → R ist der Hypothesenraum 

Θ 0 = { θ ∈ R 2 : θ 1 ≥ h(θ 2 ) } 

durch einen Halbraum approximierbar. Dieses deckt die Hypothesenräume 

Θ 0 = { θ ∈ R 2 : θ 1 − θ 2 ≥ ∆ } 

und 

Θ 0 = { θ ∈ R 2 : θ 1 /θ 2 ≥ ∆ } 

ab, die bei Nicht-Unterlegenheitstests auftreten (siehe Kapitel 3). 

Beispiel 5.5. Betrachtet wird eine normalverteilte Zufallsvariable X ∼ N (θ (0) , I 2 ) mit 

θ (0) ∈ R 2 . Der Hypothesenraum Θ 0 sei ein Halbraum, also 

Θ 0 = {θ : a 1 θ 1 + a 2 θ 2 + b ≤ 0} . 

θ (0) liege auf dem Rand der Hypothese. Ohne Einschränkung der Allgemeinheit sei θ (0) = (0, 0) 

und b = 0, d.h. Θ 0 = {θ : a 1 θ 1 + a 2 θ 2 ≤ 0}. Im Folgenden wird gezeigt, dass für die Bestimmung 

der Verteilung der Likelihood-Quotienten-Statistik sogar 

Θ 0 = {θ : θ 1 ≤ 0} 

angenommen werden kann. Es wird eine orthogonale Matrix Q so gewählt, dass 

QΘ 0 := {Qθ : a 1 θ 1 + a 2 θ 2 ≤ 0} = {θ : θ 1 ≤ 0} 

gilt. Da der empirische Mittelwert ¯x suffiziente Statistik für θ (0) ist (¯x ∼ N (θ (0) , n −1 I 2 )), 

reicht es aus, den Stichprobenumfang 1 zu behandeln (siehe Beispiel 2.2). Die Likelihood- 

Quotienten-Statistik lässt sich nach Beispiel 2.2 mit 

−2 log λ = inf 

θ∈Θ 0 

(X − θ) T (X − θ) 

aufstellen. Dann gilt mit Q T Q = I 2 und Z := QX ∼ N (0, I 2 ) 


θ∈Θ 0 

(X − θ) T Q T Q(X − θ) 

= inf 

θ∈Θ 0 

(QX − Qθ) T (QX − Qθ) 

= inf 

θ∈QΘ 0 

(QX − θ) T (QX − θ) 

= inf 

θ∈QΘ 0 

(Z − θ) T (Z − θ) 

= inf 

θ: θ 1 ≤0 (Z − θ)T (Z − θ). 

Somit folgert man 

−2 log λ = 

{ Z 

2 

1 für Z 1 > 0 

0 für Z 1 ≤ 0 

mit Z 2 1 ∼ χ2 1 und P (Z 1 ≤ 0) = P (Z 1 > 0) = 1/2. Also 

−2 log λ ∼ 1 2 + 1 2 χ2 1.


Beispiel 5.6. Betrachtet wird eine normalverteilte Zufallsvariable X ∼ N (θ (0) , Σ) mit θ (0) ∈ R 2 

und bekannter Kovarianzmatrix Σ ∈ R 2×2 . Der Hypothesenraum Θ 0 sei ein Halbraum. θ (0) 

liege auf dem Rand der Hypothese und sei ohne Einschränkung der Allgemeinheit mit null angenommen, 

θ (0) = (0, 0). Da Σ symmetrisch und positiv definit ist, existiert eine orthogonale 

Matrix Q und eine Diagonalmatrix V mit 

Es gilt 

und Σ −1/2 kann definiert werden als 

Σ = Q T V Q. 

Σ −1 = (Q T V Q) −1 = Q T V −1 Q 

Σ −1/2 = Q T V −1/2 Q. 

Nach Definition gilt Σ −1 = Σ −1/2 Σ −1/2 und Σ −1/2 ΣΣ −1/2 = I 2 . Weiter ist 

˜Θ 0 := {Σ −1/2 θ : θ ∈ Θ 0 } 

wieder ein Halbraum, da Σ −1/2 = Q T V −1/2 Q eine lineare Abbildung mit vollem Rang definiert. 

Für die Likelihood-Quotienten-Statistik gilt nach Beispiel 2.2 


θ∈Θ 0 

(X − θ) T Σ −1 (X − θ) 

= inf 

θ∈Θ 0 

(X − θ) T Σ −1/2 Σ −1/2 (X − θ) 

= inf 

θ∈Θ 0 

(Σ −1/2 X − Σ −1/2 θ) T (Σ −1/2 X − Σ −1/2 θ) 

= inf 

θ∈ ˜Θ 0 

(Z − θ) T (Z − θ) 

mit Z = Σ −1/2 X ∼ N (0, I 2 ). Da ˜Θ 0 wieder ein Halbraum ist, folgt nach obigem Beispiel 5.5 

−2 log λ ∼ 1 2 + 1 2 χ2 1. 

Beispiel 5.7. Es seien zwei unabhängige Stichproben X 11 , . . . , X 1n1 ∼ f 1 (x, θ (0) 

1 ), θ(0) 1 ∈ R, 

und X 21 , . . . , X 2n2 ∼ f 2 (x, θ (0) 

2 ), θ(0) 2 ∈ R, gegeben, die die Regularitätsbedingungen R erfüllen 

und sei Bedingung F erfüllt. Es wird θ (0) = (θ (0) ) gesetzt und der Hypothesenraum 

1 , θ(0) 2 

Θ 0 ⊆ R 2 soll in θ (0) durch einen Halbraum M 0 approximiert werden können. Weiter gilt 

ˆθ Θ P 

0 

n −→ θ (0) . Somit sind die Voraussetzungen von Theorem 5.1 erfüllt und man erhält 

−2 log λ n 

D −→ inf 

θ∈M 0 

(Z − θ) T Σ −1 (Z − θ) 

mit Z ∼ N (θ (0) , Σ) und geeigneter Kovarianzmatrix Σ. Mit obigem Beispiel 5.7 folgt 

−2 log λ n 

D −→ 

1 

2 + 1 2 χ2 1.

Kapitel 6 

Asymptotische Verteilung der 

Likelihood-Quotienten-Statistik 

unter fester Alternative 

Betrachtet wird der Likelihood-Quotienten-Test von der Hypothese H 0 : θ ∈ Θ 0 gegen die 

Alternative H 1 : θ ∈ Θ 1 . Wie im vorangegangenen Kapitel wird angenommen, dass die 

Hypothese und die Alternative den Parameterraum in zwei disjunkte Mengen teilen. Die 

asymptotische Verteilung des Likelihood-Quotienten soll in diesem Kapitel unter einer festen 

Alternative θ (0) ∈ Θ 1 untersucht werden. Wie in den obigen Abschnitten werden zum besseren 

Verständnis zunächst die Resultate des 1-Stichprobenfalls herausgearbeitet und diese 

dann auf den k-Stichprobenfall mit unterschiedlichen Fallzahlen in den einzelnen Stichproben 

verallgemeinert. In Theorem 6.2 (k-Stichprobenfall: Theorem 6.7) wird gezeigt, dass der log- 

Likelihood, genauer 1/ √ n log λ n , unter der Alternative θ (0) ∈ Θ 1 asymptotisch normalverteilt 

ist. Hierfür wird neben Regularitätsbedingungen vorausgesetzt, dass ein Punkt θ ∗ ∈ Θ 0 mit 

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n) (6.1) 

existiert, wobei ˆθ r n der auf die Hypothese Θ 0 eingeschränkte ML-Schätzer ist. Diese Bedingung 

ist im Allgemeinen nicht leicht zu prüfen und es bedarf weiterer Diskussion, unter welchen 

Voraussetzungen sie erfüllt ist. Zunächst wird im Korollar 6.5 (k-Stichprobenfall: Korollar 

6.9) herausgearbeitet, dass unter geeigneten Bedingungen nur der Punkt in der Hypothese, 

der den Kullback-Leibler Abstand zum wahren Wert des Parameters θ (0) minimiert, für θ ∗ 

in Frage kommt. Hierauf basierend werden am Ende des k-Stichprobenabschnitts in Korollar 

6.12 Bedingungen angegeben, unter denen die Bedingung (6.1) erfüllt sind. 

6.1 Asymptotik im 1-Stichprobenfall 

Betrachtet werden Zufallsvariablen, die die Regularitätsbedingungen R erfüllen. 

Definition 6.1. f 0 und f 1 seien Dichten bezüglich einem σ-endlichen Maß ν. Es wird f 0 ≪ f 1 

geschrieben, wenn f 0 absolut stetig bezüglich f 1 ist. Dann ist der Kullback-Leibler Abstand 

49

50 Kapitel 6: Asymptotische Verteilung der LQ-Statistik unter Alternative 

definiert als 

∫ 

K(f 0 , f 1 ) = 

log 

[ ] 

f0 (x) 

f 0 (x)dν(x) 

f 1 (x) 

für f 0 ≪ f 1 und unendlich sonst. 

Der Kullback-Leibler Abstand stellt ein Maß für die Unterschiedlichkeit zweier Wahrscheinlichkeitsverteilungen 

dar. Trotz des irreführenden Namens ” 

Abstand“ definiert der Kullback- 

Leibler Abstand keine Metrik, da die Symmetrie-Eigenschaft wie auch die Definitheit verletzt 

ist. Für f θ und f˜θ 

wird 

K(θ, ˜θ) = K(f θ , f˜θ) 

gesetzt. 

[ 

Bedingung B1: Es existieren E θ (0) log f(X1 , θ (0) ) ] und eine Funktion K(x), so dass log f(x, θ) 

gleichmäßig in Θ 0 im Betrag durch K(x) beschränkt ist und E θ (0) [K(X 1 )] < ∞ gilt. 

Bedingung B2: E θ (0) [log f(X 1 , θ)] 2 existiert für θ ∈ Θ 0 ∪ {θ (0) }. 

Die Bedingung B1 stellt sicher, dass der Kullback-Leibler Abstand zwischen der wahren Verteilung 

und den zur Hypothese 

[ 

gehörigen Verteilungen wohldefiniert ist. Bedingung B2 sichert 

die Existenz von Var θ (0) log f(X1 , θ (0) ) − log f(X 1 , θ) ] für θ ∈ Θ 0 , wie es in Theorem 6.2 

benötigt wird. Im Folgenden wird ˆθ n r = ˆθ Θ 0 

n für den auf die Hypothese Θ 0 eingeschränkten 

ML-Schätzer geschrieben. Es wird ˆθ n r als restringierter ML-Schätzer bezeichnet. 

Das nachstehende Theorem 6.2 gibt die asymptotische Verteilung der Likelihood-Quotienten- 

Statistik λ n an, wenn θ (0) in der Alternative Θ 1 liegt. 

Theorem 6.2. Der 1-Stichprobenfall sei mit nachstehenden Bedingungen gegeben: 

(i) Die Regularitätsbedingungen R sind erfüllt. 

(ii) Der wahre Wert des Parameters θ (0) liege in der Alternative Θ 1 . 

(iii) Die Bedingungen B1 und B2 sind erfüllt. 

(iv) Es gibt θ ∗ ∈ Θ 0 mit 

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n). (6.2) 

Dann gilt 

wobei 

( ) 

√ 1 n 

n log λ n + K(θ (0) , θ ∗ D 

) −→ N (0, σ 2 (θ (0) , θ ∗ )), 

σ 2 (θ (0) , θ ∗ ) = Var θ (0) 

[ 

] 

log f(X 1 , θ (0) ) − log f(X 1 , θ ∗ ) .

6.1. Asymptotik im 1-Stichprobenfall 51 

Zum Beweis des Theorems wird ein Resultat der klassischen Likelihood-Quotienten-Theorie 

benutzt, formuliert in Lemma 6.3. Demnach ist −2 log λ n unter der Hypothese H 0 : θ = θ 0 

asymptotisch χ 2 -verteilt. Das Lemma stellt einen Spezialfall der Arbeit von Wilks (1938) 

dar, die zusammengesetzte Hypothesen im Allgemeinen abdeckt. Ein Beweis des Resultates 

ist zum Beispiel auch im Buch von Ferguson (1996, Kapitel 22, Satz 22) zu finden. 

Lemma 6.3. Unter den Regularitätsbedingungen R und der Hypothese H 0 : θ = θ 0 gilt 

−2 log λ n = −2[l n (θ (0) ) − l n (ˆθ n )] 

wobei d die Dimension des Parameterraumes ist. 

D 

−→ χ 2 d , 

Beweis von Theorem 6.2. Betrachtet wird der log-Likelihood 

log λ n = l n (ˆθ r n) − l n (ˆθ n ) 

= [l n (ˆθ r n) − l n (θ ∗ )] + [l n (θ ∗ ) − l n (θ (0) )] + [l n (θ (0) ) − l n (ˆθ n )], 

so gilt für den dritten Term nach Lemma 6.3 

und folglich 

[l n (θ (0) ) − l n (ˆθ n )] = O p (1) 

1 

√ n 

[l n (θ (0) ) − l n (ˆθ n )] = o p (1). 

Zusammen mit der Voraussetzung (6.2) 

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n) 

erhält man 

( ) 

√ 1 n 

n log λ n + K(θ (0) , θ ∗ ) 

= √ n 1 n 

n∑ 

i=1 

[ 

log f(X i, θ ∗ ] 

) 

f(X i , θ (0) ) + K(θ(0) , θ ∗ ) 

+ o p (1). (6.3) . 

Es gilt 

[ 

E log f(X i, θ ∗ ] 

) 

f(X i , θ (0) = −K(θ (0) , θ ∗ ) 

) 

für alle i = 1, . . . , n. Somit schließt man mit dem zentralen Grenzwertsatz (siehe A.2), dass 

die rechte Seite von 6.3 und folglich auch die linke asymptotisch normalverteilt sind mit 

Erwartungswert null und Varianz 

[ 

] 

σ 2 (θ (0) , θ ∗ ) = Var θ (0) log f(X 1 , θ (0) ) − log f(X 1 , θ ∗ ) . 

Bedingung B1 und B2 sichern die Existenz von K(θ (0) , θ ∗ ) und σ 2 (θ (0) , θ ∗ ) und somit auch 

die Anwendung des zentralen Grenzwertsatzes.


Grenzwert des restringierten ML-Schätzers 

Im Folgendem ist zu diskutieren, welche Parameter θ ∗ die Bedingung (6.2) erfüllen können. 

Ist die Bedingung B1 erfüllt, so wird 

θ min = arg min 

θ∈Θ 0 

K(θ (0) , θ) (6.4) 

als der Parameter in der Hypothese definiert, der den Kullback-Leibler Abstand zum wahren 

Wert des Parameters θ (0) minimiert. Ist wird sich herausstellen, dass unter geeigneten Voraussetzungen, 

welche im Wesentlichen die Eindeutigkeit von θ min umfassen, für θ ∗ nur θ min 

in Frage kommt, um die Bedingung (6.2) zu erfüllen (siehe hierzu Korollar 6.5). 

White (1982, Theorem 2.2) zeigt in seiner Arbeit, dass der restringierte ML-Schätzer ˆθ r n gegen 

θ min aus (6.4) konvergiert. Der Beweis geht auf White (1981, Theorem 2.1) zurück. White 

betrachtet in seiner Arbeit den ML-Schätzer über eine kompakte Menge. Die Einschränkung 

auf eine kompakte Menge ist in Theorem 6.4 nicht nötig. 

Theorem 6.4. Seien die Bedingungen R und B1 erfüllt und das Minimum min θ∈Θ K(θ (0) , θ) 

bei θ min eindeutig. Dann gilt 

a.s. 

−→ θ min . 

ˆθ r n 

Beweis. Seien 

und 

so gilt 

Q n (θ) = − 1 n l n(θ) = − 1 n 

n∑ 

log f(X i , θ) 

i=1 

Q(θ) = −E θ (0) [log f(X 1 , θ)] , 

K(θ (0) , θ) = Q(θ) − Q(θ (0) ). 

Folglich minimiert θ min = arg min θ∈Θ0 K(θ (0) , θ) ebenfalls Q(θ) eindeutig in Θ 0 . 

Zunächst wird gezeigt, dass der restringierte ML-Schätzer ˆθ n r asymptotisch in einer präkompakten, 

d.h. beschränkten Teilmenge von Θ 0 liegt. Wenn Θ 0 nicht schon beschränkt ist, wird 

hierfür 

g(x, r) = sup 

θ∈Θ 0 : ‖θ‖≥r 

f(x, θ) 

betrachtet. Wald (1949, Lemma 3) zeigt, dass 

Folglich kann ein r 0 so gewählt werden, dass 

was äquivalent zu 

lim E 

r→∞ 

θ (0) [log g(X 1, r)] = −∞. 

E θ (0) [log g(X 1 , r 0 )] < E θ (0) [log f(X 1 , θ min )] , 

E θ (0) [log g(X 1 , r 0 ) − log f(X 1 , θ min )] < 0

6.1. Asymptotik im 1-Stichprobenfall 53 

ist. Nach dem starken Gesetz der großen Zahlen (siehe A.1) gilt dann 

( ( 

) ) 

1 

n∑ 

P lim log g(X i , r 0 ) − 1 n∑ 

log f(X i , θ min ) < 0 = 1 . 

n→∞ n 

n 

i=1 

i=1 

Dieses impliziert 

( 

P 

lim 

n→∞ 

( 

) 

Q n (θ min ) − inf Q n (θ) 

θ∈Θ 0 : ‖θ‖≥r 0 

) 

< 0 = 1. 

Somit schließt man θ min ∈ B r0 := {θ : ‖ θ ‖≤ r 0 } ∩ Θ 0 und 

( 

P 

(ˆθr n − ˜θ 

) 

n 

lim 

n→∞ 

) 

= 0 = 1 (6.5) 

mit 

Weiter gilt auch 

˜θ n = inf 

θ∈B r0 

Q n (θ) . 

Q(θ min ) = inf 

θ∈B r0 

Q(θ). 

Da B r0 

präkompakt ist, gilt nach Mickey’s Theorem (siehe A.4) 

Q n (θ) a.s. −→ Q(θ) 

gleichmäßig für alle θ in B r0 . 

Wenn ˜θ n nun Q n (θ) in B r0 minimiert und θ min Q(θ) eindeutig in B r0 minimiert, so ergibt 

White’s Lemma (siehe A.5), dass aus Q n (θ) a.s. −→ Q(θ) gleichmäßig in B r0 

˜θ n 

a.s. 

−→ θ min 

folgt. Mit (6.5) wird 

geschlossen. 

ˆθ r n 

a.s. 

−→ θ min . 

Korollar 6.5. Seien die Bedingungen R, B1 und B3 erfüllt und das Minimum min θ∈Θ K(θ (0) , θ) 

bei θ min eindeutig. Sei θ ∗ ∈ Θ 0 wie in Theorem 6.2 mit l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n), so gilt 

θ ∗ = θ min = arg min 

θ∈Θ 0 

K(θ (0) , θ). 

Beweis. Die Notationen für Q und Q n aus dem Beweis von Theorem 6.4 werden übernommen. 

Aus 

folgt 

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n) = o p (n) 

Q n (ˆθ r n) 

P 

−→ Q n (θ ∗ ).


Nach dem schwachen Gesetz der großen Zahlen (siehe A.1) gilt Q n (θ ∗ ) = Q(θ ∗ )+o p (1). Somit 

erhält man 


P 

−→ Q(θ ∗ ). (6.6) 

Mit dem Ergebnis aus Theorem 6.4, ˆθ n 

r 

Lemma (siehe A.6) erhält man mit 


Aufgrund der Eindeutigkeit des Minimums muss 

a.s. 

−→ θ min , und unter Anwendung von Amemiya’s 

P 

−→ Q(θ min ). 

θ ∗ 

= θ min 

gelten. 

Im anschließenden Abschnitt zum k-Stichprobenfall werden Voraussetzungen aufgeführt, unter 

denen die Bedingung (6.2) 

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n) 

aus Theorem 6.2 erfüllt ist, siehe Korollar 6.12.

6.2. Asymptotik im k-Stichprobenfall 55 

6.2 Asymptotik im k-Stichprobenfall 

Die Ergebnisse des 1-Stichprobenfalls werden auf den k-Stichprobenfall mit ungleichen Fallzahlen 

übertragen. Es wird somit der k-Stichprobenfall mit Regularitätsbedingungen R und 

Bedingung F betrachtet. Sei c = (c 1 , . . . , c k ) mit n i /n → c i . 

Der Kullback-Leibler Abstand ist für den k-Stichprobenfall zu modifizieren. 

Definition 6.6. Seien (f i,0 , f i,1 ), i = 1, . . . , k Paare von Dichten bezüglich einem σ-endlichen 

Maß ν und w = (w 1 , . . . , w k ), w i > 0, ein Gewichtungsvektor, dann ist der gewichtete 

Kullback-Leibler Abstand für f 0 = (f 1,0 , . . . , f k,0 ) und f 1 = (f 1,1 , . . . , f k,1 ) definiert als 

K(f 0 , f 1 , w) = 

k∑ 

w i K(f i,0 , f i,1 ), 

i=1 

wenn f i,0 ≪ f i,1 für alle i = 1, . . . , k und unendlich sonst. 

Für f θ (·) = (f 1 (θ 1 , ·), . . . , f k (θ k , ·)) und f˜θ(·) = (f 1 (˜θ 1 , ·), . . . , f k (˜θ k , ·)) wird 

gesetzt. 

K(θ, ˜θ, c) = K(f θ , f˜θ, 

c) 

Bedingung B3: Für i = 1, . . . , k existiert E (0) θ 

log f i (X i1 , θ (0) 

i 

) und es existiert eine Funktion 

i 

K i (x) mit E (0) θ 

K i (X i1 ) < ∞, so dass log f i (x, θ i ) gleichmäßig in Θ 0 im Betrag durch K i (x) 

i 

beschränkt ist. 

Bedingung B4: E (0) θ i 

für alle i = 1, . . . , k. 

[log f i (X i1 , θ i )] 2 existiert für θ i ∈ {θ i : θ = (θ 1 , . . . , θ k ) ∈ Θ 0 } ∪ {θ (0) 

i 

} 

Bedingung B3 stellt die zu Bedingung B1 entsprechende k-Stichprobenbedingung dar und 

sichert die Wohldefiniertheit des gewichteten Kullback-Leibler Abstands zwischen der wahren 

Verteilung und denen zur Hypothese gehörigen Verteilungen. Entsprechend sichert Bedingung 

B4 die Existenz von 

k∑ 

i=1 

c i Var θ 

(0) 

i 

[ 

] 

log f(X i1 , θ (0) 

i 

) − log f(X i1 , θ i ) 

für θ ∈ Θ 0 . Im Folgenden wird erneut ˆθ n r = ˆθ Θ 0 

n für den auf die Hypothese Θ 0 eingeschränkten 

ML-Schätzer geschrieben. ˆθ n r wird als restringierter ML-Schätzer bezeichnet. 

So kann das Theorem 6.2 entsprechend für den k-Stichprobenfall formuliert werden. Die Rolle 

von θ ∗ wird auch hier anschließend diskutiert. 

Theorem 6.7. Der k-Stichprobenfall sei mit nachstehenden Bedingungen gegeben: 

(i) Die Regularitätsbedingungen R sind für alle f i , i = 1, . . . , k erfüllt.


(ii) Die Bedingung F ist erfüllt mit n i 

n = c i + o(1/ √ n). 

(iii) Der wahre Wert des Parameters θ (0) liege in der Alternative Θ 1 . 

(iv) Die Bedingungen B3 und B4 sind erfüllt. 

(v) Es gibt θ ∗ ∈ Θ 0 mit 

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n). (6.7) 

Dann gilt 

( ) 

√ 1 n 

n log λ n + K(θ (0) , θ ∗ D 

, c) −→ N (0, σ 2 (θ (0) , θ ∗ , c)), 

wobei 

σ 2 (θ (0) , θ ∗ , c) = 

k∑ 

i=1 

c i σ 2 i (θ (0) 

i 

, θ ∗ i ) 

mit 

[ 

] 

σi 2 (θ (0) 

i 

, θi ∗ ) = Var (0) θ 

log f(X i1 , θ (0) 

i 

) − log f(X i1 , θi ∗ ) . 

i 

Beweis. Betrachtet wird der log-Likelihood 

log λ n = l n (ˆθ r n) − l n (ˆθ n ) 

= [l n (ˆθ r n) − l n (θ ∗ )] + [l n (θ ∗ ) − l n (θ (0) )] + [l n (θ (0) ) − l n (ˆθ n )]. 

Für den dritten Term gilt nach wiederholten Anwenden von Lemma 6.3 für die einzelnen 

Stichproben i = 1, . . . , k 

[l n (θ (0) ) − l n (ˆθ n )] = 

k∑ ∑n i 

log f i (X ij , θ (0) 

i 

) − log f i (X ij , ˆθ i, n ) = 

i=1 j=1 

k∑ 

O p (1) = O p (1). 

i=1 

Beachte hierbei, dass sich der gemeinsame ML-Schätzer ˆθ n aus den ML-Schätzern ˆθ i, n der 

einzelnen Stichproben zusammensetzt, da die Stichproben unabhängig sind. Somit erhält man 

1 

√ n 

[l n (θ (0) ) − l n (ˆθ n )] = o p (1). 

Zusammen mit der Voraussetzung (6.7) 

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n)


erhält man 

( ) 

√ 1 n 

n log λ n + K(θ (0) , θ ∗ , c) 

mit 

= 1 √ n 

= 1 √ n 

= 1 √ n 

= 1 √ n 

= 

= 

= 

k∑ 

i=1 

k∑ 

i=1 

k∑ ∑n i 

i=1 j=1 

k∑ ∑n i 

i=1 j=1 

k∑ ∑n i 

i=1 j=1 

k∑ ∑n i 

i=1 j=1 

√ 

ni 

n 

1 

√ 

ni 

[ 

log f(X ij, θ ∗ ] 

) 

f(X ij , θ (0) + √ n 

) 

[ 


) 

f(X ij , θ (0) + √ n 

) 

[ 


) 

f(X ij , θ (0) + √ 1 

) n 

= 1 √ n 

[l n (θ ∗ ) − l n (θ (0) )] + √ nK(θ (0) , θ ∗ , c) + o p (1) 

k∑ 

i=1 

k∑ 

i=1 

k∑ 

i=1 

[ 

log f(X ij, θ ∗ ) 

f(X ij , θ (0) ) + K(θ(0) i 

, θ ∗ i ) 

∑n i 

j=1 

√ [Z i,ni c i + o p (1/ √ ] 

n) 

k∑ 

[Z i,ni ( √ c i + o p (1))] + o p (1) 

i=1 

Z i,ni = 1 √ 

ni 

c i K(θ (0) 

i 

, θ ∗ i ) + o p (1) 

( ni 

n + o p(1/ √ ) 

n) K(θ (0) 

i 

, θi ∗ ) + o p (1) 

n i K(θ (0) 

i 

, θ ∗ i ) + o p (1) 

] 

+ o p (1) 

[ 


) 

f(X ij , θ (0) ) + K(θ(0) i 

, θi ∗ ) 

∑n i 

j=1 

+ o p (1) 

[ 


) 

f(X ij , θ (0) ) 

+ o p (1) 

D 

−→ N (0, σ 2 i (θ (0) 

i 

, θ ∗ i )). 

nach dem zentralen Grenzwert Satz (siehe A.2). Mit Z i,ni = O p (1) für i = 1, . . . , k erhält man 

( ) 

√ 1 n 

n log λ n + K(θ (0) , θ ∗ , c) 

= 

k∑ 

[ √ c i Z i,ni ] + o p (1). 

Aufgrund der Unabhängigkeit der Stichproben X 1 , . . . , X k sind nach dem Blockungslemma 

Z 1,n1 , . . . , Z k,nk ebenfalls unabhängig. 

Sind X und Y unabhängig normalverteilt mit X ∼ N (µ x , σx) 2 und Y ∼ N (µ y , σy), 2 so gilt für 

die Faltung X+Y , dass sie ebenfalls normalverteilt ist mit X+Y ∼ N (µ x +µ y , σx+σ 2 y). 2 Dieses 

Resultat ist beispielsweise in Krengel (1988, S.141) zu finden. Somit erhält man zusammen 

mit dem Lemma von Slutsky (siehe A.3) 

( ) 

√ 1 n 

n log λ n + K(θ (0) , θ ∗ D 

, c) −→ N (0, σ 2 (θ (0) , θ ∗ , c)). 

i=1 

Die Bedingungen B3 und B4 sichern die Existenz von K(θ (0) , θ ∗ , c) und σ 2 (θ (0) , θ ∗ , c) und 

somit auch die Anwendung des zentralen Grenzwertsatzes.


Grenzwert des restringierten ML-Schätzers 

Im Folgenden ist wie im 1-Stichprobenfall zu diskutieren, welche Parameter θ ∗ die Bedingung 

(6.7) erfüllen können. Ist Bedingung B4 erfüllt, so wird 

θ ∗ = arg min 

θ∈Θ 0 

K(θ (0) , θ, c) 

als der Parameter in der Hypothese definiert, der den gewichteten Kullback-Leibler Abstand 

zum wahren Parameter θ (0) minimiert. Auch hier lässt sich wie im 1-Stichprobenfall zeigen, 

dass unter geeigneten Voraussetzungen, welche im Wesentlichen erneut die Eindeutigkeit von 

θ min umfassen, für θ ∗ nur θ min in Frage kommt, um die Bedingung (6.7) zu erfüllen (siehe 

hierzu Korollar 6.9). 

Bedingung B5: Für alle x = (x 1 , . . . , x k ) und θ n ∈ Θ 0 mit lim n→∞ ‖ θ n ‖= ∞ gelte 

lim 

n→∞ 

i=1 

k∏ 

f i (x i , θ i, n ) = 0 . 

Bedingung B5 stellt eine auf den k-Stichprobenfall modifizierte Version von Bedingung R 

(f) dar. Sie sichert, dass der restringierte ML-Schätzer asymptotisch in einer präkompakten 

Teilmenge von Θ 0 liegt. 

Theorem 6.8. Seien die Bedingungen R, F sowie die Bedingungen B3 und B5 erfüllt und 

das Minimum min θ∈Θ K(θ (0) , θ, c) bei θ min eindeutig. Dann gilt 

ˆθ r n 

a.s. 

−→ θ min . 

Beweis. Sei 

für i = 1, . . . , k und 

sowie 

für i = 1, . . . , k und 

so gilt 

Q i,n (θ i ) = 1 n i 

Q n (θ) = − 

Q i (θ i ) = E θ 

(0) 

i 

Q(θ) = − 

∑n i 

j=1 

k∑ 

i=1 

log f i (X ij , θ i ) 

n i 

n Q i,n(θ i ) 

[log f(X i1 , θ i )] 

k∑ 

c i Q i (θ i ), 

i=1 

K(θ (0) , θ, c) = Q(θ) − Q(θ (0) ) 

Folglich minimiert θ min = arg min θ∈Θ0 K(θ (0) , θ, c) ebenfalls Q(θ) eindeutig in Θ 0 .


Zunächst wird gezeigt, dass der restringierte ML-Schätzer ˆθ n r asymptotisch in einer präkompakten, 

d.h. beschränkten Teilmenge von Θ 0 liegt. Wenn Θ 0 nicht schon beschränkt ist, wird 

hierfür 

k∏ 

g(x 1 , . . . , x k , r) = sup f i (x i , θ i ) c i 

und 

˜g(x 1 , . . . , x k , r) = 

θ∈Θ 0 : ‖θ‖≥r i=1 

sup 

k∏ 

θ∈Θ 0 : ‖θ‖≥r i=1 

f i (x i , θ i ) n i 

n , 

betrachtet. Aus Bedingung B5 folgt für θ n ∈ Θ 0 mit lim n→∞ ‖ θ n ‖= ∞ gilt 

Wald (1949, Lemma 3) zeigt, dass 

lim 

n→∞ 

i=1 

k∏ 

f i (x i , θ i, n ) c i 

= 0 . 

lim E 

r→∞ 

θ (0) [log g(X 11, . . . , X k1 , r)] = −∞. 

Folglich kann ein r 0 so gewählt werden, dass 

[ k∑ 

] 

E θ (0) [log g(X 11 , . . . , X k1 , r 0 )] < E θ (0) c i log f(X i1 , θ min ) . 

i=1 

Da n i /n → c i für n → ∞, kann ein n 0 so gewählt werden, dass für n ≥ n 0 

[ k∑ 

] 

n i 

E θ (0) [log ˜g(X 11 , . . . , X k1 , r 0 )] < E θ (0) 

n log f(X i1, θ min ) . 

i=1 

Nach dem starken Gesetz der großen Zahlen (A.1) gilt 

⎛ ⎛ 

⎞ ⎞ 

k∑ 

n 

P ⎝ lim ⎝ 

n i 1 ∑ i 

(log f i (X ij , θ r0 ) − log f i (X ij , θ min )) ⎠ < 0⎠ = 1. 

n→∞ n 

i=1 

n i 

j=1 

Dieses impliziert 

( 

P 

lim 

n→∞ 

( 

) 

Q n (θ min ) − inf Q n (θ) 

θ∈Θ 0 : ‖θ‖≥r 0 

) 

< 0 = 1. 

Der Rest des Beweises verläuft analog zum Beweis des 1-Stichprobenfall, Theorem 6.4. 

Korollar 6.9. Seien Bedingungen B3 und B5 erfüllt und das Minimum min θ∈Θ K(θ (0) , θ, c) 

eindeutig bei θ min bestimmt. Sei θ ∗ ∈ Θ 0 wie in Theorem 6.2 mit l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n), 

so gilt 

θ ∗ = θ min = arg min 

θ∈Θ 0 

K(θ (0) , θ, c). 

Beweis. Der Beweis aus dem 1-Stichprobenfall, Korollar 6.5, ist mit Q n und Q aus Theorem 

6.8 direkt übertragbar.


Die Bedingung: l n (θ ∗ ) − l n (ˆθ r n ) = o p( √ n) 

Es bleibt die Bedingung (6.7) aus Theorem 6.7 (bzw. Bedingung (6.2) aus Theorem 6.2) 

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n) 

zu diskutieren. In Korollar 6.12 werden Voraussetzungen aufgeführt unter denen diese Bedingung 

erfüllt ist. 

Theorem 6.10 liefert die Konvergenz mit Rate √ n des restringierten ML-Schätzers ˆθ r n gegen 

den Minimierer des Kullback-Leibler Abstandes θ ∗ . 

Theorem 6.10. Der k-Stichprobenfall sei mit den Regularitätsbedingungen R gegeben. Weiter 

seien die nachstehenden Bedingungen erfüllt: 

(i) Die Bedingung F ist erfüllt mit n i 

n = c i + o(1/ √ n). 

(ii) Die Bedingungen B3 und B5 sind erfüllt. 

(iii) Das Minimum min θ∈Θ K(θ (0) , θ, c) sei eindeutig bei θ ∗ bestimmt. 

(iv) Es existiert eine Funktion K(x) mit E θ (0)K(X) < ∞, so dass die Norm von d/dθ W (x, θ) 

gleichmäßig in einer Umgebung von θ ∗ durch K(x) beschränkt ist. 

[ ] 2 

(v) Für i = 1, . . . , k existiert E (0) d/dθi θ 


∗ und für 

i 

[ ] T 

µ i := E (0) d/dθi θ 


∗ gilt 

i 

k∑ 

c i µ i (ˆθ i, r n − θi ∗ ) = 

i=1 

(vi) Für i = 1, . . . , k existiert D i := −E (0) θ i 

D := diag (D 1 , . . . , D k ) gilt 

Dann gilt 

für ein α > 0. 

k∑ 

o p (‖ ˆθ i, r n − θi ∗ ‖ 2 ). 

i=1 

[ 

d 2 /dθ 2 i log f i (X i1 , θ i )| θi =θ ∗ i 

(ˆθ r i, n − θ ∗ i ) T D (ˆθ r i, n − θ ∗ i ) ≥ α ‖ ˆθ r i, n − θ ∗ i ‖ 2 

√ n 

(ˆθr n − θ ∗) = O p (1). 

] 

und für 

Beweis. Die Voraussetzungen von Theorem 6.8 sind erfüllt und man erhält 

ˆθ r n 

a.s. 

−→ θ ∗ . 

Folglich sind auch die Voraussetzungen von Theorem 4.6 erfüllt und die Aussage folgt. 

Bemerkung 6.11. Die Bedingung 

( k∑ 

) 

P θ (0) c i µ i (ˆθ i, r n − θi ∗ ) = 0 ∀n ≥ N 

i=1 

N→∞ 

−→ 1 

impliziert (iii) von Theorem 6.10.


Korollar 6.12. Unter den Voraussetzungen von Theorem 6.10 gilt 

und folglich insbesondere auch 

l n (θ ∗ ) − l n (ˆθ r n) = O p (1) 

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n). 

Beweis. Ohne Einschränkung der Allgemeinheit wird angenommen, dass θ ∗ = 0 ist. Dieses 

kann durch Umparametrisierung mit θ ↦→ θ − θ ∗ erreicht werden. Die Taylorentwicklung 

zweiter Ordnung um null liefert 

l n (ˆθ r i, n) − l n (0) = 

k∑ 

i=1 

n i A (i) 

n i 

ˆθr i, n + 

Mit Voraussetzung (i) und (v) gilt 

k∑ 

i=1 

n i 

n µ i ˆθ r i, n = 

Somit erhält man zusammen 

Mit √ n i (A (i) 

n i 

l n (ˆθ r i, n) − l n (0) = 

+ 

= 

k∑ 

i=1 

k∑ 

i=1 

k∑ 

c i µ i ˆθr i, n + 

i=1 

n i 

2 ˆθ r i, nB (i) 

n i 

ˆθr i, n + 

k∑ 

n ‖ ˆθ i, r n ‖ 3 O p (1). 

i=1 

k∑ 

o(1/ √ n)µ i ˆθr i, n 

i=1 

k∑ 

o p (‖ ˆθ i, r n ‖ 2 ) + 

i=1 

k∑ 

n ‖ ˆθ i, r n ‖ 3 O p (1) + 

i=1 

n i (A (i) 

n i 

− µ i )ˆθ r i, n + 

k∑ 

i=1 

k∑ 

o p (‖ ˆθ i, r n ‖ / √ n). 

i=1 

k∑ 

n o p (‖ ˆθ i, r n ‖ 2 ) + 

i=1 

=: I + II + III + IV + V. 

− µ i ) = O p (1), B (i) 

n i 

n i 


n i 

ˆθr i, n 

k∑ √ n op (‖ ˆθ i, r n ‖) 

i=1 

= −D i + o p (1) und ˆθ r i, n = O p(n − 1 2 ) gilt 

I = 

II = 

III = 

IV = 

V = 

k∑ 

i=1 

k∑ 

i=1 

√ 

ni 

√ 

ni (A (i) 

n i 

− µ i )ˆθ r i, n = 

n i 


n i 

ˆθr i, n = 

k∑ 

i=1 

k∑ 

n ‖ ˆθ i, r n ‖ 3 O p (1) = 

i=1 

k∑ 

n o p (‖ ˆθ i, r n ‖ 2 ) = 

i=1 

k∑ √ √ n ( ci + o(1)) O p (1)O p (n − 1 2 ) = Op (1), 

i=1 

n c i + o(1) 

2 

O p (n − 1 2 )(−Di + o p (1))O p (n − 1 2 ) = Op (1), 

k∑ 

n O p (n − 3 2 )Op (1) = O p (n − 1 2 ) = Op (1), 

i=1 

k∑ 

n o p (n −1 ) = o p (1) = O p (1), 

i=1 

k∑ √ n op (‖ ˆθ i, r n ‖) = √ n o p (n − 1 2 ) = op (1) = O p (1). 

i=1


Bemerkung 6.13. Theorem 6.10 umfasst bis auf Bedingung B4 auch die Voraussetzungen 

von Theorem 6.7. Somit stellen diese zusammen Bedingungen dar, unter denen die asymptotische 

Normalität der Likelihood-Quotienten-Statistik gilt. 

6.3 Beispiel 

Beispiel 6.14. Betrachtet werden zwei normalverteilte Stichproben X 11 , . . . , X 1n1 ∼ N (θ 1 , σ 2 ) 

und X 21 , . . . , X 2n2 ∼ N (θ 2 , σ 2 ) mit bekannter Varianz σ 2 . Für n = n 1 + n 2 wird 

vorausgesetzt. Der Hypothesenraum sei 

n 1 

n = c 1 + o(n −1 ) 

Θ 0 = { θ = (θ 1 , θ 2 ) ∈ R 2 : θ 1 − θ 2 ≥ ∆ } 

mit ∆ > 0. Es soll die asymptotische Verteilung des Likelihood-Quotienten unter der Alternative 

θ (0) = (0, 0) hergeleitet werden. 

Die Voraussetzungen von Theorem 6.7 und 6.10 sollen hier nicht im einzelnen diskutiert werden, 

da die Anwendung der Resultate im Vordergrund stehen sollen. Die vorliegende Normalverteilung 

gehört einer exponentiellen Familie an. Die meisten Voraussetzungen folgen dann 

aus den Eigenschaften einer exponentiellen Familie (siehe hierzu zum Beispiel Brown u. a. 

(1981)). Die Voraussetzungen (v) und (vi) von Theorem 6.10 sind hingegen nicht ersichtlich 

und werden kurz diskutiert. Für i = 1, 2 erhält man 

E θ 

(0) 

i 

[ 

d 2 /dθ 2 i log f i (X i1 , θ i ) ] = − 1 σ 2 

unabhängig von θ i . Folglich ist Bedingung (vi) erfüllt. Der restringierte ML-Schätzer liegt 

asymptotisch fast sicher auf dem Rand der Hypothese Θ 0 . Mit Hilfe des Satzes von der 

majorisierten Konvergenz kann Integration und Differentiation so vertauscht werden [siehe 

hierzu Ferguson (1996, S.124)], dass 

E θ 

(0) 

i 

[d/dθ i log f i (X i1 , θ i )] = d/dθ i E θ 

(0) 

i 

[log f i (X i1 , θ i )] 

gilt. Folglich ist Bedingung (v) erfüllt, wenn die Richtungsableitung des Kullback-Leibler 

Abstands in Richtung des Randes der Hypothese Θ 0 im Punkt θ ∗ null ist. Nachstehende 

Rechnungen zur Bestimmung von θ ∗ werden dieses zeigen. 

Um Theorem 6.7 anwenden zu können, wird zunächst der Punkt in der Hypothese bestimmt, 

der den gewichteten Kullback-Leibler Abstand mit Gewichten (c 1 , 1 − c 1 ) zu θ (0) = (0, 0) 

minimiert. Hierfür bezeichne f(x, µ, σ 2 ) die Dichte der Normalverteilung mit Erwartungswert 

µ und Standardabweichung σ. Es gilt für i = 1, 2 und X i ∼ N (θ i , σ 2 ) 

K(0, θ i ) = E [ log f(X i , 0, σ 2 ) − log f(X i , θ i , σ 2 ) ] 

= 1 

2σ 2 E [ (X i − θ i ) 2 − X 2 i 

= 1 

2σ 2 ( 

σ 2 + θ 2 i − σ 2) = θ2 i 

2σ 2 . 

]

6.3. Beispiel 63 

Somit gilt 

K(θ) := K(0, θ, (c 1 , 1 − c 1 )) = c 1 θ 2 1 + (1 − c 1) θ 2 2 

2σ 2 . (6.8) 

Das Minimum von K(θ) in Θ 0 wird auf dem Rand von Θ 0 angenommen. Folglich ist 

in θ 2 zu minimieren. Aus 

G(θ 2 ) := K((θ 2 + ∆, θ 2 )) = c 1 (θ 2 + ∆) 2 + (1 − c 1 ) θ 2 2 

2σ 2 

d 

dθ 2 

G(θ ∗ 2) = 2c 1(θ ∗ 2 + ∆) + 2(1 − c 1)θ ∗ 2 

σ 2 = 2(c 1∆ − θ ∗ 2 ) 

σ 2 ! 

= 0 

schließt man θ ∗ 2 = −c 1∆ und somit θ ∗ 1 = θ∗ 2 + ∆ = −c 1∆ + ∆ = ∆(1 − c 1 ). Also ist 

θ ∗ = ∆(1 − c 1 , −c 1 ) der Punkt in der Hypothese, der den gewichteten Kullback-Leibler Abstand 

mit Gewichten (c 1 , 1 − c 1 ) zu θ (0) = (0, 0) minimiert. Einsetzen in 6.8 liefert 

Mit 

µ := K(0, θ ∗ , (c 1 , 1 − c 1 )) = c 1 ∆ 2 (1 − c 1 ) 2 + (1 − c 1 ) ∆ 2 c 2 1 

2σ 2 = c 1(1 − c 1 )∆ 2 

2σ 2 . 

Var [ log f(X i , 0, σ 2 ) − log f(X i , θ i , σ 2 ) ] = 1 

4σ 4 Var [ (X i − θ i ) 2 − Xi 

2 ] 

= 1 

4σ 4 Var [ −X i θ i + θi 

2 ] 

für i = 1, 2 und X i ∼ N (θ i , σ 2 ) erhält man 

= θ2 i 

4σ 4 Var [X i] = θ2 i 

4σ 2 

τ 2 := c 1 Var [ log f(X, 0, σ 2 ) − log f(X, θ ∗ 1, σ 2 ) ] 

+(1 − c 1 ) Var [ log f(X, 0, σ 2 ) − log f(X, θ ∗ 2, σ 2 ) ] 

= c 1(1 − c 1 ) 2 ∆ 2 + (1 − c 1 )c 2 1 ∆2 

4σ 2 

= c 1(1 − c 1 )∆ 2 

4σ 2 . 

Nach Theorem 6.7 ist dann die asymptotische Verteilung des Likelihood-Quotienten λ n unter 

der Alternative θ (0) = (0, 0) gegeben durch 

( ) 

√ 1 n 

n log λ D 

n + µ −→ N (0, τ 2 ) (6.9) 

6.3.1 Simulation 

Die Güte der Approximation (6.9) hängt vom Stichprobenumfang n ab. Die Frage ist, für 

welche Stichprobenumfänge die Approximation zu zufrieden stellenden Ergebnissen führt. 

Hierfür wird für n = 50, 100, 200, σ = 1, c 1 = 0.5, ∆ = 0.1, 0.5 

( ) 

√ 1 n 

n log λ n + µ 

(6.10)


mit jeweils 10000 Wiederholungen simuliert. Die so gewonnenen empirischen Verteilungen 

werden mit Hilfe eines QQ-Plots mit der asymptotischen Verteilung verglichen. Die Abbildungen 

6.1 und 6.2 zeigen QQ-Plots für die drei Stichprobenumfänge von n = 50, 100, 200 

und für ∆ = 0.1 bzw. für ∆ = 0.5. 

n=50 

n=100 

n=200 

Sample Quantiles 

−0.10 −0.05 0.00 0.05 0.10 


−0.10 −0.05 0.00 0.05 0.10 


−0.10 −0.05 0.00 0.05 0.10 

−4 −2 0 2 4 

−4 −2 0 2 4 

−4 −2 0 2 4 

Theoretical Quantiles 



Abbildung 6.1: P-Plots für ∆ = 0.1 

In einem QQ-Plot werden die empirischen Quantile gegen die einer Standardnormalverteilten 

abgetragen. Liegen die Punkte auf einer Geraden, stammen die simulierten Werte aus 

einer Normalverteilung mit Erwartungswert gleich dem y-Achsenabschnitt der Geraden und 

Standardabweichung gleich der Steigung. Für den Vergleich der empirischen Verteilung mit 

der asymptotischen Verteilung ist somit die Ursprungsgerade mit Steigung τ in die QQ-Plots 

einzufügen. Liegen die Punkte auf dieser Geraden stimmen die Verteilungen überein. Weiter 

ist die Gerade mit y-Aschenabschnitt √ nµ und Steigung null eingefügt. 

n=50 

n=100 

n=200 


−0.4 −0.2 0.0 0.2 0.4 


−0.4 −0.2 0.0 0.2 0.4 


−0.4 −0.2 0.0 0.2 0.4 

−4 −2 0 2 4 


−4 −2 0 2 4 


−4 −2 0 2 4 


Abbildung 6.2: P-Plots für ∆ = 0.5 

Die Abbildungen 6.1 und 6.2 zeigen, dass die empirischen Verteilungen der Verteilung von 

min(Z, √ nµ) mit Z ∼ N (0, τ 2 ) folgen. Die Punktmasse bei √ nµ entspricht gerade der Wahrscheinlichkeit, 

dass der unrestringierte ML-Schätzer in der Hypothese Θ 0 liegt. Dieses folgt 

aus der Tatsache, dass der Likelihood-Quotient stets kleiner als eins ist und genau dann eins

6.3. Beispiel 65 

ist, wenn der restringierte ML-Schätzer in der Hypothese liegt. 

In Abbildung 6.2 ist die Abhängigkeit der Approximation von der Fallzahl n gut zu erkennen. 

Je größer die Fallzahl ist, desto besser ist die Approximation. 

Ein Vergleich der Abbildungen 6.1 und 6.2 zeigt die Abhängigkeit der Approximation von ∆. 

Je größer ∆ ist bei gleicher Fallzahl n, desto besser ist die Approximation. 

Bemerkung 6.15. Dass die empirische Verteilung von (6.10) wie beim oben aufgeführten 

Beispiel den Wahrscheinlichkeitsträger (−∞, √ nµ] besitzt, ist ein allgemein gültiges Phänomen, 

unabhängig von der zugrunde liegenden Verteilung der Stichprobe. Die asymptotische 

Verteilung von (6.10) (Normalverteilung) hat hingegen den Träger R. Dennoch ist für die Fallzahlplanung 

die Approximation durch die asymptotische Verteilung hinsichtlich des beschriebenen 

Phänomens unproblematisch, da bei der Fallzahlplanung nach Kapitel 7 der p-Wert 

von 

√ c α n µ + √ n 

mit c α < 0 approximiert wird, also ein Wert kleiner √ nµ betrachtet wird.

Kapitel 7 

Asymptotische Fallzahlplanung 

beim Likelihood-Quotienten-Test 

In diesem Kapitel wird kurz skizziert, wie die Resultate aus den vorhergehenden Kapiteln zur 

Konstruktion eines Likelihood-Quotienten-Tests und zur Fallzahlplanung beim Likelihood- 

Quotienten-Test genutzt werden können. Insbesondere wird gezeigt, dass die asymptotisch 

optimale Fallzahlaufteilung den Quotienten 

K(θ (0) , θ ∗ , c) 

τ(θ (0) , θ ∗ , c) 

mit τ 2 (θ (0) , θ ∗ , c) = ∑ [ 

] 

k 

i=1 c i Var (0) θ 

log f(X i1 , θ (0) 

i 

) − log f(X i1 , θi ∗) in c maximiert. Im Folgenden 

wird angenommen, dass die jeweils benötigten Bedingungen zur Anwendung der Theo- 

i 

reme erfüllt sind. 

Konstruktion des Likelihood-Quotienten-Tests 

Zur Konstruktion des Likelihood-Quotienten-Tests ist für das gegebene Testproblem zunächst 

mit Hilfe von Theorem 5.1 die asymptotische Verteilung von −2 log λ n auf dem Rand der 

Hypothese Θ 0 zu bestimmen. Im Beispiel 5.7 ausreichend regulärer Stichproben und einer 

Hypothese, die durch einen Halbraum approximiert werden kann, führt dieses zum Beispiel 

zu einer asymptotischen Verteilung von 1/2 + 1/2χ 2 1 . Über die so gewonnene Verteilung kann 

ein kritischer Wert c α so bestimmt werden, dass die Hypothese Θ 0 für log λ n ≤ c α asymptotisch 

zum Signifikanzniveau α verworfen wird. Im finiten Fall wird der kritische Wert dann 

über den asymptotischen Wert c α approximiert, d.h. die Hypothese Θ 0 wird unabhängig vom 

Stichprobenumfang für log λ n ≤ c α verworfen. 

Fallzahlplanung beim Likelihood-Quotienten-Test 

Für einen gegebenen Parameterpunkt θ (0) in der Alternative Θ 1 wird eine Power von 1 − β 

erreicht, wenn 

P θ (0) (log λ n ≤ c α ) ≥ 1 − β (7.1) 

67

68 Kapitel 7: Asymptotische Fallzahlplanung beim LQ-Test 

gilt. Die asymptotische Verteilung des Likelihood-Quotienten unter der Alternative θ (0) ∈ Θ 1 

ist nach Theorem 6.7 gegeben durch 

( ) 

√ 1 n 

n log λ D 

n + µ(c) −→ N (0, τ 2 (c)), 

mit 

und 

τ 2 (c) = 

k∑ 

i=1 

c i Var θ 

(0) 

i 

µ(c) = K(θ (0) , θ ∗ , c) 

[ 

] 

log f(X i1 , θ (0) 

i 

) − log f(X i1 , θi ∗ ) . 

Sei u α das α-Quantil der Standard-Normalverteilung. Für die Bedingung (7.1) gilt 

P θ (0) (log λ n ≤ c α ) ≥ 1 − β 

( ( √n τ(c) 

−1 1 

n log λ n + µ(c)) 

⇔ P θ (0) 

≤ √ ( )) 

1 

n τ(c) −1 n c α + µ(c) ≥ 1 − β, 

was wiederum asymptotisch äquivalent zu 

√ n τ(c) 

−1 

( 1 

n c α + µ(c)) 

≥ u 1−β 

⇔ 

√ n µ(c) 

τ(c) + 

c α 

√ n τ(c) 

≥ u 1−β 

ist. Ist die Fallzahlaufteilung c gegeben, ist folglich die benötigte minimale Gesamtfallzahl 

gegeben durch 

{ 

N ∗ = min n ∈ N : √ n µ(c) 

} 

τ(c) + c 

√ α 

≥ u 1−β . 

n τ(c) 

Ist hingegen die Fallzahlaufteilung c nicht festgelegt, so ist zur Reduzierung der benötigten 

Gesamtfallzahl zunächst die optimale asymptotische Fallzahlaufteilung zu berechnen. Eine 

optimale Fallzahlaufteilung ist gegeben, wenn keine andere Aufteilung der Fallzahlen eine 

bessere Power bei gleicher Gesamtfallzahl aufweist. Folglich ist 

√ n 

µ(c) 

τ(c) + 

c α 

√ n τ(c) 

in c zu maximieren. Da für großes n der Term µ(c)/τ(c) dominiert, ist die asymptotisch 

optimale Fallzahl gegeben durch 

{ 

} 

c ∗ µ(c) 

k∑ 

= arg sup 

τ(c) : c ∈ [0, 1]k mit c i = 1 . 

Die minimal benötigte Gesamtfallzahl ist dann gegeben durch 

{ 

N ∗ = min n ∈ N : √ n µ(c∗ ) 

τ(c ∗ ) + 

i=1 

c α 

√ n τ(c ∗ ) ≥ u 1−β 

} 

.

69 

Beispiel 7.1. Das Beispiel 6.14 zweier normalverteilter Stichproben X 11 , . . . , X 1n1 ∼ N (θ 1 , σ 2 ) 

und X 21 , . . . , X 2n2 ∼ N (θ 2 , σ 2 ) mit bekannter Varianz σ 2 wird fortgeführt. Also sei der Hypothesenraum 

wieder 

Θ 0 = { θ = (θ 1 , θ 2 ) ∈ R 2 : θ 1 − θ 2 ≥ ∆ } 

mit ∆ > 0 und θ (0) = (0, 0). Dann gilt nach Beispiel 6.14 

µ(c) 

τ(c) = c 1(1 − c 1 )∆ 2 

2σ 2 

√ 

2σ 

√ 

c1 (1 − c 1 )∆ = c1 (1 − c 1 )∆ 

. 

σ 

Folglich ist asymptotisch die Fallzahlaufteilung c ∗ = (0.5, 0.5) optimal, d.h. die Aufteilung der 

Gesamtstichprobe auf die beiden Gruppen erfolgt zu gleichen Teilen. In Tabelle 7.1 ist eine 

Auswahl von benötigten Gesamtfallzahlen in Abhängigkeit von ∆/σ und der zu erreichenden 

Power 1 − β aufgeführt. Hierbei wurde ein Signifikanzniveau von 5% angenommen. 

1 − β 

∆/σ 0.7 0.8 0.9 

0.1 1487 1796 2316 

0.2 372 449 579 

0.3 166 200 258 

0.4 93 113 145 

0.5 60 72 93 

Tabelle 7.1: Benötigte Gesamtfallzahlen

Kapitel 8 

Ausblick 

Für allgemeine Hypothesenräume und k-Stichproben wurde die asymptotische Verteilung 

der Likelihood-Quotienten-Statistik unter der Hypothese und unter einer festen Alternative 

bestimmt. Diese ermöglichen die Konstruktion eines Likelihood-Quotienten-Tests sowie die 

Durchführung einer Fallzahlplanung. 

Die Anwendung der vorgestellten Resultate ist in einer Vielzahl von praktisch relevanten Testproblemen 

zu finden. Neben den in dieser Arbeit untersuchten Nicht-Unterlegenheitstests 

für den Zwei-Stichprobenfall ist inbesonders der 3-Stichprobenfall von aktuellem Interesse. 

Hierzu sind bisher wenige methodische Arbeiten zu finden. Das zunehmende Interesse an 

dreiarmigen Nicht-Unterlegenheitstests ist vor dem Hintergrund der so genannten ” 

assay sensitivity“ 

zu sehen. Diese bezeichnet die Fähigkeit einer Studie bzw. eines Testes zwischen 

einer wirksamen und einer nicht wirksamen Therapie zu unterscheiden. So empfehlen Pigeot 

u. a. (2003) das Einbeziehen eines zusätzlichen Placebos zur aktiven Kontrollgruppe beim 

Nicht-Unterlegenheitstest. Basierend auf einen modifizierten t-Test leiten Pigeot u. a. (2003) 

eine Testentscheidung für den dreiarmigen Nicht-Unterlegenheitstest unter normalverteilten 

Stichproben mit homogenen Varianzen her. Ng (2000) hingegen löst Testprobleme mit drei 

oder mehr Stichproben über ” 

Intersection-Union-Tests“ mit paarweise durchgeführten Vergleichen. 

Die in dieser Arbeit vorgestellte Methodik ist bei Munk u. a. (2006) wieder zu finden. 

Sie untersuchen basierend auf der Likelihood-Quotienten-Statistik allgemeine Hypothesen in 

dreiarmigen klinischen Studien unter binomialverteilten Stichproben. 

Aus medizinischer Sicht können die folgenden Problemstellungen von Interesse sein: 

1. Die Nicht-Unterlegenheit der Testtherapie T gegenüber einer Referenztherapie R 1 und/ 

oder einer Referenztherapie R 2 . 

2. Die Nicht-Unterlegenheit der Testtherapie T 1 und/oder der Testtherapie T 2 gegenüber 

einer Referenztherapie R. 

3. Die Nicht-Unterlegenheit der Testtherapie T gegenüber einer Referenztherapie R und 

die Überlegenheit der Referenztherapie R gegenüber einem Placebo P . 

4. Die Nicht-Unterlegenheit der Testtherapie T gegenüber einer Referenztherapie R und 

die Überlegenheit der Testtherapie T gegenüber einem Placebo P . 

71

72 Kapitel 8: Ausblick 

Diese Problemstellungen werden jeweils durch eine der drei nachstehenden Hypothesen beschrieben. 

Sei δ i,j ein Diskrepanzmaß für Gruppe i und j, i, j = 1, 2, 3: 

(a) H 0 : δ 1,2 ≥ ∆ 1 ∨ δ 1,3 ≥ ∆ 2 vs. H 1 : δ 1,2 < ∆ 1 ∧ δ 1,3 < ∆ 2 , 

(b) H 0 : δ 1,2 ≥ ∆ 1 ∧ δ 1,3 ≥ ∆ 2 vs. H 1 : δ 1,2 < ∆ 1 ∨ δ 1,3 < ∆ 2 , 

(c) H 0 : δ 1,2 ≥ ∆ 1 ∨ δ 2,3 ≥ ∆ 2 vs. H 1 : δ 1,2 < ∆ 1 ∧ δ 2,3 < ∆ 2 . 

In dieser Arbeit wurden die theoretischen Grundlagen gelegt, um Likelihood-Quotienten-Tests 

für die aufgeführten Hypothesen (a)-(c) zu konstruieren und eine Fallzahlplanung durchzuführen. 

Die explizite Durchführung stellt eine interessante Aufgabenstellung für weitere 

Arbeiten dar. 

Weitere interessante Fragestellungen tauchen im Rahmen von dreiarmigen Nicht-Unterlegenheitstests 

sind bei Tests zur Retention eines Kontrolleffektes auf. Hierbei wird die Nichtunterlegenheit 

einer Test- gegenüber einer Referenztherapie über die Retention eines vorgegebenen 

Anteils eines Kontrolleffektes definiert statt über eine feste Nicht-Unterlegenheitsmarge, wie 

in dieser Arbeit vorgestellt wurde. Dieses führt für normalverteilte Stichproben beispielsweise 

zu folgender Hypothese: 

H 0 : µ 1 ≥ µ 2 ∨ µ 1 ≤ h(µ 2 , µ 3 ), 

wobei µ i Erwartungswert der jeweiligen Stichprobe ist und h : R 2 → R bestimmte Regularitätsbedingungen 

erfüllt. Bei anderen Verteilungen der Stichproben treten Hypothesen 

gleichen Typs auf, und folglich können die zugehörigen Testprobleme mit der in dieser Arbeit 

vorgestellten Vorgehensweise gelöst werden. 

Abschließend wird erneut hervorgehoben, dass die präsentierten Resultate zwar durch Nicht- 

Unterlegenheits-Tests motiviert sind, aber dennoch Allgemeingültigkeit besitzen und folglich 

auf weitere Fragestellungen angewandt werden können.

Anhang A 

Verwendete Sätze 

Theorem A.1 (Gesetz der großen Zahlen). X 1 , X 2 , . . . seien unabhängig, identisch verteilte 

Zufallsvariablen und X n = n −1 ∑ n 

i=1 X i. 

(i) (Schwaches Gesetz) Für E|X 1 | < ∞ gilt X n 

P 

−→ µ = EX 1 . 

(ii) (Starkes Gesetz) X n 

a.s. 

−→ µ ⇔ E|X 1 | < ∞ und µ = EX 1 

Beweis. Siehe Ferguson (1996, Kapitel 4, Satz 4). 

Theorem A.2 (Zentraler Grenzwertsatz). X 1 , X 2 , . . . seien unabhängig, identisch verteilte 

Zufallsvariablen mit Erwartungswert µ und endlicher Kovarianzmatrix Σ. Dann gilt für 

X n = n −1 ∑ n 

i=1 X i 

√ n (Xn − µ) 

Beweis. Siehe Ferguson (1996, Kapitel 5, Satz 5). 

D −→ N (0, Σ). 

Theorem A.3 (Slutsky’s Theorem). X n und Y n seien Folgen von Zufallsvariablen. C(f) 

bezeichne die Menge der Stetigkeitsstellen von der Funktion f. 

(i) Wenn X n ∈ R d , X n 

(ii) Wenn X n 

D −→ X und f : R d → R k mit P (X ∈ C(f)) gilt, dann gilt 

f(X n ) 

D −→ f(X). 

D 

P 

−→ X und (Xn − Y n ) −→ 0 gilt, dann gilt 

(iii) Wenn X n ∈ R d , Y n ∈ R k , X n 

(iv) Wenn X n ∈ R d , X n 

Y n 

D −→ X. 

D 

D 

−→ X und Yn −→ c gilt, dann gilt 

(X n , Y n ) D −→ (X, c). 

P 

−→ X und f : R d → R k mit P (X ∈ C(f)) gilt, dann gilt 

f(X n ) 

73 

P 

−→ f(X).

74 

(v) Wenn X n 

P 

P 

−→ X und (X n − Y n ) −→ 0 gilt, dann gilt 

(vi) Wenn X n ∈ R d , Y n ∈ R k , X n 

Y n 

P 

−→ X. 

P 

P 

−→ X und Y n −→ Y gilt, dann gilt 

(X n , Y n ) 

P 

−→ (X, Y ). 

(vii) Die Aussagen (iv)-(vi) sind ebenfalls für fast sichere Konvergenz gültig. Das heißt, überall 

wo −→ P in (iv)-(vi) auftaucht, ist es durch −→ a.s. zu ersetzen, damit die Aussagen gültig 

bleiben. 

Beweis. Siehe Ferguson (1996, Kapitel 6, Satz 6 und 6’). 

Theorem A.4 (Mickey’s Theorem). Q sei eine Funktion, die auf X×Θ definiert ist, wobei 

X ein euklidischer Raum und Θ kompakte Teilmenge eines euklidischen Raumes sind. Die 

Funktion Q(x, θ) sei in θ für alle x stetig und in x für alle θ messbar. Weiter sei h eine bezüglich 

einer auf X definierten Verteilungsfunktion F integrierbare Funktion mit |g(x, θ)| ≤ h(x) für 

alle x und θ. Dann gilt für X 1 , X 2 , . . . mit X i ∼ F , dass 

n∑ 

∫ 

n −1 Q(X i , θ) −→ 

a.s. Q(x, θ) dF (x) 

gleichmäßig in θ ∈ Θ. 

i=1 

Beweis. Siehe Jennrich (1969, Theorem 2). 

Theorem A.5 (White’s Lemma). Seien Q n Funktionen, die auf X × Θ definiert sind, 

wobei X ein euklidischer Raum und Θ kompakte Teilmenge eines euklidischen Raumes ist. 

Die Funktionen Q n (x, θ) seien in θ für alle x stetig und in x für alle θ messbar. Dann existieren 

messbare Funktionen ˆθ n (x) mit 

für alle x in X. Wenn 

Q n (x, ˆθ n (x)) = inf 

θ∈Θ Q n(x, θ) 

|Q n (x, θ) − ¯Q n (θ)| a.s. −→ 0 

gleichmäßig für alle θ ∈ Θ gilt und ¯Q n (θ) eindeutiges Minimum bei θ 0 hat, dann gilt 

Beweis. Siehe White (1980, Lemma 2.2). 

ˆθ n 

a.s. 

−→ θ 0 . 

Theorem A.6 (Amemiya’s Lemma). Q n seien Funktionen, die auf X × Θ definiert sind, 

wobei X ein euklidischer Raum und Θ kompakte Teilmenge eines euklidischen Raumes sind. 

Die Funktionen Q n (x, θ) seien in θ für alle x stetig und in x für alle θ messbar. Wenn 

Q n (x, θ) a.s. −→ Q(θ) 

gleichmäßig für alle θ ∈ Θ gilt, dann gilt für ˆθ n (x) a.s. −→ θ 0 

Beweis. Siehe Amemiya (1973, Lemma 4). 

Q n (x, ˆθ n (x)) a.s. −→ Q(θ 0 ).

Literaturverzeichnis 

[Amemiya 1973] Amemiya, T.: Regression analysis when the dependent variable is truncated 

normal. In: Econometrica 41 (1973), S. 997–1016 

[Blackwelder 1982] Blackwelder, W. C.: Proving the null hypothesis“in clinical trials. 

” 

In: Controlled Clinical Trials 3 (1982), S. 345–353 

[Brown u. a. 1981] Brown, L. ; Johnstone, I. ; MacGibbon, B.: Variation diminishing 

transformations: A direct approach to total positivity and its statistical applications. In: 

J. Amer. Statist. Assoc. 76 (1981), S. 824–832 

[Brown 1986] Brown, L.D.: Fundamentals of statistical exponential families : with applications 

in statistical decision theory. Hayward, Calif. : Inst. of Math. Statist., 1986 

[Chan 1998] Chan, I. S. F.: Exact tests of equivalence and efficacy with a non-zero lower 

bound for comparative studies. In: Statistics in Medicine 17 (1998), S. 1403–1413 

[Chernoff 1954] Chernoff, H.: On the distribution of the likelihood ratio. In: Ann. Math. 

Statist. 25 (1954), S. 573–578 

[Dunnett und Gent 1977] Dunnett, C. W. ; Gent, M.: Significance testing to establish 

equivalence between treatments, with special reference to data in the form of 2x2 tables. 

In: Biometrics 33 (1977), S. 593–602 

[Farrington und Manning 1990] Farrington, C. P. ; Manning, G.: Test statistics and 

sample size formulae for comparative binomial trials with null hypothesis of non-zero risk 

difference or non-unity relative risk. In: Statistics in Medicine 9 (1990), S. 1447–1454 

[Feder 1968] Feder, P.I.: On the distribution of the log likelihood ratio test statistic when 

the true parameter is near the boundaries of the hypothesis regions. In: Ann. Math. Statist. 

39 (1968), S. 2044–2055 

[Ferguson 1996] Ferguson, T.S.: A course in large sample theory. Chapman & Hall, 1996 

[Hauschke u. a. 1999] Hauschke, D. ; Kieser, M. ; Diletti, E. ; Burke, M.: Sample 

size determination for proving equivalence based on the ratio of two means for normally 

distributed data. In: Statistics in Medicine 18 (1999), S. 93–105 

[Jennrich 1969] Jennrich, R.: Asymptotic Properties of Non-linear Least Squares Estimators. 

In: Ann. Math. Statist. 40 (1969), S. 633–643 

[Johnson und Welch 1940] Johnson, N.L. ; Welch, B.L.: Applications of the non-Central 

t-distribution. In: Biometrika 31 (1940), S. 362–389 

75

76 

[Karlin 1968] Karlin, S.: Total Positivity. Stanford University Press, 1968 

[Krengel 1988] 

Vieweg, 1988 

Krengel, U.: Einführung in die Wahrscheinlichkeitstheorie und Statistik. 

[Lange und Freitag 2005] Lange, S. ; Freitag, G.: Choice of Delta: Requirements and Reality 

- Results of a Systematic Review. In: Biometrical Journal (Special Issue on Therapeutic 

Equivalence: Editors A. Munk, H.-J. Trampisch) 47 (2005), Nr. 1, S. 12–27 

[Lehmann 1986] 

Verlag, 1986 

Lehmann, E. L.: Testing Statistical Hypotheses. 2. New York : Springer 

[Liu und Weng 1994] Liu, J. P. ; Weng, C. S.: Evaluation of log-transformation in assessing 

bioequivalence. In: Comm. in Statist. - Theory and Methods 23 (1994), S. 421–434 

[Munk u. a. 2006] Munk, A. ; Skipka, G. ; Freitag, G.: Testing non-inferiority in threearmed 

clinical trials based on the likelihood ratio statistics. In: Can. J. Stat. (acc.) (2006) 

[Ng 2000] Ng, T.-H.: Equivalence testing with three or more treatment groups. In: J. 

Amer. Statist. Assoc.: Proceeding of the Biopharmaceutical Section (2000), S. 156–160 

[Pigeot u. a. 2003] Pigeot, I. ; Schäfer, J. ; Röhmel, J. ; Hauschke, D.: Assessing 

non-inferiority of a new treatment in a three-arm clinical trial including a placebo. In: 

Statistics in Medicine 22 (2003), S. 883–899 

[Röhmel und Mansmann 1999] Röhmel, J. ; Mansmann, U.: Unconditional nonasymptotic 

one-sided tests for independent binomial proportions when the interest lies in 

showing non-inferiority and/or superiority. In: Biometrical Journal 41 (1999), S. 149–170 

[Self und Liang 1987] Self, S.G ; Liang, K.-Y.: Asymptotic Properties of Maximum 

Likelihood Estimators and Likelihood Ratio Tests Under Nonstandard Conditions. In: J. 

Amer. Statist. Assoc. 82 (1987), S. 605–610 

[Tang und Tang 2004] Tang, M.-L. ; Tang, N.-S.: Tests of noninferiority via rate difference 

for three-arm clinical trials with placebo. In: Journal of Biopharmaceutical Statistics 14 

(2004), S. 337–347 

[Wald 1949] Wald, A.: Note on the consistency of the maximum likelihood estimate. In: 

Ann. Math. Statist. 20 (1949), S. 595–601 

[White 1980] White, H.: Nonlinear regression on cross-section data. In: Econometrica 48 

(1980), S. 721–746 

[White 1981] White, H.: Consequences and detection of misspecified nonlinear regression 

models. In: J. Amer. Statist. Assoc. 76 (1981), S. 419–433 

[White 1982] White, H.: Maximum likelihood estimation of misspecified models. In: 

Econometrica 50 (1982), S. 1–26 

[Wilks 1938] Wilks, S.S.: The large-sample distribution of the likelihood ratio for testing 

composite hypotheses. In: Ann. Math. Statist. 9 (1938), S. 60–62 

[WMA ] WMA: World Medical Association Declaration of Helsinki. Ethical Principles for 

Medical Research Involving Human Subjects. http://www.wma.net/e/policy/b3.htm

Danksagung 

Als Erstes möchte ich Herrn Prof. Dr. Axel Munk für die intensive persönliche Betreuung 

nicht nur meiner Diplomarbeit, sondern meines gesamten Studiums ganz herzlich danken. 

Des Weiteren möchte ich mich bei Frau Dr. Fadoua Balabdaoui, Herrn Dr. Leif Boysen und 

Herrn Dr. Hajo Holzmann für anregende Diskussionen und ihre Korrekturen bedanken. Ausserdem 

danke ich Herrn Prof. Dr. Martin Schlather für die Übernahme des Koreferats. 

Daneben möchte ich mich bei meinen Kommilitonen Jörn und Andreas, bei meiner Freundin 

Merle und natürlich ganz besonders bei meinen Eltern, Rainer und Waltraud Mielke, für ihre 

Unterstützung bedanken. 

79

Die asymptotische Verteilung des Likelihood-Quotienten-Tests für ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?