27.08.2014 Aufrufe

Die asymptotische Verteilung des Likelihood-Quotienten-Tests für ...

Die asymptotische Verteilung des Likelihood-Quotienten-Tests für ...

Die asymptotische Verteilung des Likelihood-Quotienten-Tests für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Die</strong> <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong><br />

<strong>Likelihood</strong>-<strong>Quotienten</strong>-<strong>Tests</strong> <strong>für</strong><br />

allgemeine Hypothesenräume<br />

Diplomarbeit<br />

vorgelegt von<br />

Matthias Mielke<br />

aus Uslar<br />

angefertigt im<br />

Institut <strong>für</strong> Mathematische Stochastik<br />

der Georg-August-Universität Göttingen<br />

2006


Inhaltsverzeichnis<br />

1 Einleitung 3<br />

2 Notationen und Grundlagen 7<br />

2.1 Notationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />

2.2 Modelle und Bedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

2.3 <strong>Likelihood</strong>-<strong>Quotienten</strong>-Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

2.4 Approximation zweier Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

3 Nicht-Unterlegenheitstests im 2-Stichprobenfall unter Normalverteilung 17<br />

3.1 Modell und Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

3.2 <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test und t-Statistiken . . . . . . . . . . . . . . . . . . 18<br />

3.3 Power- und Fallzahlberechnungen . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

3.3.1 Rechenprobleme und Approximationen <strong>für</strong> große Stichproben . . . . . 25<br />

4 Asymptotik <strong>des</strong> ML-Schätzers 29<br />

4.1 Asymptotische Normalität <strong>des</strong> ML-Schätzers im 1-Stichprobenfall . . . . . . . 29<br />

4.2 Asymptotische Normalität <strong>des</strong> ML-Schätzers im k-Stichprobenfall . . . . . . . 33<br />

4.3 Asymptotik <strong>des</strong> eingeschränkten ML-Schätzers . . . . . . . . . . . . . . . . . 35<br />

5 Asymptotische <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik auf dem Rand<br />

der Hypothese 41<br />

5.1 Asymptotische <strong>Verteilung</strong> nach Chernoff <strong>für</strong> den k-Stichprobenfall . . . . . . 41<br />

5.2 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46<br />

6 Asymptotische <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik unter fester<br />

Alternative 49<br />

6.1 Asymptotik im 1-Stichprobenfall . . . . . . . . . . . . . . . . . . . . . . . . . 49<br />

6.2 Asymptotik im k-Stichprobenfall . . . . . . . . . . . . . . . . . . . . . . . . . 55<br />

6.3 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />

6.3.1 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />

7 Asymptotische Fallzahlplanung beim <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test 67<br />

8 Ausblick 71<br />

A Verwendete Sätze 73


Kapitel 1<br />

Einleitung<br />

Ziel von klinischen Studien ist es, die Wirksamkeit einer neuen Therapiemethode anhand eines<br />

klinischen Kriteriums nachzuweisen. Mögliche Kriterien sind zum Beispiel die Sterbewahrscheinlichkeit<br />

der Patienten oder die Reduzierung von Schmerzen. Eine klassische Methode<br />

ist die Überlegenheit einer Therapie gegenüber eines Placebos und somit die Wirkung der<br />

Therapie nachzuweisen. <strong>Die</strong> Verwendung von Placebos in der Kontrollgruppe führt bei einigen<br />

Indikationen und Krankheiten zu ethischen Problemen. So konstatiert die World Medical<br />

Association in ihrer Erklärung von Helsinki, siehe WMA: ”<br />

The benefits, risks, burdens and<br />

effectiveness of a new method should be tested against those of the best current prophylactic,<br />

diagnostic, and therapeutic methods. This does not exclude the use of placebo, or no<br />

treatment, in studies where no proven prophylactic, diagnostic or therapeutic method exists.“<br />

Daher ist es heutzutage üblich eine neue Therapie mit einer etablierten Standardtherapie zu<br />

vergleichen, was oftmals kleinere Unterschiede zwischen der neuen Therapie und der Kontrolltherapie<br />

impliziert. Um diese Unterschiede mit einer vorgegebenen Wahrscheinlichkeit (der so<br />

genannten Power) nachzuweisen, wird folglich eine vergleichsweise große Anzahl von Patienten<br />

benötigt. Aus diesem Grund ist es in dem letzten Jahrzehnt zunehmend populär geworden,<br />

die Gleichwertigkeit von einer neuen Therapie und einem etablierten Standard und nicht<br />

die Überlegenheit nachzuweisen. Genauer will man im Allgemeinen die Nicht-Unterlegenheit<br />

(englisch: Non-Inferiority) der neuen Therapie zeigen. Nicht-Unterlegenheit bedeutet, dass<br />

die neue Therapie besser oder nur unbedeutend schlechter ist als die etablierte Standardtherapie.<br />

Hierzu sind neben der Pionierarbeit von Dunnett und Gent (1977) zum Beispiel<br />

Arbeiten von Blackwelder (1982), Farrington und Manning (1990), Chan (1998), Röhmel<br />

und Mansmann (1999), Pigeot u. a. (2003) sowie von Tang und Tang (2004) zu finden. Ein<br />

weiterer Aspekt <strong>für</strong> die Fokussierung auf Nicht-Unterlegenheitstests ist im Fortschritt der<br />

medizinischen Entwicklungsabteilungen zu sehen, der es zunehmend schwieriger macht neue<br />

pharmazeutische Produkte mit besserer Wirkung hinsichtlich <strong>des</strong> eingangs erwähnten klinischen<br />

Kriteriums zu entwickeln. Der therapeutische Fortschritt ist in leichterer Handhabung,<br />

weniger oder schwächeren Nebenwirkungen oder in geringeren finanziellen Aufwendungen zu<br />

sehen. Mit Nicht-Unterlegenheitstests lässt sich dann eine hinreichende Wirkung hinsichtlich<br />

<strong>des</strong> klinischen Primärkriteriums sicherstellen.<br />

Im Folgenden wird die statistische Formulierung <strong>des</strong> Nicht-Unterlegenheitsproblems skizziert.<br />

Zunächst ist dabei ein Diskrepanzmaß, das den Unterschied zweier therapeutischer Effekte<br />

quantifiziert, zu wählen. Zur Quantifizierung eines therapeutischen Effekts ist die Verwendung<br />

3


4 Kaptitel 1: Einleitung<br />

von Lokationsmaßen, wie dem Mittelwert oder dem Median von diskreten und stetigen Kriterien,<br />

üblich. Folglich sind Diskrepanzmaße, wie Differenz der Mittelwerte, standardisierte<br />

Differenz der Mittelwerte oder Quotient der Mittelwerte, geläufig. Bezeichne δ ein Diskrepanzmaß<br />

so, dass δ > 0 im Fall von additiver Diskrepanz (z.B. Differenz der Mittelwerte)<br />

und δ > 1 im Fall von multiplikativer Diskrepanz (z.B. Quotient der Mittelwerte) zur Unterlegenheit<br />

von der Testtherapie gegenüber der Referenztherapie korrespondiert, dann ist die<br />

Hypothese <strong>des</strong> Nicht-Unterlegenheitstests mit Nicht-Unterlegenheitsmarge ∆ gegeben durch<br />

H 0 : δ ≥ ∆ vs. H 1 : δ < ∆ . (1.1)<br />

<strong>Die</strong> Nicht-Unterlegenheitsmarge ∆ ist die negative Abweichung der Testtherapie gegenüber<br />

der Referenztherapie, die aus klinischen Gesichtspunkten noch akzeptabel ist. Für die Differenz<br />

und die standardisierte Differenz der Mittelwerte gilt <strong>für</strong> δ = 0 Gleichheit der beiden<br />

Gruppen und folglich wird ∆ > 0 gewählt. Da <strong>für</strong> den <strong>Quotienten</strong> der Mittelwerte bei δ = 1<br />

Gleichheit gilt, wird hier entsprechend ∆ > 1 gewählt. Es findet aktuell eine umfassende Diskussion<br />

über die Spezifizierung der Nicht-Unterlegenheitsmarge statt. Eine allgemeine Regel<br />

kann hier jedoch nicht formuliert werden. <strong>Die</strong> Marge hängt von klinischen Aspekten wie der<br />

Indikation oder dem Kriterium ab und ist somit von entsprechenden Spezialisten oder anhand<br />

früherer klinischer Studien zu bestimmen. Ein Überblick über die aktuelle Diskussion wird<br />

zum Beispiel von Lange und Freitag (2005) gegeben. <strong>Die</strong> Fragestellung der Spezifizierung der<br />

Nicht-Unterlegenheitsmarge soll hier jedoch nicht weiter verfolgt werden.<br />

Wird die Spezifizierung <strong>des</strong> Testproblems als gegeben angenommen, umfasst der nächste<br />

Schritt die Planung der Stichprobenumfänge in Test- und Referenzgruppe. Hierbei ist aus<br />

ökonomischer Sicht eine Reduzierung <strong>des</strong> Gesamtstichprobenumfangs anzustreben. Dem entgegen<br />

steht die Anforderung, den Fehler zweiter Art unter einem vorgegebenen Niveau zu<br />

halten. Da<strong>für</strong> müssen die Stichprobenumfänge so groß zu gewählt werden, dass eine vorgegebene<br />

Power (1 − Fehler zweiter Art) erreicht wird. Es stellt sich die Frage, ob die Stichprobenaufteilung<br />

in die beiden Gruppen Einfluss auf den benötigten Gesamtstichprobenumfang<br />

nimmt. Wenn ja, welche Aufteilung führt zum minimal benötigten Gesamtstichprobenumfang?<br />

Um eine Fallzahlplanung durchführen zu können, wird die <strong>Verteilung</strong> der <strong>Tests</strong>tatistik<br />

unter der Hypothese H 0 und unter der Alternative H 1 benötigt. In Kapitel 3 werden exemplarisch<br />

<strong>für</strong> zwei normalverteilte Stichproben exakte Nicht-Unterlegenheitstests <strong>für</strong> die oben<br />

erwähnten, geläufigen Dispkrepanzmaße konstruiert und die Fallzahlplanung diskutiert. Es<br />

werden Fallzahlformeln zur Bestimmung der minimal benötigten Fallzahlen angegeben und<br />

optimale Fallzahlaufteilungen auf die Stichproben berechnet.<br />

<strong>Die</strong> präsentierten Fragestellungen zur Planung eines Nicht-Unterlegenheitstests stellen zusammen<br />

mit der Tatsache, dass sich nicht bei allen Testproblemen <strong>Tests</strong>tatistiken mit bekannten<br />

<strong>Verteilung</strong>en unter der Hypothese H 0 und unter der Alternative H 1 finden lassen, die Motivation<br />

<strong>für</strong> das Kernstück dieser Arbeit dar. Als Lösung hierzu wird der <strong>Likelihood</strong>-<strong>Quotienten</strong>-<br />

Test betrachtet, der <strong>für</strong> parametrische Familien von <strong>Verteilung</strong>en eine Methode bereitstellt,<br />

auf Parameterkonstellationen zu testen. Ziel ist es <strong>für</strong> allgemeine Hypothesenräume die <strong>asymptotische</strong><br />

<strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik unter der Hypothese und der Alternative<br />

zu berechnen und so die Konstruktion eines Testes sowie eine Fallzahlplanung zu<br />

ermöglichen. <strong>Die</strong> Arbeit beschränkt sich nicht auf den Zwei-Stichprobenfall, sondern betrachtet<br />

allgemeine Hypothesenräume, die Teilmengen eines gemeinsamen Parameterraumes von k


5<br />

unabhängigen Stichproben sind. Entscheidend ist hierbei, dass die Fallzahlen in den einzelnen<br />

Stichproben nicht von gleicher Größe sein müssen.<br />

Ein klassisches Resultat von Wilks (1938) zur <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> λ unter<br />

der Hypothese ist das folgende. Wenn die Hypothese, dass der Parameter θ in einer<br />

r-dimensionalen Hyperebene <strong>des</strong> d-dimensionalen Paramterraumes liegt, wahr ist, so gilt <strong>für</strong><br />

den <strong>Likelihood</strong>-<strong>Quotienten</strong> λ, dass −2 log λ asymptotisch χ 2 -verteilt mit d−r Freiheitsgraden.<br />

Für viele wichtige Probleme sind die Hypothesen nicht vom obigen Typ. So wird in dieser<br />

Arbeit die <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> auf dem Rand einer allgemeinen Hypothese<br />

basiernd auf Chernoff (1954) bzw. der weiterführenden Arbeit von Self und Liang (1987)<br />

untersucht. Zur <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong>s unter der Alternative wird nicht wie<br />

üblich eine lokale Alternative (siehe zum Beispiel Feder (1968)), sondern eine feste Alternative<br />

betrachtet, d.h. die Stichproben folgen unabhängig vom Stichprobenumfang einer zum festen<br />

Parameter θ (0) gehörigen <strong>Verteilung</strong>.<br />

In Kapitel 2 werden die in der Arbeit verwendeten Notationen, Modelle und Bedingungen<br />

eingeführt und einige theoretische Grundlagen bereitgestellt. In Kapitel 3 werden, wie bereits<br />

oben erwähnt, exemplarisch <strong>für</strong> zwei normalverteilte Stichproben exakte Nicht-Unterlegenheitstests<br />

konstruiert und die Fallzahlplanung diskutiert.<br />

Der Kernteil der Arbeit ist wie folgt aufgebaut: im Kapitel 4 werden theoretische Grundlagen<br />

zur Asymptotik <strong>des</strong> Maximum-<strong>Likelihood</strong>-Schätzers (ML-Schätzers) gelegt. <strong>Die</strong>se umfassen<br />

klassische Resultate zur <strong>asymptotische</strong>n Normalität <strong>des</strong> uneingeschränkten ML-Schätzers im<br />

Ein- und im k-Stichprobenfall sowie die Konvergenz <strong>des</strong> auf die Hypothese H 0 eingeschränkten<br />

ML-Schätzers.<br />

In Kapitel 5 wird die <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong>s λ auf dem Rand<br />

der Hypothese H 0 untersucht. Dazu wird die Arbeit von Chernoff (1954) auf den k-Stichprobenfall<br />

mit ungleichen Fallzahlen in den einzelnen Stichproben verallgemeinert. So wird <strong>für</strong> k unabhängige<br />

Stichproben die <strong>asymptotische</strong> <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik auf<br />

die <strong>asymptotische</strong> <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik unter einer normalverteilten<br />

Zufallsvariablen zurückgeführt. Hierbei wird vorausgesetzt, dass die Fallzahlen der einzelnen<br />

Stichproben asymptotisch von gleicher Ordnung sind und die Hypothese durch einen Kegel (in<br />

der Arbeit: positiv homogene Menge) approximiert werden kann. Das Kapitel wird durch eine<br />

Anwendung der Resultate auf den Zwei-Stichprobenfall mit einer Hypothese, die durch einen<br />

Halbraum approximiert werden kann, abgeschlossen. In diesem Fall folgt die <strong>asymptotische</strong><br />

<strong>Verteilung</strong> von −2 log λ auf dem Rand der Hypothese einer 1 2 + 1 2 χ2 1 -<strong>Verteilung</strong>.<br />

In Kapitel 6 wird die <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong>s unter einer festen<br />

Alternative θ 0 im k-Stichprobenfall untersucht. Hierbei wird gezeigt, dass der auf die Hypothese<br />

H 0 eingeschränkte ML-Schätzer mit Rate √ n gegen den Parameterwert, der den Kullback-<br />

Leibler-Abstand bzw. im k-Stichprobenfall den modifizierten Kullback-Leibler-Abstand zum<br />

wahren Wert θ 0 minimiert, konvergiert. Hierauf basierend wird die <strong>asymptotische</strong> Normalität<br />

<strong>des</strong> Logarithmus der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik unter fester Alternative hergeleitet. <strong>Die</strong><br />

gewonnenen Resultate werden exemplarisch auf den Nicht-Unterlegenheitstest unter zwei normalverteilten<br />

Stichproben und der Mittelwertdifferenz als Diskrepanzmaß angewandt.


6 Kaptitel 1: Einleitung<br />

<strong>Die</strong> Arbeit wird durch eine Diskussion zur <strong>asymptotische</strong>n Fallzahlplanung in Kapitel 7 abgeschlossen.<br />

Hier wird skizziert, wie die Resultate dieser Arbeit genutzt werden können, um<br />

<strong>für</strong> allgemeine Hypothesen einen <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test zu konstruieren und eine Fallzahlplanung<br />

durchzuführen.<br />

Zuletzt soll betont werden, dass der Schwerpunkt dieser Arbeit auf der Herausarbeitung<br />

und Bereitstellung der theoretischen Resultate liegt. Dementsprechend sind die aufgeführten<br />

Beispiele von einfacher und kompakter Natur. Sie dienen primär dazu, die Anwendung der<br />

gewonnenen theoretischen Resultate zu demonstrieren und sind nur exemplarisch an praktische<br />

Fragestellungen angelehnt. Im Gegenzug werden die Resultate unter allgemeinen und<br />

nicht sehr restriktiven Bedingungen bereitgestellt. Der allgemeine Anwendungsbezug wird<br />

schließlich im Rahmen eines Ausblickes in Kapitel 8 aufgezeigt.


Kapitel 2<br />

Notationen und Grundlagen<br />

In diesem Kapitel werden die in der Arbeit verwendeten Notationen, Modelle und Bedingungen<br />

eingeführt und einige theoretische Grundlagen bereitgestellt.<br />

2.1 Notationen<br />

Ableitungen<br />

Für X ⊆ R m ,Y ⊆ R k und eine Funktion f : X × Y → R bezeichne<br />

d<br />

f(x, y)<br />

dy<br />

die partielle Ableitung in Richtung y und entsprechend<br />

d m<br />

f(x, y)<br />

dym die m-te partielle Ableitung in Richtung y <strong>für</strong> m = 2, . . . .<br />

<strong>Likelihood</strong>funktion, ML-Schätzer, Score, Fisher-Information<br />

Seien X 1 , . . . , X n unabhängig, identisch verteilte Zufallsvariablen mit Dichte f(x, θ) bezüglich<br />

einem σ-endlichen Maß ν und Θ ⊆ R d der Parameterraum, dann bezeichne<br />

L n (θ) = L n (X 1 , . . . , X n , θ) =<br />

die <strong>Likelihood</strong>funktion und entsprechend<br />

n∏<br />

f(X i , θ)<br />

i=1<br />

l n (θ) = log L n (θ) =<br />

n∑<br />

log f(X i , θ)<br />

i=1<br />

die log-<strong>Likelihood</strong>funktion. Existiert (d 2 /dθ 2 )f(x, θ) und ist stetig, definieren wir<br />

U(x, θ) =<br />

( d<br />

dθ log f(x, θ) ) T<br />

,<br />

7


8 Kapitel 2: Notationen und Grundlagen<br />

den so genannten Scorevektor und<br />

W (x, θ) = d2<br />

log f(x, θ).<br />

dθ2 Für eine Zufallsvariable X mit Dichte f(x, θ) wird der Erwartungswert als<br />

∫<br />

E θ X := xf(x, θ) dν(x)<br />

eingeführt. <strong>Die</strong> Fisher-Informationsmatrix von X ist gegeben durch<br />

Ein Schätzer ˆθ n , der die Bedingung<br />

J(θ) = E θ [U(X, θ) · U(X, θ) T ].<br />

L n (ˆθ n ) = sup L n (θ) (2.1)<br />

θ∈Θ<br />

erfüllt, heißt Maximum-<strong>Likelihood</strong>-Schätzer (ML-Schätzer). ˆθ n bezeichne in der gesamten Arbeit<br />

stets den ML-Schätzer. Aufgrund der Monotonie <strong>des</strong> Logarithmus ist Bedingung (2.1)<br />

äquivalent zu<br />

l n (ˆθ n ) = sup l n (θ).<br />

θ∈Θ<br />

Weiter bezeichne ˆθ M n<br />

den auf eine Menge M ⊆ Θ eingeschränkten ML-Schätzer, d.h.<br />

ˆθ M n<br />

= arg sup L n (θ). (2.2)<br />

θ∈M<br />

Für k unabhängige Stichproben X 1 , . . . , X k , wobei X i = (X i1 , . . . , X ini ) mit<br />

X i1 , . . . , X ini<br />

i.i.d.<br />

∼ f i (x, θ i )<br />

<strong>für</strong> i = 1, . . . , k, wird die <strong>Likelihood</strong>funktion definiert als<br />

L n (θ) =<br />

k∏ ∏n i<br />

f i (X ij , θ i )<br />

i=1 j=1<br />

mit θ = (θ 1 , . . . , θ k ). Hierbei ist also die Gewichtung gewählt, dass alle Beobachtungen gleich<br />

gewichtet werden. Es wären zum Beispiel auch unterschiedliche Gewichte <strong>für</strong> die jeweiligen<br />

Stichproben möglich. <strong>Die</strong> Definitionen <strong>für</strong> die log-<strong>Likelihood</strong>funktion und den ML-Schätzer,<br />

sowie <strong>für</strong> den eingeschränkten ML-Schätzer übertragen sich entsprechend.<br />

Normen<br />

‖·‖<br />

‖·‖ 1<br />

euklidische Norm auf R d<br />

L 1 -Norm auf R d


2.1. Notationen 9<br />

Matrizen<br />

Für i = 1, . . . , k und beliebige Matrizen B i wird<br />

⎛<br />

⎞<br />

B 1 0 · · · 0<br />

.<br />

diag (B 1 , . . . , B k ) =<br />

0 B .. 2 .<br />

⎜<br />

⎝<br />

.<br />

. .. . ..<br />

⎟ 0 ⎠<br />

0 · · · 0 B k<br />

definiert.<br />

Für eine beliebige Matrix B sei [B] lm der Eintrag aus der l-ten Zeile und der m-ten Spalte<br />

der Matrix B.<br />

Konvergenzen<br />

Sei (X n ) n∈N<br />

eine Folge von Zufallsvektoren, dann konvergiert die Folge fast sicher gegen X,<br />

falls<br />

P (‖X n − X‖ n→∞ −→ 0) = 1,<br />

und man schreibt X n<br />

a.s.<br />

−→ X. <strong>Die</strong> Folge (X n ) n∈N<br />

konvergiert in Wahrscheinlichkeit gegen X,<br />

falls <strong>für</strong> alle ε > 0<br />

P (‖X n − X‖ > ε) n→∞ −→ 0,<br />

P<br />

und man schreibt X n −→ X. <strong>Die</strong> Folge (X n ) n∈N<br />

konvergiert in <strong>Verteilung</strong> gegen X, falls <strong>für</strong><br />

alle Stetigkeitspunkte x von F (x) gilt<br />

und man schreibt X n<br />

Landau-Symbole<br />

F n (x) = P (X n ≤ x) n→∞ −→ P (X ≤ x) = F (x),<br />

D −→ X.<br />

Für zwei deterministische Folgen (a n ) n∈N<br />

, (b n ) n∈N<br />

, b n ≠ 0, schreibt man<br />

und<br />

a n = o(b n ) :⇐⇒ a n<br />

b n<br />

n→∞<br />

−→ 0<br />

a n = O(b n ) :⇐⇒ 0 ≤ lim sup<br />

n→∞<br />

a n<br />

b n<br />

< ∞.<br />

Für zwei Folgen von Zufallsvariablen (X n ) n∈N<br />

, (Y n ) n∈N<br />

, P (Y n ≠ 0) = 1, schreibt man<br />

und<br />

X n = o p (Y n ) :⇐⇒ X n<br />

Y n<br />

P −→ 0<br />

X n = O p (Y n ) :⇐⇒ ∀ ε > 0 ∃ M , so dass sup<br />

n<br />

P<br />

(∥ ∥ )<br />

∥∥∥ X n ∥∥∥<br />

> M < ε.<br />

Y n


10 Kapitel 2: Notationen und Grundlagen<br />

Somit bezeichnet o p (1) die Konvergenz gegen null in Wahrscheinlichkeit und O p (1) die stochastische<br />

Beschränktheit einer Folge von Zufallsvariablen.<br />

Impliziert X n = O(Y n ), dass X n = O(Z n ) gilt, so schreibt man<br />

X n = O(Y n ) = O(Z n ).<br />

O(·) kann durch o(·), O p (·) oder o p (·) ersetzt werden. Zum Beispiel ist X n = o p (Y n ) = O p (Y n )<br />

stets gültig.<br />

2.2 Modelle und Bedingungen<br />

Modelle<br />

Wird im Folgenden vom 1-Stichprobenfall gesprochen, liegt das 1-Stichprobenmodell zugrunde<br />

und <strong>für</strong> den k-Stichprobenfall entsprechend das k-Stichprobenmodell.<br />

1-Stichproben-Modell: Es sei (f(x, θ)) θ∈Θ<br />

eine Familie von Wahrscheinlichkeitsdichten<br />

bezüglich einem σ-endlichen Maß ν mit Θ ⊆ R d . X 1 , . . . , X n seien unabhängig, identisch<br />

verteilte Zufallsvariablen mit Dichte f(x, θ (0) ).<br />

k-Stichproben-Modell: Für i = 1, . . . , k sei (f i (x, θ i )) θi ∈Θ i<br />

eine Familie von Wahrscheinlichkeitsdichten<br />

bezüglich einem σ-endlichen Maß ν mit Θ i ⊆ R d . X 1 , . . . , X k seien unabhängige<br />

Stichproben, wobei X i = (X i1 , . . . , X ini ) mit<br />

X i1 , . . . , X ini<br />

i.i.d.<br />

∼ f i (x, θ (0)<br />

i<br />

).<br />

Der gemeinsame Parameterraum ist gegeben durch<br />

Θ = Θ 1 × . . . × Θ k ⊆ R kd .<br />

Weiter bezeichne n = ∑ k<br />

i=1 n i die Summe der Fallzahlen aus allen k Stichproben.<br />

Bedingungen<br />

Für die Dichte f(x, θ) bezüglich einem σ-endlichen Maß ν einer Zufallsvariablen und θ (0) ,<br />

dem wahren Wert <strong>des</strong> Parameters θ, werden die Regularitätsbedingungen R definiert.<br />

Bedingungen R: Es gelte:<br />

(a) Der Parameterraum Θ ist offene Teilmenge <strong>des</strong> R d .<br />

(b) <strong>Die</strong> dritten partiellen Ableitungen von f(x, θ) bezüglich θ existieren und sind stetig <strong>für</strong><br />

alle x. Es gilt<br />

d m ∫<br />

∫ d<br />

m<br />

dθ m f(x, θ) dν(x) = f(x, θ) dν(x)<br />

dθm <strong>für</strong> m = 1, 2, 3.<br />

(c) Es existiert eine Funktion K(x) mit E θ (0)|K(X)| < ∞, so dass die Norm von d/dθ W (x, θ)<br />

gleichmäßig in einer Umgebung B θ (0) von θ (0) durch K(x) beschränkt ist.


2.2. Modelle und Bedingungen 11<br />

(d) J(θ (0) ) ist endlich und positiv definit.<br />

(e) f(x, θ) = f(x, θ (0) ) ν − f.s.<br />

⇒ θ = θ (0) [Identifizierbarkeit].<br />

(f) Für alle x und <strong>für</strong> (θ n ) n∈N ⊂ Θ mit lim n→∞ ‖ θ n ‖= ∞ gelte<br />

lim f(x, θ n) = 0<br />

n→∞<br />

Im k-Stichprobenfall sind die Regularitätsbedingungen R erfüllt, wenn <strong>für</strong> i = 1, . . . , k die<br />

Regularitätsbedingungen R <strong>für</strong> die Dichte f i (x, θ i ) erfüllt ist.<br />

Bemerkung 2.1. <strong>Die</strong> Bedingung R (b) kann mit Hilfe <strong>des</strong> Satzes von der majorisierten<br />

Konvergenz (auch: Satz von Lebesque) diskutiert werden. Siehe hierzu zum Beispiel Ferguson<br />

(1996, S.124).<br />

<strong>Die</strong> folgende Bedingung F stellt sicher, dass beim k-Stichprobenfall die Fallzahlen asymptotisch<br />

von gleicher Ordnung sind.<br />

Bedingung F: Für alle i = 1, . . . , k existiert ein c i mit 0 < c i < 1, sodass<br />

n i<br />

n −→ c i. (2.3)


12 Kapitel 2: Notationen und Grundlagen<br />

2.3 <strong>Likelihood</strong>-<strong>Quotienten</strong>-Prinzip<br />

Das <strong>Likelihood</strong>-<strong>Quotienten</strong>-Prinzip stellt <strong>für</strong> parametrische Familien von <strong>Verteilung</strong>en eine<br />

Methode bereit, um auf Parameterkonstellationen zu testen. Ein LQ-Test <strong>für</strong> unabhängig,<br />

identisch verteilte Zufallsvariablen lässt sich wie folgt konstruieren. X 1 , . . . , X n seien unabhängige,<br />

identisch verteilte Zufallsvariablen mit Dichte f im stetigen Fall, bzw. Wahrscheinlichkeitsfunktion<br />

f im diskreten Fall. Angenommen, f hängt vom Parameter θ ∈ R d<br />

ab, dann ist die <strong>Likelihood</strong>funktion <strong>für</strong> feste Stichprobe x 1 , . . . , x n gegeben durch<br />

L n (θ) =<br />

n∏<br />

f(x i , θ).<br />

i=1<br />

Es sei ein Testproblem H 0 : θ ∈ Θ 0 vs. H 1 : θ ∈ Θ 1 mit disjunkter Hypothese und Alternative<br />

und Θ = Θ 0 ∪ Θ 1 angenommen, dann ist der <strong>Likelihood</strong>-Quotient gegeben durch<br />

λ n = sup θ∈Θ 0<br />

L n (θ)<br />

sup θ∈Θ L n (θ) .<br />

Im Folgenden wird λ = λ 1 verwendet. Wenn der unbekannte wahre Wert im Parameterraum<br />

der Hypothese liegt, wird der <strong>Likelihood</strong>-Quotient <strong>für</strong> wachsen<strong>des</strong> n gegen 1 gehen,<br />

sonst gegen 0. Somit kann der <strong>Likelihood</strong>-Quotient als konsistente <strong>Tests</strong>tatistik <strong>für</strong> das oben<br />

genannte Testproblem verwendet werden. In einigen Fällen kann die exakte <strong>Verteilung</strong> <strong>des</strong><br />

<strong>Likelihood</strong>-<strong>Quotienten</strong> unter der Hypothese bestimmt werden. In anderen Fällen bestimmt<br />

man die <strong>asymptotische</strong> <strong>Verteilung</strong> von −2 log λ n . Hierbei ist die Approximation durch die<br />

<strong>asymptotische</strong> <strong>Verteilung</strong> <strong>für</strong> kleine Stichproben zu überprüfen, ob diese zu zufrieden stellenden<br />

Ergebnissen führen, d.h. das Niveau also eingehalten wird.<br />

Das <strong>Likelihood</strong>-<strong>Quotienten</strong>-Prinzip überträgt sich in analoger Weise auf k unabhängige Stichproben.<br />

<strong>Die</strong> <strong>Likelihood</strong>funktion ist dann das Produkt der <strong>Likelihood</strong>funktionen der einzelnen<br />

Stichproben und der Hypothesenraum ist Teilmenge <strong>des</strong> gemeinsamen Parameterraumes.<br />

Beispiel 2.2 (Normalverteilung). Seien die Beobachtungen multivariat normal verteilt<br />

mit Erwartungswert θ ∈ R d und bekannter Kovarianzmatrix Σ. Der empirische Mittelwert ¯X<br />

ist nach Brown (1986, Kapitel 1) eine suffiziente Statistik <strong>für</strong> θ. Da ¯X ∼ N (θ, n −1 Σ) gilt, ist<br />

es somit ausreichend, den Fall mit Stichprobenumfang 1 zu behandeln. Sei also x Beobachtung<br />

von X ∼ N (θ, Σ), dann gilt<br />

P Θ (x) := sup<br />

θ∈Θ<br />

(2π) −d/2 (det Σ) −1/2 e − 1 2 (x−θ)T Σ −1 (x−θ)<br />

= (2π) −d/2 (det Σ) −1/2 e −K Θ(x)/2 ,<br />

wobei K Θ (x) = inf θ∈Θ (x − θ) T Σ −1 (x − θ). Deshalb erhält man folgende vereinfachte Darstellung<br />

<strong>für</strong> den <strong>Likelihood</strong>-<strong>Quotienten</strong><br />

−2 log λ(x) = −2 log P Θ 0<br />

(x)<br />

P Θ (x)<br />

= K Θ0 (x) − K Θ (x).


2.4. Approximation zweier Mengen 13<br />

2.4 Approximation zweier Mengen<br />

Im Folgenden wird definiert, was unter der gegenseitigen Approximation von zwei Mengen zu<br />

verstehen ist. <strong>Die</strong> Definition ist symmetrisch in dem Sinne, dass die Rollen von der approximierten<br />

und der approximierenden Menge vertauscht werden können. <strong>Die</strong> Definition von der<br />

gegenseitigen Approximation ist so, dass die beiden Mengen beim Punkt a ∈ R d bzw. bei<br />

Annäherung an diesen Punkt nahezu ”<br />

identisch“ sind.<br />

Definition 2.3. Eine Menge M ist positiv homogen, wenn θ ∈ M ⇒ aθ ∈ M <strong>für</strong> ∀a > 0 gilt.<br />

Definition 2.4. <strong>Die</strong> Menge M ⊆ R d wird in a ∈ R d durch die Menge C M ⊆ R d approximiert,<br />

wenn<br />

und<br />

inf ‖ x − y ‖ = o(‖ y − a ‖) <strong>für</strong> y ∈ M, y → a<br />

x∈C M<br />

inf ‖ x − y ‖ = o(‖ x − a ‖) <strong>für</strong> x ∈ C M, x → a<br />

y∈M<br />

gilt. Man sagt, M wird durch C M approximiert, wenn M durch C M im Nullpunkt approximiert<br />

wird.<br />

Beispiel 2.5. <strong>Die</strong> Menge {(x, √ x) : x ∈ R} ⊆ R 2 wird durch die Menge {(0, x) : x ∈ R} im<br />

Nullpunkt approximiert, aber nicht durch {(x, 0) : x ∈ R}.<br />

Bemerkung 2.6. (a) Nach Definition ist a Häufungspunkt von M.<br />

(b) Kann die Menge M in a durch eine positiv homogene Menge, ungleich <strong>des</strong> gesamten<br />

Raumes, approximiert werden, so ist a Randpunkt der Menge M.<br />

(c) In Kapitel 5 zur <strong>asymptotische</strong>n <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik wird die<br />

zu approximierende Menge der Parameterraum der Hypothese bzw. der gesamte Parameterraum<br />

sein. <strong>Die</strong> Menge soll im Nullpunkt durch eine positiv homogene Menge approximiert<br />

werden können. <strong>Die</strong>ses ist zum Beispiel dann möglich, wenn die zu approximierende Menge<br />

durch eine glatte, den Nullpunkt enthaltende Fläche begrenzt wird. <strong>Die</strong> Menge wird dann<br />

durch die tangentiale Hyperebene am Nullpunkt und einen entsprechenden Halbraum approximiert.<br />

Das nachstehende Lemma 2.7 betrachtet den Abstand einer Folge (x n ) n∈N ⊆ R d zu einer<br />

Menge M ⊆ R d und den Abstand dieses Punktes zu einer M approximierenden Menge C M ⊆<br />

R d . Es liefert, dass die Differenz der quadrierten Abstände zu den Mengen M bzw. C M von<br />

der Ordnung o(‖ x n ‖ 2 ) <strong>für</strong> x n → 0 ist. Es gibt dementsprechend eine Fehlerabschätzung<br />

<strong>für</strong> den Wechsel von einer Menge auf die sie approximierende Menge an. Bezeichne M den<br />

Abschluss einer Menge M ⊆ R d .


14 Kapitel 2: Notationen und Grundlagen<br />

Lemma 2.7. Sei M ⊆ R d mit 0 ∈ M eine Menge, die durch die Menge C M ⊆ R d approximiert<br />

wird, so gilt <strong>für</strong> eine positiv definite Matrix P ∈ R d×d und <strong>für</strong> (x n ) n∈N ⊆ R d mit x n → 0<br />

inf (x n − θ) T P (x n − θ) = inf (x n − θ) T P (x n − θ) + o(‖ x n ‖ 2 ).<br />

θ∈M θ∈C M<br />

Beweis. Da P positiv definit ist, stellt ‖ x − θ ‖ P , definiert durch<br />

‖ x − θ ‖ 2 P = (x − θ) T P (x − θ),<br />

eine Norm auf dem R d dar. Da alle Normen auf einem endlich dimensionalen Vektorraum<br />

äquivalent sind, kann <strong>für</strong> den Beweis ohne Einschränkung der Allgemeinheit angenommen<br />

werden, dass P = I gilt, wobei I Identitätsmatrix ist. Sei (x n ) n∈N ⊆ R d Folge mit x n → 0.<br />

Betrachtet wird die Projektion der Punkte x n auf die Menge M bzw. C M<br />

θ M (x n ) := arg inf<br />

θ∈M ‖ x n − θ ‖ 2 , (2.4)<br />

θ CM (x n ) := arg inf<br />

θ∈C M<br />

‖ x n − θ ‖ 2 . (2.5)<br />

Sei M der Abschluss von M, dann folgt aus der Stetigkeit von ‖ x n − θ ‖ 2 in θ, dass<br />

inf ‖ x n − θ ‖ 2 = inf ‖ x n − θ ‖ 2<br />

θ∈M θ∈M<br />

<strong>für</strong> alle n ∈ N. Analoges gilt <strong>für</strong> die Menge C M . Deshalb kann ohne Einschränkung der<br />

Allgemeinheit angenommen werden, dass M und C M abgeschlossen in R∪{±∞} sind. Folglich<br />

sind θ M (x n ) und θ CM (x n ) <strong>für</strong> alle n ∈ N wohldefiniert.<br />

Es ist 0 ∈ C M , da nach Definition 2.4 die Null Häufungspunkt von C M ist und C M als<br />

abgeschlossen angenommen werden kann. Folglich gilt nach Definition (2.5) von θ CM (x n )<br />

‖ x n ‖≥‖ x n − θ CM (x n ) ‖ (2.6)<br />

und somit<br />

‖ θ CM (x n ) ‖<br />

‖ x n ‖<br />

≤<br />

‖ x n ‖ + ‖ x n − θ CM (x n ) ‖<br />

‖ x n ‖<br />

≤ 2. (2.7)<br />

Aus (2.7) erhält man, dass<br />

o(‖ θ CM (x n ) ‖) = o(‖ x n ‖) (2.8)<br />

und<br />

o(‖ θ CM (x n ) ‖ 2 ) = o(‖ x n ‖ 2 ) (2.9)<br />

gilt.<br />

Weiter gilt <strong>für</strong> eine beliebige Funktion L : R d → R d<br />

inf<br />

θ∈M<br />

{<br />

‖ L(θ) ‖ + ‖ L(θ) ‖<br />

2 } = inf ‖ L(θ) ‖ + inf ‖ L(θ)<br />

θ∈M θ∈M ‖2 .


2.4. Approximation zweier Mengen 15<br />

<strong>Die</strong>ses liefert<br />

inf ‖ x n − θ ‖ 2 = inf ‖ x n − θ CM (x n ) + θ CM (x n ) − θ ‖ 2<br />

θ∈M θ∈M<br />

[<br />

≤ ‖ xn − θ CM (x n ) ‖ 2 + 2 ‖ x n − θ CM (x n ) ‖ ‖ θ CM (x n ) − θ ‖ + ‖ θ CM (x n ) − θ ‖ 2]<br />

inf<br />

θ∈M<br />

= ‖ x n − θ CM (x n ) ‖ 2 + 2 ‖ x n − θ CM (x n ) ‖ inf<br />

θ∈M ‖ θ C M<br />

(x n ) − θ ‖ + inf<br />

θ∈M ‖ θ C M<br />

(x n ) − θ ‖ 2<br />

= ‖ x n − θ CM (x n ) ‖ 2 + 2 ‖ x n − θ CM (x n ) ‖ o(‖ θ CM (x n ) ‖) + o(‖ θ CM (x n ) ‖ 2 )<br />

= inf<br />

θ∈C M<br />

‖ x n − θ ‖ 2 + 2 ‖ x n − θ CM (x n ) ‖ o(‖ θ CM (x n ) ‖) + o(‖ θ CM (x n ) ‖ 2 ).<br />

<strong>Die</strong> vorletzte Gleichheit folgt durch Anwendung der Definition 2.4 <strong>für</strong> die gegenseitige Approximation<br />

zweier Mengen, die letzte Gleichheit folgt nach Definition (2.5) von θ CM (x n ).<br />

Beachte <strong>für</strong> die vorletzte Gleichheit, dass θ CM (x n ) ∈ C M und θ CM (x n ) → 0 <strong>für</strong> x n → 0 gilt.<br />

Mit den Gleichungen (2.7),(2.8) und (2.9) erhält man<br />

inf ‖ x n − θ ‖ 2 ≤ inf ‖ x n − θ ‖ 2 + 2 ‖ x n ‖ o(‖ x n ‖) + o(‖ x n ‖ 2 )<br />

θ∈M θ∈C M<br />

= inf<br />

θ∈C M<br />

‖ x n − θ ‖ 2 +o(‖ x n ‖ 2 ).<br />

Analog erhält man mit vertauschten Rollen von M und C M<br />

inf ‖ x n − θ ‖ 2 ≤ inf ‖ x n − θ ‖ 2 + o(‖ x n ‖ 2 ).<br />

θ∈C M θ∈M<br />

Zusammen liefert dieses die Behauptung<br />

inf ‖ x n − θ ‖ 2 = inf ‖ x n − θ ‖ 2 + o(‖ x n ‖ 2 ).<br />

θ∈M θ∈C M


Kapitel 3<br />

Nicht-Unterlegenheitstests im<br />

2-Stichprobenfall unter<br />

Normalverteilung<br />

In diesem Kapitel werden unter der Annahme von zwei normalverteilten Stichproben Nicht-<br />

Unterlegenheitstests konstruiert, wobei die exakten <strong>Verteilung</strong>en der zugehörigen <strong>Tests</strong>tatistiken<br />

unter der Hypothese wie auch unter der Alternative bekannt sind. Somit können <strong>für</strong> die<br />

Planung einer klinischen Studie die optimalen Fallzahlaufteilungen auf die beiden Stichproben<br />

berechnet und die benötigten Fallzahlen bei zu erreichender Power angegeben werden.<br />

Eine optimale Fallzahlaufteilung ist gegeben, wenn keine andere Aufteilung der Fallzahlen<br />

eine bessere Power bei gleicher Gesamtfallzahl aufweist. Im Abschnitt 3.3.1 werden Approximationen<br />

<strong>für</strong> die Fallzahlformeln aufgeführt, <strong>für</strong> den Fall, dass die exakten Formeln mangels<br />

entsprechender Software nicht angewandt werden können.<br />

3.1 Modell und Hypothesen<br />

Es werden zwei normalverteilte Stichproben betrachtet. <strong>Die</strong> Varianzen werden als homogen<br />

angenommen, d.h. die Varianzen in den beiden Gruppen sind identisch. <strong>Die</strong>se Voraussetzung<br />

ist a priori nicht immer gegeben und sollte zunächst durch einen Test überprüft werden. Im<br />

Fall von homogenen Varianzen kann der Vergleich zweier Gruppen jedoch auf den Vergleich<br />

der Mittelwerte reduziert werden, d.h. der Äquivalenzparameter, der die ”<br />

Differenz“ zwischen<br />

den Gruppen beschreibt, kann durch einen Term der Diskrepanz der Mittelwerte definiert<br />

werden. <strong>Die</strong>ses ermöglicht eine bedeutend einfachere Interpretation der Ergebnisse als im Fall<br />

heterogener Varianzen.<br />

Seien<br />

und<br />

X R1 , . . . , X RnR<br />

i.i.d.<br />

∼ N(µ R , σ 2 )<br />

X T 1 , . . . , X T nT<br />

i.i.d.<br />

∼ N(µ T , σ 2 )<br />

17


18 Kapitel 3: Nicht-Unterlegenheitstests im 2-Stichprobenfall unter Normalverteilung<br />

zwei unabhängige Zufallsvektoren mit gleicher, unbekannter Varianz. Beim Diskriminieren<br />

zwischen zwei Gruppen ist die Differenz zwischen den Mittelwerten,<br />

δ md = µ R − µ T ,<br />

das meist verwendete Abstandsmaß. Einige Autoren schlagen <strong>für</strong> bestimmte Situationen die<br />

Verwendung vom <strong>Quotienten</strong> der Mittelwerte,<br />

δ mr = µ R /µ T ,<br />

vor (Liu und Weng, 1994; Hauschke u. a., 1999). Wenn keine Vorinformation über die Varianzen<br />

der Daten verfügbar ist, kann die standardisierte Differenz der Mittelwerte,<br />

δ std = (µ R − µ T )/σ,<br />

verwendet werden. <strong>Die</strong>se Größe hat den zusätzlichen Anreiz, dass sie frei von Messeinheiten<br />

ist.<br />

Im folgenden wird angenommen, dass δ md , δ mr und δ std die Unterlegenheit der Testgruppe<br />

gegenüber der Referenzgruppe messen. Für δ ∈ {δ md , δ mr , δ std } ist das Testproblem, um<br />

Nicht-Unterlegenheit aufzudecken, gegeben durch<br />

H 0 : δ ≥ ∆ vs. H 1 : δ < ∆ , (3.1)<br />

wobei ∆ eine feste Nicht-Unterlegenheitsmarge ist (∆ > 0 <strong>für</strong> δ md bzw. δ std und ∆ > 1 <strong>für</strong><br />

δ mr ). <strong>Die</strong> empirischen Mittelwerte der Gruppen sind mit ¯x R beziehungsweise ¯x T bezeichnet.<br />

Ein Schätzer <strong>für</strong> die zusammengefasste Standardabweichung ist gegeben durch<br />

√ ∑nR<br />

s p = i=1<br />

(x Ri − ¯x R ) 2 + ∑ n T<br />

i=1 (x T i − ¯x T ) 2<br />

.<br />

n R + n T − 2<br />

Ferner sei (t m,ncp ) α das α-Quantil der nichtzentralen t-<strong>Verteilung</strong> mit m Freiheitsgraden und<br />

Nichtzentralitätsparameter ncp, während (t m ) α das α-Quantil der zentralen t-<strong>Verteilung</strong> ist.<br />

3.2 <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test und t-Statistiken<br />

Testen der Differenz δ md<br />

Der klassische Test <strong>für</strong> Differenzen der Mittelwerte ist der Zwei-Stichproben t-Test. <strong>Die</strong> <strong>Tests</strong>tatistik<br />

T d = x R − x T − ∆<br />

√<br />

s 1 p n R<br />

+ 1<br />

n T<br />

folgt einer nicht-zentralen t-<strong>Verteilung</strong> mit n R + n T − 2 Freiheitsgraden und Nichtzentralitätsparameter<br />

ncp d = µ R − µ T − ∆<br />

=<br />

σ√ δ md − ∆<br />

. (3.2)<br />

1<br />

n R<br />

+ 1<br />

n T<br />

σ√<br />

1<br />

n R<br />

+ 1<br />

n T


3.2 LQ-Test und t-Statistiken 19<br />

Auf dem Rand der Hypothese (δ md = ∆) folgt die <strong>Tests</strong>tatistik T d einer zentralen t-<strong>Verteilung</strong><br />

mit n R + n T − 2 Freiheitsgraden. <strong>Die</strong> Hypothese H 0 : δ md ≥ ∆ in (3.1) wird zum Niveau α<br />

<strong>für</strong><br />

T d < (t nR +n T −2) α<br />

verworfen, wobei (t m ) α das α-Quantil einer zentral t-verteilten Zufallsvariable mit m Freiheitsgraden<br />

ist. Der vorliegende Test ist äquivalent zum <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test, da <strong>für</strong><br />

¯x R −¯x T < ∆ die <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik <strong>für</strong> δ md eine strikt monotone Transformation<br />

von T d ist,<br />

λ n = sup ϑ∈Θ 0<br />

L n (ϑ)<br />

sup ϑ∈Θ L n (ϑ)<br />

=<br />

=<br />

[<br />

1 + n Rn T (x R − x T − ∆) 2<br />

n R + n T<br />

[<br />

1 +<br />

T 2 d<br />

n R + n T − 2<br />

(n R + n T − 2)s 2 p<br />

] −<br />

n R +n T<br />

2<br />

.<br />

] −<br />

n R +n T<br />

2<br />

Testen <strong>des</strong> <strong>Quotienten</strong> δ mr<br />

Verwendet man <strong>für</strong> µ T ≠ 0 den <strong>Quotienten</strong> δ mr als Abstandsmaß, kann gezeigt werden, dass<br />

der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test ebenfalls äquivalent zum t-Test ist. <strong>Die</strong> <strong>Tests</strong>tatistik<br />

T r =<br />

x R − ∆x<br />

√ T<br />

∼ t nR +n T −2,ncp r<br />

,<br />

1<br />

s p n R<br />

+ ∆2<br />

n T<br />

ist nicht-zentral t-verteilt mit n R + n T − 2 Freiheitsgraden und Nichtzentralitätsparameter<br />

ncp r =<br />

µ R − ∆µ<br />

√ T<br />

= δ mr − ∆<br />

√ . (3.3)<br />

1<br />

σ<br />

n R<br />

+ ∆2 σ 1<br />

n T µ T n R<br />

+ ∆2<br />

n T<br />

Für δ mr = ∆ vereinfacht sich die <strong>Verteilung</strong> zur zentralen t-<strong>Verteilung</strong>. Somit wird die Hypothese<br />

H 0 : δ mr ≥ ∆ zum Niveau α <strong>für</strong><br />

verworfen.<br />

T r < (t nR +n T −2) α<br />

<strong>Die</strong> <strong>Tests</strong>tatistik T d ist bezüglich Shifts invariant ist, d.h. wenn auf die Daten der Stichproben<br />

eine Konstante addiert wird, bleibt die Testentscheidung invariant. Weiter ist die<br />

<strong>Tests</strong>tatistik bezüglich Reskalierung ebenfalls invariant, vorausgesetzt, das Testproblem ist<br />

entsprechend reskaliert. Das bedeutet, dass die Testentscheidung invariant bleibt, wenn die<br />

Beobachtungen statt in x in Einheiten c · x gemessen werden und die Hypothese mit Nicht-<br />

Unterlegenheitsmarge c · ∆ umgeschrieben wird. Ein entscheidender Aspekt, der gegen die<br />

Verwendung von T r als <strong>Tests</strong>tatistik spricht, besteht darin, dass bei T r Veränderungen in der<br />

Lokation, also Shifts der Daten, zu unterschiedlichen Testergebnissen führen können. Wenn<br />

µ T nahe null ist, treten außerdem numerische Instabilitäten auf, d.h. kleine Messfehler von<br />

¯X T beeinflussen das Testergebnis stark.


20 Kapitel 3: Nicht-Unterlegenheitstests im 2-Stichprobenfall unter Normalverteilung<br />

Testen der standardisierten Differenz δ std<br />

Bei Verwendung der standardisierten Differenz als Äquivalenzparameter treten diese Probleme<br />

nicht auf. In diesem Fall wird die <strong>Tests</strong>tatistik T d mit ∆ = 0 verwendet,<br />

T s =<br />

x R − x<br />

√ T<br />

.<br />

s 1 p n R<br />

+ 1<br />

n T<br />

<strong>Die</strong> <strong>Tests</strong>tatistik T s folgt einer nicht-zentralen t-<strong>Verteilung</strong> mit n R + n T − 2 Freiheitsgraden<br />

und Nichtzentralitätsparameter<br />

ncp s :=<br />

µ R − µ T<br />

=<br />

σ√<br />

1<br />

n R<br />

+ 1<br />

n T<br />

δ std<br />

√<br />

1<br />

n R<br />

+ 1<br />

n T<br />

. (3.4)<br />

Um einen Test durchzuführen, muss das α-Quantil einer nicht-zentralen t-<strong>Verteilung</strong> berechnet<br />

werden. <strong>Die</strong> Hypothese H 0 : δ std ≥ ∆ wird verworfen <strong>für</strong><br />

T s < (t nR +n T −2,ncp s(∆)) α ,<br />

wobei ncp s (∆) der Nichtzentralitätsparameter aus (3.4) mit δ std = ∆ ist.<br />

Lehmann (1986, p. 294) hat gezeigt, dass dieser nicht-zentrale t-Test in der Klasse der invarianten<br />

<strong>Tests</strong> bezüglich Skalentransformationen der Test mit gleichmäßig größter Power ist.<br />

Es lässt sich zeigen, dass der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test bezüglich Skalentransformationen<br />

ebenfalls invariant und nicht äquivalent zum hier betrachteten Test ist. Nach Lehmann (1986)<br />

weist aber der hier betrachtete Test eine bessere Power als der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test<br />

auf. Somit ist der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test nicht weiter zu betrachten. Da unter der Hypothese<br />

die Differenz der Mittelwerte durch die Standardabweichung beschränkt ist, wären <strong>für</strong><br />

die Bestimmung <strong>des</strong> eingeschränkten ML-Schätzers weitere numerische Berechnungen nötig.<br />

3.3 Power- und Fallzahlberechnungen<br />

<strong>Die</strong> <strong>Verteilung</strong> der <strong>Tests</strong>tatistiken T d , T r und T s ist bei normalverteilten Daten <strong>für</strong> jede Parameterkonstellation<br />

(µ R , µ T , σ 2 ) bekannt. Folglich ist es möglich bei gegebenen Fallzahlen<br />

die Power und die minimal benötigten Fallzahlen bei zu erreichender Power <strong>für</strong> alle drei<br />

Abstandsmaße zu berechnen.<br />

Testen der Differenz δ md<br />

<strong>Die</strong> <strong>Tests</strong>tatistik T d ist nicht-zentral t-verteilt mit n R + n T − 2 Freiheitsgraden und Nichtzentralitätsparameter<br />

ncp d gegeben in (3.2). Demnach kann die Power <strong>für</strong> festgelegte Fallzahlen<br />

n R und n T und einen Abstand δ md (< ∆) berechnet werden nach<br />

1 − β = P δmd (T d < (t nR +n T −2) α ) = F nR +n T −2,ncp d<br />

((t nR +n T −2) α ) , (3.5)<br />

wobei F m,ncp die kumulative <strong>Verteilung</strong>sfunktion der nichtzentralen t-<strong>Verteilung</strong> mit m Freiheitsgraden<br />

und Nichtzentralitätsparameter ncp ist. <strong>Die</strong>se Funktion ist in den meisten Softwarepaketen<br />

verfügbar.


3.3 Power- und Fallzahlberechnungen 21<br />

Bei der Planung einer klinischen Studie muss die benötigte Fallzahl, um eine gegebene Power<br />

1 − β zu erreichen, bestimmt werden. Bevor diese Fragestellung diskutiert wird, wird die<br />

optimale Aufteilung auf die Fallzahlen n R und n T bei fester Gesamtfallzahl n = n R + n T<br />

bestimmt. Optimal bedeutet, dass keine andere Aufteilung der Fallzahlen eine bessere Power<br />

bei gleicher Gesamtfallzahl aufweist. Bezeichne ɛ := n R /n T das Verhältnis der Fallzahlen. Das<br />

nachstehende Lemma 3.1 liefert als Anwendung das optimale Fallzahlenverhältnis.<br />

Lemma 3.1. <strong>Die</strong> <strong>Verteilung</strong>sfunktion F m,ncp (z) der nicht-zentralen t-<strong>Verteilung</strong> mit m Freiheitsgraden<br />

und Nichtzentralitätsparameter ncp ist strikt monoton fallend im Nichtzentralitätsparameter<br />

<strong>für</strong> festes z.<br />

Nach Lemma 3.1 muss der Nichtzentralitätsparameter<br />

ncp d =<br />

δ md − ∆<br />

σ√<br />

1<br />

n R<br />

+ 1<br />

n T<br />

(3.6)<br />

in (3.5) minimiert werden um die Power <strong>für</strong> feste Gesamtfallzahl zu maximieren. Da unter<br />

der Alternative δ md − ∆ ≤ 0 gilt, muss<br />

√<br />

1/nR + 1/n T<br />

unter der Nebenbindung n R + n T = n minimiert werden. Direkte Rechnung liefert n R = n/2<br />

und daher n R = n T . Somit ist das Fallzahlverhältnis ɛ = 1 optimal in dem Sinne, dass<br />

keine andere Aufteilung der Gesamtfallzahl n eine größere Power liefert. Folglich sind bei der<br />

Berechung der benötigten Fallzahlen nur Fallzahlen mit einem Fallzahlverhältnis von eins zu<br />

berücksichtigen. Also ist die minimale Fallzahl N ∗ , die eine gegebene Power 1 − β erreicht,<br />

gegeben durch<br />

N ∗ = min{n ∈ N : F n− 2,ncp ∗<br />

d<br />

((t n− 2 ) α ) ≥ 1 − β} , (3.7)<br />

wobei ncp ∗ d = √ n(δ md − ∆)/2σ.<br />

Abbildung 3.1 zeigt die benötigten Fallzahlen <strong>für</strong> verschiedene β unter der Alternative δ md =<br />

0, d.h. µ T = µ R , in Abhängigkeit vom <strong>Quotienten</strong> ∆/σ.<br />

Der nachstehende Beweis von Lemma 3.1 wird über die Theorie der totalen Positivität geführt.<br />

Mit dieser Theorie lassen sich mehrere Eigenschaften der <strong>Verteilung</strong>sfunktion F m,ncp (z) zeigen.<br />

Der Beweis ist nicht sehr intuitiv. Jedoch zeigt er auf, wie man sich die Theorie der<br />

totalen Positivität <strong>für</strong> andere, der Theorie fernen, Problemstellungen zu nutze machen kann.<br />

Zur Vollständigkeit und zum besseren Verständnis wird anschließend noch ein direkter und<br />

intuitiverer Beweis angegeben.<br />

Beweis von 3.1 Version A. Zunächst werden die wesentlichen, auf unseren Fall zugeschnittenen<br />

Eigenschaften eines variationsreduzierenden Kerns wiedergegeben. Sei<br />

f(θ, x) : R × R → [0, ∞)<br />

ein strikt variationsreduzierender Kern der Ordnung unendlich (SV R ∞ ), h(x) : X → R eine<br />

Funktion mit ∫ |h|dx > 0 und<br />

∫<br />

g(θ) := f(θ, x)h(x)dx.


22 Kapitel 3: Nicht-Unterlegenheitstests im 2-Stichprobenfall unter Normalverteilung<br />

Gesamtfallzahl N<br />

200 400 600 800<br />

Power: 70%<br />

Power: 80%<br />

Power: 90%<br />

0.2 0.3 0.4 0.5 0.6<br />

∆ σ<br />

Abbildung 3.1: Benötigte Fallzahlen <strong>für</strong> die <strong>Tests</strong>tatistik T d unter der Alternative δ md = 0.<br />

Dann gelten die folgenden Eigenschaften<br />

S + (g) ≤ S − (h) und (3.8)<br />

S + (g) = S − (h) impliziert IS + (g) = IS − (h), (3.9)<br />

wobei S − (S + ) die Anzahl (strikter) Vorzeichenwechsel und IS − (IS + ) das initiale Vorzeichen<br />

der jeweiligen Funktion ist. Für detaillierte Informationen siehe Brown u. a. (1981), insbesondere<br />

zur Definition der Vorzeichenwechsel und initialen Vorzeichen.<br />

Karlin (1968, Kapitel 3 §4) zeigt, dass die Dichte einer nicht-zentralen t-<strong>Verteilung</strong> f m (ncp, x)<br />

strikt total positiv der Ordnung unendlich ist, was äquivalent zur variationsreduzierenden<br />

Eigenschaft ist. Demzufolge ist f m (ncp, x) in der Klasse SV R ∞ . Gesetzt wird<br />

<strong>für</strong> beliebige z, c ∈ R. Dann gilt<br />

h(x) = 1 (−∞,z] (x) − c<br />

S − (h) ≤ 1 ∀ z, c ∈ R.<br />

Weiter ist<br />

∫<br />

g(ncp) =<br />

f m (ncp, x) ( 1 (−∞,z] (x) − c ) dx = F m,z (ncp) − c.<br />

Mit der variationsreduzierenden Eigenschaft (3.8) folgt<br />

S + (F m,z (ncp) − c) ≤ 1 ∀ c ∈ R (3.10)


3.3 Power- und Fallzahlberechnungen 23<br />

<strong>für</strong> beliebiges z ∈ R. Somit gilt <strong>für</strong> beliebiges c, dass die Funktion F m,z (ncp) − c <strong>für</strong> festes z<br />

höchstens einen Vorzeichenwechsel hat, was die strikte Monotonie von F m,z (ncp) in ncp nach<br />

sich zieht.<br />

Zur Vereinfachung wird F (ncp) statt F m,z (ncp) geschrieben. Es bleibt zu zeigen, dass F (ncp)<br />

eine fallende Funktion ist. Gesetzt wird<br />

k := F (ncp 1) + F (ncp 2 )<br />

2<br />

<strong>für</strong> beliebige ncp 1 , ncp 2 ∈ R mit ncp 1 ≠ ncp 2 . Nach Definition von k und der strikten Monotonie<br />

von F (ncp) gilt:<br />

oder<br />

und somit zusammen mit (3.10)<br />

F (ncp 1 ) < k < F (ncp 2 )<br />

F (ncp 2 ) < k < F (ncp 1 )<br />

S + (F (ncp) − k) = 1 .<br />

Da F (ncp) ∈ ]0, 1[ <strong>für</strong> alle ncp ∈ R gilt, erhält man k ∈ ]0, 1[. <strong>Die</strong>ses liefert<br />

S − (1 (−∞,z] (x) − k) = 1<br />

IS − (1 (−∞,z] (x) − k) = + .<br />

Somit schließt man mit der variationsreduzierenden Eigenschaft (3.9)<br />

IS + (F (ncp) − k) = IS − (1 (−∞,z] (x) − k) = + .<br />

Zusammenfassend ist F (ncp) − k eine strikt monotone Funktion, welche <strong>für</strong> ausreichend kleinen<br />

ncp positiv ist und dann einen Vorzeichenwechsel hat. Somit muss F (ncp)−k und folglich<br />

F (ncp) eine strikt monotone Funktion sein.<br />

Im Folgenden wird ein direkter und intuitiverer Beweis <strong>des</strong> Lemmas 3.1 dargestellt.<br />

Beweis vom Lemma 3.1 Version B. Sei t m,ncp eine t-verteilte Zufallsvariable mit m Freiheitsgraden<br />

und Nichtzentralitätsparameter ncp. Dann lässt sich diese schreiben als<br />

t m,ncp =<br />

X ncp<br />

√<br />

Y/m<br />

mit<br />

X ncp ∼ N (µ ncp , 1) und Y ∼ χ 2 m,<br />

wobei<br />

µ ncp = C · ncp<br />

mit C := E[ √ Y/m] ≥ 1 (Nach Jensenungleichung und E[Y ] = m gilt C ≥ 1).


24 Kapitel 3: Nicht-Unterlegenheitstests im 2-Stichprobenfall unter Normalverteilung<br />

Sei nun ncp 1 > ncp 2 . Dann gilt<br />

(<br />

)<br />

X ncp1<br />

F m,ncp1 (x) = P (t m,ncp1 ≤ x) = P √Y/m ≤ x = P<br />

= P<br />

= P<br />

(<br />

X 0 + µ ncp1 √Y/m<br />

(<br />

X 0 + µ ncp2 √Y/m<br />

+ µ ncp 2<br />

− µ ncp2 √Y/m<br />

≤ x<br />

)<br />

)<br />

≤ x − µ ncp 1<br />

− µ ncp2 √Y/m<br />

(<br />

)<br />

X ncp2<br />

= P √Y/m ≤ x − µ ncp 1<br />

− µ ncp2 √Y/m<br />

= P<br />

(<br />

)<br />

t m,ncp2 ≤ x − µ ncp 1<br />

− µ ncp2 √Y/m<br />

(<br />

X 0 + µ ncp1 √Y/m<br />

≤ x<br />

)<br />

Da<br />

gilt, kann man<br />

µ ncp1 − µ ncp2 = C · (ncp 1 − ncp 2 ) > 0<br />

F m,ncp1 (x) = P (t m,ncp2 ≤ x − Z)<br />

schreiben mit einer Zufallsvariablen Z, die mit Wahrscheinlichkeit 1 echt größer als null ist<br />

(Z > 0 f.s.). Mit der Isotonie der <strong>Verteilung</strong>sfunktion F m,ncp (x) in x erhält man dann<br />

F m,ncp1 (x) = P (t m,ncp2 ≤ x − Z) < F m,ncp2 (x).<br />

Testen <strong>des</strong> <strong>Quotienten</strong> δ mr<br />

<strong>Die</strong> Power <strong>für</strong> T r mit vorgegebenen Fallzahlen n R und n T unter einer festgelegten Alternative<br />

δ mr (< ∆) wird ähnlich wie oben bei T d berechnet nach<br />

1 − β = P δmr (T r < (t nR +n T −2) α ) = F nR +n T −2,ncp r<br />

((t nR +n T −2) α ) .<br />

Im Gegensatz zur Differenz δ md ist die 1:1 Aufteilung n R = n T nicht mehr optimal, wenn der<br />

Quotient δ mr als Abstandsmaß verwendet wird. Mit den oben genannten Argumenten muss<br />

hier der Nichtzentralitätsparameter<br />

ncp r =<br />

δ mr − ∆<br />

√<br />

σ 1<br />

µ T n R<br />

+ ∆2<br />

n T<br />

minimiert werden um die Power zu maximieren. Somit muss<br />

√<br />

1/nR + ∆ 2 /n T<br />

unter der Nebenbedingung n R + n T = N minimiert werden. Direkte Rechnung liefert n R =<br />

n/(1 + ∆) und folglich n T = ∆n/(1 + ∆). Demnach ist in diesem Fall ein Fallzahlverhältnis<br />

von ɛ = ∆ −1 optimal.


3.3 Power- und Fallzahlberechnungen 25<br />

∆<br />

µ T /σ<br />

Abbildung 3.2: Benötigte Fallzahl <strong>für</strong> die <strong>Tests</strong>tatistik T r unter der Alternative δ mr = 1 und<br />

einer Power von 80%.<br />

Abbildung 3.2 zeigt die benötigte Fallzahl <strong>für</strong> die <strong>Tests</strong>tatistik T r unter der Alternative<br />

δ mr = 1, d.h. µ T = µ R , <strong>für</strong> eine Power von 80% in Abhängigkeit der Nicht-Unterlegenheitsmarge<br />

∆ und <strong>des</strong> Kehrwertes <strong>des</strong> Variationskoeffizienten µ T /σ. Abbildung 3.2 stellt heraus,<br />

dass bei fallenden µ T die benötigten Fallzahlen steigen. Es besteht also eine Abhängigkeit<br />

der benötigten Fallzahlen von der Lokation der Daten. <strong>Die</strong>se Beobachtung steht in Übereinstimmung<br />

mit dem Problem der Invarianz bezüglich Shifts in den Daten beim Testen <strong>des</strong><br />

<strong>Quotienten</strong> δ mr . In Abbildung 3.3 ist µ T /σ = 10 festgehalten und die benötigte Fallzahl in<br />

Abhängigkeit von der Nicht-Unterlegenheitsmarge abgetragen.<br />

Testen der standardisierten Differenz δ std<br />

Unter Verwendung der standardisierten Differenz als Abstandsmaß lässt sich die Power <strong>für</strong><br />

gegebenen Wert von δ std (< ∆) berechnen nach<br />

1 − β = P δstd (T s < (t nR +n T −2,ncp s (∆)) α )<br />

= F nR +n T −2,ncp s<br />

((t nR +n T −2,ncp s(∆)) α ) ,<br />

wobei ncp s (∆) der Nichtzentralitätsparameter aus (3.4) ist, mit δ std = ∆. Wie bei der Differenz<br />

δ md erhält man mit gleichen Argumenten, dass die Stichproben <strong>für</strong> δ std vom gleichen<br />

Umfang (ɛ = 1) sein müssen, um die Power zu maximieren.<br />

3.3.1 Rechenprobleme und Approximationen <strong>für</strong> große Stichproben<br />

Wenn kein statistisches Softwarepaket <strong>für</strong> die Berechnung der nicht-zentralen t-<strong>Verteilung</strong><br />

zur Verfügung steht, kann die folgende Approximation <strong>des</strong> α-Quantils der nicht-zentralen<br />

t-<strong>Verteilung</strong> benutzt werden (Johnson und Welch, 1940, p. 207). Zudem ergeben sich aus<br />

den folgenden Überlegungen einfache <strong>asymptotische</strong> Formeln <strong>für</strong> die Powerberechnung, welche,<br />

wie sich herausstellen wird, zu befriedigenden und zweckmäßigen Lösungen führen. Für


26 Kapitel 3: Nicht-Unterlegenheitstests im 2-Stichprobenfall unter Normalverteilung<br />

Gesamtfallzahl N<br />

0 200 400 600 800<br />

Power: 70%<br />

Power: 80%<br />

Power: 90%<br />

1.02 1.04 1.06 1.08 1.10<br />

∆<br />

Abbildung 3.3: Benötigte Fallzahl <strong>für</strong> die <strong>Tests</strong>tatistik T r unter der Alternative δ mr = 1 und<br />

<strong>für</strong> festes µ T /σ = 10.<br />

große Stichprobenumfänge, d.h. n → ∞, und somit großer Anzahl von Freiheitsgraden in den<br />

Formeln <strong>für</strong> die Powerberechnung, gilt:<br />

(t n− 2 ) α = u α + o(1) ,<br />

√<br />

(t n− 2,ncp ) α = ncp + u α 1 + ncp2<br />

2(n− 2)<br />

+ o(1) , (3.11)<br />

wobei u α das α-Quantil der Standard-Normalverteilung ist. Somit kann N ∗ in (3.7) über<br />

Quantile der Normalverteilung approximiert werden. Mit<br />

∆ d := (δ md − ∆)/σ<br />

und somit ncp d = ∆ d<br />

√<br />

n/4 <strong>für</strong> ɛ = 1 ist die Anforderung (3.7)<br />

asymptotisch äquivalent zu<br />

∆ d<br />

√ n<br />

4 + u 1−β<br />

(t n− 2,ncpd ) 1−β ≤ (t n− 2 ) α<br />

√<br />

1 +<br />

∆ 2 d<br />

2(n − 2)<br />

n<br />

4 ≥ u α + o(1) .<br />

<strong>Die</strong>s ist bei Verwendung der optimalen Fallzahlaufteilung von ɛ = 1 äquivalent zu<br />

n ≥<br />

√ ) 2<br />

4<br />

(u α − u 1−β 1 + ∆2 d<br />

8<br />

∆ 2 d<br />

+ o(1). (3.12)


3.3 Power- und Fallzahlberechnungen 27<br />

Analog lässt sich <strong>für</strong> die <strong>Tests</strong>tatistik T r eine Approximation der minimalen Fallzahl, die eine<br />

Power von 1 − β erreicht, mit optimaler Fallzahlaufteilung ɛ = ∆ −1 herleiten. Sie ist gegeben<br />

durch<br />

(<br />

) 2<br />

u α − u 1−β<br />

√1 + ∆2 r<br />

n ≥ (1 + ∆) 2 2(1+∆) 2 ,<br />

wobei ∆ r = µ T (δ mr − ∆)/σ.<br />

Für T s erhält man auf gleiche Art<br />

n ≥<br />

∆ 2 r<br />

√<br />

√ ) 2<br />

4<br />

(u α 1 + δ2 std<br />

8<br />

− u 1−β 1 + ∆2<br />

8<br />

(δ std − ∆) 2 ,<br />

wobei die optimale Fallzahlaufteilung von ɛ = 1 verwendet wurde.<br />

Wahre Power<br />

0.70 0.75 0.80 0.85 0.90 0.95 1.00<br />

0 200 400 600 800 1000<br />

Benötigte Gesamtfallzahl<br />

Abbildung 3.4: Wahre und approximative Power aus (3.12)<br />

Um die Genauigkeit der Approximation zu untersuchen, wird folgen<strong>des</strong> Szenario angenommen:<br />

T d <strong>Tests</strong>tatistik, δ md = 0, Signifikanzniveau 5% und eine erwünschte Power von 80%. Für<br />

unterschiedliche benötigte Fallzahlen, d.h. berechnet nach der Approximationsformel (3.12),<br />

wird die wahre Power exakt durch die nicht-zentrale t-<strong>Verteilung</strong> in (3.7) berechnet. <strong>Die</strong><br />

Ergebnisse sind in Abbildung 3.4 dargestellt. Zum Vergleich ist die Linie <strong>für</strong> die erwünschte<br />

Power von 80% eingezeichnet. <strong>Die</strong> Abbildung zeigt, dass die Approximationsformel stets zu<br />

einer größeren Power als die nominelle von 80% führt. Für Fallzahlen größer als 400 ist die<br />

Approximation recht zufrieden stellend. Demnach ist die Approximation stets konservativ, in<br />

dem Sinne, dass die wahre Power niemals kleiner als die erwünschte Power ist.


Kapitel 4<br />

Asymptotik <strong>des</strong> ML-Schätzers<br />

<strong>Die</strong>ses Kapitel stellt die wesentlichen theoretischen Resultate <strong>für</strong> die nachfolgenden Kapitel<br />

5 und 6 zur Asymptotik <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> bereit. Zunächst wird in den Abschnitten<br />

4.1 und 4.2 die <strong>asymptotische</strong> Normalität <strong>des</strong> uneingeschränkten ML-Schätzers sowohl<br />

im 1-Stichprobenfall als auch im k-Stichprobenfall gezeigt. Weiter wird in Abschnitt 4.3 gezeigt,<br />

dass unter geeigneten Bedingungen aus der Konvergenz in Wahrscheinlichkeit <strong>des</strong> eingeschränkten<br />

ML-Schätzers die Konvergenz in Wahrscheinlichkeit dieses Schätzers mit Rate<br />

√ n folgt.<br />

4.1 Asymptotische Normalität <strong>des</strong> ML-Schätzers<br />

im 1-Stichprobenfall<br />

In diesem Abschnitt wird die <strong>asymptotische</strong> Normalität <strong>des</strong> ML-Schätzers im 1-Stichprobenfall<br />

unter den Regularitätsbedingungen R gezeigt. <strong>Die</strong>ses umfasst den k-Stichprobenfall mit gleichen<br />

Fallzahlen in allen k Stichproben. Der Beweis <strong>des</strong> Theorems 4.3 ist in Anlehnung an<br />

Ferguson (1996) geführt.<br />

Lemma 4.1. X sei eine Zufallsvariable mit Dichte f(x, θ) bezüglich einem σ-endlichen Maß<br />

ν und Θ ⊆ R d der Parameterraum. Existiert (d 2 /dθ 2 )f(x, θ) und ist stetig und können die<br />

ersten und zweiten partiellen Ableitungen unter das Integralzeichen in ∫ f(x, θ)dν(x) gezogen<br />

werden, so gilt<br />

(i) E θ [U(X, θ)] = 0 und somit J(θ) = Var θ [U(X, θ)],<br />

(ii) J(θ) = −E θ [W (X, θ)].<br />

Beweis. (i) rechnet man wie folgt nach:<br />

E θ [U(X, θ)] =<br />

= d dθ<br />

∫ (d/dθ)f(x, θ)<br />

∫<br />

f(x, θ)<br />

f(x, θ)dν(x) = 0.<br />

∫ d<br />

f(x, θ)dν(x) = f(x, θ)dν(x)<br />

dθ<br />

29


30 Kapitel 4: Asymptotik <strong>des</strong> ML-Schätzers<br />

Mit folgender Gleichung<br />

d 2<br />

dθ 2 log f(x, θ) = d (d/dθ)f(x, θ)<br />

dθ f(x, θ)<br />

= (d2 /dθ 2 )f(x, θ)<br />

f(x, θ)<br />

= (d2 /dθ 2 )f(x, θ)<br />

f(x, θ)<br />

− [(d/dθ)f(x, θ)]T · [(d/dθ)f(x, θ)]<br />

(f(x, θ)) 2<br />

[ ] d T [ ]<br />

d<br />

−<br />

dθ log f(x, θ) ·<br />

dθ log f(x, θ)<br />

erhält man (ii):<br />

E θ [W (X, θ)] =<br />

−<br />

∫ d<br />

2<br />

∫<br />

∫<br />

d2<br />

log f(x, θ) f(x, θ)dν(x) =<br />

dθ2 dθ 2<br />

f(x, θ)dν(x)<br />

[(d/dθ) log f(x, θ)] · [(d/dθ) log f(x, θ)] T · f(x, θ)dν(x)<br />

= −E θ [U(X, θ) · U(X, θ) T ] = J(θ).<br />

Im Folgenden wird das 1-Stichprobenmodell mit Regularitätsbedingungen R vorausgesetzt.<br />

Definiere<br />

und<br />

Weiter wird<br />

n∑<br />

A n (θ) = n −1 U(X i , θ) (4.1)<br />

i=1<br />

n∑<br />

B n (θ) = n −1 W (X i , θ). (4.2)<br />

i=1<br />

A n = A n (θ (0) ) und B n = B n (θ (0) )<br />

gesetzt. Betrachtet wird θ ∈ B θ (0) mit B θ (0) aus Regularitätsbedingung R (c). Für θ ∈ B θ (0)<br />

liefert die Taylorentwicklung zweiter Ordnung von l n (θ) um den wahren Wert θ (0)<br />

1<br />

n l n(θ) = 1 n l n(θ (0) ) + A T n · (θ − θ (0) ) + 1 2 (θ − θ(0) ) T B n · (θ − θ (0) ) + R(θ),<br />

wobei das Restglied R(θ) von der Form<br />

R(θ) =<br />

⎛<br />

⎝ 1<br />

6n<br />

n∑<br />

∑<br />

i=1 j,l,m=1,...,d<br />

⎞<br />

(θ j − θ (0)<br />

j<br />

)(θ l − θ (0)<br />

l<br />

)(θ m − θ m (0) d 3<br />

) log f(X i , θ) ⎠<br />

dθ j dθ l dθ m<br />

∣<br />

ist mit ˜θ = αθ+(1−α)θ (0) <strong>für</strong> ein α ∈ [0, 1]. Folglich gilt stets ˜θ ∈ B θ (0). Regularitätsbedingung<br />

R (c) gibt die gleichmäßige Beschränktheit der dritten Ableitung der log-<strong>Likelihood</strong>funktion<br />

∣<br />

θ=˜θ


4.1. ML-Schätzer im 1-Stichprobenfall 31<br />

<strong>für</strong> alle θ ∈ B θ (0) und liefert somit <strong>für</strong> das Restglied der Taylorentwicklung<br />

R(θ) ≤ 3d ‖ θ − θ(0) ‖ 3 1<br />

n∑<br />

6 n ·<br />

∑<br />

d 3<br />

log f(X i , θ) ∣<br />

i=1 ∥ dθ j dθ l dθ m<br />

j,l,m=1,...,d<br />

≤ ‖ θ − θ (0) ‖ 3 · 1 n∑<br />

K(X i ) · O(1)<br />

n<br />

i=1<br />

Nach dem schwachen Gesetz der großen Zahlen (A.1) gilt<br />

und es wird somit<br />

1<br />

n<br />

n∑<br />

P<br />

K(X i ) −→ E θ (0)K(X 1 ) < ∞<br />

i=1<br />

R(θ) =‖ θ − θ (0) ‖ 3 · O p (1).<br />

geschlossen. <strong>Die</strong> Taylorentwicklung zweiter Ordnung schreibt sich folglich als<br />

1<br />

n l n(θ) = 1 n l n(θ (0) ) + A T n · (θ − θ (0) ) + 1 2 (θ − θ(0) ) T B n · (θ − θ (0) )+ ‖ θ − θ (0) ‖ 3 O p (1).<br />

∣<br />

θ=˜θ<br />

∥<br />

Lemma 4.2. Das 1-Stichproben-Modell sei gegeben, das heißt X 1 , X 2 , . . . seien unabhängig,<br />

identisch verteilte Zufallsvariablen mit Dichte f(x, θ (0) ) bezüglich einem σ-endlichen Maß ν,<br />

Θ der Parameterraum. Sind die Regularitätsbedingungen R erfüllt, so gilt mit J = J(θ (0) )<br />

(i)<br />

(ii)<br />

√ D nAn −→ N (0, J),<br />

a.s.<br />

B n −→ −J.<br />

Beweis. Der Zentrale Grenzwertsatz (siehe A.2) liefert zusammen mit Lemma 4.1, dass √ nA n<br />

asymptotisch normalverteilt ist mit Erwartungswert 0 und Kovarianzmatrix J. Weiter ist<br />

nach Lemma 4.1 E θ [W (X, θ)] = −J(θ). Somit konvergiert B n fast sicher gegen −J nach dem<br />

starken Gesetz der großen Zahlen (siehe A.1).<br />

Theorem 4.3. Für unabhängig, identisch verteilte Zufallsvariablen X 1 , X 2 , . . . , die die Regularitätsbedingungen<br />

R erfüllen, gilt mit J = J(θ (0) )<br />

√ n (ˆθn − θ (0) )<br />

D −→ N (0, J −1 ).<br />

Beweis. Unter den gegebenen Regularitätsbedingungen existiert der ML-Schätzer ˆθ n und ist<br />

stark konsistent, d.h. ˆθ a.s.<br />

n −→ θ (0) . Der Beweis wird hier ausgelassen und zum Beispiel auf<br />

die Originalarbeit von Wald (1949) oder auf das Buch von Ferguson (1996, Satz 17), das die<br />

Resultate von Wald nutzt, verwiesen.<br />

Es bezeichne ˙l n (θ) die Ableitung von l n nach θ. Es wird die Taylorentwicklung von ˙l n um<br />

θ ∈ B θ (0) betrachtet,<br />

1<br />

n ˙l n (θ) = A n + B n (θ − θ (0) )+ ‖ θ − θ (0) ‖ 2 O p (1), (4.3)


32 Kapitel 4: Asymptotik <strong>des</strong> ML-Schätzers<br />

wobei auch hier erneut die Form <strong>des</strong> Restglie<strong>des</strong> durch Bedingung (c) begründet ist. Da<br />

der ML-Schätzer den log-<strong>Likelihood</strong> in Θ maximiert und Θ offen ist, schließt man mit der<br />

Differenzierbarkeit <strong>des</strong> log-<strong>Likelihood</strong>s, dass <strong>für</strong> den ML-Schätzer ˆθ n gilt<br />

˙l n (ˆθ n ) = 0. (4.4)<br />

Nach der starken Konsistenz liegt ˆθ n <strong>für</strong> ausreichend großes n fast sicher in B θ (0). Folglich ist<br />

(4.3) anwendbar <strong>für</strong> ausreichend großes n mit θ = ˆθ n . (4.3) und (4.4) liefern zusammen<br />

a.s.<br />

− A n = +B n (ˆθ n − θ (0) )+ ‖ ˆθ n − θ (0) ‖ 2 O p (1). (4.5)<br />

Aus B n −→ −J (Lemma 4.2) und der Existenz von J −1 folgt mit der Stetigkeit der Determinante,<br />

dass auch Bn<br />

−1 <strong>für</strong> ausreichend großes n existiert und (4.5) lässt sich schreiben<br />

als<br />

(<br />

)<br />

1 + Bn −1 (ˆθ n − θ (0) ) T O p (1) √n(ˆθn − θ (0) ) = − √ nBn −1 A n ,<br />

was wiederum<br />

√ n (ˆθn − θ (0) )(1 + o p (1)) = − √ n Bn<br />

−1 A n<br />

impliziert. Mit den Resultaten aus Lemma 4.2, √ D<br />

a.s.<br />

nA n −→ N (0, J) und −Bn −→ J, und<br />

Slutsky’s Theorem (siehe A.3) ist die rechte Seite asymptotisch normalverteilt mit Erwartungswart<br />

0 und Kovarianzmatrix J −1 . Beachte hierbei, dass das Invertieren einer Matrix<br />

stetig ist. Somit gilt auch<br />

√ n (ˆθn − θ (0) )<br />

D −→ N (0, J −1 ).


4.2. ML-Schätzer im k-Stichprobenfall 33<br />

4.2 Asymptotische Normalität <strong>des</strong> ML-Schätzers<br />

im k-Stichprobenfall<br />

<strong>Die</strong> Ergebnisse <strong>des</strong> vorigen Abschnittes werden nun auf den k-Stichprobenfall erweitert, wobei<br />

hierbei entscheidend ist, dass die Fallzahlen in den einzelnen Stichproben unterschiedlich<br />

seien können. Deshalb können die Stichproben nicht zu einer zusammengefasst und wie der<br />

1-Stichprobenfall behandelt werden. Unter der Annahme F, dass die Fallzahlen asymptotisch<br />

von gleicher Ordnung, lassen sich jedoch analoge Ergebnisse zur <strong>asymptotische</strong>n Normalität<br />

<strong>des</strong> ML-Schätzers herleiten. Es wird sich zeigen, dass sich die Kovarianzmatrix der <strong>asymptotische</strong>n<br />

<strong>Verteilung</strong> aus den Fisher-Informationsmatrizen der einzelnen Stichproben zusammensetzt,<br />

mit Gewichtung entsprechend ihrer relativen <strong>asymptotische</strong>n Fallzahlen.<br />

Es wird also der k-Stichprobenfall mit Regularitätsbedingungen R und Bedingung F betrachtet.<br />

Analog zu (4.1) und (4.2) wird <strong>für</strong> jede Stichprobe i = 1, . . . , k<br />

definiert. Es wird<br />

A (i)<br />

n i<br />

(θ i ) = 1 ∑n i<br />

U i (X ij , θ i ) = 1 ∑n i<br />

( ) d<br />

T<br />

log f i (X ij , θ i ) , (4.6)<br />

n i n<br />

j=1<br />

i dθ<br />

j=1 i<br />

B n (i)<br />

i<br />

(θ i ) = 1 ∑n i<br />

W i (X ij , θ i ) = 1 ∑n i<br />

d 2<br />

log f i (X ij , θ i ) (4.7)<br />

n i n i<br />

A (i)<br />

n i<br />

j=1<br />

dθ 2 j=1 i<br />

= A (i)<br />

n i<br />

(θ (0)<br />

i<br />

) und B n (i)<br />

i<br />

= B n (i)<br />

i<br />

(θ (0)<br />

i<br />

)<br />

gesetzt. Weiter sei J i die Fisher-Informationsmatrix der i-ten Stichprobe, ausgewertet an der<br />

Stelle <strong>des</strong> wahren Parameters θ (0)<br />

i<br />

, d.h.<br />

[<br />

]<br />

J i = E (0) θ<br />

U i (X i1 , θ (0)<br />

i<br />

) · U i (X i1 , θ (0)<br />

i<br />

) T<br />

i<br />

mit<br />

U i (x, θ) =<br />

( ) d<br />

T<br />

log f i (x, θ) .<br />

dθ i<br />

Es wird mit n = (n 1 , . . . , n k )<br />

A n =<br />

(<br />

A (1) n T<br />

1<br />

B n = diag<br />

, . . . , A (k) T<br />

n k<br />

) T<br />

,<br />

(<br />

)<br />

B n (1)<br />

1<br />

, . . . , B n (k)<br />

k<br />

,<br />

J = diag (J 1 , . . . , J k ) ,<br />

C = diag (c 1 I d , . . . , c k I d )<br />

gesetzt, wobei c i ∈ [0, 1] so, dass n i /n → c i <strong>für</strong> n → ∞ (siehe Bedingung F).


34 Kapitel 4: Asymptotik <strong>des</strong> ML-Schätzers<br />

Lemma 4.4. Sei der k-Stichprobenfall mit Regularitätsbedingungen R und Bedindung F<br />

gegeben, dann gilt<br />

√ D<br />

(i) nAn −→ N (0, C −1 J),<br />

a.s.<br />

(ii) B n −→ −J.<br />

Beweis. Aus dem 1-Stichprobenfall, Lemma 4.2, erhält man <strong>für</strong> i = 1, . . . , k<br />

√<br />

ni A (i) D<br />

n i −→ N (0, Ji ).<br />

Hieraus schließt man mit dem Lemma von Slutzky (siehe A.3)<br />

√ n A<br />

(i)<br />

n i<br />

=<br />

√ n<br />

n i<br />

√<br />

ni A (i)<br />

n i<br />

D −→ N (0, c<br />

−1<br />

i<br />

J i ). (4.8)<br />

Nach dem Blockungslemma sind A (1)<br />

n 1<br />

, . . . , A (k)<br />

n k<br />

unabhängig, da die zugrunde liegenden Beobachtungen<br />

unabhängig sind. Folglich erhält man mit (4.8)<br />

√ D n An −→ N (0, C −1 J).<br />

Damit ist Aussage (i) bewiesen. <strong>Die</strong> Aussage (ii) folgt mit dem Lemma von Slutzky direkt<br />

aus dem 1-Stichprobenfall.<br />

Theorem 4.5. Sei der k-Stichprobenfall mit Regularitätsbedingungen R und Bedindung F<br />

gegeben, dann gilt<br />

√ n (ˆθn − θ (0) ) −→ D N (0, (CJ) −1 ).<br />

Beweis. Der Beweis verläuft analog zu dem Beweis von Lemma 4.4. Für den ML-Schätzer ˆθ n<br />

der gemeinsamen Stichprobe gilt<br />

ˆθ n = arg sup<br />

θ∈Θ<br />

k∏ ∏n i<br />

f i (x ij , θ i ) =<br />

i=1 j=1<br />

k∏<br />

i=1<br />

arg sup<br />

∏n i<br />

θ i ∈Θ i j=1<br />

f i (x ij , θ i )<br />

und somit ˆθ n = (ˆθ 1, n , . . . , ˆθ k, n ), wobei ˆθ i, n der ML-Schätzer der einzelnen Stichprobe i ist.<br />

Das heißt der ML-Schätzer der gemeinsamen Stichprobe setzt sich aus denen der einzelnen<br />

Stichproben zusammen. Aus dem 1-Stichprobenfall, Lemma 4.2, erhält man <strong>für</strong> i = 1, . . . , k<br />

√<br />

ni (ˆθ i, n − θ (0)<br />

i<br />

) −→ D N (0, Ji −1 ).<br />

Mit dem Lemma von Slutzky (siehe A.3) wird<br />

√ n (ˆθi, n − θ (0)<br />

i<br />

) =<br />

√ n<br />

n i<br />

√<br />

ni (ˆθ i, n − θ (0)<br />

i<br />

) D<br />

−→ N (0, c −1<br />

i<br />

J −1<br />

i<br />

) (4.9)<br />

geschlossen. Nach dem Blockungslemma sind ˆθ 1, n1 , . . . , ˆθ k, nk unabhängig, da die zugrundeliegenden<br />

Beobachtungen unabhängig sind. Folglich erhält man mit (4.9)<br />

√ n (ˆθn − θ (0) ) −→ D N (0, (CJ) −1 ).


4.3. Eingeschränkter ML-Schätzer 35<br />

4.3 Asymptotik <strong>des</strong> eingeschränkten ML-Schätzers<br />

Es wird der auf eine Menge M ⊆ R kd eingeschränkte ML-Schätzer betrachtet. Konvergiert<br />

dieser in Wahrscheinlichkeit gegen einen Punkt θ ∗ ∈ M, so gibt Theorem 4.6 unter geeigneten<br />

Regularitätsbedingungen die Konvergenz mit Rate √ n. Als Spezialfall erhält man mit<br />

θ ∗ = θ (0) Korollar 4.8, das unter den Regularitätsbedingungen R <strong>für</strong> einen konsistenten<br />

ML-Schätzer automatisch die √ n-Konsistenz dieses Schätzer liefert. Korollar 4.8 wurde <strong>für</strong><br />

den 1-Stichprobenfall bereits von Chernoff (1954) formuliert. Allerdings führt er nur eine<br />

Beweisskizze an. Theorem 4.6 stellt eine Verallgemeinerung auf den k-Stichprobenfall und<br />

θ ∗ ≠ θ (0) dar. Insbesondere muss somit der wahre Wert θ (0) <strong>des</strong> Parameters θ nicht in der<br />

Menge M liegen.<br />

Theorem 4.6. Der k-Stichprobenfall sei gegeben, θ ∗ = (θ1 ∗, . . . , θ∗ k ) ∈ M ⊆ Rkd und es gelte<br />

P<br />

→ θ ∗ . Weiter seien die nachstehenden Bedingungen erfüllt:<br />

ˆθ M n<br />

(i) <strong>Die</strong> Bedingung F ist erfüllt mit n i<br />

n = c i + o(1/ √ n).<br />

(ii) Für i = 1, . . . , k existieren die partiellen Ableitungen von f i (x, θ i ) bezüglich θ i und sind<br />

stetig.<br />

(iii) Es existiert eine Funktion K(x) mit E θ (0)K(X) < ∞, so dass die Norm von d/dθ W (x, θ)<br />

gleichmäßig in einer Umgebung von θ ∗ durch K(x) beschränkt ist.<br />

[ ] 2<br />

(iv) Für i = 1, . . . , k existiert E (0) d/dθi θ<br />

log f i (X i1 , θ i )| θi =θi<br />

∗ und <strong>für</strong><br />

i<br />

[ ] T<br />

µ i := E (0) d/dθi θ<br />

log f i (X i1 , θ i )| θi =θi<br />

∗ gilt<br />

i<br />

k∑<br />

c i µ i (ˆθ i, M n − θi ∗ ) =<br />

i=1<br />

(v) Für i = 1, . . . , k existiert D i := −E (0) θ i<br />

D := diag (D 1 , . . . , D k ) gilt<br />

Dann gilt<br />

<strong>für</strong> ein α > 0.<br />

k∑<br />

o p (‖ ˆθ i, M n − θi ∗ ‖ 2 ).<br />

i=1<br />

[<br />

d 2 /dθ 2 i log f i (X i1 , θ i )| θi =θ ∗ i<br />

(ˆθ M i, n − θ ∗ i ) T D (ˆθ M i, n − θ ∗ i ) ≥ α ‖ ˆθ M i, n − θ ∗ i ‖ 2<br />

√ n<br />

(ˆθM n − θ ∗) = O p (1).<br />

]<br />

und <strong>für</strong><br />

Bemerkung 4.7. Bedingung (iii) wird <strong>für</strong> die Abschätzung <strong>des</strong> Restglie<strong>des</strong> der Taylorentwicklung<br />

um θ ∗ benötigt. Bedingung (iv) besagt, dass die erwartete Ableitung <strong>des</strong> log-<br />

<strong>Likelihood</strong>s an der Stelle θ ∗ in Richtung <strong>des</strong> auf M eingeschränkten ML-Schätzers schneller<br />

gegen null konvergiert als ‖ ˆθ n<br />

M − θ ∗ ‖ 2 . Bedingung (v) sichert, dass sich die Matrix D gegenüber<br />

dem eingeschränkten Schätzer ˆθ n<br />

M wie eine positiv definite und symmetrische Matrix<br />

verhält. Somit ist Bedingung (v) <strong>für</strong> eine positiv definite und symmetrische Matrix D automatisch<br />

erfüllt mit α gleich dem kleinsten Eigenwert von D. Für θ ∗ = θ (0) werden die<br />

Bedingungen (ii)-(v) durch die Regularitätsbedingungen R abgedeckt, siehe Korollar 4.8.


36 Kapitel 4: Asymptotik <strong>des</strong> ML-Schätzers<br />

Beweis. Ohne Einschränkung der Allgemeinheit wird angenommen, dass θ ∗ = 0 ist. <strong>Die</strong>ses<br />

kann durch Umparametrisierung mit θ ↦→ θ − θ ∗ erreicht werden. Im Folgenden <strong>des</strong> Beweises<br />

wird ˆθ n statt ˆθ n<br />

M geschrieben. Für ˆθ n = 0 ist die Aussage trivial. Somit wird im Folgenden<br />

ˆθ n ≠ 0 angenommen. <strong>Die</strong> Taylorentwicklung <strong>des</strong> log-<strong>Likelihood</strong>s um den wahren Wert θ ∗ = 0<br />

liefert<br />

1<br />

(<br />

)<br />

l n (ˆθ n ) − l n (0) =<br />

n<br />

k∑<br />

i=1<br />

n i<br />

n A(i) n i<br />

ˆθi, n + 1 2<br />

k∑<br />

i=1<br />

n i<br />

n ˆθ T i, nB (i)<br />

n i<br />

ˆθi, n +<br />

k∑<br />

‖ ˆθ i, n ‖ 3 O p (1).<br />

Nach Definition <strong>des</strong> ML-Schätzers ist die linke Seite größer oder gleich null. Folglich gilt dieses<br />

auch <strong>für</strong> die rechte Seite<br />

0 ≤<br />

k∑<br />

i=1<br />

n i<br />

n A(i) n i<br />

ˆθi, n + 1 2<br />

Mit Voraussetzung (i) und (iv) gilt<br />

k∑<br />

i=1<br />

n i<br />

n µ i ˆθ i, n =<br />

=<br />

k∑<br />

i=1<br />

n i<br />

n ˆθ T i, nB (i)<br />

n i<br />

ˆθi, n +<br />

k∑<br />

c i µ i ˆθi, n +<br />

i=1<br />

i=1<br />

k∑<br />

‖ ˆθ i, n ‖ 3 O p (1). (4.10)<br />

i=1<br />

k∑<br />

o(1/ √ n)µ i ˆθi, n (4.11)<br />

i=1<br />

k∑<br />

o p (‖ ˆθ i, n ‖ 2 ) +<br />

i=1<br />

Somit liefern (4.10) und (4.12) zusammen<br />

k∑<br />

o p (‖ ˆθ i, n ‖ / √ n). (4.12)<br />

i=1<br />

0 ≤<br />

k∑<br />

i=1<br />

+<br />

n i<br />

n (A(i) n i<br />

− µ i ) ˆθ i, n + 1 2<br />

k∑<br />

o p (‖ ˆθ i, n ‖ 2 ) +<br />

i=1<br />

k∑<br />

i=1<br />

n i<br />

n ˆθ T i, nB (i)<br />

n i<br />

ˆθi, n +<br />

k∑<br />

‖ ˆθ i, n ‖ 3 O p (1) (4.13)<br />

i=1<br />

k∑<br />

o p (‖ ˆθ i, n ‖ / √ n). (4.14)<br />

i=1<br />

Es ist vorausgesetzt, dass ˆθ n in Wahrscheinlichkeit gegen null konvergiert, d.h. ˆθ P<br />

n → 0. Weiter<br />

gilt nach dem Zentralen Grenzwertsatz (siehe A.2) √ n i (A (i)<br />

n i<br />

− µ i ) = O p (1) und dem starken<br />

Gesetz der großen Zahlen (siehe A.1) B n (i) a.s.<br />

i<br />

−→ −D i . Somit können eine Folge d n → 0 und ein<br />

K so gewählt werden, dass <strong>für</strong> beliebiges ɛ > 0 mit Wahrscheinlichkeit größer als 1 − ɛ <strong>für</strong><br />

i = 1, . . . , k gilt:<br />

‖ A (i)<br />

n i<br />

− µ i ‖≤ K √<br />

ni<br />

,<br />

d∑<br />

l,m=1<br />

‖ [B (i)<br />

n i<br />

] lm + [D i ] lm ‖≤ d n , ‖ ˆθ n ‖≤ d n<br />

und <strong>für</strong> die Landau-Symbole aus (4.13)und (4.14) gilt:<br />

O p (1) ≤ K , o p (‖ ˆθ i, n ‖ 2 ) ≤ d n ‖ ˆθ i, n ‖ 2 , o p (‖ ˆθ i, n ‖ / √ n) ≤ d n<br />

‖ ˆθ i, n ‖<br />

√ n<br />

.<br />

Aus<br />

d∑<br />

d∑<br />

x T Bx = x i x j [B] ij ≤ ‖ x ‖ 2 1 ‖ [B] ij ‖ ≤ √ d∑<br />

d ‖ x ‖ 2 ‖ [B] ij ‖<br />

i,j=1<br />

i,j=1<br />

i,j=1


4.3. Eingeschränkter ML-Schätzer 37<br />

<strong>für</strong> einen beliebigen Vektor x ∈ R d und eine beliebige Matrix B ∈ R d×d schließt man<br />

k∑<br />

i=1<br />

n i<br />

n ˆθ T i, nB (i)<br />

n i<br />

ˆθi, n ≤ −<br />

≤<br />

−<br />

k∑<br />

i=1<br />

k∑<br />

i=1<br />

n i<br />

n ˆθ T i, nD i ˆθi, n +<br />

k∑<br />

i=1<br />

n i<br />

n ˆθ<br />

√ k∑<br />

i, T nD i ˆθi, n + d n d<br />

√<br />

d<br />

n i<br />

n ‖ ˆθ i, n ‖ 2 ·<br />

i=1<br />

‖ ˆθ i, n ‖ 2 .<br />

d∑<br />

l,m=1<br />

‖ [B (i)<br />

n i<br />

] lm + [D i ] lm ‖<br />

Somit erhält man zusammen mit Wahrscheinlichkeit größer als 1 − ɛ, dass<br />

0 ≤<br />

≤<br />

k∑<br />

i=1<br />

+<br />

k∑<br />

i=1<br />

n i<br />

n (A(i) n i<br />

− µ i ) ˆθ i, n + 1 2<br />

k∑<br />

o p (‖ ˆθ i, n ‖ 2 ) +<br />

i=1<br />

n i<br />

n<br />

K<br />

√<br />

ni<br />

‖ ˆθ i, n ‖ − 1 2<br />

k∑<br />

i=1<br />

n i<br />

n ˆθ T i, nB (i)<br />

n i<br />

ˆθi, n +<br />

k∑<br />

o p (‖ ˆθ i, n ‖ / √ n)<br />

i=1<br />

k∑<br />

i=1<br />

k∑<br />

+ d n ‖ ˆθ<br />

k∑<br />

i, n ‖ 2 + d n<br />

= − 1 2<br />

i=1<br />

k∑<br />

i=1<br />

i=1<br />

k∑<br />

‖ ˆθ i, n ‖ 3 O p (1)<br />

i=1<br />

n i<br />

n ˆθ i, T nD i ˆθi, n + 1 2 d √ k∑<br />

n d ‖ ˆθ i, n ‖ 2 +<br />

i=1<br />

‖ ˆθ i, n ‖<br />

√ n<br />

n i<br />

n ˆθ i, T nD i ˆθi, n + 1 2 d √ k∑<br />

n d ‖ ˆθ i, n ‖ 2 +K<br />

i=1<br />

k∑<br />

+ d n ‖ ˆθ<br />

k∑<br />

i, n ‖ 2 + d n<br />

≤ − 1 2<br />

i=1<br />

k∑<br />

i=1<br />

i=1<br />

‖ ˆθ i, n ‖<br />

√ n<br />

n i<br />

n ˆθ i, T nD i ˆθi, n + 1 2 d √ k∑<br />

n d ‖ ˆθ i, n ‖ 2 +K<br />

i=1<br />

k∑<br />

+ d n ‖ ˆθ<br />

k∑<br />

i, n ‖ 2 + d n<br />

≤ − 1 2<br />

i=1<br />

k∑<br />

i=1<br />

i=1<br />

n i<br />

n ˆθ T i, nD i ˆθi, n + K 2<br />

‖ ˆθ i, n ‖<br />

√ n<br />

(<br />

k∑<br />

i=1<br />

(<br />

k∑<br />

i=1<br />

‖ ˆθ i, n ‖ 3 + n i<br />

n<br />

k∑<br />

‖ ˆθ i, n ‖ 3 K<br />

i=1<br />

‖ ˆθ<br />

)<br />

i, n ‖<br />

√<br />

ni<br />

(<br />

k∑<br />

d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ<br />

)<br />

i, n ‖<br />

√<br />

ni<br />

i=1<br />

d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ i, n ‖<br />

√<br />

ni<br />

‖<br />

+ d ˆθ<br />

)<br />

i, n ‖<br />

n √ n<br />

mit K 2 = K + √ d + 1. Da <strong>für</strong> alle i = 1, . . . , k der Quotient n i /n gegen eine positive Zahl<br />

größer null konvergiert, lässt sich ein b > 0 finden, dass n i /n <strong>für</strong> alle i = 1, . . . , k stets größer<br />

als b ist und man erhält<br />

1<br />

2 b ˆθ n T D ˆθ<br />

k∑<br />

n ≤ K 2<br />

i=1<br />

(<br />

d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ i, n ‖<br />

√<br />

ni<br />

+ d n<br />

‖ ˆθ i, n ‖<br />

√ n<br />

)<br />

.


38 Kapitel 4: Asymptotik <strong>des</strong> ML-Schätzers<br />

Mit K 3 = 2K 2 /b ergibt dieses<br />

(<br />

ˆθ n T D ˆθ<br />

k∑<br />

n ≤ K 3 d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ i, n ‖ ‖<br />

√ + d ˆθ<br />

)<br />

i, n ‖<br />

n √<br />

ni n<br />

i=1<br />

(<br />

k∑<br />

≤ K 3 d n ‖ ˆθ i, n ‖ 2 + ‖ ˆθ i, n ‖ ‖<br />

√ + d ˆθ<br />

)<br />

i, n ‖<br />

n √<br />

i=1<br />

bn n<br />

(<br />

= K 3 d n ‖ ˆθ n ‖ 2 + 1 + d √ )<br />

n b<br />

k∑<br />

√ ‖ ˆθ i, n ‖<br />

bn<br />

<strong>Die</strong> Abbildung x ↦→ ∑ k<br />

i=1 ‖ x i ‖ mit x i ∈ R d definiert eine Norm auf dem R kd . Auf einem<br />

endlich dimensionalen Vektorraum sind alle Normen äquivalent. Das heißt, es gibt a > 0 mit<br />

k∑<br />

‖ x i ‖ ≤ a ‖ x ‖<br />

i=1<br />

<strong>für</strong> alle x ∈ R kd . Weiter gilt nach Voraussetzung (v)<br />

ˆθ T n D ˆθ n ≥ α ‖ ˆθ n ‖ 2<br />

mit α > 0. Folglich erhält man<br />

(<br />

α ‖ ˆθ n ‖ 2 ≤ K 3 d n ‖ ˆθ n ‖ 2 + a(1 + d √ )<br />

n b) ‖ ˆθn ‖<br />

√ ,<br />

bn<br />

i=1<br />

was wiederum mit K 4 = K 3 α −1 · min(1, a/ √ b) > 0 äquivalent zu folgendem ist<br />

(<br />

‖ ˆθ n ‖ 2 ≤ K 4 d n ‖ ˆθ<br />

√<br />

n ‖ 2 ‖<br />

+(1 + d ˆθ<br />

)<br />

n ‖<br />

n b) √ n<br />

⇔<br />

⇔<br />

1 ≤ d n + 1 + d √<br />

n b<br />

√<br />

K 4 n ‖ ˆθn ‖<br />

√ n ‖ ˆθ n ‖≤ 1 + d √<br />

n b<br />

.<br />

1/K 4 − d n<br />

Da d n → 0, gilt <strong>für</strong> geeignetes K ∗ mit Wahrscheinlichkeit größer 1 − ɛ<br />

√ n ‖ ˆθn ‖≤ K ∗ .<br />

Korollar 4.8. Sei der k-Stichprobenfall mit Regularitätsbedingungen R und Bedingung F<br />

gegeben, dann folgt aus θ (0) ∈ M ⊆ R kd und ˆθ n<br />

M P<br />

→ θ (0) , dass<br />

√ n<br />

(ˆθM n − θ (0)) = O p (1).<br />

Beweis. Unter den gegebenen Voraussetzungen kann Theorem 4.6 angewandt werden. <strong>Die</strong><br />

Bedingungen (ii) und (iii) folgen direkt aus den Regularitätsbedingungen R. <strong>Die</strong> Bedingungen<br />

(iv) und (v) folgen nach Anwendung von Lemma 4.4 mit D = J(θ (0) ). Beachte, dass nach<br />

Regularitätsbedingungen R J(θ (0) ) positiv definit ist.


4.3. Eingeschränkter ML-Schätzer 39<br />

Bemerkung 4.9. Lässt sich der eingeschränkte ML-Schätzer ˆθ n<br />

M<br />

ˆη n M und ˆξ n M aufteilen, d.h.<br />

in zwei unabhängige Schätzer<br />

(ˆθ M π(1), n , . . . , ˆθ M π(k), n ) = (ˆηM n , ˆξ M n )<br />

mit einer Permutation π der Menge {1, . . . , k}, so können diese auch getrennt untersucht<br />

werden. Für ˆη n<br />

M = ˆη n , wobei ˆη n der entsprechend aufgeteilte uneingeschränkte ML-Schätzer<br />

ist, übertragen sich die Konvergenzeigenschaften aus dem uneingeschränkten Fall auf ˆη n<br />

M und<br />

die Asymptotik von ˆξ n M kann unabhängig von ˆη n M beispielsweise mit Theorem 4.6 untersucht<br />

werden.


Kapitel 5<br />

Asymptotische <strong>Verteilung</strong> der<br />

<strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik auf<br />

dem Rand der Hypothese<br />

In diesem Kapitel wird die <strong>asymptotische</strong> <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik auf<br />

dem Rand der Hypothese im k-Stichprobenfall untersucht. Der Abschnitt ist in Anlehnung an<br />

die Arbeit von Chernoff (1954), der den entsprechenden 1-Stichprobenfall behandelt, geschrieben<br />

und stellt eine Verallgemeinerung auf den k-Stichprobenfall mit ungleichen Fallzahlen dar.<br />

Chernoff betrachtet in seiner Arbeit die <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong><br />

im 1-Stichprobenfall, wenn der wahre Parameter auf dem Rand der Hypothese und der Alternative<br />

liegt. Folgende Annahmen werden gestellt: <strong>Die</strong> <strong>Verteilung</strong> der Beobachtungen genügen<br />

den Regularitätsbedingungen R, der auf die Hypothese eingeschränkte ML-Schätzer ist konsistent<br />

und die Parameterräume der Hypothese und der Alternative können durch positiv<br />

homogene Mengen approximiert werden, deren Eigenschaften später dargestellt werden. So<br />

kann Chernoff zeigen, dass die <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> asymptotisch gleich der<br />

<strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong>, wenn diese auf einer Beobachtung einer normalverteilten Zufallsvariablen<br />

mit Erwartungswert θ 0 und Kovarianzmatrix J(θ (0) ) −1 basiert, wobei die approximierenden<br />

Mengen der Hypothese und der Alternative gegeneinander getestet werden. Im<br />

Abschnitt 5.1 werden entsprechende Ergebnisse <strong>für</strong> den k-Stichprobenfall hergeleitet.<br />

5.1 Asymptotische <strong>Verteilung</strong> nach Chernoff<br />

<strong>für</strong> den k-Stichprobenfall<br />

Es wird der k-Stichprobenfall mit Regularitätsbedingungen R und Bedingung F betrachtet.<br />

Zur Vereinfachung und Lesbarkeit wird im Folgenden ohne Einschränkung der Allgemeinheit<br />

angenommen, dass der wahre Wert <strong>des</strong> Parameters θ (0) = 0 ist. <strong>Die</strong>ses kann durch Umparametrisierung<br />

mit θ ↦→ θ − θ (0) erreicht werden.<br />

Betrachtet wird der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test von der Hypothese H 0 : θ ∈ Θ 0 gegen die<br />

Alternative H 1 : θ ∈ Θ 1 . Wie im vorangegangenen Abschnitt wird angenommen, dass die<br />

Hypothese und die Alternative den Parameterraum in zwei disjunkte Mengen teilen. Des<br />

Weiteren soll die Hypothese wie auch der Parameterraum selbst durch eine positiv homogene<br />

41


42 Kapitel 5: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Hypothese<br />

Menge approximiert werden können. <strong>Die</strong> Definition 2.4 zur gegenseitigen Approximation von<br />

zwei Mengen wie auch die Definition einer positiv homogenen Menge sind in Abschnitt 2.4<br />

gegeben.<br />

Das folgende Theorem 5.1 stellt eine Verallgemeinerung <strong>des</strong> Resultates von Chernoff (1954)<br />

auf den k-Stichprobenfall mit ungleichen Fallzahlen dar. Gezeigt wird, dass die <strong>asymptotische</strong><br />

<strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> unter k Stichproben, die die Regularitätsbedingungen<br />

R und die Bedingung F <strong>für</strong> die <strong>asymptotische</strong> Fallzahlenverhältnisse erfüllen, gleich der <strong>Verteilung</strong><br />

<strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> unter einer Beobachtung einer normalverteilten Zufallsvariablen<br />

mit geeignetem Erwartungswert und geeigneter Varianz ist, wenn Hypothese Θ 0 und<br />

Parameterraum Θ durch positiv homogene Mengen approximiert werden können, wenn der<br />

wahre Wert θ (0) <strong>des</strong> Parameters θ auf dem Rand der Hypothese liegt und wenn der auf die<br />

Hypothese eingeschränkte ML-Schätzer in Wahrscheinlichkeit gegen den wahren Wert konvergiert.<br />

Kurz gefasst, bedeutet das, dass man sich bei <strong>asymptotische</strong>n Untersuchungen <strong>des</strong><br />

<strong>Likelihood</strong>-<strong>Quotienten</strong> auf eine normalverteilte Zufallsvariable Z und die approximierenden<br />

Mengen der Hypothese und <strong>des</strong> Parameterraums zurückziehen kann, wobei Z den Erwartungswert<br />

θ (0) hat und die Kovarianzmatrix von Z die Inverse der Diagonalmatrix mit gewichteten<br />

Fisher-Informationsmatrizen der einzelnen Stichproben auf der Diagonalen ist. Wie bereits<br />

erwähnt, wird ohne Einschränkung der Allgemeinheit θ (0) = 0 vorausgesetzt. <strong>Die</strong> im Abschnitt<br />

4.2 eingeführten Notationen <strong>für</strong> A (i)<br />

n i<br />

, B n (i)<br />

i<br />

, A n ,B n , J und C werden übernommen.<br />

Theorem 5.1. Der k-Stichprobenfall sei gegeben und folgende Bedingungen erfüllt:<br />

(i) <strong>Die</strong> Dichten f i erfüllen die Regularitätsbedingungen R <strong>für</strong> i = 1, . . . , k.<br />

(ii) <strong>Die</strong> Bedingung F ist erfüllt, d.h. n i<br />

n → c i <strong>für</strong> n → ∞ mit 0 < c i < 1, i = 1, . . . , k.<br />

(iii) Es gilt ˆθ Θ 0<br />

n<br />

P<br />

−→ 0.<br />

(iv) <strong>Die</strong> Mengen Θ und Θ 0 können durch die nicht leeren und positiv homogenen Mengen<br />

M bzw. M 0 approximiert werden.<br />

Dann ist die <strong>asymptotische</strong> <strong>Verteilung</strong> von −2 log λ n gegeben durch die <strong>Verteilung</strong> von<br />

inf (Z − θ) T CJ (Z − θ) − inf (Z −<br />

θ∈M 0 θ∈M θ)T CJ (Z − θ)<br />

mit Z ∼ N (0, (CJ) −1 ) und (CJ) −1 = diag ( 1 c 1<br />

J −1<br />

1 , . . . , 1<br />

c k<br />

J −1<br />

k<br />

Bemerkung 5.2. Beispiel 2.2 zeigt, dass die <strong>Verteilung</strong> von<br />

) ist.<br />

inf (Z − θ) T CJ (Z − θ) − inf (Z −<br />

θ∈M 0 θ∈M θ)T CJ (Z − θ)<br />

mit Z ∼ N (0, (CJ) −1 ) gerade die <strong>Verteilung</strong> von minus zweimal dem Logarithmus <strong>des</strong><br />

<strong>Likelihood</strong>-<strong>Quotienten</strong>s <strong>für</strong> den Test von θ ∈ M 0 gegen θ ∈ M\M 0 basierend auf einer Beobachtung<br />

einer normalverteilten Zufallsvariablen mit Erwartungswert 0 und Kovarianzmatrix<br />

(CJ) −1 ist.


5.1. Chernoff <strong>für</strong> den k-Stichprobenfall 43<br />

Beweis von Theorem 5.1. Da der <strong>Likelihood</strong>-Quotient durch<br />

λ n = sup θ∈Θ 0<br />

L n (θ)<br />

sup θ∈Θ L n (θ)<br />

gegeben ist, sind der ML-Schätzer und der auf die Hypothese Θ 0 eingeschränkte ML-Schätzer<br />

zu betrachten. Zunächst wird gezeigt, dass beide Schätzer folgende Eigenschaft aufweisen:<br />

ˆθ n = J −1 A n + η(ˆθ n ) mit η(ˆθ n ) = O p (1/ √ n). (5.1)<br />

Da nach Lemma 4.4 (i)<br />

J −1 A n = O p (1/ √ n)<br />

gilt, reicht es aus zu zeigen, dass ˆθ n ebenfalls ein O p (1/ √ n) ist, damit die Eigenschaft (5.1)<br />

gegegeben ist. <strong>Die</strong>ses gilt nach Theorem 4.5 <strong>für</strong> den ML-Schätzer ˆθ n . <strong>Die</strong> Bedingung (iii)<br />

der Voraussetzungen stellt sicher, dass der auf die Hypothese eingeschränkte Schätzer ˆθ Θ 0<br />

P<br />

konsistent ist, d.h. ˆθ Θ 0<br />

n −→ 0. Folglich kann Theorem 4.6 <strong>für</strong> ˆθ Θ 0<br />

n angewandt werden und man<br />

erhält ˆθ Θ 0<br />

n = O p (1/ √ n). Somit ist die Eigenschaft (5.1) <strong>für</strong> beide Schätzer gezeigt.<br />

Zur Vereinfachung der Schreibweise wird<br />

à n =<br />

eingeführt.<br />

(<br />

n 1 A (1) T<br />

n 1<br />

, . . . , n k A (k) T<br />

n k<br />

) T<br />

und ˜Bn = diag<br />

(<br />

)<br />

n 1 B n (1)<br />

1<br />

, . . . , n k B n (k)<br />

k<br />

<strong>Die</strong> Taylorentwicklung um den Nullpunkt (wahrer Wert <strong>des</strong> Parameters) liefert<br />

l n (θ) = l n (0) +<br />

k∑<br />

i=1<br />

n i A (i)<br />

n i<br />

θ i + 1 2<br />

k∑<br />

i=1<br />

n i θ T i B (i)<br />

n i<br />

θ i +<br />

k∑<br />

‖ θ i ‖ 3 O p (n i ).<br />

Wie schon in vorangegangenen Abschnitten erwähnt, sichert Punkt (c) der Regularitätsbedingungen<br />

R die Form <strong>des</strong> Restglie<strong>des</strong>. Wird vorausgesetzt, dass θ = O p (1/ √ n) ist, so ist das<br />

Restglied ‖ θ i ‖ 3 O p (n i ) <strong>für</strong> alle i = 1, . . . , k ein O p (1/ √ n) und damit ein o p (1). Ein θ, das<br />

Eigenschaft (5.1) aufweist, erfüllt die Voraussetzung θ = O p (1/ √ n). <strong>Die</strong>ses liefert<br />

i=1<br />

n<br />

l n (θ) = l n (0) + ÃT nθ + 1 2 θT ˜Bn θ + o p (1).<br />

Für θ, welches die Eigenschaft (5.1) erfüllt, kann an dieser Stelle θ durch J −1 A n + η(θ) mit<br />

η(θ) = O p (1/ √ n) ersetzt werden und man erhält<br />

l n (θ) = l n (0) + ÃT nJ −1 A n + ÃT nη(θ) + 1 2 (J −1 A n + η(θ)) T ˜Bn (J −1 A n + η(θ)) + o p (1)<br />

= l n (0) + ÃT nJ −1 A n + ÃT nη(θ) + 1 2 ÃT nJ −1 B n J −1 A n<br />

+ÃT nJ −1 B n η(θ) + 1 2 η(θ) ˜B n η(θ) + o p (1). (5.2)<br />

Beachte hierbei, dass J −1 = diag (J1 −1 , . . . , J −1 ) und diag(n 1I d , . . . , n k I d ) kommutieren.<br />

k


44 Kapitel 5: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Hypothese<br />

Mit B n = −J + o p (1) (Lemma 4.4 (ii)) gilt<br />

à T nJ −1 B n η(θ) = −Ãnη(θ) + ÃnJ −1 o p (1)η(θ)<br />

Analog erhält man mit gleichen Argumenten<br />

Weiter gilt analog mit n i /n = c i + o(1)<br />

η(θ) ˜B n η(θ) =<br />

= −Ãnη(θ) + O p ( √ n)o p (1)O p (1/ √ n)<br />

= −Ãnη(θ) + o p (1).<br />

à T nJ −1 B n J −1 A n = −ÃT nJ −1 A n + o p (1).<br />

k∑<br />

i=1<br />

= −n<br />

= −n<br />

= −n<br />

η(θ) T i n i B (i)<br />

n i<br />

k∑<br />

η(θ) T i<br />

i=1<br />

k∑<br />

η(θ) T i<br />

i=1<br />

η(θ) i = n<br />

k∑<br />

η(θ) T i<br />

i=1<br />

n i<br />

n J i η(θ) i + n<br />

n i<br />

n B(i) n i<br />

η(θ) i<br />

k∑<br />

η(θ) T i o p (1) η(θ) i<br />

i=1<br />

n j<br />

n J i η(θ) i + n O p (1/ √ n)o p (1)O p (1/ √ n)<br />

k∑<br />

η(θ) T i c i J i η(θ) i + n η(θ) T o(1) η(θ) + o p (1)<br />

i=1<br />

= −n η(θ) T CJη(θ) + o p (1).<br />

Einsetzen in (5.2) liefert<br />

l n (θ) = l n (0) + 1 2ÃT nJ −1 A n − n 2 η(θ)T CJη(θ) + o p (1). (5.3)<br />

Weiter gilt <strong>für</strong> eine beliebige Menge M ∈ R kd<br />

sup<br />

θ∈M<br />

(<br />

l n (0) + 2ÃT 1 nJ −1 A n − n )<br />

2 η(θ)T CJη(θ) + o p (1)<br />

= l n (0) + 1 2ÃT nJ −1 A n + sup<br />

θ∈M<br />

(<br />

− n )<br />

2 η(θ)T CJη(θ) + o p (1).<br />

Somit kann mit (5.3) der log-<strong>Likelihood</strong> als<br />

[<br />

]<br />

−2 log λ n (x) = 2 sup l n (θ) − sup l n (θ)<br />

θ∈Θ θ∈Θ 0<br />

[ (<br />

= 2 sup − n )<br />

2 η(θ)T CJη(θ)<br />

geschrieben werden.<br />

[<br />

= n<br />

θ∈Θ<br />

[<br />

]<br />

= 2 l n (ˆθ n ) − l n (ˆθ Θ 0<br />

n )<br />

inf η(θ) T CJη(θ) − inf<br />

θ∈Θ 0 θ∈Θ η(θ)T CJη(θ)<br />

(<br />

− sup − n CJη(θ)) ]<br />

θ∈Θ 0<br />

2 η(θ)T + o p (1)<br />

]<br />

+ o p (1)


5.1. Chernoff <strong>für</strong> den k-Stichprobenfall 45<br />

Wird nun wieder η(θ) durch J −1 A n − θ ersetzt, erhält man<br />

[<br />

]<br />

−2 log λ n (x) = n inf (J −1 A n − θ) T CJ(J −1 A n − θ) − inf (J −1 A n − θ) T CJ(J −1 A n − θ)<br />

θ∈Θ 0 θ∈Θ<br />

+ o p (1).<br />

Anwenden von Lemma 2.7 liefert<br />

[<br />

]<br />

−2 log λ n (x) = n inf (J −1 A n − θ) T CJ(J −1 A n − θ) − inf (J −1 A n − θ) T CJ(J −1 A n − θ)<br />

θ∈M 0 θ∈M<br />

mit<br />

+ n o(‖ J −1 A n ‖ 2 ) + o p (1)<br />

n o(‖ J −1 A n ‖ 2 ) = n o p (1/n) = o p (1).<br />

Somit gilt<br />

−2 log λ n (x) = n · inf<br />

θ∈M 0<br />

(J −1 A n − θ) T CJ (J −1 A n − θ)<br />

−n · inf<br />

θ∈M (J −1 A n − θ) T CJ (J −1 A n − θ) + o p (1)<br />

= inf<br />

θ∈M 0<br />

( √ nJ −1 A n − √ nθ) T CJ ( √ nJ −1 A n − √ nθ)<br />

− inf<br />

θ∈M (√ nJ −1 A n − √ nθ) T CJ ( √ nJ −1 A n − √ nθ) + o p (1)<br />

= inf<br />

θ∈M 0<br />

( √ nJ −1 A n − θ) T CJ ( √ nJ −1 A n − θ)<br />

− inf<br />

θ∈M (√ nJ −1 A n − θ) T CJ ( √ nJ −1 A n − θ) + o p (1)<br />

= inf<br />

θ∈M 0<br />

(Z n − θ) T CJ (Z n − θ) − inf<br />

θ∈M (Z n − θ) T CJ (Z n − θ) + o p (1)<br />

mit Z n = √ nJ −1 A n . <strong>Die</strong> dritte Gleichheit folgt daraus, dass M und M 0 positiv homogene<br />

Mengen sind. Nach Punkt (i) von Lemma 4.4 gilt<br />

√ nAn<br />

D −→ N (0, C −1 J)<br />

und folglich<br />

Z n = √ nJ −1 A n<br />

D −→ N (0, (CJ) −1 ).<br />

Da die Abbildung x ↦→ inf θ∈M0 (x − θ) T CJ (x − θ) stetig ist, folgt nach dem Lemma von<br />

Slutzky (siehe A.3), dass die <strong>asymptotische</strong> <strong>Verteilung</strong> von −2 log λ n die von<br />

mit Z ∼ N (0, (CJ) −1 ) ist.<br />

inf (Z − θ) T CJ (Z − θ) − inf (Z −<br />

θ∈M 0 θ∈M θ)T CJ (Z − θ)


46 Kapitel 5: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Hypothese<br />

Korollar 5.3. In Theorem 5.1 kann die Kovarianzmatrix CJ durch d · CJ mit beliebigem<br />

d > 0 ersetzt werden.<br />

Beweis. Wie in Theorem 5.1 gezeigt, ist die <strong>asymptotische</strong> <strong>Verteilung</strong> von −2 log λ n (x) durch<br />

die <strong>Verteilung</strong> von<br />

mit Z ∼ N (0, (CJ) −1 ) gegeben.<br />

inf (Z − θ) T CJ (Z − θ) − inf (Z −<br />

θ∈M 0 θ∈M θ)T CJ (Z − θ)<br />

Da nun M und M 0 positiv homogene Mengen sind, gilt<br />

inf (Z − θ) T CJ (Z − θ) − inf (Z −<br />

θ∈M 0 θ∈M θ)T CJ (Z − θ)<br />

1<br />

= inf √d (Z − θ) T d · CJ 1<br />

1<br />

√ (Z − θ) − inf √ (Z − θ) T d · CJ √ 1 (Z − θ)<br />

θ∈M 0 d θ∈M d d<br />

= inf ( √ 1 Z − θ) T d · CJ ( √ 1 Z − θ) − inf ( √ 1 Z − θ) T d · CJ ( √ 1 Z − θ)<br />

θ∈M 0 d d θ∈M d d<br />

= inf<br />

θ∈M 0<br />

(Y − θ) T d · CJ (Y − θ) − inf<br />

θ∈M (Y − θ)T d · CJ (Y − θ)<br />

mit Y ∼ N (0, d −1 (CJ) −1 ).<br />

Bemerkung 5.4 (Konsistenz mit Chernoff’s 1-Stichprobenfall). Betrachtet wird der<br />

k-Stichprobenfall mit gleichen Fallzahlen in allen Stichproben, d.h. n i = n j <strong>für</strong> alle i, j =<br />

1, . . . , k, dann können die Stichproben zu einer zusammengefasst und das Resultat von Chernoff<br />

<strong>für</strong> den 1-Stichprobenfall angewandt werden. So erhält man, dass die <strong>Verteilung</strong> von<br />

−2 log λ n (x) asymptotisch gleich der von −2 log λ n (x) ist <strong>für</strong> den Test von θ ∈ M 0 gegen<br />

θ ∈ M\M 0 basierend auf einer normalverteilten Zufallsvariablen mit Erwartungswert 0 und<br />

Kovarianzmatrix J −1 . Wird hingegen Theorem 5.1 mit c i = 1/k <strong>für</strong> alle i = 1, , . . . , k angewandt,<br />

erhält man statt der Kovarianzmatrix J −1 nun k · J −1 . Korollar 5.3 zeigt mit d = 1/k,<br />

dass die Ergebnisse konsistent sind.<br />

5.2 Beispiele<br />

An einem einfachen Beispiel soll exemplarisch gezeigt werden, wie die Resultate von Theorem<br />

5.1 genutzt werden können, um die <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> unter<br />

der Hypothese zu bestimmen. Im Beispiel 5.5 wird eine normalverteilte Zufallsvariable X ∼<br />

N (θ (0) , I 2 ) mit θ (0) ∈ R 2 betrachtet (I 2 = 2 × 2 Identitätsmatrix). Der Hypothesenraum<br />

Θ 0 ist ein Halbraum und θ (0) liegt auf dem Rand der Hypothese. Dann ist −2 log λ verteilt<br />

nach 1/2 + 1/2χ 2 1 . Nach Beispiel 5.6 bleibt die <strong>Verteilung</strong> von −2 log λ unverändert, wenn<br />

I 2 durch eine beliebige, aber bekannte Kovarianzmatrix Σ ersetzt wird. Entsprechend kann<br />

dieses Ergebnis auf zwei unabhängige Stichproben übertragen werden, wenn die Bedingungen<br />

von Theorem 5.1 erfüllt sind. −2 log λ ist dann asymptotisch verteilt nach 1/2 + 1/2χ 2 1 (siehe<br />

Beispiel 5.7).


5.2 Beispiele 47<br />

Beispiel 5.7 umfasst die nachstehenden Hypothesenräume. Für eine differenzierbare Funktion<br />

h : R → R ist der Hypothesenraum<br />

Θ 0 = { θ ∈ R 2 : θ 1 ≥ h(θ 2 ) }<br />

durch einen Halbraum approximierbar. <strong>Die</strong>ses deckt die Hypothesenräume<br />

Θ 0 = { θ ∈ R 2 : θ 1 − θ 2 ≥ ∆ }<br />

und<br />

Θ 0 = { θ ∈ R 2 : θ 1 /θ 2 ≥ ∆ }<br />

ab, die bei Nicht-Unterlegenheitstests auftreten (siehe Kapitel 3).<br />

Beispiel 5.5. Betrachtet wird eine normalverteilte Zufallsvariable X ∼ N (θ (0) , I 2 ) mit<br />

θ (0) ∈ R 2 . Der Hypothesenraum Θ 0 sei ein Halbraum, also<br />

Θ 0 = {θ : a 1 θ 1 + a 2 θ 2 + b ≤ 0} .<br />

θ (0) liege auf dem Rand der Hypothese. Ohne Einschränkung der Allgemeinheit sei θ (0) = (0, 0)<br />

und b = 0, d.h. Θ 0 = {θ : a 1 θ 1 + a 2 θ 2 ≤ 0}. Im Folgenden wird gezeigt, dass <strong>für</strong> die Bestimmung<br />

der <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik sogar<br />

Θ 0 = {θ : θ 1 ≤ 0}<br />

angenommen werden kann. Es wird eine orthogonale Matrix Q so gewählt, dass<br />

QΘ 0 := {Qθ : a 1 θ 1 + a 2 θ 2 ≤ 0} = {θ : θ 1 ≤ 0}<br />

gilt. Da der empirische Mittelwert ¯x suffiziente Statistik <strong>für</strong> θ (0) ist (¯x ∼ N (θ (0) , n −1 I 2 )),<br />

reicht es aus, den Stichprobenumfang 1 zu behandeln (siehe Beispiel 2.2). <strong>Die</strong> <strong>Likelihood</strong>-<br />

<strong>Quotienten</strong>-Statistik lässt sich nach Beispiel 2.2 mit<br />

−2 log λ = inf<br />

θ∈Θ 0<br />

(X − θ) T (X − θ)<br />

aufstellen. Dann gilt mit Q T Q = I 2 und Z := QX ∼ N (0, I 2 )<br />

−2 log λ = inf<br />

θ∈Θ 0<br />

(X − θ) T Q T Q(X − θ)<br />

= inf<br />

θ∈Θ 0<br />

(QX − Qθ) T (QX − Qθ)<br />

= inf<br />

θ∈QΘ 0<br />

(QX − θ) T (QX − θ)<br />

= inf<br />

θ∈QΘ 0<br />

(Z − θ) T (Z − θ)<br />

= inf<br />

θ: θ 1 ≤0 (Z − θ)T (Z − θ).<br />

Somit folgert man<br />

−2 log λ =<br />

{ Z<br />

2<br />

1 <strong>für</strong> Z 1 > 0<br />

0 <strong>für</strong> Z 1 ≤ 0<br />

mit Z 2 1 ∼ χ2 1 und P (Z 1 ≤ 0) = P (Z 1 > 0) = 1/2. Also<br />

−2 log λ ∼ 1 2 + 1 2 χ2 1.


48 Kapitel 5: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Hypothese<br />

Beispiel 5.6. Betrachtet wird eine normalverteilte Zufallsvariable X ∼ N (θ (0) , Σ) mit θ (0) ∈ R 2<br />

und bekannter Kovarianzmatrix Σ ∈ R 2×2 . Der Hypothesenraum Θ 0 sei ein Halbraum. θ (0)<br />

liege auf dem Rand der Hypothese und sei ohne Einschränkung der Allgemeinheit mit null angenommen,<br />

θ (0) = (0, 0). Da Σ symmetrisch und positiv definit ist, existiert eine orthogonale<br />

Matrix Q und eine Diagonalmatrix V mit<br />

Es gilt<br />

und Σ −1/2 kann definiert werden als<br />

Σ = Q T V Q.<br />

Σ −1 = (Q T V Q) −1 = Q T V −1 Q<br />

Σ −1/2 = Q T V −1/2 Q.<br />

Nach Definition gilt Σ −1 = Σ −1/2 Σ −1/2 und Σ −1/2 ΣΣ −1/2 = I 2 . Weiter ist<br />

˜Θ 0 := {Σ −1/2 θ : θ ∈ Θ 0 }<br />

wieder ein Halbraum, da Σ −1/2 = Q T V −1/2 Q eine lineare Abbildung mit vollem Rang definiert.<br />

Für die <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik gilt nach Beispiel 2.2<br />

−2 log λ = inf<br />

θ∈Θ 0<br />

(X − θ) T Σ −1 (X − θ)<br />

= inf<br />

θ∈Θ 0<br />

(X − θ) T Σ −1/2 Σ −1/2 (X − θ)<br />

= inf<br />

θ∈Θ 0<br />

(Σ −1/2 X − Σ −1/2 θ) T (Σ −1/2 X − Σ −1/2 θ)<br />

= inf<br />

θ∈ ˜Θ 0<br />

(Z − θ) T (Z − θ)<br />

mit Z = Σ −1/2 X ∼ N (0, I 2 ). Da ˜Θ 0 wieder ein Halbraum ist, folgt nach obigem Beispiel 5.5<br />

−2 log λ ∼ 1 2 + 1 2 χ2 1.<br />

Beispiel 5.7. Es seien zwei unabhängige Stichproben X 11 , . . . , X 1n1 ∼ f 1 (x, θ (0)<br />

1 ), θ(0) 1 ∈ R,<br />

und X 21 , . . . , X 2n2 ∼ f 2 (x, θ (0)<br />

2 ), θ(0) 2 ∈ R, gegeben, die die Regularitätsbedingungen R erfüllen<br />

und sei Bedingung F erfüllt. Es wird θ (0) = (θ (0) ) gesetzt und der Hypothesenraum<br />

1 , θ(0) 2<br />

Θ 0 ⊆ R 2 soll in θ (0) durch einen Halbraum M 0 approximiert werden können. Weiter gilt<br />

ˆθ Θ P<br />

0<br />

n −→ θ (0) . Somit sind die Voraussetzungen von Theorem 5.1 erfüllt und man erhält<br />

−2 log λ n<br />

D −→ inf<br />

θ∈M 0<br />

(Z − θ) T Σ −1 (Z − θ)<br />

mit Z ∼ N (θ (0) , Σ) und geeigneter Kovarianzmatrix Σ. Mit obigem Beispiel 5.7 folgt<br />

−2 log λ n<br />

D −→<br />

1<br />

2 + 1 2 χ2 1.


Kapitel 6<br />

Asymptotische <strong>Verteilung</strong> der<br />

<strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik<br />

unter fester Alternative<br />

Betrachtet wird der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test von der Hypothese H 0 : θ ∈ Θ 0 gegen die<br />

Alternative H 1 : θ ∈ Θ 1 . Wie im vorangegangenen Kapitel wird angenommen, dass die<br />

Hypothese und die Alternative den Parameterraum in zwei disjunkte Mengen teilen. <strong>Die</strong><br />

<strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> soll in diesem Kapitel unter einer festen<br />

Alternative θ (0) ∈ Θ 1 untersucht werden. Wie in den obigen Abschnitten werden zum besseren<br />

Verständnis zunächst die Resultate <strong>des</strong> 1-Stichprobenfalls herausgearbeitet und diese<br />

dann auf den k-Stichprobenfall mit unterschiedlichen Fallzahlen in den einzelnen Stichproben<br />

verallgemeinert. In Theorem 6.2 (k-Stichprobenfall: Theorem 6.7) wird gezeigt, dass der log-<br />

<strong>Likelihood</strong>, genauer 1/ √ n log λ n , unter der Alternative θ (0) ∈ Θ 1 asymptotisch normalverteilt<br />

ist. Hier<strong>für</strong> wird neben Regularitätsbedingungen vorausgesetzt, dass ein Punkt θ ∗ ∈ Θ 0 mit<br />

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n) (6.1)<br />

existiert, wobei ˆθ r n der auf die Hypothese Θ 0 eingeschränkte ML-Schätzer ist. <strong>Die</strong>se Bedingung<br />

ist im Allgemeinen nicht leicht zu prüfen und es bedarf weiterer Diskussion, unter welchen<br />

Voraussetzungen sie erfüllt ist. Zunächst wird im Korollar 6.5 (k-Stichprobenfall: Korollar<br />

6.9) herausgearbeitet, dass unter geeigneten Bedingungen nur der Punkt in der Hypothese,<br />

der den Kullback-Leibler Abstand zum wahren Wert <strong>des</strong> Parameters θ (0) minimiert, <strong>für</strong> θ ∗<br />

in Frage kommt. Hierauf basierend werden am Ende <strong>des</strong> k-Stichprobenabschnitts in Korollar<br />

6.12 Bedingungen angegeben, unter denen die Bedingung (6.1) erfüllt sind.<br />

6.1 Asymptotik im 1-Stichprobenfall<br />

Betrachtet werden Zufallsvariablen, die die Regularitätsbedingungen R erfüllen.<br />

Definition 6.1. f 0 und f 1 seien Dichten bezüglich einem σ-endlichen Maß ν. Es wird f 0 ≪ f 1<br />

geschrieben, wenn f 0 absolut stetig bezüglich f 1 ist. Dann ist der Kullback-Leibler Abstand<br />

49


50 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />

definiert als<br />

∫<br />

K(f 0 , f 1 ) =<br />

log<br />

[ ]<br />

f0 (x)<br />

f 0 (x)dν(x)<br />

f 1 (x)<br />

<strong>für</strong> f 0 ≪ f 1 und unendlich sonst.<br />

Der Kullback-Leibler Abstand stellt ein Maß <strong>für</strong> die Unterschiedlichkeit zweier Wahrscheinlichkeitsverteilungen<br />

dar. Trotz <strong>des</strong> irreführenden Namens ”<br />

Abstand“ definiert der Kullback-<br />

Leibler Abstand keine Metrik, da die Symmetrie-Eigenschaft wie auch die Definitheit verletzt<br />

ist. Für f θ und f˜θ<br />

wird<br />

K(θ, ˜θ) = K(f θ , f˜θ)<br />

gesetzt.<br />

[<br />

Bedingung B1: Es existieren E θ (0) log f(X1 , θ (0) ) ] und eine Funktion K(x), so dass log f(x, θ)<br />

gleichmäßig in Θ 0 im Betrag durch K(x) beschränkt ist und E θ (0) [K(X 1 )] < ∞ gilt.<br />

Bedingung B2: E θ (0) [log f(X 1 , θ)] 2 existiert <strong>für</strong> θ ∈ Θ 0 ∪ {θ (0) }.<br />

<strong>Die</strong> Bedingung B1 stellt sicher, dass der Kullback-Leibler Abstand zwischen der wahren <strong>Verteilung</strong><br />

und den zur Hypothese<br />

[<br />

gehörigen <strong>Verteilung</strong>en wohldefiniert ist. Bedingung B2 sichert<br />

die Existenz von Var θ (0) log f(X1 , θ (0) ) − log f(X 1 , θ) ] <strong>für</strong> θ ∈ Θ 0 , wie es in Theorem 6.2<br />

benötigt wird. Im Folgenden wird ˆθ n r = ˆθ Θ 0<br />

n <strong>für</strong> den auf die Hypothese Θ 0 eingeschränkten<br />

ML-Schätzer geschrieben. Es wird ˆθ n r als restringierter ML-Schätzer bezeichnet.<br />

Das nachstehende Theorem 6.2 gibt die <strong>asymptotische</strong> <strong>Verteilung</strong> der <strong>Likelihood</strong>-<strong>Quotienten</strong>-<br />

Statistik λ n an, wenn θ (0) in der Alternative Θ 1 liegt.<br />

Theorem 6.2. Der 1-Stichprobenfall sei mit nachstehenden Bedingungen gegeben:<br />

(i) <strong>Die</strong> Regularitätsbedingungen R sind erfüllt.<br />

(ii) Der wahre Wert <strong>des</strong> Parameters θ (0) liege in der Alternative Θ 1 .<br />

(iii) <strong>Die</strong> Bedingungen B1 und B2 sind erfüllt.<br />

(iv) Es gibt θ ∗ ∈ Θ 0 mit<br />

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n). (6.2)<br />

Dann gilt<br />

wobei<br />

( )<br />

√ 1 n<br />

n log λ n + K(θ (0) , θ ∗ D<br />

) −→ N (0, σ 2 (θ (0) , θ ∗ )),<br />

σ 2 (θ (0) , θ ∗ ) = Var θ (0)<br />

[<br />

]<br />

log f(X 1 , θ (0) ) − log f(X 1 , θ ∗ ) .


6.1. Asymptotik im 1-Stichprobenfall 51<br />

Zum Beweis <strong>des</strong> Theorems wird ein Resultat der klassischen <strong>Likelihood</strong>-<strong>Quotienten</strong>-Theorie<br />

benutzt, formuliert in Lemma 6.3. Demnach ist −2 log λ n unter der Hypothese H 0 : θ = θ 0<br />

asymptotisch χ 2 -verteilt. Das Lemma stellt einen Spezialfall der Arbeit von Wilks (1938)<br />

dar, die zusammengesetzte Hypothesen im Allgemeinen abdeckt. Ein Beweis <strong>des</strong> Resultates<br />

ist zum Beispiel auch im Buch von Ferguson (1996, Kapitel 22, Satz 22) zu finden.<br />

Lemma 6.3. Unter den Regularitätsbedingungen R und der Hypothese H 0 : θ = θ 0 gilt<br />

−2 log λ n = −2[l n (θ (0) ) − l n (ˆθ n )]<br />

wobei d die Dimension <strong>des</strong> Parameterraumes ist.<br />

D<br />

−→ χ 2 d ,<br />

Beweis von Theorem 6.2. Betrachtet wird der log-<strong>Likelihood</strong><br />

log λ n = l n (ˆθ r n) − l n (ˆθ n )<br />

= [l n (ˆθ r n) − l n (θ ∗ )] + [l n (θ ∗ ) − l n (θ (0) )] + [l n (θ (0) ) − l n (ˆθ n )],<br />

so gilt <strong>für</strong> den dritten Term nach Lemma 6.3<br />

und folglich<br />

[l n (θ (0) ) − l n (ˆθ n )] = O p (1)<br />

1<br />

√ n<br />

[l n (θ (0) ) − l n (ˆθ n )] = o p (1).<br />

Zusammen mit der Voraussetzung (6.2)<br />

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n)<br />

erhält man<br />

( )<br />

√ 1 n<br />

n log λ n + K(θ (0) , θ ∗ )<br />

= √ n 1 n<br />

n∑<br />

i=1<br />

[<br />

log f(X i, θ ∗ ]<br />

)<br />

f(X i , θ (0) ) + K(θ(0) , θ ∗ )<br />

+ o p (1). (6.3) .<br />

Es gilt<br />

[<br />

E log f(X i, θ ∗ ]<br />

)<br />

f(X i , θ (0) = −K(θ (0) , θ ∗ )<br />

)<br />

<strong>für</strong> alle i = 1, . . . , n. Somit schließt man mit dem zentralen Grenzwertsatz (siehe A.2), dass<br />

die rechte Seite von 6.3 und folglich auch die linke asymptotisch normalverteilt sind mit<br />

Erwartungswert null und Varianz<br />

[<br />

]<br />

σ 2 (θ (0) , θ ∗ ) = Var θ (0) log f(X 1 , θ (0) ) − log f(X 1 , θ ∗ ) .<br />

Bedingung B1 und B2 sichern die Existenz von K(θ (0) , θ ∗ ) und σ 2 (θ (0) , θ ∗ ) und somit auch<br />

die Anwendung <strong>des</strong> zentralen Grenzwertsatzes.


52 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />

Grenzwert <strong>des</strong> restringierten ML-Schätzers<br />

Im Folgendem ist zu diskutieren, welche Parameter θ ∗ die Bedingung (6.2) erfüllen können.<br />

Ist die Bedingung B1 erfüllt, so wird<br />

θ min = arg min<br />

θ∈Θ 0<br />

K(θ (0) , θ) (6.4)<br />

als der Parameter in der Hypothese definiert, der den Kullback-Leibler Abstand zum wahren<br />

Wert <strong>des</strong> Parameters θ (0) minimiert. Ist wird sich herausstellen, dass unter geeigneten Voraussetzungen,<br />

welche im Wesentlichen die Eindeutigkeit von θ min umfassen, <strong>für</strong> θ ∗ nur θ min<br />

in Frage kommt, um die Bedingung (6.2) zu erfüllen (siehe hierzu Korollar 6.5).<br />

White (1982, Theorem 2.2) zeigt in seiner Arbeit, dass der restringierte ML-Schätzer ˆθ r n gegen<br />

θ min aus (6.4) konvergiert. Der Beweis geht auf White (1981, Theorem 2.1) zurück. White<br />

betrachtet in seiner Arbeit den ML-Schätzer über eine kompakte Menge. <strong>Die</strong> Einschränkung<br />

auf eine kompakte Menge ist in Theorem 6.4 nicht nötig.<br />

Theorem 6.4. Seien die Bedingungen R und B1 erfüllt und das Minimum min θ∈Θ K(θ (0) , θ)<br />

bei θ min eindeutig. Dann gilt<br />

a.s.<br />

−→ θ min .<br />

ˆθ r n<br />

Beweis. Seien<br />

und<br />

so gilt<br />

Q n (θ) = − 1 n l n(θ) = − 1 n<br />

n∑<br />

log f(X i , θ)<br />

i=1<br />

Q(θ) = −E θ (0) [log f(X 1 , θ)] ,<br />

K(θ (0) , θ) = Q(θ) − Q(θ (0) ).<br />

Folglich minimiert θ min = arg min θ∈Θ0 K(θ (0) , θ) ebenfalls Q(θ) eindeutig in Θ 0 .<br />

Zunächst wird gezeigt, dass der restringierte ML-Schätzer ˆθ n r asymptotisch in einer präkompakten,<br />

d.h. beschränkten Teilmenge von Θ 0 liegt. Wenn Θ 0 nicht schon beschränkt ist, wird<br />

hier<strong>für</strong><br />

g(x, r) = sup<br />

θ∈Θ 0 : ‖θ‖≥r<br />

f(x, θ)<br />

betrachtet. Wald (1949, Lemma 3) zeigt, dass<br />

Folglich kann ein r 0 so gewählt werden, dass<br />

was äquivalent zu<br />

lim E<br />

r→∞<br />

θ (0) [log g(X 1, r)] = −∞.<br />

E θ (0) [log g(X 1 , r 0 )] < E θ (0) [log f(X 1 , θ min )] ,<br />

E θ (0) [log g(X 1 , r 0 ) − log f(X 1 , θ min )] < 0


6.1. Asymptotik im 1-Stichprobenfall 53<br />

ist. Nach dem starken Gesetz der großen Zahlen (siehe A.1) gilt dann<br />

( (<br />

) )<br />

1<br />

n∑<br />

P lim log g(X i , r 0 ) − 1 n∑<br />

log f(X i , θ min ) < 0 = 1 .<br />

n→∞ n<br />

n<br />

i=1<br />

i=1<br />

<strong>Die</strong>ses impliziert<br />

(<br />

P<br />

lim<br />

n→∞<br />

(<br />

)<br />

Q n (θ min ) − inf Q n (θ)<br />

θ∈Θ 0 : ‖θ‖≥r 0<br />

)<br />

< 0 = 1.<br />

Somit schließt man θ min ∈ B r0 := {θ : ‖ θ ‖≤ r 0 } ∩ Θ 0 und<br />

(<br />

P<br />

(ˆθr n − ˜θ<br />

)<br />

n<br />

lim<br />

n→∞<br />

)<br />

= 0 = 1 (6.5)<br />

mit<br />

Weiter gilt auch<br />

˜θ n = inf<br />

θ∈B r0<br />

Q n (θ) .<br />

Q(θ min ) = inf<br />

θ∈B r0<br />

Q(θ).<br />

Da B r0<br />

präkompakt ist, gilt nach Mickey’s Theorem (siehe A.4)<br />

Q n (θ) a.s. −→ Q(θ)<br />

gleichmäßig <strong>für</strong> alle θ in B r0 .<br />

Wenn ˜θ n nun Q n (θ) in B r0 minimiert und θ min Q(θ) eindeutig in B r0 minimiert, so ergibt<br />

White’s Lemma (siehe A.5), dass aus Q n (θ) a.s. −→ Q(θ) gleichmäßig in B r0<br />

˜θ n<br />

a.s.<br />

−→ θ min<br />

folgt. Mit (6.5) wird<br />

geschlossen.<br />

ˆθ r n<br />

a.s.<br />

−→ θ min .<br />

Korollar 6.5. Seien die Bedingungen R, B1 und B3 erfüllt und das Minimum min θ∈Θ K(θ (0) , θ)<br />

bei θ min eindeutig. Sei θ ∗ ∈ Θ 0 wie in Theorem 6.2 mit l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n), so gilt<br />

θ ∗ = θ min = arg min<br />

θ∈Θ 0<br />

K(θ (0) , θ).<br />

Beweis. <strong>Die</strong> Notationen <strong>für</strong> Q und Q n aus dem Beweis von Theorem 6.4 werden übernommen.<br />

Aus<br />

folgt<br />

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n) = o p (n)<br />

Q n (ˆθ r n)<br />

P<br />

−→ Q n (θ ∗ ).


54 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />

Nach dem schwachen Gesetz der großen Zahlen (siehe A.1) gilt Q n (θ ∗ ) = Q(θ ∗ )+o p (1). Somit<br />

erhält man<br />

Q n (ˆθ r n)<br />

P<br />

−→ Q(θ ∗ ). (6.6)<br />

Mit dem Ergebnis aus Theorem 6.4, ˆθ n<br />

r<br />

Lemma (siehe A.6) erhält man mit<br />

Q n (ˆθ r n)<br />

Aufgrund der Eindeutigkeit <strong>des</strong> Minimums muss<br />

a.s.<br />

−→ θ min , und unter Anwendung von Amemiya’s<br />

P<br />

−→ Q(θ min ).<br />

θ ∗<br />

= θ min<br />

gelten.<br />

Im anschließenden Abschnitt zum k-Stichprobenfall werden Voraussetzungen aufgeführt, unter<br />

denen die Bedingung (6.2)<br />

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n)<br />

aus Theorem 6.2 erfüllt ist, siehe Korollar 6.12.


6.2. Asymptotik im k-Stichprobenfall 55<br />

6.2 Asymptotik im k-Stichprobenfall<br />

<strong>Die</strong> Ergebnisse <strong>des</strong> 1-Stichprobenfalls werden auf den k-Stichprobenfall mit ungleichen Fallzahlen<br />

übertragen. Es wird somit der k-Stichprobenfall mit Regularitätsbedingungen R und<br />

Bedingung F betrachtet. Sei c = (c 1 , . . . , c k ) mit n i /n → c i .<br />

Der Kullback-Leibler Abstand ist <strong>für</strong> den k-Stichprobenfall zu modifizieren.<br />

Definition 6.6. Seien (f i,0 , f i,1 ), i = 1, . . . , k Paare von Dichten bezüglich einem σ-endlichen<br />

Maß ν und w = (w 1 , . . . , w k ), w i > 0, ein Gewichtungsvektor, dann ist der gewichtete<br />

Kullback-Leibler Abstand <strong>für</strong> f 0 = (f 1,0 , . . . , f k,0 ) und f 1 = (f 1,1 , . . . , f k,1 ) definiert als<br />

K(f 0 , f 1 , w) =<br />

k∑<br />

w i K(f i,0 , f i,1 ),<br />

i=1<br />

wenn f i,0 ≪ f i,1 <strong>für</strong> alle i = 1, . . . , k und unendlich sonst.<br />

Für f θ (·) = (f 1 (θ 1 , ·), . . . , f k (θ k , ·)) und f˜θ(·) = (f 1 (˜θ 1 , ·), . . . , f k (˜θ k , ·)) wird<br />

gesetzt.<br />

K(θ, ˜θ, c) = K(f θ , f˜θ,<br />

c)<br />

Bedingung B3: Für i = 1, . . . , k existiert E (0) θ<br />

log f i (X i1 , θ (0)<br />

i<br />

) und es existiert eine Funktion<br />

i<br />

K i (x) mit E (0) θ<br />

K i (X i1 ) < ∞, so dass log f i (x, θ i ) gleichmäßig in Θ 0 im Betrag durch K i (x)<br />

i<br />

beschränkt ist.<br />

Bedingung B4: E (0) θ i<br />

<strong>für</strong> alle i = 1, . . . , k.<br />

[log f i (X i1 , θ i )] 2 existiert <strong>für</strong> θ i ∈ {θ i : θ = (θ 1 , . . . , θ k ) ∈ Θ 0 } ∪ {θ (0)<br />

i<br />

}<br />

Bedingung B3 stellt die zu Bedingung B1 entsprechende k-Stichprobenbedingung dar und<br />

sichert die Wohldefiniertheit <strong>des</strong> gewichteten Kullback-Leibler Abstands zwischen der wahren<br />

<strong>Verteilung</strong> und denen zur Hypothese gehörigen <strong>Verteilung</strong>en. Entsprechend sichert Bedingung<br />

B4 die Existenz von<br />

k∑<br />

i=1<br />

c i Var θ<br />

(0)<br />

i<br />

[<br />

]<br />

log f(X i1 , θ (0)<br />

i<br />

) − log f(X i1 , θ i )<br />

<strong>für</strong> θ ∈ Θ 0 . Im Folgenden wird erneut ˆθ n r = ˆθ Θ 0<br />

n <strong>für</strong> den auf die Hypothese Θ 0 eingeschränkten<br />

ML-Schätzer geschrieben. ˆθ n r wird als restringierter ML-Schätzer bezeichnet.<br />

So kann das Theorem 6.2 entsprechend <strong>für</strong> den k-Stichprobenfall formuliert werden. <strong>Die</strong> Rolle<br />

von θ ∗ wird auch hier anschließend diskutiert.<br />

Theorem 6.7. Der k-Stichprobenfall sei mit nachstehenden Bedingungen gegeben:<br />

(i) <strong>Die</strong> Regularitätsbedingungen R sind <strong>für</strong> alle f i , i = 1, . . . , k erfüllt.


56 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />

(ii) <strong>Die</strong> Bedingung F ist erfüllt mit n i<br />

n = c i + o(1/ √ n).<br />

(iii) Der wahre Wert <strong>des</strong> Parameters θ (0) liege in der Alternative Θ 1 .<br />

(iv) <strong>Die</strong> Bedingungen B3 und B4 sind erfüllt.<br />

(v) Es gibt θ ∗ ∈ Θ 0 mit<br />

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n). (6.7)<br />

Dann gilt<br />

( )<br />

√ 1 n<br />

n log λ n + K(θ (0) , θ ∗ D<br />

, c) −→ N (0, σ 2 (θ (0) , θ ∗ , c)),<br />

wobei<br />

σ 2 (θ (0) , θ ∗ , c) =<br />

k∑<br />

i=1<br />

c i σ 2 i (θ (0)<br />

i<br />

, θ ∗ i )<br />

mit<br />

[<br />

]<br />

σi 2 (θ (0)<br />

i<br />

, θi ∗ ) = Var (0) θ<br />

log f(X i1 , θ (0)<br />

i<br />

) − log f(X i1 , θi ∗ ) .<br />

i<br />

Beweis. Betrachtet wird der log-<strong>Likelihood</strong><br />

log λ n = l n (ˆθ r n) − l n (ˆθ n )<br />

= [l n (ˆθ r n) − l n (θ ∗ )] + [l n (θ ∗ ) − l n (θ (0) )] + [l n (θ (0) ) − l n (ˆθ n )].<br />

Für den dritten Term gilt nach wiederholten Anwenden von Lemma 6.3 <strong>für</strong> die einzelnen<br />

Stichproben i = 1, . . . , k<br />

[l n (θ (0) ) − l n (ˆθ n )] =<br />

k∑ ∑n i<br />

log f i (X ij , θ (0)<br />

i<br />

) − log f i (X ij , ˆθ i, n ) =<br />

i=1 j=1<br />

k∑<br />

O p (1) = O p (1).<br />

i=1<br />

Beachte hierbei, dass sich der gemeinsame ML-Schätzer ˆθ n aus den ML-Schätzern ˆθ i, n der<br />

einzelnen Stichproben zusammensetzt, da die Stichproben unabhängig sind. Somit erhält man<br />

1<br />

√ n<br />

[l n (θ (0) ) − l n (ˆθ n )] = o p (1).<br />

Zusammen mit der Voraussetzung (6.7)<br />

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n)


6.2. Asymptotik im k-Stichprobenfall 57<br />

erhält man<br />

( )<br />

√ 1 n<br />

n log λ n + K(θ (0) , θ ∗ , c)<br />

mit<br />

= 1 √ n<br />

= 1 √ n<br />

= 1 √ n<br />

= 1 √ n<br />

=<br />

=<br />

=<br />

k∑<br />

i=1<br />

k∑<br />

i=1<br />

k∑ ∑n i<br />

i=1 j=1<br />

k∑ ∑n i<br />

i=1 j=1<br />

k∑ ∑n i<br />

i=1 j=1<br />

k∑ ∑n i<br />

i=1 j=1<br />

√<br />

ni<br />

n<br />

1<br />

√<br />

ni<br />

[<br />

log f(X ij, θ ∗ ]<br />

)<br />

f(X ij , θ (0) + √ n<br />

)<br />

[<br />

log f(X ij, θ ∗ ]<br />

)<br />

f(X ij , θ (0) + √ n<br />

)<br />

[<br />

log f(X ij, θ ∗ ]<br />

)<br />

f(X ij , θ (0) + √ 1<br />

) n<br />

= 1 √ n<br />

[l n (θ ∗ ) − l n (θ (0) )] + √ nK(θ (0) , θ ∗ , c) + o p (1)<br />

k∑<br />

i=1<br />

k∑<br />

i=1<br />

k∑<br />

i=1<br />

[<br />

log f(X ij, θ ∗ )<br />

f(X ij , θ (0) ) + K(θ(0) i<br />

, θ ∗ i )<br />

∑n i<br />

j=1<br />

√ [Z i,ni c i + o p (1/ √ ]<br />

n)<br />

k∑<br />

[Z i,ni ( √ c i + o p (1))] + o p (1)<br />

i=1<br />

Z i,ni = 1 √<br />

ni<br />

c i K(θ (0)<br />

i<br />

, θ ∗ i ) + o p (1)<br />

( ni<br />

n + o p(1/ √ )<br />

n) K(θ (0)<br />

i<br />

, θi ∗ ) + o p (1)<br />

n i K(θ (0)<br />

i<br />

, θ ∗ i ) + o p (1)<br />

]<br />

+ o p (1)<br />

[<br />

log f(X ij, θ ∗ ]<br />

)<br />

f(X ij , θ (0) ) + K(θ(0) i<br />

, θi ∗ )<br />

∑n i<br />

j=1<br />

+ o p (1)<br />

[<br />

log f(X ij, θ ∗ ]<br />

)<br />

f(X ij , θ (0) )<br />

+ o p (1)<br />

D<br />

−→ N (0, σ 2 i (θ (0)<br />

i<br />

, θ ∗ i )).<br />

nach dem zentralen Grenzwert Satz (siehe A.2). Mit Z i,ni = O p (1) <strong>für</strong> i = 1, . . . , k erhält man<br />

( )<br />

√ 1 n<br />

n log λ n + K(θ (0) , θ ∗ , c)<br />

=<br />

k∑<br />

[ √ c i Z i,ni ] + o p (1).<br />

Aufgrund der Unabhängigkeit der Stichproben X 1 , . . . , X k sind nach dem Blockungslemma<br />

Z 1,n1 , . . . , Z k,nk ebenfalls unabhängig.<br />

Sind X und Y unabhängig normalverteilt mit X ∼ N (µ x , σx) 2 und Y ∼ N (µ y , σy), 2 so gilt <strong>für</strong><br />

die Faltung X+Y , dass sie ebenfalls normalverteilt ist mit X+Y ∼ N (µ x +µ y , σx+σ 2 y). 2 <strong>Die</strong>ses<br />

Resultat ist beispielsweise in Krengel (1988, S.141) zu finden. Somit erhält man zusammen<br />

mit dem Lemma von Slutsky (siehe A.3)<br />

( )<br />

√ 1 n<br />

n log λ n + K(θ (0) , θ ∗ D<br />

, c) −→ N (0, σ 2 (θ (0) , θ ∗ , c)).<br />

i=1<br />

<strong>Die</strong> Bedingungen B3 und B4 sichern die Existenz von K(θ (0) , θ ∗ , c) und σ 2 (θ (0) , θ ∗ , c) und<br />

somit auch die Anwendung <strong>des</strong> zentralen Grenzwertsatzes.


58 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />

Grenzwert <strong>des</strong> restringierten ML-Schätzers<br />

Im Folgenden ist wie im 1-Stichprobenfall zu diskutieren, welche Parameter θ ∗ die Bedingung<br />

(6.7) erfüllen können. Ist Bedingung B4 erfüllt, so wird<br />

θ ∗ = arg min<br />

θ∈Θ 0<br />

K(θ (0) , θ, c)<br />

als der Parameter in der Hypothese definiert, der den gewichteten Kullback-Leibler Abstand<br />

zum wahren Parameter θ (0) minimiert. Auch hier lässt sich wie im 1-Stichprobenfall zeigen,<br />

dass unter geeigneten Voraussetzungen, welche im Wesentlichen erneut die Eindeutigkeit von<br />

θ min umfassen, <strong>für</strong> θ ∗ nur θ min in Frage kommt, um die Bedingung (6.7) zu erfüllen (siehe<br />

hierzu Korollar 6.9).<br />

Bedingung B5: Für alle x = (x 1 , . . . , x k ) und θ n ∈ Θ 0 mit lim n→∞ ‖ θ n ‖= ∞ gelte<br />

lim<br />

n→∞<br />

i=1<br />

k∏<br />

f i (x i , θ i, n ) = 0 .<br />

Bedingung B5 stellt eine auf den k-Stichprobenfall modifizierte Version von Bedingung R<br />

(f) dar. Sie sichert, dass der restringierte ML-Schätzer asymptotisch in einer präkompakten<br />

Teilmenge von Θ 0 liegt.<br />

Theorem 6.8. Seien die Bedingungen R, F sowie die Bedingungen B3 und B5 erfüllt und<br />

das Minimum min θ∈Θ K(θ (0) , θ, c) bei θ min eindeutig. Dann gilt<br />

ˆθ r n<br />

a.s.<br />

−→ θ min .<br />

Beweis. Sei<br />

<strong>für</strong> i = 1, . . . , k und<br />

sowie<br />

<strong>für</strong> i = 1, . . . , k und<br />

so gilt<br />

Q i,n (θ i ) = 1 n i<br />

Q n (θ) = −<br />

Q i (θ i ) = E θ<br />

(0)<br />

i<br />

Q(θ) = −<br />

∑n i<br />

j=1<br />

k∑<br />

i=1<br />

log f i (X ij , θ i )<br />

n i<br />

n Q i,n(θ i )<br />

[log f(X i1 , θ i )]<br />

k∑<br />

c i Q i (θ i ),<br />

i=1<br />

K(θ (0) , θ, c) = Q(θ) − Q(θ (0) )<br />

Folglich minimiert θ min = arg min θ∈Θ0 K(θ (0) , θ, c) ebenfalls Q(θ) eindeutig in Θ 0 .


6.2. Asymptotik im k-Stichprobenfall 59<br />

Zunächst wird gezeigt, dass der restringierte ML-Schätzer ˆθ n r asymptotisch in einer präkompakten,<br />

d.h. beschränkten Teilmenge von Θ 0 liegt. Wenn Θ 0 nicht schon beschränkt ist, wird<br />

hier<strong>für</strong><br />

k∏<br />

g(x 1 , . . . , x k , r) = sup f i (x i , θ i ) c i<br />

und<br />

˜g(x 1 , . . . , x k , r) =<br />

θ∈Θ 0 : ‖θ‖≥r i=1<br />

sup<br />

k∏<br />

θ∈Θ 0 : ‖θ‖≥r i=1<br />

f i (x i , θ i ) n i<br />

n ,<br />

betrachtet. Aus Bedingung B5 folgt <strong>für</strong> θ n ∈ Θ 0 mit lim n→∞ ‖ θ n ‖= ∞ gilt<br />

Wald (1949, Lemma 3) zeigt, dass<br />

lim<br />

n→∞<br />

i=1<br />

k∏<br />

f i (x i , θ i, n ) c i<br />

= 0 .<br />

lim E<br />

r→∞<br />

θ (0) [log g(X 11, . . . , X k1 , r)] = −∞.<br />

Folglich kann ein r 0 so gewählt werden, dass<br />

[ k∑<br />

]<br />

E θ (0) [log g(X 11 , . . . , X k1 , r 0 )] < E θ (0) c i log f(X i1 , θ min ) .<br />

i=1<br />

Da n i /n → c i <strong>für</strong> n → ∞, kann ein n 0 so gewählt werden, dass <strong>für</strong> n ≥ n 0<br />

[ k∑<br />

]<br />

n i<br />

E θ (0) [log ˜g(X 11 , . . . , X k1 , r 0 )] < E θ (0)<br />

n log f(X i1, θ min ) .<br />

i=1<br />

Nach dem starken Gesetz der großen Zahlen (A.1) gilt<br />

⎛ ⎛<br />

⎞ ⎞<br />

k∑<br />

n<br />

P ⎝ lim ⎝<br />

n i 1 ∑ i<br />

(log f i (X ij , θ r0 ) − log f i (X ij , θ min )) ⎠ < 0⎠ = 1.<br />

n→∞ n<br />

i=1<br />

n i<br />

j=1<br />

<strong>Die</strong>ses impliziert<br />

(<br />

P<br />

lim<br />

n→∞<br />

(<br />

)<br />

Q n (θ min ) − inf Q n (θ)<br />

θ∈Θ 0 : ‖θ‖≥r 0<br />

)<br />

< 0 = 1.<br />

Der Rest <strong>des</strong> Beweises verläuft analog zum Beweis <strong>des</strong> 1-Stichprobenfall, Theorem 6.4.<br />

Korollar 6.9. Seien Bedingungen B3 und B5 erfüllt und das Minimum min θ∈Θ K(θ (0) , θ, c)<br />

eindeutig bei θ min bestimmt. Sei θ ∗ ∈ Θ 0 wie in Theorem 6.2 mit l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n),<br />

so gilt<br />

θ ∗ = θ min = arg min<br />

θ∈Θ 0<br />

K(θ (0) , θ, c).<br />

Beweis. Der Beweis aus dem 1-Stichprobenfall, Korollar 6.5, ist mit Q n und Q aus Theorem<br />

6.8 direkt übertragbar.


60 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />

<strong>Die</strong> Bedingung: l n (θ ∗ ) − l n (ˆθ r n ) = o p( √ n)<br />

Es bleibt die Bedingung (6.7) aus Theorem 6.7 (bzw. Bedingung (6.2) aus Theorem 6.2)<br />

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n)<br />

zu diskutieren. In Korollar 6.12 werden Voraussetzungen aufgeführt unter denen diese Bedingung<br />

erfüllt ist.<br />

Theorem 6.10 liefert die Konvergenz mit Rate √ n <strong>des</strong> restringierten ML-Schätzers ˆθ r n gegen<br />

den Minimierer <strong>des</strong> Kullback-Leibler Abstan<strong>des</strong> θ ∗ .<br />

Theorem 6.10. Der k-Stichprobenfall sei mit den Regularitätsbedingungen R gegeben. Weiter<br />

seien die nachstehenden Bedingungen erfüllt:<br />

(i) <strong>Die</strong> Bedingung F ist erfüllt mit n i<br />

n = c i + o(1/ √ n).<br />

(ii) <strong>Die</strong> Bedingungen B3 und B5 sind erfüllt.<br />

(iii) Das Minimum min θ∈Θ K(θ (0) , θ, c) sei eindeutig bei θ ∗ bestimmt.<br />

(iv) Es existiert eine Funktion K(x) mit E θ (0)K(X) < ∞, so dass die Norm von d/dθ W (x, θ)<br />

gleichmäßig in einer Umgebung von θ ∗ durch K(x) beschränkt ist.<br />

[ ] 2<br />

(v) Für i = 1, . . . , k existiert E (0) d/dθi θ<br />

log f i (X i1 , θ i )| θi =θi<br />

∗ und <strong>für</strong><br />

i<br />

[ ] T<br />

µ i := E (0) d/dθi θ<br />

log f i (X i1 , θ i )| θi =θi<br />

∗ gilt<br />

i<br />

k∑<br />

c i µ i (ˆθ i, r n − θi ∗ ) =<br />

i=1<br />

(vi) Für i = 1, . . . , k existiert D i := −E (0) θ i<br />

D := diag (D 1 , . . . , D k ) gilt<br />

Dann gilt<br />

<strong>für</strong> ein α > 0.<br />

k∑<br />

o p (‖ ˆθ i, r n − θi ∗ ‖ 2 ).<br />

i=1<br />

[<br />

d 2 /dθ 2 i log f i (X i1 , θ i )| θi =θ ∗ i<br />

(ˆθ r i, n − θ ∗ i ) T D (ˆθ r i, n − θ ∗ i ) ≥ α ‖ ˆθ r i, n − θ ∗ i ‖ 2<br />

√ n<br />

(ˆθr n − θ ∗) = O p (1).<br />

]<br />

und <strong>für</strong><br />

Beweis. <strong>Die</strong> Voraussetzungen von Theorem 6.8 sind erfüllt und man erhält<br />

ˆθ r n<br />

a.s.<br />

−→ θ ∗ .<br />

Folglich sind auch die Voraussetzungen von Theorem 4.6 erfüllt und die Aussage folgt.<br />

Bemerkung 6.11. <strong>Die</strong> Bedingung<br />

( k∑<br />

)<br />

P θ (0) c i µ i (ˆθ i, r n − θi ∗ ) = 0 ∀n ≥ N<br />

i=1<br />

N→∞<br />

−→ 1<br />

impliziert (iii) von Theorem 6.10.


6.2. Asymptotik im k-Stichprobenfall 61<br />

Korollar 6.12. Unter den Voraussetzungen von Theorem 6.10 gilt<br />

und folglich insbesondere auch<br />

l n (θ ∗ ) − l n (ˆθ r n) = O p (1)<br />

l n (θ ∗ ) − l n (ˆθ r n) = o p ( √ n).<br />

Beweis. Ohne Einschränkung der Allgemeinheit wird angenommen, dass θ ∗ = 0 ist. <strong>Die</strong>ses<br />

kann durch Umparametrisierung mit θ ↦→ θ − θ ∗ erreicht werden. <strong>Die</strong> Taylorentwicklung<br />

zweiter Ordnung um null liefert<br />

l n (ˆθ r i, n) − l n (0) =<br />

k∑<br />

i=1<br />

n i A (i)<br />

n i<br />

ˆθr i, n +<br />

Mit Voraussetzung (i) und (v) gilt<br />

k∑<br />

i=1<br />

n i<br />

n µ i ˆθ r i, n =<br />

Somit erhält man zusammen<br />

Mit √ n i (A (i)<br />

n i<br />

l n (ˆθ r i, n) − l n (0) =<br />

+<br />

=<br />

k∑<br />

i=1<br />

k∑<br />

i=1<br />

k∑<br />

c i µ i ˆθr i, n +<br />

i=1<br />

n i<br />

2 ˆθ r i, nB (i)<br />

n i<br />

ˆθr i, n +<br />

k∑<br />

n ‖ ˆθ i, r n ‖ 3 O p (1).<br />

i=1<br />

k∑<br />

o(1/ √ n)µ i ˆθr i, n<br />

i=1<br />

k∑<br />

o p (‖ ˆθ i, r n ‖ 2 ) +<br />

i=1<br />

k∑<br />

n ‖ ˆθ i, r n ‖ 3 O p (1) +<br />

i=1<br />

n i (A (i)<br />

n i<br />

− µ i )ˆθ r i, n +<br />

k∑<br />

i=1<br />

k∑<br />

o p (‖ ˆθ i, r n ‖ / √ n).<br />

i=1<br />

k∑<br />

n o p (‖ ˆθ i, r n ‖ 2 ) +<br />

i=1<br />

=: I + II + III + IV + V.<br />

− µ i ) = O p (1), B (i)<br />

n i<br />

n i<br />

2 ˆθ r i, nB (i)<br />

n i<br />

ˆθr i, n<br />

k∑ √ n op (‖ ˆθ i, r n ‖)<br />

i=1<br />

= −D i + o p (1) und ˆθ r i, n = O p(n − 1 2 ) gilt<br />

I =<br />

II =<br />

III =<br />

IV =<br />

V =<br />

k∑<br />

i=1<br />

k∑<br />

i=1<br />

√<br />

ni<br />

√<br />

ni (A (i)<br />

n i<br />

− µ i )ˆθ r i, n =<br />

n i<br />

2 ˆθ r i, nB (i)<br />

n i<br />

ˆθr i, n =<br />

k∑<br />

i=1<br />

k∑<br />

n ‖ ˆθ i, r n ‖ 3 O p (1) =<br />

i=1<br />

k∑<br />

n o p (‖ ˆθ i, r n ‖ 2 ) =<br />

i=1<br />

k∑ √ √ n ( ci + o(1)) O p (1)O p (n − 1 2 ) = Op (1),<br />

i=1<br />

n c i + o(1)<br />

2<br />

O p (n − 1 2 )(−Di + o p (1))O p (n − 1 2 ) = Op (1),<br />

k∑<br />

n O p (n − 3 2 )Op (1) = O p (n − 1 2 ) = Op (1),<br />

i=1<br />

k∑<br />

n o p (n −1 ) = o p (1) = O p (1),<br />

i=1<br />

k∑ √ n op (‖ ˆθ i, r n ‖) = √ n o p (n − 1 2 ) = op (1) = O p (1).<br />

i=1


62 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />

Bemerkung 6.13. Theorem 6.10 umfasst bis auf Bedingung B4 auch die Voraussetzungen<br />

von Theorem 6.7. Somit stellen diese zusammen Bedingungen dar, unter denen die <strong>asymptotische</strong><br />

Normalität der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik gilt.<br />

6.3 Beispiel<br />

Beispiel 6.14. Betrachtet werden zwei normalverteilte Stichproben X 11 , . . . , X 1n1 ∼ N (θ 1 , σ 2 )<br />

und X 21 , . . . , X 2n2 ∼ N (θ 2 , σ 2 ) mit bekannter Varianz σ 2 . Für n = n 1 + n 2 wird<br />

vorausgesetzt. Der Hypothesenraum sei<br />

n 1<br />

n = c 1 + o(n −1 )<br />

Θ 0 = { θ = (θ 1 , θ 2 ) ∈ R 2 : θ 1 − θ 2 ≥ ∆ }<br />

mit ∆ > 0. Es soll die <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> unter der Alternative<br />

θ (0) = (0, 0) hergeleitet werden.<br />

<strong>Die</strong> Voraussetzungen von Theorem 6.7 und 6.10 sollen hier nicht im einzelnen diskutiert werden,<br />

da die Anwendung der Resultate im Vordergrund stehen sollen. <strong>Die</strong> vorliegende Normalverteilung<br />

gehört einer exponentiellen Familie an. <strong>Die</strong> meisten Voraussetzungen folgen dann<br />

aus den Eigenschaften einer exponentiellen Familie (siehe hierzu zum Beispiel Brown u. a.<br />

(1981)). <strong>Die</strong> Voraussetzungen (v) und (vi) von Theorem 6.10 sind hingegen nicht ersichtlich<br />

und werden kurz diskutiert. Für i = 1, 2 erhält man<br />

E θ<br />

(0)<br />

i<br />

[<br />

d 2 /dθ 2 i log f i (X i1 , θ i ) ] = − 1 σ 2<br />

unabhängig von θ i . Folglich ist Bedingung (vi) erfüllt. Der restringierte ML-Schätzer liegt<br />

asymptotisch fast sicher auf dem Rand der Hypothese Θ 0 . Mit Hilfe <strong>des</strong> Satzes von der<br />

majorisierten Konvergenz kann Integration und Differentiation so vertauscht werden [siehe<br />

hierzu Ferguson (1996, S.124)], dass<br />

E θ<br />

(0)<br />

i<br />

[d/dθ i log f i (X i1 , θ i )] = d/dθ i E θ<br />

(0)<br />

i<br />

[log f i (X i1 , θ i )]<br />

gilt. Folglich ist Bedingung (v) erfüllt, wenn die Richtungsableitung <strong>des</strong> Kullback-Leibler<br />

Abstands in Richtung <strong>des</strong> Ran<strong>des</strong> der Hypothese Θ 0 im Punkt θ ∗ null ist. Nachstehende<br />

Rechnungen zur Bestimmung von θ ∗ werden dieses zeigen.<br />

Um Theorem 6.7 anwenden zu können, wird zunächst der Punkt in der Hypothese bestimmt,<br />

der den gewichteten Kullback-Leibler Abstand mit Gewichten (c 1 , 1 − c 1 ) zu θ (0) = (0, 0)<br />

minimiert. Hier<strong>für</strong> bezeichne f(x, µ, σ 2 ) die Dichte der Normalverteilung mit Erwartungswert<br />

µ und Standardabweichung σ. Es gilt <strong>für</strong> i = 1, 2 und X i ∼ N (θ i , σ 2 )<br />

K(0, θ i ) = E [ log f(X i , 0, σ 2 ) − log f(X i , θ i , σ 2 ) ]<br />

= 1<br />

2σ 2 E [ (X i − θ i ) 2 − X 2 i<br />

= 1<br />

2σ 2 (<br />

σ 2 + θ 2 i − σ 2) = θ2 i<br />

2σ 2 .<br />

]


6.3. Beispiel 63<br />

Somit gilt<br />

K(θ) := K(0, θ, (c 1 , 1 − c 1 )) = c 1 θ 2 1 + (1 − c 1) θ 2 2<br />

2σ 2 . (6.8)<br />

Das Minimum von K(θ) in Θ 0 wird auf dem Rand von Θ 0 angenommen. Folglich ist<br />

in θ 2 zu minimieren. Aus<br />

G(θ 2 ) := K((θ 2 + ∆, θ 2 )) = c 1 (θ 2 + ∆) 2 + (1 − c 1 ) θ 2 2<br />

2σ 2<br />

d<br />

dθ 2<br />

G(θ ∗ 2) = 2c 1(θ ∗ 2 + ∆) + 2(1 − c 1)θ ∗ 2<br />

σ 2 = 2(c 1∆ − θ ∗ 2 )<br />

σ 2 !<br />

= 0<br />

schließt man θ ∗ 2 = −c 1∆ und somit θ ∗ 1 = θ∗ 2 + ∆ = −c 1∆ + ∆ = ∆(1 − c 1 ). Also ist<br />

θ ∗ = ∆(1 − c 1 , −c 1 ) der Punkt in der Hypothese, der den gewichteten Kullback-Leibler Abstand<br />

mit Gewichten (c 1 , 1 − c 1 ) zu θ (0) = (0, 0) minimiert. Einsetzen in 6.8 liefert<br />

Mit<br />

µ := K(0, θ ∗ , (c 1 , 1 − c 1 )) = c 1 ∆ 2 (1 − c 1 ) 2 + (1 − c 1 ) ∆ 2 c 2 1<br />

2σ 2 = c 1(1 − c 1 )∆ 2<br />

2σ 2 .<br />

Var [ log f(X i , 0, σ 2 ) − log f(X i , θ i , σ 2 ) ] = 1<br />

4σ 4 Var [ (X i − θ i ) 2 − Xi<br />

2 ]<br />

= 1<br />

4σ 4 Var [ −X i θ i + θi<br />

2 ]<br />

<strong>für</strong> i = 1, 2 und X i ∼ N (θ i , σ 2 ) erhält man<br />

= θ2 i<br />

4σ 4 Var [X i] = θ2 i<br />

4σ 2<br />

τ 2 := c 1 Var [ log f(X, 0, σ 2 ) − log f(X, θ ∗ 1, σ 2 ) ]<br />

+(1 − c 1 ) Var [ log f(X, 0, σ 2 ) − log f(X, θ ∗ 2, σ 2 ) ]<br />

= c 1(1 − c 1 ) 2 ∆ 2 + (1 − c 1 )c 2 1 ∆2<br />

4σ 2<br />

= c 1(1 − c 1 )∆ 2<br />

4σ 2 .<br />

Nach Theorem 6.7 ist dann die <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> λ n unter<br />

der Alternative θ (0) = (0, 0) gegeben durch<br />

( )<br />

√ 1 n<br />

n log λ D<br />

n + µ −→ N (0, τ 2 ) (6.9)<br />

6.3.1 Simulation<br />

<strong>Die</strong> Güte der Approximation (6.9) hängt vom Stichprobenumfang n ab. <strong>Die</strong> Frage ist, <strong>für</strong><br />

welche Stichprobenumfänge die Approximation zu zufrieden stellenden Ergebnissen führt.<br />

Hier<strong>für</strong> wird <strong>für</strong> n = 50, 100, 200, σ = 1, c 1 = 0.5, ∆ = 0.1, 0.5<br />

( )<br />

√ 1 n<br />

n log λ n + µ<br />

(6.10)


64 Kapitel 6: Asymptotische <strong>Verteilung</strong> der LQ-Statistik unter Alternative<br />

mit jeweils 10000 Wiederholungen simuliert. <strong>Die</strong> so gewonnenen empirischen <strong>Verteilung</strong>en<br />

werden mit Hilfe eines QQ-Plots mit der <strong>asymptotische</strong>n <strong>Verteilung</strong> verglichen. <strong>Die</strong> Abbildungen<br />

6.1 und 6.2 zeigen QQ-Plots <strong>für</strong> die drei Stichprobenumfänge von n = 50, 100, 200<br />

und <strong>für</strong> ∆ = 0.1 bzw. <strong>für</strong> ∆ = 0.5.<br />

n=50<br />

n=100<br />

n=200<br />

Sample Quantiles<br />

−0.10 −0.05 0.00 0.05 0.10<br />

Sample Quantiles<br />

−0.10 −0.05 0.00 0.05 0.10<br />

Sample Quantiles<br />

−0.10 −0.05 0.00 0.05 0.10<br />

−4 −2 0 2 4<br />

−4 −2 0 2 4<br />

−4 −2 0 2 4<br />

Theoretical Quantiles<br />

Theoretical Quantiles<br />

Theoretical Quantiles<br />

Abbildung 6.1: P-Plots <strong>für</strong> ∆ = 0.1<br />

In einem QQ-Plot werden die empirischen Quantile gegen die einer Standardnormalverteilten<br />

abgetragen. Liegen die Punkte auf einer Geraden, stammen die simulierten Werte aus<br />

einer Normalverteilung mit Erwartungswert gleich dem y-Achsenabschnitt der Geraden und<br />

Standardabweichung gleich der Steigung. Für den Vergleich der empirischen <strong>Verteilung</strong> mit<br />

der <strong>asymptotische</strong>n <strong>Verteilung</strong> ist somit die Ursprungsgerade mit Steigung τ in die QQ-Plots<br />

einzufügen. Liegen die Punkte auf dieser Geraden stimmen die <strong>Verteilung</strong>en überein. Weiter<br />

ist die Gerade mit y-Aschenabschnitt √ nµ und Steigung null eingefügt.<br />

n=50<br />

n=100<br />

n=200<br />

Sample Quantiles<br />

−0.4 −0.2 0.0 0.2 0.4<br />

Sample Quantiles<br />

−0.4 −0.2 0.0 0.2 0.4<br />

Sample Quantiles<br />

−0.4 −0.2 0.0 0.2 0.4<br />

−4 −2 0 2 4<br />

Theoretical Quantiles<br />

−4 −2 0 2 4<br />

Theoretical Quantiles<br />

−4 −2 0 2 4<br />

Theoretical Quantiles<br />

Abbildung 6.2: P-Plots <strong>für</strong> ∆ = 0.5<br />

<strong>Die</strong> Abbildungen 6.1 und 6.2 zeigen, dass die empirischen <strong>Verteilung</strong>en der <strong>Verteilung</strong> von<br />

min(Z, √ nµ) mit Z ∼ N (0, τ 2 ) folgen. <strong>Die</strong> Punktmasse bei √ nµ entspricht gerade der Wahrscheinlichkeit,<br />

dass der unrestringierte ML-Schätzer in der Hypothese Θ 0 liegt. <strong>Die</strong>ses folgt<br />

aus der Tatsache, dass der <strong>Likelihood</strong>-Quotient stets kleiner als eins ist und genau dann eins


6.3. Beispiel 65<br />

ist, wenn der restringierte ML-Schätzer in der Hypothese liegt.<br />

In Abbildung 6.2 ist die Abhängigkeit der Approximation von der Fallzahl n gut zu erkennen.<br />

Je größer die Fallzahl ist, <strong>des</strong>to besser ist die Approximation.<br />

Ein Vergleich der Abbildungen 6.1 und 6.2 zeigt die Abhängigkeit der Approximation von ∆.<br />

Je größer ∆ ist bei gleicher Fallzahl n, <strong>des</strong>to besser ist die Approximation.<br />

Bemerkung 6.15. Dass die empirische <strong>Verteilung</strong> von (6.10) wie beim oben aufgeführten<br />

Beispiel den Wahrscheinlichkeitsträger (−∞, √ nµ] besitzt, ist ein allgemein gültiges Phänomen,<br />

unabhängig von der zugrunde liegenden <strong>Verteilung</strong> der Stichprobe. <strong>Die</strong> <strong>asymptotische</strong><br />

<strong>Verteilung</strong> von (6.10) (Normalverteilung) hat hingegen den Träger R. Dennoch ist <strong>für</strong> die Fallzahlplanung<br />

die Approximation durch die <strong>asymptotische</strong> <strong>Verteilung</strong> hinsichtlich <strong>des</strong> beschriebenen<br />

Phänomens unproblematisch, da bei der Fallzahlplanung nach Kapitel 7 der p-Wert<br />

von<br />

√ c α n µ + √ n<br />

mit c α < 0 approximiert wird, also ein Wert kleiner √ nµ betrachtet wird.


Kapitel 7<br />

Asymptotische Fallzahlplanung<br />

beim <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test<br />

In diesem Kapitel wird kurz skizziert, wie die Resultate aus den vorhergehenden Kapiteln zur<br />

Konstruktion eines <strong>Likelihood</strong>-<strong>Quotienten</strong>-<strong>Tests</strong> und zur Fallzahlplanung beim <strong>Likelihood</strong>-<br />

<strong>Quotienten</strong>-Test genutzt werden können. Insbesondere wird gezeigt, dass die asymptotisch<br />

optimale Fallzahlaufteilung den <strong>Quotienten</strong><br />

K(θ (0) , θ ∗ , c)<br />

τ(θ (0) , θ ∗ , c)<br />

mit τ 2 (θ (0) , θ ∗ , c) = ∑ [<br />

]<br />

k<br />

i=1 c i Var (0) θ<br />

log f(X i1 , θ (0)<br />

i<br />

) − log f(X i1 , θi ∗) in c maximiert. Im Folgenden<br />

wird angenommen, dass die jeweils benötigten Bedingungen zur Anwendung der Theo-<br />

i<br />

reme erfüllt sind.<br />

Konstruktion <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong>-<strong>Tests</strong><br />

Zur Konstruktion <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong>-<strong>Tests</strong> ist <strong>für</strong> das gegebene Testproblem zunächst<br />

mit Hilfe von Theorem 5.1 die <strong>asymptotische</strong> <strong>Verteilung</strong> von −2 log λ n auf dem Rand der<br />

Hypothese Θ 0 zu bestimmen. Im Beispiel 5.7 ausreichend regulärer Stichproben und einer<br />

Hypothese, die durch einen Halbraum approximiert werden kann, führt dieses zum Beispiel<br />

zu einer <strong>asymptotische</strong>n <strong>Verteilung</strong> von 1/2 + 1/2χ 2 1 . Über die so gewonnene <strong>Verteilung</strong> kann<br />

ein kritischer Wert c α so bestimmt werden, dass die Hypothese Θ 0 <strong>für</strong> log λ n ≤ c α asymptotisch<br />

zum Signifikanzniveau α verworfen wird. Im finiten Fall wird der kritische Wert dann<br />

über den <strong>asymptotische</strong>n Wert c α approximiert, d.h. die Hypothese Θ 0 wird unabhängig vom<br />

Stichprobenumfang <strong>für</strong> log λ n ≤ c α verworfen.<br />

Fallzahlplanung beim <strong>Likelihood</strong>-<strong>Quotienten</strong>-Test<br />

Für einen gegebenen Parameterpunkt θ (0) in der Alternative Θ 1 wird eine Power von 1 − β<br />

erreicht, wenn<br />

P θ (0) (log λ n ≤ c α ) ≥ 1 − β (7.1)<br />

67


68 Kapitel 7: Asymptotische Fallzahlplanung beim LQ-Test<br />

gilt. <strong>Die</strong> <strong>asymptotische</strong> <strong>Verteilung</strong> <strong>des</strong> <strong>Likelihood</strong>-<strong>Quotienten</strong> unter der Alternative θ (0) ∈ Θ 1<br />

ist nach Theorem 6.7 gegeben durch<br />

( )<br />

√ 1 n<br />

n log λ D<br />

n + µ(c) −→ N (0, τ 2 (c)),<br />

mit<br />

und<br />

τ 2 (c) =<br />

k∑<br />

i=1<br />

c i Var θ<br />

(0)<br />

i<br />

µ(c) = K(θ (0) , θ ∗ , c)<br />

[<br />

]<br />

log f(X i1 , θ (0)<br />

i<br />

) − log f(X i1 , θi ∗ ) .<br />

Sei u α das α-Quantil der Standard-Normalverteilung. Für die Bedingung (7.1) gilt<br />

P θ (0) (log λ n ≤ c α ) ≥ 1 − β<br />

( ( √n τ(c)<br />

−1 1<br />

n log λ n + µ(c))<br />

⇔ P θ (0)<br />

≤ √ ( ))<br />

1<br />

n τ(c) −1 n c α + µ(c) ≥ 1 − β,<br />

was wiederum asymptotisch äquivalent zu<br />

√ n τ(c)<br />

−1<br />

( 1<br />

n c α + µ(c))<br />

≥ u 1−β<br />

⇔<br />

√ n µ(c)<br />

τ(c) +<br />

c α<br />

√ n τ(c)<br />

≥ u 1−β<br />

ist. Ist die Fallzahlaufteilung c gegeben, ist folglich die benötigte minimale Gesamtfallzahl<br />

gegeben durch<br />

{<br />

N ∗ = min n ∈ N : √ n µ(c)<br />

}<br />

τ(c) + c<br />

√ α<br />

≥ u 1−β .<br />

n τ(c)<br />

Ist hingegen die Fallzahlaufteilung c nicht festgelegt, so ist zur Reduzierung der benötigten<br />

Gesamtfallzahl zunächst die optimale <strong>asymptotische</strong> Fallzahlaufteilung zu berechnen. Eine<br />

optimale Fallzahlaufteilung ist gegeben, wenn keine andere Aufteilung der Fallzahlen eine<br />

bessere Power bei gleicher Gesamtfallzahl aufweist. Folglich ist<br />

√ n<br />

µ(c)<br />

τ(c) +<br />

c α<br />

√ n τ(c)<br />

in c zu maximieren. Da <strong>für</strong> großes n der Term µ(c)/τ(c) dominiert, ist die asymptotisch<br />

optimale Fallzahl gegeben durch<br />

{<br />

}<br />

c ∗ µ(c)<br />

k∑<br />

= arg sup<br />

τ(c) : c ∈ [0, 1]k mit c i = 1 .<br />

<strong>Die</strong> minimal benötigte Gesamtfallzahl ist dann gegeben durch<br />

{<br />

N ∗ = min n ∈ N : √ n µ(c∗ )<br />

τ(c ∗ ) +<br />

i=1<br />

c α<br />

√ n τ(c ∗ ) ≥ u 1−β<br />

}<br />

.


69<br />

Beispiel 7.1. Das Beispiel 6.14 zweier normalverteilter Stichproben X 11 , . . . , X 1n1 ∼ N (θ 1 , σ 2 )<br />

und X 21 , . . . , X 2n2 ∼ N (θ 2 , σ 2 ) mit bekannter Varianz σ 2 wird fortgeführt. Also sei der Hypothesenraum<br />

wieder<br />

Θ 0 = { θ = (θ 1 , θ 2 ) ∈ R 2 : θ 1 − θ 2 ≥ ∆ }<br />

mit ∆ > 0 und θ (0) = (0, 0). Dann gilt nach Beispiel 6.14<br />

µ(c)<br />

τ(c) = c 1(1 − c 1 )∆ 2<br />

2σ 2<br />

√<br />

2σ<br />

√<br />

c1 (1 − c 1 )∆ = c1 (1 − c 1 )∆<br />

.<br />

σ<br />

Folglich ist asymptotisch die Fallzahlaufteilung c ∗ = (0.5, 0.5) optimal, d.h. die Aufteilung der<br />

Gesamtstichprobe auf die beiden Gruppen erfolgt zu gleichen Teilen. In Tabelle 7.1 ist eine<br />

Auswahl von benötigten Gesamtfallzahlen in Abhängigkeit von ∆/σ und der zu erreichenden<br />

Power 1 − β aufgeführt. Hierbei wurde ein Signifikanzniveau von 5% angenommen.<br />

1 − β<br />

∆/σ 0.7 0.8 0.9<br />

0.1 1487 1796 2316<br />

0.2 372 449 579<br />

0.3 166 200 258<br />

0.4 93 113 145<br />

0.5 60 72 93<br />

Tabelle 7.1: Benötigte Gesamtfallzahlen


Kapitel 8<br />

Ausblick<br />

Für allgemeine Hypothesenräume und k-Stichproben wurde die <strong>asymptotische</strong> <strong>Verteilung</strong><br />

der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik unter der Hypothese und unter einer festen Alternative<br />

bestimmt. <strong>Die</strong>se ermöglichen die Konstruktion eines <strong>Likelihood</strong>-<strong>Quotienten</strong>-<strong>Tests</strong> sowie die<br />

Durchführung einer Fallzahlplanung.<br />

<strong>Die</strong> Anwendung der vorgestellten Resultate ist in einer Vielzahl von praktisch relevanten Testproblemen<br />

zu finden. Neben den in dieser Arbeit untersuchten Nicht-Unterlegenheitstests<br />

<strong>für</strong> den Zwei-Stichprobenfall ist inbesonders der 3-Stichprobenfall von aktuellem Interesse.<br />

Hierzu sind bisher wenige methodische Arbeiten zu finden. Das zunehmende Interesse an<br />

dreiarmigen Nicht-Unterlegenheitstests ist vor dem Hintergrund der so genannten ”<br />

assay sensitivity“<br />

zu sehen. <strong>Die</strong>se bezeichnet die Fähigkeit einer Studie bzw. eines Testes zwischen<br />

einer wirksamen und einer nicht wirksamen Therapie zu unterscheiden. So empfehlen Pigeot<br />

u. a. (2003) das Einbeziehen eines zusätzlichen Placebos zur aktiven Kontrollgruppe beim<br />

Nicht-Unterlegenheitstest. Basierend auf einen modifizierten t-Test leiten Pigeot u. a. (2003)<br />

eine Testentscheidung <strong>für</strong> den dreiarmigen Nicht-Unterlegenheitstest unter normalverteilten<br />

Stichproben mit homogenen Varianzen her. Ng (2000) hingegen löst Testprobleme mit drei<br />

oder mehr Stichproben über ”<br />

Intersection-Union-<strong>Tests</strong>“ mit paarweise durchgeführten Vergleichen.<br />

<strong>Die</strong> in dieser Arbeit vorgestellte Methodik ist bei Munk u. a. (2006) wieder zu finden.<br />

Sie untersuchen basierend auf der <strong>Likelihood</strong>-<strong>Quotienten</strong>-Statistik allgemeine Hypothesen in<br />

dreiarmigen klinischen Studien unter binomialverteilten Stichproben.<br />

Aus medizinischer Sicht können die folgenden Problemstellungen von Interesse sein:<br />

1. <strong>Die</strong> Nicht-Unterlegenheit der Testtherapie T gegenüber einer Referenztherapie R 1 und/<br />

oder einer Referenztherapie R 2 .<br />

2. <strong>Die</strong> Nicht-Unterlegenheit der Testtherapie T 1 und/oder der Testtherapie T 2 gegenüber<br />

einer Referenztherapie R.<br />

3. <strong>Die</strong> Nicht-Unterlegenheit der Testtherapie T gegenüber einer Referenztherapie R und<br />

die Überlegenheit der Referenztherapie R gegenüber einem Placebo P .<br />

4. <strong>Die</strong> Nicht-Unterlegenheit der Testtherapie T gegenüber einer Referenztherapie R und<br />

die Überlegenheit der Testtherapie T gegenüber einem Placebo P .<br />

71


72 Kapitel 8: Ausblick<br />

<strong>Die</strong>se Problemstellungen werden jeweils durch eine der drei nachstehenden Hypothesen beschrieben.<br />

Sei δ i,j ein Diskrepanzmaß <strong>für</strong> Gruppe i und j, i, j = 1, 2, 3:<br />

(a) H 0 : δ 1,2 ≥ ∆ 1 ∨ δ 1,3 ≥ ∆ 2 vs. H 1 : δ 1,2 < ∆ 1 ∧ δ 1,3 < ∆ 2 ,<br />

(b) H 0 : δ 1,2 ≥ ∆ 1 ∧ δ 1,3 ≥ ∆ 2 vs. H 1 : δ 1,2 < ∆ 1 ∨ δ 1,3 < ∆ 2 ,<br />

(c) H 0 : δ 1,2 ≥ ∆ 1 ∨ δ 2,3 ≥ ∆ 2 vs. H 1 : δ 1,2 < ∆ 1 ∧ δ 2,3 < ∆ 2 .<br />

In dieser Arbeit wurden die theoretischen Grundlagen gelegt, um <strong>Likelihood</strong>-<strong>Quotienten</strong>-<strong>Tests</strong><br />

<strong>für</strong> die aufgeführten Hypothesen (a)-(c) zu konstruieren und eine Fallzahlplanung durchzuführen.<br />

<strong>Die</strong> explizite Durchführung stellt eine interessante Aufgabenstellung <strong>für</strong> weitere<br />

Arbeiten dar.<br />

Weitere interessante Fragestellungen tauchen im Rahmen von dreiarmigen Nicht-Unterlegenheitstests<br />

sind bei <strong>Tests</strong> zur Retention eines Kontrolleffektes auf. Hierbei wird die Nichtunterlegenheit<br />

einer Test- gegenüber einer Referenztherapie über die Retention eines vorgegebenen<br />

Anteils eines Kontrolleffektes definiert statt über eine feste Nicht-Unterlegenheitsmarge, wie<br />

in dieser Arbeit vorgestellt wurde. <strong>Die</strong>ses führt <strong>für</strong> normalverteilte Stichproben beispielsweise<br />

zu folgender Hypothese:<br />

H 0 : µ 1 ≥ µ 2 ∨ µ 1 ≤ h(µ 2 , µ 3 ),<br />

wobei µ i Erwartungswert der jeweiligen Stichprobe ist und h : R 2 → R bestimmte Regularitätsbedingungen<br />

erfüllt. Bei anderen <strong>Verteilung</strong>en der Stichproben treten Hypothesen<br />

gleichen Typs auf, und folglich können die zugehörigen Testprobleme mit der in dieser Arbeit<br />

vorgestellten Vorgehensweise gelöst werden.<br />

Abschließend wird erneut hervorgehoben, dass die präsentierten Resultate zwar durch Nicht-<br />

Unterlegenheits-<strong>Tests</strong> motiviert sind, aber dennoch Allgemeingültigkeit besitzen und folglich<br />

auf weitere Fragestellungen angewandt werden können.


Anhang A<br />

Verwendete Sätze<br />

Theorem A.1 (Gesetz der großen Zahlen). X 1 , X 2 , . . . seien unabhängig, identisch verteilte<br />

Zufallsvariablen und X n = n −1 ∑ n<br />

i=1 X i.<br />

(i) (Schwaches Gesetz) Für E|X 1 | < ∞ gilt X n<br />

P<br />

−→ µ = EX 1 .<br />

(ii) (Starkes Gesetz) X n<br />

a.s.<br />

−→ µ ⇔ E|X 1 | < ∞ und µ = EX 1<br />

Beweis. Siehe Ferguson (1996, Kapitel 4, Satz 4).<br />

Theorem A.2 (Zentraler Grenzwertsatz). X 1 , X 2 , . . . seien unabhängig, identisch verteilte<br />

Zufallsvariablen mit Erwartungswert µ und endlicher Kovarianzmatrix Σ. Dann gilt <strong>für</strong><br />

X n = n −1 ∑ n<br />

i=1 X i<br />

√ n (Xn − µ)<br />

Beweis. Siehe Ferguson (1996, Kapitel 5, Satz 5).<br />

D −→ N (0, Σ).<br />

Theorem A.3 (Slutsky’s Theorem). X n und Y n seien Folgen von Zufallsvariablen. C(f)<br />

bezeichne die Menge der Stetigkeitsstellen von der Funktion f.<br />

(i) Wenn X n ∈ R d , X n<br />

(ii) Wenn X n<br />

D −→ X und f : R d → R k mit P (X ∈ C(f)) gilt, dann gilt<br />

f(X n )<br />

D −→ f(X).<br />

D<br />

P<br />

−→ X und (Xn − Y n ) −→ 0 gilt, dann gilt<br />

(iii) Wenn X n ∈ R d , Y n ∈ R k , X n<br />

(iv) Wenn X n ∈ R d , X n<br />

Y n<br />

D −→ X.<br />

D<br />

D<br />

−→ X und Yn −→ c gilt, dann gilt<br />

(X n , Y n ) D −→ (X, c).<br />

P<br />

−→ X und f : R d → R k mit P (X ∈ C(f)) gilt, dann gilt<br />

f(X n )<br />

73<br />

P<br />

−→ f(X).


74<br />

(v) Wenn X n<br />

P<br />

P<br />

−→ X und (X n − Y n ) −→ 0 gilt, dann gilt<br />

(vi) Wenn X n ∈ R d , Y n ∈ R k , X n<br />

Y n<br />

P<br />

−→ X.<br />

P<br />

P<br />

−→ X und Y n −→ Y gilt, dann gilt<br />

(X n , Y n )<br />

P<br />

−→ (X, Y ).<br />

(vii) <strong>Die</strong> Aussagen (iv)-(vi) sind ebenfalls <strong>für</strong> fast sichere Konvergenz gültig. Das heißt, überall<br />

wo −→ P in (iv)-(vi) auftaucht, ist es durch −→ a.s. zu ersetzen, damit die Aussagen gültig<br />

bleiben.<br />

Beweis. Siehe Ferguson (1996, Kapitel 6, Satz 6 und 6’).<br />

Theorem A.4 (Mickey’s Theorem). Q sei eine Funktion, die auf X×Θ definiert ist, wobei<br />

X ein euklidischer Raum und Θ kompakte Teilmenge eines euklidischen Raumes sind. <strong>Die</strong><br />

Funktion Q(x, θ) sei in θ <strong>für</strong> alle x stetig und in x <strong>für</strong> alle θ messbar. Weiter sei h eine bezüglich<br />

einer auf X definierten <strong>Verteilung</strong>sfunktion F integrierbare Funktion mit |g(x, θ)| ≤ h(x) <strong>für</strong><br />

alle x und θ. Dann gilt <strong>für</strong> X 1 , X 2 , . . . mit X i ∼ F , dass<br />

n∑<br />

∫<br />

n −1 Q(X i , θ) −→<br />

a.s. Q(x, θ) dF (x)<br />

gleichmäßig in θ ∈ Θ.<br />

i=1<br />

Beweis. Siehe Jennrich (1969, Theorem 2).<br />

Theorem A.5 (White’s Lemma). Seien Q n Funktionen, die auf X × Θ definiert sind,<br />

wobei X ein euklidischer Raum und Θ kompakte Teilmenge eines euklidischen Raumes ist.<br />

<strong>Die</strong> Funktionen Q n (x, θ) seien in θ <strong>für</strong> alle x stetig und in x <strong>für</strong> alle θ messbar. Dann existieren<br />

messbare Funktionen ˆθ n (x) mit<br />

<strong>für</strong> alle x in X. Wenn<br />

Q n (x, ˆθ n (x)) = inf<br />

θ∈Θ Q n(x, θ)<br />

|Q n (x, θ) − ¯Q n (θ)| a.s. −→ 0<br />

gleichmäßig <strong>für</strong> alle θ ∈ Θ gilt und ¯Q n (θ) eindeutiges Minimum bei θ 0 hat, dann gilt<br />

Beweis. Siehe White (1980, Lemma 2.2).<br />

ˆθ n<br />

a.s.<br />

−→ θ 0 .<br />

Theorem A.6 (Amemiya’s Lemma). Q n seien Funktionen, die auf X × Θ definiert sind,<br />

wobei X ein euklidischer Raum und Θ kompakte Teilmenge eines euklidischen Raumes sind.<br />

<strong>Die</strong> Funktionen Q n (x, θ) seien in θ <strong>für</strong> alle x stetig und in x <strong>für</strong> alle θ messbar. Wenn<br />

Q n (x, θ) a.s. −→ Q(θ)<br />

gleichmäßig <strong>für</strong> alle θ ∈ Θ gilt, dann gilt <strong>für</strong> ˆθ n (x) a.s. −→ θ 0<br />

Beweis. Siehe Amemiya (1973, Lemma 4).<br />

Q n (x, ˆθ n (x)) a.s. −→ Q(θ 0 ).


Literaturverzeichnis<br />

[Amemiya 1973] Amemiya, T.: Regression analysis when the dependent variable is truncated<br />

normal. In: Econometrica 41 (1973), S. 997–1016<br />

[Blackwelder 1982] Blackwelder, W. C.: Proving the null hypothesis“in clinical trials.<br />

”<br />

In: Controlled Clinical Trials 3 (1982), S. 345–353<br />

[Brown u. a. 1981] Brown, L. ; Johnstone, I. ; MacGibbon, B.: Variation diminishing<br />

transformations: A direct approach to total positivity and its statistical applications. In:<br />

J. Amer. Statist. Assoc. 76 (1981), S. 824–832<br />

[Brown 1986] Brown, L.D.: Fundamentals of statistical exponential families : with applications<br />

in statistical decision theory. Hayward, Calif. : Inst. of Math. Statist., 1986<br />

[Chan 1998] Chan, I. S. F.: Exact tests of equivalence and efficacy with a non-zero lower<br />

bound for comparative studies. In: Statistics in Medicine 17 (1998), S. 1403–1413<br />

[Chernoff 1954] Chernoff, H.: On the distribution of the likelihood ratio. In: Ann. Math.<br />

Statist. 25 (1954), S. 573–578<br />

[Dunnett und Gent 1977] Dunnett, C. W. ; Gent, M.: Significance testing to establish<br />

equivalence between treatments, with special reference to data in the form of 2x2 tables.<br />

In: Biometrics 33 (1977), S. 593–602<br />

[Farrington und Manning 1990] Farrington, C. P. ; Manning, G.: Test statistics and<br />

sample size formulae for comparative binomial trials with null hypothesis of non-zero risk<br />

difference or non-unity relative risk. In: Statistics in Medicine 9 (1990), S. 1447–1454<br />

[Feder 1968] Feder, P.I.: On the distribution of the log likelihood ratio test statistic when<br />

the true parameter is near the boundaries of the hypothesis regions. In: Ann. Math. Statist.<br />

39 (1968), S. 2044–2055<br />

[Ferguson 1996] Ferguson, T.S.: A course in large sample theory. Chapman & Hall, 1996<br />

[Hauschke u. a. 1999] Hauschke, D. ; Kieser, M. ; Diletti, E. ; Burke, M.: Sample<br />

size determination for proving equivalence based on the ratio of two means for normally<br />

distributed data. In: Statistics in Medicine 18 (1999), S. 93–105<br />

[Jennrich 1969] Jennrich, R.: Asymptotic Properties of Non-linear Least Squares Estimators.<br />

In: Ann. Math. Statist. 40 (1969), S. 633–643<br />

[Johnson und Welch 1940] Johnson, N.L. ; Welch, B.L.: Applications of the non-Central<br />

t-distribution. In: Biometrika 31 (1940), S. 362–389<br />

75


76<br />

[Karlin 1968] Karlin, S.: Total Positivity. Stanford University Press, 1968<br />

[Krengel 1988]<br />

Vieweg, 1988<br />

Krengel, U.: Einführung in die Wahrscheinlichkeitstheorie und Statistik.<br />

[Lange und Freitag 2005] Lange, S. ; Freitag, G.: Choice of Delta: Requirements and Reality<br />

- Results of a Systematic Review. In: Biometrical Journal (Special Issue on Therapeutic<br />

Equivalence: Editors A. Munk, H.-J. Trampisch) 47 (2005), Nr. 1, S. 12–27<br />

[Lehmann 1986]<br />

Verlag, 1986<br />

Lehmann, E. L.: Testing Statistical Hypotheses. 2. New York : Springer<br />

[Liu und Weng 1994] Liu, J. P. ; Weng, C. S.: Evaluation of log-transformation in assessing<br />

bioequivalence. In: Comm. in Statist. - Theory and Methods 23 (1994), S. 421–434<br />

[Munk u. a. 2006] Munk, A. ; Skipka, G. ; Freitag, G.: Testing non-inferiority in threearmed<br />

clinical trials based on the likelihood ratio statistics. In: Can. J. Stat. (acc.) (2006)<br />

[Ng 2000] Ng, T.-H.: Equivalence testing with three or more treatment groups. In: J.<br />

Amer. Statist. Assoc.: Proceeding of the Biopharmaceutical Section (2000), S. 156–160<br />

[Pigeot u. a. 2003] Pigeot, I. ; Schäfer, J. ; Röhmel, J. ; Hauschke, D.: Assessing<br />

non-inferiority of a new treatment in a three-arm clinical trial including a placebo. In:<br />

Statistics in Medicine 22 (2003), S. 883–899<br />

[Röhmel und Mansmann 1999] Röhmel, J. ; Mansmann, U.: Unconditional nonasymptotic<br />

one-sided tests for independent binomial proportions when the interest lies in<br />

showing non-inferiority and/or superiority. In: Biometrical Journal 41 (1999), S. 149–170<br />

[Self und Liang 1987] Self, S.G ; Liang, K.-Y.: Asymptotic Properties of Maximum<br />

<strong>Likelihood</strong> Estimators and <strong>Likelihood</strong> Ratio <strong>Tests</strong> Under Nonstandard Conditions. In: J.<br />

Amer. Statist. Assoc. 82 (1987), S. 605–610<br />

[Tang und Tang 2004] Tang, M.-L. ; Tang, N.-S.: <strong>Tests</strong> of noninferiority via rate difference<br />

for three-arm clinical trials with placebo. In: Journal of Biopharmaceutical Statistics 14<br />

(2004), S. 337–347<br />

[Wald 1949] Wald, A.: Note on the consistency of the maximum likelihood estimate. In:<br />

Ann. Math. Statist. 20 (1949), S. 595–601<br />

[White 1980] White, H.: Nonlinear regression on cross-section data. In: Econometrica 48<br />

(1980), S. 721–746<br />

[White 1981] White, H.: Consequences and detection of misspecified nonlinear regression<br />

models. In: J. Amer. Statist. Assoc. 76 (1981), S. 419–433<br />

[White 1982] White, H.: Maximum likelihood estimation of misspecified models. In:<br />

Econometrica 50 (1982), S. 1–26<br />

[Wilks 1938] Wilks, S.S.: The large-sample distribution of the likelihood ratio for testing<br />

composite hypotheses. In: Ann. Math. Statist. 9 (1938), S. 60–62<br />

[WMA ] WMA: World Medical Association Declaration of Helsinki. Ethical Principles for<br />

Medical Research Involving Human Subjects. http://www.wma.net/e/policy/b3.htm


Danksagung<br />

Als Erstes möchte ich Herrn Prof. Dr. Axel Munk <strong>für</strong> die intensive persönliche Betreuung<br />

nicht nur meiner Diplomarbeit, sondern meines gesamten Studiums ganz herzlich danken.<br />

Des Weiteren möchte ich mich bei Frau Dr. Fadoua Balabdaoui, Herrn Dr. Leif Boysen und<br />

Herrn Dr. Hajo Holzmann <strong>für</strong> anregende Diskussionen und ihre Korrekturen bedanken. Ausserdem<br />

danke ich Herrn Prof. Dr. Martin Schlather <strong>für</strong> die Übernahme <strong>des</strong> Koreferats.<br />

Daneben möchte ich mich bei meinen Kommilitonen Jörn und Andreas, bei meiner Freundin<br />

Merle und natürlich ganz besonders bei meinen Eltern, Rainer und Waltraud Mielke, <strong>für</strong> ihre<br />

Unterstützung bedanken.<br />

79

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!