Noter til eksponentielle familier. Første udgave. - Aarhus Universitet

E T F Ø R S T E K U R S U S 

I T E O R E T I S K S T A T I S T I K 

J E N S L E D E T J E N S E N

© Jens Ledet Jensen 2006 

Institut for Matematiske Fag 

Det Naturvidenskabelige Fakultet 

Aarhus Universitet 

Januar 2006

Indhold 

1 Indledning 1 

2 Eksponentielle familier 5 

2.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

2.2 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

2.3 Minimal fremstilling og konveks støtte . . . . . . . . . . . . . . . . . . . . 7 

2.4 Laplace- og kumulanttransform . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.5 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

2.6 Marginale og betingede fordelinger . . . . . . . . . . . . . . . . . . . . . . 17 

2.7 Komplethed af den minimalkanoniske observator . . . . . . . . . . . . . 19 

2.8 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

3 Sufficiens 25 

3.1 Indledning og definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

3.2 Tilfældet med diskret udfaldsrum X . . . . . . . . . . . . . . . . . . . . . 26 

3.3 Det generelle tilfælde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

3.4 Minimal sufficiente observatorer . . . . . . . . . . . . . . . . . . . . . . . 29 

3.5 Sufficiensprincippet og B-sufficiens . . . . . . . . . . . . . . . . . . . . . . 36 

3.6 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 

4 Ancillaritet og Basu’s sætning 43 

4.1 Definitioner og diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 

4.2 Basu’s sætning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 

4.3 Birnbaum’s sætning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 

4.4 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 

5 Likelihoodbegreber 57 

5.1 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 

6 Centrale estimatorer med minimal varians 67 

6.1 Centrale estimatorer med minimal varians . . . . . . . . . . . . . . . . . . 67 

6.2 Variansuligheder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 

6.3 Pusterum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 

6.4 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 

i

ii INDHOLD 

7 Testteori 79 

7.1 Indledning og definitioner . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 

7.2 Neyman-Pearson’s lemma og monotone kvotienter . . . . . . . . . . . . 81 

7.3 Sammensat nulhypotese – test for en delparameter . . . . . . . . . . . . . 89 

7.4 Lokalt stærkeste test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 

7.5 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 

8 Separat inferens 101 

8.1 L-sufficiens og L-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 101 

8.2 S-sufficiens og S-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 104 

8.3 G-sufficiens og G-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 107 

8.4 Itemanalysemodellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 

8.5 Afsluttende bemærkninger . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 

8.6 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 

9 Bayes statistik 121 

10 Referencer 129 

11 Notation og regneregler 135 

11.1 notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 

11.2 Transformationssætningen . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 

11.3 Betinget middelværdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 

11.4 Betingede tætheder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 

11.5 Regnereler for tætheder og integraler . . . . . . . . . . . . . . . . . . . . . 138 

11.6 Entydighed af Laplacetransformen . . . . . . . . . . . . . . . . . . . . . . 139 

Indeks 141

Kapitel 1 

Indledning 

Med disse indledende bemærkninger vil jeg forsøge at ryste jeres statistiske grundvold, 

og vise at statistik (d.v.s. her teoretisk statistik) er mere end matematik. Jeg vil 

nævne nogle af de forskellige indgange til statistik for at afgrænse, hvad vi skal beskæftige 

os med i disse noter. Jeg vil her i indledningen foretage diskussionen ud fra 

et eksempel. 

En ukendt parameter θ kan antage værdier i {0, 1, 2, . . . }. En værdi k af θ vælges 

(måske af naturen, måske af en person), og 6 brikker placeres i en pose. Af de 6 brikker 

er 2 mærket med værdien k og de 4 andre med værdierne 4k + 1, . . . , 4k + 4. Eksperimentet 

består nu i at vælge én af brikkerne tilfældigt og observere værdien S på denne, 

Fordelingen af S beskrives med følgende tabel, hvori for hver række er angivet 6 gange 

sandsynligheden for de mulige udfald: 

S 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 

0 2 1 1 1 1 

1 2 1 1 1 1 

θ 2 2 1 1 1 1 

3 2 1 1 1 1 

4 2 1 1 1 1 

5 2 1 1 1 1 

Vores opgave er ud fra observationen s at sige noget om den ukendte parameter θ. Når 

s er observeret, ved vi, at θ enten er s eller for s > 0, er der også muligheden [(s − 1)/4], 

hvor [·] er heltalsdelen af et tal. Fra observationen s kan vi altså gætte på 

ˆθ = s eller ˜θ = 

0 hvis s = 0 

[(s − 1)/4] hvis s > 0, 

hvor ˆ θ faktisk er maksimum likelihood estimatet. 

Normalt vil vi vælge ˆθ som skøn over θ, idet Pˆθ (s) = 2 6 > P˜ θ (s) = 1 6 for s > 0, altså 

den observerede værdi s har større sandsynlighed under målet Pˆθ end under målet P˜ θ . 

Men hvis vi spørger om sandsynligheden for at gætte den rigtige værdi af θ, har vi 

Død og pine, hvad gør vi nu? 

P θ( ˆθ = θ) = 2 6 

1

2 KAPITEL 1. INDLEDNING 

Indenfor den såkaldte Bayes-statistik optræder der ingen problemer (=problemet er 

flyttet et andet sted hen - en særdeles velkendt problemløsningmetode). Hvis man er 

“bayesianer”, formuleres alt ved hjælp af sandsynligheder. I stedet for at sige at θ er 

ukendt, siger man, at θ er en stokastisk variabel med en prior tæthed pk = P(θ = k), og 

at vores viden om θ, efter at eksperimentet er udført, udtrykkes gennem den betingede 

tæthed 

⎧ 

1 k = s = 0 

⎪⎨ 1 

3 ( 

P(θ = k|S = s) = 

⎪⎩ 

1 3 ps + 1 6 p [(s−1)/4]) −1 pk k = s, s > 0 

1 

6 ( 1 3 ps + 1 6 p [(s−1)/4]) −1 pk k = [(s − 1)/4], s > 0 

0 ellers 

Eventuelt kan vi lave et estimat ˆθB, som er den værdi af θ, som har størst sandsynlighed 

givet S = s. 

For at gennemføre dette program skal vi altså vælge en prior tæthed p k. Hvis vi 

tager p k = 1/2 k+1 , vil ˆ θB = ˜ θ for alle s. Det kan vises, at for en vilkårlig tæthed med 

p k > 0 for alle k vil ˆθB = ˜θ for uendelig mange værdier af s . Hvis p k = 0 for k ≥ 5 og 

p k = 1/4 for k < 5, vil 

ˆθB = ˆθ for s < 5 og ˆθB = ˜θ for 5 ≤ s ≤ 20. 

Dette sidste eksempel dækker over det generelle udsagn, at jo mere uniform vi gør den 

prior tæthed, desto oftere vil ˆθB = ˆθ. 

Det er klart, at det oprindelige problem er blevet ført over i, hvordan vi skal vælge 

prior tætheden. Hvis vi ikke har nogen viden, der kan hjælpe os i dette, må vi altså 

foretage et subjektivt valg, og af denne grund bryder mange statistikere sig ikke om 

Bayes-statistik. Ud fra en pragmatisk synsvinkel kan det dog i visse situationer være 

praktisk at tænke i termer af Bayes-statistik. F.eks. i store ekspertsystemer, hvor et af 

problemerne er jævnligt at opdatere den akkumulerede viden om de mange parametre, 

kan det være praktisk at bruge Bayes-statistik. Jeg omtaler kort Bayes-statistik i kapitel 

9. 

En anden tilgang til statistik er decisionsteori. Her forestiller man sig, at der til hver 

observation x skal foretages en beslutning d = d(x), og for enhver beslutning d og 

enhver parameter θ er der givet en pris, eller et tab, w(θ, d) ≥ 0. Det forventede tab 

kaldes risikofunktionen (engelsk: risk function) 

r(θ, d) = E θw(θ, d(X)). 

I vort eksempel kan beslutningen være, at vi peger på enten ˆθ eller ˜θ som den sande 

værdi af θ. Lad os f.eks. sige at tabet er givet ved 

⎧ 

⎪⎨ 0 hvis θ1 = θ 

w(θ, θ1) = α 

⎪⎩ 

β 

 

12 α + 

r(θ, ˆθ) = 

hvis |θ1 − θ| ≤ 3 

hvis |θ1 − θ| > 3, 

1 6 β hvis θ = 0 

4 

6 β hvis θ > 0 

⎧ 

⎪⎨ 

0 

og r(θ, ˜θ) = 2 

6α ⎪⎩ 

β 

hvis θ = 0 

hvis 1 ≤ θ ≤ 3 

hvis θ > 3. 

2 

6

Hvis θ > 3 vil ˜θ have en mindre risiko end ˆθ, men for 1 ≤ θ ≤ 3 vil ˆθ have en 

mindre risiko end ˜θ, hvis blot β < α/2. 

Decisionsteori giver anledning til mange nye definitioner. En beslutningsregel d 

kaldes inadmissible, hvis der findes en anden regel d1, så at r(θ, d) ≥ r(θ, d1) for alle θ og 

med skarp ulighed for mindst én værdi af θ. Hvis en regel ikke er inadmissible, kaldes 

den admissible, og disse er klart at foretrække. En minimax regel d er en admissible 

beslutningsregel, som opfylder 

sup 

θ 

r(θ, d1) ≥ sup r(θ, d) 

θ 

for enhver anden admissible regel d1. En minimax regel er et fornuftigt valg, hvis man 

er to personer, der spiller mod hinanden, og at man må forvente, at modspilleren er 

så ond som mulig. Ligesom at jeg ikke vil komme ind på Bayes-statistik, vil jeg ikke 

beskæftige mig med decisionsteori i disse noter. 

Hvad er så emnet for disse noter? Løst sagt skal vi så præcist som muligt opsummere 

den viden, som vi har fået om den ukendte parameter fra den foretagne observation 

og fra vores viden om den sandsynlighedsmekanisme, som ligger bagved. Dette 

betyder bl.a., at vi ikke skal bruge de hypotetiske gentagelser af forsøget til at konstruere 

et spil mod en usynlig modpart og dernæst minimere tabet, men derimod bruge 

gentagelserne til at belyse den faktiske observation i forhold til de andre mulige observationer. 

Heri ligger også, at de potentielle gentagelser skal være relevante, som for 

eksempel at de skal foretages med det samme måleudstyr (disse problemer tages op i 

kapitel 4 og kapitel 8). Den type problemstillinger, som vi ønsker at anvende teorien 

på, kan være spørgsmål som: Hvad er lysets hastighed? Hvor en stor procentdel af den 

danske befolkning går ind for en kombineret vej- og jernbanebro til Sverige?; Hvad er 

sandsynligheden for at blive rask med en given behandling?; etc., etc. 

I ovenstående eksempel, hvis vi f.eks. har observeret s = 2, kan vi sige, at de mulige 

værdier af θ er θ = 0 og θ = 2, og at sandsynlighederne for s = 2 er 1 6 og 2 6 under de to 

muligheder. Meget mere kan vi ikke sige. Normalt vil vi gerne angive et estimat og en 

relevant varians på estimatet eller et relevant konfidensområde, men her hvor der kun 

er to muligheder, kan vi kun give en rangordning. Da vi nu ved, at θ = 0 eller θ = 2 er 

ˆθ og ˜θ ikke relevante i hypotestiske gentagelser. For en ny observation s ∈ {0, 1, 3, 4} 

ved gentagelse, kan vi slutte at θ = 0, og for s ∈ {9, 10, 11, 12} kan vi slutte at θ = 2. 

Det er kun for s = 2, at vi ikke kan slutte hvad θ er. Hvis vi definerer 

 

 

ˆθ2(s) 

0 s ∈ {0, 1, 3, 4} 

= 

og ˇ 

0 s ∈ {0, 1, 2, 3, 4} 

θ2(s) = 

2 s ∈ {2, 9, 10, 11, 12} 

2 s ∈ {9, 10, 11, 12} 

har vi at 

og 

P0( ˆθ2 = 0) = 5 6 , P2( ˆθ2 = 2) = 1, 

P0( ˇθ2 = 0) = 1, P2( ˇθ2 = 2) = 4 6 , 

og anskuet på denne vis vil vi sige, at maksimum likelihood estimatet ˆθ2 er det bedste 

estimat. 

Lad mig slutte denne indledning med en ultrakort gennemgang af de forskellige 

kapitler: 

3

4 KAPITEL 1. INDLEDNING 

Kapitel 2: Her opsumerer jeg de vigtigste begreber og resultater for ekponentielle familier. 

Eksponentielle familier er vigtige på grund af deres pæne matematiske egenskaber, 

på grund af deres udbredelse, og fordi der er en simpel sammenhæng mellem 

tætheden og de såkaldte sufficiente observatorer. Faktisk kan man vende bøtten rundt, 

og starte med at sige, hvad der skal være sufficiente observatorer, og man vil så hurtigt 

blive ledt frem til de eksponentieller familier. De eksponentieller familier vil optræde 

gennem hele notesættet. 

Kapitel 3: Her gives en udførlig matematisk teori for sufficiente observationer, d.v.s. 

funktioner af data som “indeholder al information” om den ukendte parameter. 

Kapitel 4: Handler on hvordan vi definerer relevante gentagelser ved at betinge med 

værdien af en såkaldt ancillær observator. Sammenhængen mellem dette og de sufficiente 

observatorer diskuteres. 

Kapitel 5: Nævner de vigtigste begreber omkring likelihoodfunktionen og den afledede. 

Resultater baseret på at antallet af observationer går mod uendelig bliver kort 

omtalt. Dette kapitel kan godt læses før de andre. 

Kapitel 6: Giver en teori for hvordan vi på fornuftig vis kan vælge estimatorer, d.v.s. at 

vi forsøger at minimere variansen uniformt i parameteren. For at dette får mening, må 

vi nøjes med at betragte de såkaldte unbiased estimatorer. 

Kapitel 7: Heri beskrives hvordan man konstruerer test med visse optimale egenskaber. 

Kapitel 8: Dette kapitel hænger sammen med kapitel 4, idet det undersøges, hvad der 

er relevante gentagelser, når vi ønsker at udtale os om en delparameter. 

Lad mig til sidst påpege at udgangspunktet er, at vi har valgt en model til beskrivelse 

af det udførte forsøg, og ønsker nu at optimere vores konklusioner idenfor modellen. 

Det vil bl.a. sige, at vi ikke kommer ind på kontrol af modellen. En anden vigtig 

ting vi ikke kommer ind på, er robusthed af vores procedurer overfor antagelser i modellen, 

d.v.s. spørgsmål som, om en optimal procedure under modellen vil være langt 

fra optimal, hvis modellen ændres ganske lidt. 

En henvisning til Jørgen Hoffman-Jørgensens bøger angives med “JHJ”.

Kapitel 2 

Eksponentielle familier 

2.1 Motivation 

Eksponentielle familier er klasser af sandsynlighedsmål med “særligt pæne egenskaber". 

Det smarte er, at når først vi har vist (og det er ikke svært), at noget er en eksponentiel 

familie, så ved vi, at en hel masse resultater er opfyldt. Lad os som et eksempel 

betragte n uafhængige variable X1, . . . , Xn som er normalfordelte med middelværdi µ 

og varians σ 2 . Hvis f(·) er en funktion fra R ind i R med den egenskab, at 

E µ,σ 2 f( ¯X) = 0 for alle µ ∈ R, 

så kan vi slutte, at f er identisk lig med nul pånær på en nulmængde. Denne egenskab 

kan måske nok synes lidt teknisk, men den kan hjælpe os til at vise andre egenskaber. 

Det sædvanlige estimat for σ 2 er s 2 = ∑i(X i − ¯X) 2 /(n − 1). Dette estimat har den rigtige 

middelværdi: Es 2 = σ 2 , og vi siger, at s 2 er middelværdiret. Man kan nu vise, at s 2 

er det estimat, der har mindst mulig varians, blandt alle estimater der er middelværdirette. 

For eksponentielle familier kan vi vise at for visse hypoteser er der særligt attraktive 

tests. I eksemplet ovenfor kan vi betragte et test for hypotesen µ = 0 mod alternativet 

µ > 0. Det sædvanlige t-test forkaster hypotesen hvis t = ¯X/ √ s 2 /n er stor, og vi kan 

vise at dette i en vis forstand er det bedste vi kan gøre. 

De ovenstående eksempler viser, at der er god grund til at beskæftige sig med eksponentielle 

familier. Et andet argument er, at nogle af de vigtigste klasser af fordelinger 

faktisk er eksponentielle familier: Binomialfordelingerne, Poissonfordelingerne, 

normalfordelingerne og Gammafordelingerne. Ydermere er disse fordelinger byggestene 

for det der hedder Generaliserede Lineære Modeller som er et vigtigt redskab i 

en statistikers værktøjskasse. 

Definitionen på en eksponentiel familie vedrører hvordan data og parameter spiller 

sammen. Lad som et eksempel Pλ være poissonfordelingen med parameter λ og lad µ 

være tællemålet. Så kan vi skrive tætheden som 

dPλ λx 

(x) = 

dµ x! e−λ = e −λ · 1 

x! 

· exp{log(λ)x}. 

Hvad jeg har fremhævet her, er at tætheden kan skrives som en funktion af parameteren, 

ganget med en funktion af data, ganget med en eksponentialfunktion, hvor 

5

6 KAPITEL 2. EKSPONENTIELLE FAMILIER 

argumentet er en funktion af parameteren ganget med en funktion af data. Det er denne 

struktur der nedenfor vil blive brugt i den generelle definition. Bemærk at den første 

funktion af parameteren, lad os kalde den a(λ), er en normeringskonstant: eftersom vi 

betragter en tæthed, vil denne integrere til 1, og dermed har vi 

a(λ) ∑ x 

2.2 Definition 

 

1 

exp{log(λ)x} = 1 ⇒ a(λ) = 

x! ∑ 

x 

1 

x! exp{log(λ)x} 

−1 . 

Jeg vil betragte en klasse P = {Pθ|θ ∈ Θ} af sandsynlighedsmål på målrummet 

(X , A, µ), hvor µ er et σ-endeligt mål. Familien P er parametriseret ved θ ∈ Θ, hvor 

Θ ⊆ Rp , d.v.s at hvis θ1 = θ2 så vil Pθ1 = Pθ2 . Antag, at µ dominerer alle målene i 

P, Pθ ≪ µ ∀θ ∈ Θ, og at der eksisterer en funktion φ = (φ1, . . . , φk) : Θ → Rk , en 

målelig funktion t = (t1, . . . , tk) : X → Rk , og en målelig funktion b : X → R således 

at 

dPθ 

dµ (x) = a(θ)b(x)eφ(θ)·t(x) , ∀θ ∈ Θ. (2.1) 

Hvis (2.1) er opfyldt, kaldes P en eksponentiel familie med kanonisk observator T = t(X) 

og kanonisk parameter φ(θ). Bemærk, at i (2.1) er a(·) bestemt ved 

 

a(θ) = b(x)e φ(θ)·t(x) −1 µ(dx) 

og er derfor kun en funktion af θ gennem φ(θ). Det mindste k for hvilket en repræsentation 

på formen (2.1) er mulig kaldes ordenen af familien. Hvis repræsentationen er 

minimal, d.v.s. at k er ordenen af familien, kaldes T en minimal kanonisk observator og 

ϕ en minimal kanonisk parameter. 

Eksempel 2.1. 

Jeg opskriver her nogle af de fordelinger I kender i forvejen på eksponentiel familieform. 

Binomialfordelingen. Lad X være binomialfordelt med antalsparamter n og sandsynlighedsparameter 

θ med 0 < θ < 1. Så er tætheden med hensyn til tællemålet µ 

givet ved 

dPθ (x) = 

dµ 

for x ∈ {0, . . . , n}. 

n 

x 

 

θ x (1 − θ) n−x = (1 − θ) n 

n 

x 

 

 

θ 

exp log x , 

1 − θ 

Normalfordelingen. Lad X være normalfordelt med middelværdi µ og varians σ 2 

med (µ, σ 2 ) ∈ R × R+. Så er tætheden med hensyn til lebesguemålet m givet ved 

dP (µ,σ 2 ) 

dm 

(x) = exp{− 1 

2σ 2(x − µ) 2 } 

√ 2πσ 2 

= exp{− µ2 

2σ 2 } 

√ 2πσ 2 

 

µ 

exp 

σ 

2σ 

1 

x − x2 

2 2 

for x ∈ R. Bemærk at i dette eksempel er b(x) = 1. 

 

,

2.3. MINIMAL FREMSTILLING OG KONVEKS STØTTE 7 

2.3 Minimal fremstilling og konveks støtte 

Jeg skal i dette afsnit angive en metode til at afgøre, om en fremstilling er minimal, og 

skal i denne forbindelse udtrykke mig “næsten sikkert” mht. et mål. Jeg starter derfor 

med følgende observation. 

Observation 2.2 Lad ν være målet på X givet ved 

dν 

(x) = b(x), (2.2) 

dµ 

hvor b(x) er fra (2.1). Der gælder at alle målene i P er indbyrdes ækvivalente, og at de 

er ækvivalente med ν , d.v.s. at alle disse mål har de samme nulmængder. 

Bevis. Da 

 

Pθ(A) = 

a(θ)e 

A 

φ(θ)·t(x) 

b(x)µ(dx) = 

A 

a(θ)e φ(θ)·t(x) ν(dx), 

har vi, at 

dPθ dν (x) = a(θ)eφ(θ)·t(x) . (2.3) 

Vi har derfor, at hvis N er en nulmængde for ν er N også en nulmængde for Pθ for alle 

θ ∈ Θ. Da (2.3) er strengt positiv, gælder der at ν(B) > 0 ⇒ Pθ(B) > 0. Hvis derfor N 

er en nulmængde for Pθ, følger det, at ν(N) = 0. 

Jeg vil skrive “næsten sikkert mht. P” som n.s.−P, og på grund af Observation 2.2 

skrive n.s.−P hvormed menes, at den angivne relation er korrekt på nær en af de fælles 

nulmængder for P θ og ν. Bemærk at Observation 2.2 viser, at hvis målene i en familie 

P ikke har samme støtte, så kan P ikke være en eksponentiel familie. Et eksempel på 

dette er familien af uniforme fordelinger på intervallet [0, θ], θ > 0. 

Lemma 2.3 Fremstillingen (2.1) er minimal hvis og kun hvis (i) og (ii) nedenfor er opfyldt: 

(i) funktionerne 1,φ1, . . . , φ k på Θ er lineært uafhængige, d.v.s. 

c0 + c1φ1(θ) + · · · + c kφ k(θ) = 0 ∀θ ∈ Θ ⇒ c0 = c1 = · · · = c k = 0, (2.4) 

(ii) funktionerne 1,t1, . . . , t k på X er lineært uafhængige næsten sikker mht. P, d.v.s 

c0 + c1t1(x) + · · · + c kt k(x) = 0 n.s. − P ⇒ c0 = c1 = · · · = c k = 0. (2.5) 

Bevis. Jeg viser først, at hvis (i) eller (ii) ikke er opfyldt, så er repræsentationen ikke 

minimal. Antag at (i) ikke er opfyldt. Der eksisterer altså en vektor c = 0, så at c0 + c · 

φ(θ) = 0 ∀θ ∈ θ. Lad os sige at ck = 0, så har vi, at φk(θ) = −1 

c 

{c0 + c1φ1(θ) + · · · + 

k 

ck−1φk−1(θ)}, og vi kan skrive (2.1) som 

dP θ 

dµ (x) = a(θ)b(x)e−c0 t k(x)/c k exp 

 

k−1 

∑ 

1 

φ i(θ)[t i(x) − c it k(x)/c k] 

 

.


D.v.s. at vi har konstrueret en repræsentation af dimension k−1, og (2.1) er derfor ikke 

minimal. På helt tilsvarende måde vises, at hvis (ii) ikke er opfyldt, så er (2.1) ikke 

minimal. 

Vi antager nu, at (i) og (ii) er opfyldt, og skal vise at fremstillingen (2.1) er minimal. 

Vi bemærker først, at hvis θ0 ∈ Θ, så har vi fra (2.1) og Observation 2.2, at (se JHJ 3.19) 

dPθ dPθ0 = a(θ) 

a(θ0) exp[{φ(θ) − φ(θ0)} · t(x)]. (2.6) 

Vi betragter nu endvidere en minimal repræsentation af dimension m , med kanonisk 

parameter β(θ) og kanonisk observator u(x) . Vi har altså 

dPθ dPθ0 = ã(θ) 

ã(θ0) exp[{β(θ) − β(θ0)} · u(x)], (2.7) 

og skal vise at k = m. Fra (i) har vi, at vi kan vælge θ1, . . . , θk, så at k × k matricen 

⎛ 

⎞∗ 

φ(θ1) − φ(θ0) 

⎜ 

⎟ 

A = ⎝ . ⎠ 

φ(θk) − φ(θ0) 

har fuld rang. Da (2.6) og (2.7) er tæthed for det samme mål, er de identiske n.s.−P, og 

vi har for i = 1, . . . , k, 

{φ(θ i) − φ(θ0)} · {t(x) − t(x0)} = {β(θ i) − β(θ0)} · {u(x) − u(x0)} n.s. − P. 

Skrevet på matriks form gælder der, at 

hvor B er m × k matricen 

{t(x) − t(x0)}A = {u(x) − u(x0)}B n.s. − P, (2.8) 

B = 

⎛ 

⎜ 

⎝ 

β(θ1) − β(θ0) 

. 

β(θ k) − β(θ0) 

Da (2.7) er antaget minimal, har vi at m ≤ k. Antag nu at m < k, så eksisterer der 

d ∈ R k , d = 0, så at Bd ∗ = 0. Da A har fuld rang, er c ∗ = Ad ∗ = 0, og (2.8) giver 

⎞ 

⎟ 

⎠ 

{t(x) − t(x0)}c ∗ = {u(x) − u(x0)}Bd ∗ = 0 n.s. − P, 

hvilket er i modstrid med (ii). Altså er m = k, og (2.1) er en minimal fremstilling. 

Betingelsen (2.4) er ækvivalent med at mængden 

Λ0 = {ϕ(θ)|θ ∈ Θ} 

ikke tilhører et affint underrum af R k . 

Jeg vil nu diskutere betingelsen (2.5). Støtten for en stokastisk variabel T, der lever 

i et metrisk rum, defineres som 

{t|P(kugle med centrum t og radius ǫ) > 0, ∀ǫ > 0}. 

∗

2.3. MINIMAL FREMSTILLING OG KONVEKS STØTTE 9 

Specielt hvis T kun kan antage endelig mange værdier, så er støtten de punkter, hvor 

der er positiv sandsynlighed. Hvis T ∈ R k siger vi, at koordinaterne i T er affint uafhængige 

n.s. hvis støtten for T ikke er indeholdt i et affint underrum af R k . Dette er 

ækvivalent med at sige, at der ikke findes c ∈ R k , c = 0, så at c · T er lig med en konstant 

n.s. Men dette er netop betingelsen (2.5). Betingelsen er også ækvivalent med at sige, 

at variansen af T, Var(T), er positiv definit. Lad os lige eftervise det sidste udsagn: 

cVar(T)c ∗ = 0 ⇐⇒ Var(c · T) = 0 

⇐⇒ c · T = konstant n.s. ⇔ c = 0, 

hvor den sidste ækvivalens er betingelsen (2.5). Bemærk, at for en eksponentiel familie 

P giver Observation 2.2 at støtten for T er den samme uanset hvilket sandsynlighedsmål 

Pθ ∈ P vi betragter. Tilsvarende, hvis variansen for T er positiv definit under 

P θ1 ∈ P så er variansen positiv definit under alle P θ ∈ P. 

Den lukkede konvekse støtte Ct for den eksponentielle familie P defineres som den 

mindste lukkede konvekse mængde K ⊂ R k med P θ(t(X) ∈ K) = 1 for alle θ ∈ Θ, 

eller ækvivalent hermed {x|t(x) /∈ K} er en P-nulmængde. I symboler kan vi skrive 

Ct = 

K∈K 

K, (2.9) 

hvor K er mængden af lukkede og konvekse mængder K med ν({x|t(x) /∈ K}) = 0. 

Det indre af Ct betegnes intCt. Hvis støtten for T er indeholdt i et affint underrum af R k , 

vil vi i definitionen af Ct tage snit over mængder, der er indeholdt i et affint underrum, 

og vi vil derfor have at intCt = ∅. Med andre ord vil intCt = ∅ medføre, at støtten 

for T ikke er indeholdt i et affint underrum af R k , og dermed at betingelsen (2.5) er 

opfyldt. Omvendt, hvis støtten for T ikke er indeholdt i et affint underrum af R k kan 

vi finde k støttepunkter der udspænder R k og dermed vil intCt = ∅. 

Vi kan samle vores diskussion ovenfor i: 

Observation 2.4 Følgende betingelser er ækvivalente: 

• Betingelsen (2.5); 

• Støtten for T er ikke indeholdt i et affint underrum af R k ; 

• intCt = ∅; 

• Variansen Var(T) er positiv definit. 

Eksempel 2.5 (Binomialfordelingen). 

Lad X være binomialfordelt med antalsparamter n og sandsynlighedsparameter θ med 

0 < θ < 1. Så er tætheden med hensyn til tællemålet µ givet ved 

 

dPθ n 

(x) = (1 − θ)n 

dµ x 

 

θ 

exp log x . 

1 − θ


Dette er en eksponentiel familie med t(x) = x og ϕ(θ) = log(θ/(1 − θ)). Repræsentationen 

er af dimension 1, og vi vil nu vise at den er minimal. Støtten for T er 

{0, 1, . . . , n} og denne tilhører ikke et affint underrum af R, det vil sige at (2.5) er op- 

fyldt. Hvis 

 

θ 

c0 + c1 log = 0 ∀0 < θ < 1, 

1 − θ 

kan vi tage θ = 1/2 hvoraf følger at c0 = 0, og dernæst kan vi tage θ = 1/4 hvoraf 

følger at c1 = 0. Det vil sige at (2.4) er opfyldt, og vi har vist at repræsentationen er 

minimal. Dette eksempel er meget simpelt: hvis vi har en eksponentiel familie med en 

repræsentation af dimension 1, vil repræsentationen altid være minimal så længe at 

der er mindst to sandsynlighedsmål i familien (hvis ordenen af familien er nul vil der 

kun være et sandsynlighedsmål i familien). 

2.4 Laplace- og kumulanttransform 

Laplacetransformen for T = t(X) under målet ν er 

 

 

c(ξ) = exp(ξ · t(x))ν(dx) = 

Rk exp(ξ · t)νT(dt) (2.10) 

X 

for ξ ∈ R k . Domænet for c(·) er Λ = {ξ ∈ R k |c(ξ) < ∞}. Lad os definere et sandsynlighedsmål 

˜P ξ på X , for ξ ∈ Λ, ved 

d ˜P ξ 

dν (x) = c(ξ)−1 exp(ξ · t(x)). (2.11) 

Så svarer P θ i (2.1) til ˜P φ(θ) her og a(θ) = c(φ(θ)) −1 . Klassen P er givet ved 

P = { ˜P ξ|ξ ∈ Λ0}, Λ0 = {φ(θ)|θ ∈ Θ}. 

Vi har altid at Λ0 ⊆ Λ. Hvis Λ0 = Λ kaldes familien P fuld, og hvis P er fuld og Λ er 

åben, kaldes familien regulær. Laplacetranformen for t(X) under ˜P ξ0 er 

 

X 

 

exp(ξ · t(x)) ˜P ξ0 (dx) = 

X 

exp((ξ + ξ0) · t(x)) 

ν(dx) = 

c(ξ0) 

Kumulanttransformen for t(X) under målet ν er defineret som 

κ(ξ) = ln c(ξ). 

Fra (2.12) har vi at kumulanttransformen af t(X) under ˜P ξ0 er 

κ ξ0 (ξ) = κ(ξ + ξ0) − κ(ξ0). 

c(ξ + ξ0) 

. (2.12) 

c(ξ0) 

Hvis κP er kumulanttransformen for t(X) under et sandsynlighedsmål P, kaldes de 

afledede af κP taget i nul for t(X)’s kumulanter. Bemærk at for kumulanttransformen af 

t(X) under ˜P ξ0 har vi 

∂kκξ0 ∂ 

(0) = 

kκ (ξ0) 

∂ξ i1 · · · ∂ξ ik 

∂ξ i1 · · · ∂ξ ik

2.4. LAPLACE- OG KUMULANTTRANSFORM 11 

Den første og anden kumulant er henholdsvis middelværdi og varians af t(X) under 

P, se (2.17) og (2.18) nedenfor. For en en-dimensional variable t(X) kaldes 

for henholdsvis skævheden og kurtosis. 

κ (3) 

P (0) 

(κ ′′ , 

P 

(0))3/2 

κ (4) 

P (0) 

(κ ′′ 

P 

(0))2 , 

Fremover vil jeg skrive P ξ for ˜P ξ, selvom dette kan give forvirring i forhold til det 

tidligere P θ. Vi lader E ξ betegne middelværdi mht. sandsynlighedsmålet P ξ. Desuden 

vil Λ blive omtalt som det fulde parameterområde for den eksponentielle familie. 

Sætning 2.6. Antag at t(·) opfylder (2.5). Det fulde parameterområde Λ = {ξ|c(ξ) < 

∞} er konvekst, og κ er strengt konveks på Λ, d.v.s. at κ(αξ1 + (1 − α)ξ2) < ακ(ξ1) + 

(1 − α)κ(ξ2) for alle ξ1, ξ2 ∈ Λ, ξ1 = ξ2, og alle 0 < α < 1. 

Bevis. Lad ξ1, ξ2 ∈ Λ. Hölders ulighed (JHJ 3.11) giver 

 

e (αξ 

1+(1−α)ξ2)·t(x) 

ν(dx) = {e ξ1·t(x) α ξ2·t(x) 1−α } {e } ν(dx) 

 

e ξ α 

1·t(x) 

ν(dx) 

≤ 

e ξ2·t(x) ν(dx) 

1−α 

= c(ξ1) α c(ξ2) 1−α < ∞, (2.13) 

så at αξ1 + (1 − α)ξ2 ∈ Λ, d.v.s. Λ er konvekst. Tager vi logaritmen i ovenstående 

ulighed, fås at κ(ξ) er en konveks funktion. Der gæder lighedstegn i Hölders ulighed, 

hvis og kun hvis 

e ξ 1·t(x) = Ke ξ2·t(x) n.s. − ν, 

for en konstant K, og dette er ensbetydende med at ξ1 = ξ2 ifølge (2.5). 

Sætning 2.7. Lad ξ ∈ Λ og antag at ξ ± h ∈ Λ. Så gælder 

E ξ|h · t(X)| n < ∞ ∀ n ∈ N. 

Specielt gælder, at hvis ξ ∈ intΛ, så eksisterer alle momenter af t(X) under P ξ. 

Bevis. Da |y| n /n! ≤ e y + e −y for alle y ∈ R, har vi 

 

|h · t(x)| n e ξ·t(x) 

ν(dx) ≤ n! 

e (ξ+h)·t(x) 

ν(dx) + 

e (ξ−h)·t(x) 

ν(dx) < ∞. 

Hvis ξ ∈ intΛ, vil ξ ± h ∈ Λ for alle små h. Derfor har vi, at E ξ|t j(X)| n < ∞ for alle 

j = 1, . . . , k og alle n. Hölders ulighed giver så, at 

E ξ|t1(X) n 1 · · · tk(X) n k| < ∞ for alle n1, . . . , n k. (2.14)


Sætning 2.8. Hvis ξ ∈ intΛ gælder der at 

∂ n c(ξ1, . . . , ξ k) 

∂ξ a 1 

1 . . . ∂ξa k 

k 

= c(ξ)E ξ {t1(X) a 1 · · · tk(X) a k}, (2.15) 

hvor a1 + · · · + a k = n. 

Bevis. Ifølge (2.14) eksisterer momenterne i (2.15). Påstanden i (2.15) kan vises ved 

induktion i n : Lad kuglen med centrum i ξ og radius ǫ0 være indeholdt i Λ. Antag at 

påstanden holder for alle a1, . . . , a k med a1 + · · · + a k = n og betragt situationen hvor 

vil ændre a j til a j + 1. Vi vil benytte at 

Så fås 

|e ǫt 

 

j − 1| = 

 

ǫ 

0 

∂ n+1 c(ξ1, . . . , ξ k) 

∂ξ a1 1 . . . ∂ξa j+1 

j 

tje ut 

 

jdu ≤ ǫ|tj|(e ǫ0tj −ǫ0t 

+ e j) ∀ |ǫ| < ǫ0. (2.16) 

. . . ∂ξ ak k 

= lim 1 

 

∂nc(ξ1, . . . , ξj + ǫ, . . . , ξk) − 

ǫ 

∂n 

c(ξ1, . . . , ξk) 

= lim 

 

= lim = 

∂ξ a 1 

1 . . . ∂ξa k 

k 

∂ξ a1 1 . . . ∂ξa k 

k 

t1(x) a1 · · · tk(x) ak ξ·t(x) 

e eǫtj(x) − 1 

ν(dx) 

 

ǫ 

t1(x) a 1 · · · tj(x) a j+1 · · · tk(x) a ke ξ·t(x) ν(dx) 

= c(ξ)E ξ{t1(X) a 1 · · · tj(X) a j+1 · · · tk(X) a k }, 

hvor det andet lighedstegn er induktionsantagelsen, og det tredje lighedstegn følger af 

(2.16) og sætningen om domineret konvergens. 

Bemærkning 2.9 Bemærk at Sætning 2.8 er et eksempel på, at vi må differentiere ind 

under integraltegnet. 

Benyttes Sætning 2.8 får vi følgende vigtige relationer for ξ ∈ intΛ, 

τ(ξ) := Eξt(X) = ∂κ 

(ξ) 

∂ξ 

(2.17) 

V(ξ) := Varξ(t(X)) = ∂2κ ∂τ 

(ξ) = 

∂ξ∂ξ ∗ ∂ξ∗(ξ) (2.18) 

Desuden har vi fra Observation 2.4 at hvis t(·) opfylder (2.5) så er 

Var ξ(t(X)) positiv definit for ξ ∈ intΛ. (2.19) 

Observation 2.10 Antag at t(·) opfylder (2.5). Hvis ξ1, ξ2 ∈ intΛ og ξ1 = ξ2, så er 

τ(ξ1) = τ(ξ2).

2.4. LAPLACE- OG KUMULANTTRANSFORM 13 

Bevis. 

(ξ2 − ξ1) · {τ(ξ2) − τ(ξ1)} = (ξ2 − ξ1) · 

= 

1 

0 

1 

0 

dτ(ξ1 + s(ξ2 − ξ1)) 

ds 

ds 

(ξ2 − ξ1)V(ξ1 + s(ξ2 − ξ1))(ξ2 − ξ1) ∗ ds > 0 

ifølge (2.19). 

Eksempel 2.11 (Normalfordelingen). 

Lad X være normalfordelt med middelværdi µ og varians σ 2 med (µ, σ 2 ) ∈ R × R+. 

Så er tætheden med hensyn til lebesguemålet m givet ved 

dP (µ,σ2 ) 

(x) == 

dm 

1 

√ 2πσ 2 

µ2 

exp{− } exp 

2σ2 µ 

σ 

2σ 

1 

x − x2 

2 2 

for x ∈ R. Dette er en eksponentiel familie med t(x) = (x, x2 ) og ϕ(µ, σ2 ) = ( µ 

I dette tilfælde er 

Λ0 = R × R−, 

og da området har ikke tomt indre er (2.4) opfyldt. Støtten for T er 

{(x, x 2 )|x ∈ R}, 

 

, 

σ2 , − 1 

2σ2). eftersom enhver kugle omkring (z, z 2 ) vil indeholde et interval af x-værdier, og dermed 

have positiv sandsynlighed. Da støtten ikke er indeholdt i et affint underrum af 

R 2 , er (2.5) opfyldt, og vi har vist at repræsentationen er minimal. Vi vil nu undersøge 

om familien er fuld. Vi skal da undersøge hvornår integralet 

 

R 

exp ξ1x + ξ2x 2 dx 

er endeligt. Hvis ξ2 ≥ 0 vil integranten gå mod uendelig for x gående mod enten +∞ 

eller −∞ og integralet er ikke endeligt. Tilbage er området Λ0 og vi har derfor vist at 

Λ = Λ0, det vil sige at familien er fuld. Da Λ også er åben er familien regulær. 

Laplacetransformen for T under lebesguemålet er 

 

c(ξ) = exp{ξ1x + ξ2x 2 }dx 

R 

 

= exp 

= 

− 1 

4 ξ2 1 /ξ2 

 

R 

 

π/(−ξ2) exp{− 1 

4 ξ2 1 /ξ2}. 

 

exp ξ2 x − 1 

2 ξ1/(−ξ2) 

2 dx 

Kumulanttransformen er derfor κ(ξ) = − 1 4 ξ2 1 /ξ2 − 1 2 log(−ξ2/π). Fra (2.17) får vi 

EξX = −ξ1 

, EξX 2ξ2 

2 = ξ2 1 

4ξ2 − 

2 

1 

. 

2ξ2 

Med ξ = (ξ1, ξ2) = (µ/σ 2 , −1/(2σ 2 )) bliver formlerne 

E (µ,σ 2 ) X = − µ(−2σ2 ) 

2σ 2 = µ, E (µ,σ 2 ) X2 = µ2 (4σ 4 ) 

4σ 4 

−2σ2 

− 

2 = µ2 + σ 2 .


Det er sommetider muligt at vise at en familie er fuld ved hjælp af følgende resultat. 

Observation 2.12 Lad Λ0 være et åbent område i R k . Hvis der for ethvert punkt ξ1 på 

randen af Λ0 gælder, at der eksisterer ξ0 ∈ Λ0, så at 

c(ξ) → ∞, 

for ξ → ξ1 langs liniestykket fra ξ0 til ξ1, så vil Λ0 = Λ. 

Bevis. Vi vil vise at c(ξ1) = ∞ for alle punkter ξ1 på randen af Λ0. Så følger det fra 

sætning 2.6 at Λ ikke kan være større end Λ0 (hvis ˜ξ ∈ Λ \ Λ0 så vil der, da Λ er 

konvekst, findes ξ1 ∈ Λ med ξ1 på randen af Λ0, men dette er en modstrid med c(ξ1) = 

∞). Vi laver et modstridsbevis. Antag at c(ξ1) < ∞. Så fra (2.13) har vi med ξ = αξ1 + 

(1 − α)ξ0, 0 < α < 1, 

c(ξ) ≤ c(ξ1) α c(ξ0) 1−α ≤ max{c(ξ1), c(ξ0)}, 

hvilket er en modstrid med at c(ξ) → ∞. Altså er c(ξ1) = ∞. 

Observation 2.12 bruges på den måde at for ξ ∈ Λ0 har vi at ξ = ϕ(θ) for et θ ∈ Θ og 

dermed 

c(ξ) = a(θ) −1 . 

Hvis derfor a(θ) går mod nul for θ gående mod randen af Θ og Λ0 er åbent i R k vil 

familien være fuld. 

Det næste lemma viser at Observation 2.12 har en invers: hvis c(ξ) → ∞ for ξ 

gående mod randen af Λ0, så vil familien ikke være fuld. 

Lemma 2.13 Lad ξ /∈ Λ og lad ξn ∈ Λ med ξn → ξ for n → ∞. Så vil c(ξn) → ∞. 

Bevis. Da exp{ξn · t(x)} ≥ 0 siger Fatou’s lemma (JHJ 3.5) at 

 

∞ = c(ξ) = lim inf exp{ξn · t(x)}ν(dx) 

n 

 

≤ lim inf exp{ξn · t(x)}ν(dx) 

n 

= lim inf c(ξn), 

n 

hvilket viser resultatet. 

2.5 Estimation 

Jeg betragter i dette afsnit den fulde eksponentielle familie (2.11) med ξ ∈ Λ = {ξ| 

c(ξ) < ∞}, og antager at fremstillingen er minimal. For den observerede værdi t = 

t(x) er log likelihood funktionen 

l(ξ) = l(ξ; t) = ξ · t − κ(ξ), ξ ∈ Λ. (2.20)

2.5. ESTIMATION 15 

Sætning 2.14. Antag at den eksponentielle familie er regulær og på minimal form. 

Da eksisterer der ˆξ = ˆξ(t) ∈ Λ, så at log likelihood funktionen (2.20) antager sin 

maksimumsværdi i ˆξ, hvis og kun hvis t ∈ intCt. Da fra Sætning 2.6 l(ξ) er strengt 

konkav, vil for t ∈ intCt estimatet ˆξ være entydigt bestemt og være løsning til ligningen 

∂l(ξ) 

∂ξ 

= t − ∂κ(ξ) 

∂ξ 

= t − τ(ξ) = 0, (2.21) 

d.v.s. ˆξ = τ −1 (t). 

Bevis. Vi viser først, at t ∈ intCt medfører, at l(ξ) antager sit maksimum på Λ. Vi 

bruger et modstrids bevis. Antag at l(ξn) er voksende, hvor ξn ∈ Λ og ξn går mod 

randen af Λ. Hvis følgen ξn er begrænset, kan vi tage en delfølge {nk}, så at ξn → k 

˜ξ /∈ Λ. Det følger af Lemma 2.13, at c(ξn ) → ∞ da c( k ˜ ξ) = ∞, og dermed fra (2.20), 

at l(ξn ) → −∞, hvilket er en modstrid. Hvis i stedet følgen ξn er ubegrænset, kan vi 

k 

tage en delfølge på formen ξn = u k kek, hvor ek er en enhedsvektor i Rk med ek → e, og 

uk → ∞. Så giver Fatou’s lemma 

lim inf e 

k 

−l(ξn 

 

) 

k = lim inf e 

k 

ukek·(t(x)−t) ν(dx) 

 

≥ lim inf e 

k 

ukek·(t(x)−t) ν(dx) 

≥ ∞ · ν({x : e · (t(x) − t) > 0} = ∞, 

hvor det sidste lighedstegn følger af, at t ∈ intCt. Altså har vi igen at l(ξn k ) → −∞, og 

dermed en modstrid. 

Vi skal nu vise, at hvis t /∈ intCt, så antager l(ξ) ikke sit maksimum på Λ. Vi vil 

vise, at for ethvert ξ0 ∈ Λ findes der en retning e , så at når vi forlader ξ0 i e’s retning 

vokser l(ξ). Da t /∈ intCt findes der en enhedsvektor e, så at 

Derfor vil 

ν({x|e · (t(x) − t)) > 0} = 0. 

e −l(ξ0+λe) 

 

= 

e λe·(t(x)−t) e ξ0·(t(x)−t) ν(dx) (2.22) 

være aftagende i λ > 0. Den strenge konkavitet af l(ξ) giver, at (2.22) er strengt aftagende, 

og l(ξ) har derfor ikke maksimum i ξ0. 

Bemærkning 2.15 Bemærk at Sætning 2.14 viser, at i en regulær familie på minimal 

form, er 

τ(Λ) = intCt, (2.23) 

eftersom τ(ξ) = t medfører at l(·; t) har maksimum i ξ. Fra Observation 2.10 har vi 

altså, at τ(·) er en en-til-en afbildning af Λ på intCt. Da τ fra Sætning 2.8 er uendelig 

ofte differentiabel, gælder det samme for ˆξ(·) = τ −1 (·) : intCt → Λ. 

Den næste sætning angiver jeg uden bevis. 

Sætning 2.16. For en fuld eksponentiel familie med minimal repræsentation (2.11) 

gælder at


(i) t ∈ intCt ⇒ l(ξ; t) har entydigt bestemt maksimumspunkt ˆξ(t), 

(ii) t /∈ intCt ⇒ l(ξ; t) antager ikke sit supremum for ξ ∈ Λ , 

(iii) t ∈ τ(intΛ) ⊆ intCt ⇒ ˆξ(t) er den entydigt bestemte løsning til ligningen τ(ξ) = 

t, med ξ ∈ intΛ. 

Bemærk at hvis t ∈ intCt\τ(intΛ), så skal det entydigt bestemte ˆξ(t) findes på randen 

af Λ. Et eksempel til belysning af situationen i Sætning 2.16 er tætheden 

1 

exp(−|x| + θx − κ(θ)), 

1 + x4 hvor Ct er hele R og τ(int Λ) er et endeligt interval. 

Jeg slutter dette afsnit med at se på situationen med n uafhængige og identisk fordelte 

variable X1, . . . , Xn, hvor fordelingen tilhører den eksponentielle familie (2.11). 

Den simultane tæthed er 

dPn ξ 

dνn (x1, . . . , xn) = c(ξ) −n 

exp ξ · t(xi) , 

d.v.s. at vi har igen en eksponentiel familie af orden k idet : 

Observation 2.17 Hvis 1, t1(x), . . . , t k(x) er lineært uafhængige n.s.−ν, så er også 1, 

∑ n 1 t1(x i), . . . , ∑ n 1 t k(x i) lineært uafhængige n.s.−ν n . 

Bevis. 

⇓ 

⇓ 

n 

c0 + c1 ∑ 

1 

t1(x i) + · · · + c k 

n 

∑ 

1 

n 

∑ 

1 

t k(x i) = 0 n.s. − ν n 

∃ x2, . . . , xn så at der n.s-ν mht. x1 gælder: 

n 

n 

c0 + c1 t1(xi) + · · · + ck tk(xi) + c1t1(x1) + · · · + cktk(x1) = 0 

∑ 2 

∑ 2 

c k = · · · = c1 = c0 = 0. 

Log likelihood funktionen er 

ln(ξ) = ξ · 

n 

∑ 

1 

t(x i) − nκ(ξ) = nl(ξ; ¯t) 

med ¯t = ∑ t(x i)/n, og hvor l(ξ; t) er givet i (2.19). Estimation baseret på x1, . . . , xn er 

derfor som før med t erstattet af ¯t, og resultaterne fra Sætningerne 2.14 og 2.16 kan 

bruges.

2.6. MARGINALE OG BETINGEDE FORDELINGER 17 

Eksempel 2.18 (Normalfordelingen). 

I eksempel 2.11 så vi at normalfordelingerne med middelværdi µ og varians σ 2 med 

(µ, σ 2 ) ∈ R × R+ udgør en regulær eksponentiel familie. Den kanoniske observator er 

t(x) = (x, x 2 ) og støtten for T er 

Den konvekse støtte for T er derfor 

{(x, y) ∈ R 2 |y = x 2 }. 

Ct = {(x, y) ∈ R 2 |y ≥ x 2 }. 

Da ethvert punkt (x, x 2 ) er på randen af Ct vil maksimum likelihood estimaterne for 

(µ, σ 2 ) eller ξ = (µ/σ 2 , −1/(2σ 2 ) ikke eksistere når vi blot har én observation. Når vi 

istedet har n > 1 observationer x1, . . . , xn eksisterer maksimum likelihood estimaterne 

med sandsynlighed 1. Dette er fordi 

1 

n 

n 

∑ 

i=1 

(x i, x 2 i 

1 

) = 

n (x1, x 2 1 

1 ) + · · · + 

n (xn, x 2 n) ∈ int Ct 

hvis der blot er to observationer der er forskellige. Udsagnet følger af at x → x 2 er en 

strengt konveks kurve og derfor vil en konveks kombination af forskellige punkter på 

denne kurve ikke ligge på kurven. 

2.6 Marginale og betingede fordelinger 

Vi betragter igen en fuld eksponentiel familie med minimal repræsentation (2.11). Lad 

ξ = (ξ (1) , ξ (2) ) og t(x) = (t (1) (x), t (2) (x)) være en opsplitning i de første m og de sidste 

(k − m) koordinater med 1 ≤ m < k. Hvad kan vi sige om de marginale fordelinger 

for t (2) (X) og de betingede fordelinger af t (1) (X) givet t (2) (X)? 

Observation 2.19 Der gælder generelt følgende formel for marginale tætheder 

 

dQU 

dQ 

(u) = EP (X) | U = u . 

dPU 

dP 

Bevis. Se afsnit 11.4. 

Benyttes denne for den marginale tæthed for t (2) (X) fås 

dP ξT (2) 

dP ξ0T (2) 

(v) = E ξ0 

= c(ξ0) 

c(ξ) E ξ0 

dPξ 

dP ξ0 

 

exp 

(X) | t (2) 

(X) = v 

 

(ξ (1) − ξ (1) 

0 ) · t(1) (X) 

 

| t (2) 

(X) = v exp 

(ξ (2) − ξ (2) 

0 

 

(2.24) 

 

) · v . 

Hvis vi ser på delklassen P0 = {P ξ|ξ ∈ Λ0} med Λ0 = {(ξ (1) , ξ (2) )|ξ (1) = ξ (1) 

0 }, er 

(2.24) på formen (2.1), og de marginale fordelinger af t (2) (X) udgør en ekponentiel 

familie P 0T (2).


Hvis P er fuld, er P 0T (2) også fuld, idet 

 

exp[α · v]P ξ0T (2)(dv) = Eξ0 exp[α · t(2) (X)] = Eξ0 exp[0 · t(1) (X) + α · t (2) (X)] 

som er endelig, hvis og kun hvis (0, α) = ξ − ξ0 for et eller andet ξ ∈ Λ, d.v.s. α = ξ (2) − 

ξ0 (2) for ξ ∈ Λ, og vi får netop klassen P 0T (2). Hvis Λ er åben, er {α|ξ0 + (0, α) ∈ Λ} en 

åben mængde i R k−m , d.v.s. hvis P er regulær, er P 0T (2) også regulær. 

Vi vender os nu mod de betingede fordelinger. 

Observation 2.20 Lad P og Q være to sandsynlighedsmål på (X , A) med Q ≪ P. Lad 

(Y, B) være et andet målrum og lad t : X → Y være en målelig afbildning. Definer 

f(x) = dQ 

 

(x), g(t) = 

dP 

Så gælder der at Q T (·|t) ≪ P T (·|t) og 

dQ(·|t) 

(x) = 

dP(·|t) 

f(x)P T (dx|t), D = {t|0 < g(t) < ∞}. 

⎧ 

⎨ 

f(x) 

g(t) 

t ∈ D 

⎩ 

1 t /∈ D. 

Bemærk at PT({t|g(t) = ∞}) = 0 og dermed også QT({t|g(t) = ∞}) = 0. Desuden 

har vi fra Observation 2.19 også at QT({t|g(t) = 0}) = 0. Vi har altså at QT(D c ) = 0. 

Bevis. Se afsnit 11.4. 

Eksempel 2.21. 

Lad Q være fordelingen for (X1, . . . , Xn), hvor X-erne er uafhængige og 

Q(X i = 1) = 1 − Q(X i = 0) = θ, 

og lad P være den tilsvarende fordeling med θ = 1/2. Med U + X1 + · · · + Xn er 

og 

Fra Observation 2.20 får vi 

dQ(·|U = u) 

(x) = 

dP(·|U = u) 

dP 

d♯n(x) = 

 

1 

n , 

2 

dQ 

d♯ n(x) = θu (1 − θ) n−u , 

dQ 

dP (x) = 2n θ u (1 − θ) n−u . 

2 n θ u (1 − θ) n−u 

EP(2 n θ u (1 − θ) n−u |U = u) = 

2 n θ u (1 − θ) n−u 

2 n θ u (1 − θ) n−u EP(1|U = u) 

hvilket viser at den betingede fordeling af (X1, . . . , Xn) givet U = u er den samme 

uanset værdien af θ. 

= 1,

2.7. KOMPLETHED AF DEN MINIMALKANONISKE OBSERVATOR 19 

For den betingede fordeling af X givet t (2) (X) = u får vi 

dP ξ(·|t (2) (X) = u) 

dP ξ0 (·|t(2) (X) = u) = 

= 

e (ξ−ξ0)·t(x) 

E ξ0 (e(ξ−ξ0)·t(X) |t (2) (X) = u) 

e (ξ(1) −ξ (1) 

0 )·t(1) (x) 

E ξ0 (e(ξ(1) −ξ (1) 

0 )·t(1) (x) |t (2) (X) = u) 

For en fast værdi af u udgør de betingede fordelinger således en eksponentiel familie. 

Denne betingede familie er ikke nødvendigvis fuld, selvom P er fuld. 

Ovenfor betragtede vi de første m og sidste k − m koordinater i ξ og t(x). Generelt 

kan vi lade A2 være en k × (k − m) matrix af fuld rang k − m. Denne supplerer vi med 

A1 : k × m så at 

A = (A1, A2) 

er en invertibel k × k matriks. Da 

ξ · t(x) = ξt(x) ∗ = [ξA ∗−1 ][t(x)A] ∗ , 

kan vi opskrive P som en eksponentiel familie med minimal kanonisk observator 

˜t(x) = t(x)A og minimal kanonisk parameter ˜ξ = ξA ∗−1 . Vi har derfor: 

Sætning 2.22. Lad P være en regulær familie og lad A være som ovenfor. Så udgør 

de marginale fordelinger for ˜t (2) (X) = t(X)A2 i delmodellen med ˜ξ (2) fast en regulær 

eksponentiel familie. 

Bemærkning 2.23 Hvis vi betragter en delmodel givet ved {P ξ|ξ ∈ ˜Λ}, hvor ˜Λ ⊂ Λ 

er åben, vil det kanoniske parameterområde for de marginale fordelinger af t(X)A2 

under ˜ξ (2) fast også være åben. Når det kanoniske parameterområde er åbent taler vi 

om en åben eksponentiel familie. 

2.7 Komplethed af den minimalkanoniske observator 

For en general klasse P af sandsynlighedsmål på målrummet (X , A), og en generel 

observator t : (X , A) → (Y, B) med værdier i målrummet (Y, B), skal jeg nu definere 

komplethed. Intuitivt skal vi formalisere, at klassen P er stor nok til, at en funktion er 

entydigt fastlagt ud fra dens middelværdier under P, P ∈ P. 

Observatoren T = t(X) siges at være komplet under P (henholdsvis begrænset komplet) 

hvis der for enhver funktion f : (Y, B) → (R, B(R)) (henholdsvis enhver begrænset 

funktion) med 

 

EP f(T) = f(t(x))P(dx) = 0 ∀ P ∈ P, 

gælder at 

f(t(x)) = 0 n.s. − P for alle P ∈ P. 

Observation 2.24 Hvis T er komplet så er T også begrænset komplet. 

Observation 2.25 Hvis T er komplet så er også ˜T = g(T) komplet, hvor g er en målelig 

afbildning fra Y til ˜Y.


Bevis. Antag at EP f( ˜T) = EP f(g(T)) = 0 for alle P ∈ P. Heraf følger at f(g(t(x))) = 

f(˜t(x)) = 0 n.s.-P for alle P ∈ P. 

Sætning 2.26. Lad P = {P ξ|ξ ∈ Λ0} være en eksponentiel familie på minimal form 

dPξ 

dµ (x) = a(ξ)b(x)eξ·t(x) , x ∈ X , ξ ∈ Λ0 ⊆ R k . 

Vi antager ikke her, at Λ0 er det fulde parameter område. Hvis intΛ0 = ∅, er T = t(X) 

komplet under P = {P ξ|ξ ∈ Λ0}. 

Bevis. Lad ξ0 ∈ Λ0 og lad f : Rk → R opfylde 

 

0 = a(ξ)b(x)e ξ·t(x) f(t(x))µ(dx) = a(ξ) 

 

a(ξ0) 

e (ξ−ξ0)·t(x) f(t(x))Pξ0 (dx), (2.25) 

for alle ξ ∈ Λ0. Lad f + (t) = f(t)1( f(t) > 0) og f − (t) = − f(t)1( f(t) < 0), og definer 

de to mål ν + og ν − på (R k , B(R k )) ved 

dν + 

dP ξ0T 

(t) = f + (t) og dν− 

(t) = f 

dPξ0T − (t). 

Disse to mål er endelige, idet f er Pξ-integrabel for alle ξ ∈ Λ0. Så viser (2.25), at 

 

e (ξ−ξ0)·t 

 

+ 

ν (dt) = e (ξ−ξ0)·t − 

ν (dt) ∀ ξ ∈ Λ0. 

Denne ligning siger, at Laplacetransformerne for de to mål ν + og ν − stemmer overens 

på Λ0 − ξ0. Da int(Λ0 − ξ0) = ∅ følger det af JHJ, afsnit 4.19, at ν + = ν − . Dette giver 

til gengæld, at 

f + (t) = f − (t) n.s. − P ξ0T, 

og dermed fra definitionen af f + og f − , at 

Observationen 2.2 giver så, at 

f(t) = 0 n.s. − P ξ0T. 

f(t(x)) = 0 n.s. − P ξ for alle ξ ∈ Λ0. 

Eksempel 2.27. 

Lad X være binomialfordelt med antalsparameter n og sandsynlighedsparameter θ. Så 

siger sætningen ovenfor at hvis 

E θ f(X) = 0 ∀ 0 < θ < 1, 

så vil der gælde at f(0) = f(1) = · = f(n) = 0. Lad os vise dette direkte. Vi har altså 

at 

 

θ x (1 − θ) n−x = 0 

n 

n 

∑ f(x) 

x 

x=0 

for alle θ. Lader vi nu θ → 0 forsvinder alle led i summen pånær det første, som bliver 

f(0). Vi kan altså slutte at f(0) = 0. Vi dividerer nu ligningen ovenfor med θ og lader 

igen θ → 0. Dette giver os at f(1) = 0, og sådan fortsætter vi indtil vi har vist at f er 

identisk nul.

2.8. OPGAVER 21 

2.8 Opgaver 

Opgave 2.1 

Opskriv hver af familierne nedenfor på eksponentiel familieform. Angiv støtten for 

den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet Λ0 for 

den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden middelværdi 

og varians for den kanoniske observator. 

a) Binomialfordelingerne med antalsparameter n fast og sandsynlighedsparameter 

0 < θ < 1. 

b) Poissonfordelingerne med parameter λ > 0. Find i dette tilfælde også skævhed 

og kurtosis af en poissonfordelt variabel. 

c) Normalfordelingerne med middelværdi µ og varians σ 2 med (µ, σ 2 ) ∈ R × R+. 

d) Gammafordelingerne med formparameter λ og invers skalaparameter β med 

(λ, β) ∈ R 2 + . 

Opgave 2.2 

Find det fulde parameterområde Λ for den eksponentielle familie med tætheder 

i tilfældene 

Her er m Lebesguemålet på R. 

dP ξ 

dm (x) = a(ξ)b(x)eξx , x ∈ R, 

(i) b(x) = e −|x| og (ii) b(x) = e−|x| 

. 

1 + x2 Opgave 2.3 

Betragt en eksponentiel familie på formen (2.1) med t(x) ∈ R k . Vis, at hvis støtten for 

T er begrænset, og familien er ikke tom, så er det fulde parameterområde Λ lig med 

R k . 

Opgave 2.4 

Denne opgave er en hjælp til jer, når I skal vise affin uafhængighed næsten sikkert. 

Lad (X , A, µ) være et metrisk målrum, hvor målet µ giver strengt positivt mål til 

enhver åben kugle. Lad desuden t1, . . . , t k være kontinuerte funktioner fra X ind i R. 

Vis, at hvis t1(·), . . . , t k(·) er affint uafhængige som funktioner på X , så er de også 

affint uafhængige næsten sikkert med hensyn til µ. 

Vink: Lad (α0, . . . , α k) = 0. Så findes x0 ∈ X , så at α0 + α1t1(x0) + · · · + α kt k(x0) = 0. 

Overvej, at 

{x ∈ X |α0 + α1t1(x) + · · · + α kt k(x) = 0} 

er en åben og ikke-tom mængde, og dermed har positivt µ-mål.


Opgave 2.5 

Denne opgave viser, at den minimal kanoniske observator kan være komplet, selv om 

det indre af det kanoniske paramterområde er tomt. 

Lad X og Y være uafhængige og Poissonfordelte med EX = θ −1 og EY = exp(−θ), 

hvor parameteren θ varierer i R+. Vis, at dette er en eksponentiel familie af orden 2 

med kanonisk observator t(x, y) = (x, y) og kanonisk parameter (− ln θ, −θ). Vis, ved 

direkte undersøgelser, at (X, Y) er komplet. 

Vink: Hvis E θ f(X, Y) = 0 for alle θ, vis da først at f(0, 0) = 0 ved at lade θ → ∞, 

dernæst f(k, 0) = 0 for alle k > 0, og endelig at f(k, l) = 0 for alle k > 0 og l > 0. 

Opgave 2.6 

Betragt en eksponentiel familie på minimal form 

dP θ 

dµ (x) = a(θ)b(x)eϕ(θ)·t(x) , 

hvor ϕ : Θ → R k og Θ er et åbent område i R k . Vis at 

og 

E θt(X) = τ(ϕ(θ)) = 

V θt(X) = 

∂(− ln a(θ)) 

∂θ 

∂ϕ ∗ 

 

∂ϕ 

∂θ∗ −1 ∂Eθt(X) 

∂θ∗ . 

Opgave 2.7 

Lad (X1, Y1), (X2, Y2), . . . , (Xn, Yn) være n uafhængige observationer fra den todimensionale 

normalfordeling med middelværdivektor (0, 0) og variansmatrix 

 

1 ρ 

ρ 1 

∂θ 

−1 

hvor korrelationskoefficienten ρ har intervallet (−1, 1) som variationsområde. 

1) Vis at den således fastlagte familie af fordelinger for samplet (X1, Y1), . . . , (Xn, Yn) 

er eksponentiel, bestem ordenen af denne eksponentielle familie, og angiv en 

minimal kanonisk observator og en minimal kanonisk parameter. Er familien 

fuld? 

2) Opstil likelihoodligningen for ρ. 

Opgave 2.8 

Antag, at X−1 og X1 er uafhængige og Poissonfordelte med middelværdi 

λ i = 1 2 eα+iβ , i = −1 og 1. 

Lad P = {P (α,β) : (α, β) ∈ R 2 } betegne klassen af fordelinger for X = (X−1, X1).

2.8. OPGAVER 23 

1) Vis, at P er en regulær eksponentiel familie af orden 2. 

2) Angiv definitionsområdet D for maximum likelihood estimatoren (ˆα, ˆ β) og vis, 

at hvis x ∈ D, så er 

 

ˆα(x) = ln 2 

X−1X1 

og 

ˆβ(x) = ln 

 

X1 

X−1 

3) Vis, at informationsfunktionen svarende til observationen (x−1, x1) er 

4) Lad 

j(α, β) = 

 

e α cosh(β) e α sinh(β) 

e α sinh(β) e α cosh(β) 

. 

 

. 

τ = e α cosh(β) (= E (α,β)(X−1 + X1)). 

Vis, at P kan parametriseres ved (τ, β) samt at variationsområdet for (τ, β) er 

(0, ∞) × (−∞, ∞). 

Opgave 2.9(Den logaritmiske fordeling) 

Definer sandsynlighedsmålet P θ, 0 < θ < 1, på X = {1, 2, . . .} ved 

dPθ θx 

(x) = (− log(1 − θ))−1 

d♯ x , 

hvor ♯ er tællemålet. Opskriv familien på eksponentiel familieform. Angiv støtten for 

den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet Λ0 for 

den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden middelværdi 

og varians for den kanoniske observator. 

Opgave 2.10(Den negative binomialfordeling) 

Definer sandsynlighedsmålet Pθ, 0 < θ < 1, på X = {0, 1, 2, . . .} ved 

 

dPθ κ + x − 1 

(x) = 

θ 

d♯ x 

x (1 − θ) κ , 

hvor ♯ er tællemålet og κ > 0 er en fast parameter. Opskriv familien på eksponentiel familieform. 

Angiv støtten for den kanoniske observator T, den konvekse støtte Ct, samt 

variationsområdet Λ0 for den kanoniske parameter og det fulde parameterområde Λ. 

Udregn desuden middelværdi og varians for den kanoniske observator. 

Opgave 2.11(Den inverse gauss fordeling) 

Definer sandsynlighedsmålet P (χ,ψ), (χ, ψ) ∈ R 2 + , på X = R+ ved 

dP (χ, ψ) 

(x) = 

dm 

√ χ exp( √ χψ) 

√ 2πx 3 

 

exp − χ 

2x 

 

ψx 

− , 

2


hvor m er lebesguemålet. Opskriv familien på eksponentiel familieform. Angiv støtten 

for den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet 

Λ0 for den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden 

middelværdi og varians for den kanoniske observator.

Noter til eksponentielle familier. Første udgave. - Aarhus Universitet

Create successful ePaper yourself

Delete template?

Save as template?