23.07.2013 Views

5 Beskrivende mål - Gyldendal

5 Beskrivende mål - Gyldendal

5 Beskrivende mål - Gyldendal

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

5 <strong>Beskrivende</strong> <strong>mål</strong><br />

Indkomstfordelingen i Danmark tæller godt 5 millioner indkomster. Med en<br />

bogstavhøjde på 3 millimeter og en linjeafstand på 2 millimeter, hvilket svarer<br />

til en normal typografisk opsætning, vil en liste med de godt 5 millioner indkomster<br />

være omkring 25 km lang. Selvom man læser meget hurtigt og har<br />

fotografisk hukommelse, får man næppe et godt overblik over fordelingen af<br />

indkomster i Danmark ved at kigge på en sådan liste. For at få en begribelig<br />

ide om indkomstfordelingen i Danmark kan man i stedet definere nogle beskrivende<br />

<strong>mål</strong>, som hver især afslører interessante aspekter af indkomstfordelingen.<br />

Sådan et beskrivende <strong>mål</strong> kunne fx være middelindkomsten. Det kan<br />

også være den indkomst, der skiller de fattigste 10 % af befolkningen fra den<br />

øvrige befolkning. Da ét beskrivende <strong>mål</strong> selvfølgelig ikke alene kan beskrive<br />

en hel fordeling – middelindkomsten er ét tal imod de 5 millioner tal, som<br />

indkomstfordelingen består af – skal man imidlertid være påpasselig med at<br />

overfortolke beskrivende <strong>mål</strong>.<br />

I kapitel 2 introducerede vi forskellige beskrivende <strong>mål</strong>, blandt andet middelværdi<br />

og varians, som kunne bruges til at få et overblik over en virkelig<br />

population. I dette kapitel udvider vi brugen af disse beskrivende <strong>mål</strong> til stokastiske<br />

variabler. Dermed bliver vi i stand til at beskrive langt flere situationer,<br />

hvor der også er usikkerhed involveret, fx udtrækninger fra superpopulationer.<br />

<strong>Beskrivende</strong> <strong>mål</strong> for stokastiske variabler kan inddeles i to klasser. Den ene<br />

klasse bygger på gennemsnits betragtninger. Middelindkomsten er et eksempel,<br />

men man kan også udlede beskrivende <strong>mål</strong> for spredningen af en fordeling,<br />

som bygger på en gennemsnitsbetragtning. Overordnet set kaldes denne<br />

klasse af beskrivende <strong>mål</strong> for momenter. Den anden klasse af beskrivende <strong>mål</strong><br />

bygger på opdelinger af en fordeling. Et eksempel på et sådant <strong>mål</strong> er den indkomst,<br />

der skiller de fattigste 10 % af befolkningen fra den øvrige befolkning.<br />

Overordnet set kaldes denne klasse af beskrivende <strong>mål</strong> for fraktiler.<br />

Momenter behandles i afsnit 5.2 og fraktiler i afsnit 5.3. I afsnit 5.4 diskuterer<br />

vi, hvordan man kan bruge (og misbruge) beskrivende <strong>mål</strong>. Vi ser på beskrivende<br />

<strong>mål</strong> for sammenhænge mellem stokastiske variabler i afsnit 5.5,<br />

mens vi i afsnit 5.6 viser, hvordan Excel kan anvendes til udregning af be­<br />

<strong>Beskrivende</strong> <strong>mål</strong> 101


102 <strong>Beskrivende</strong> <strong>mål</strong><br />

skrivende <strong>mål</strong>. Igennem hele kapitlet er de beskrivende <strong>mål</strong> defineret som beskrivende<br />

<strong>mål</strong> for en fordeling af en stokastisk variabel i stedet for som beskrivende<br />

<strong>mål</strong> for en virkelig population, som tilfældet var i kapitel 2. I afsnit 5.1<br />

vil vi forklare, hvorfor vi vælger denne mere generelle tilgang i dette kapitel,<br />

herunder hvordan sammenhængen er mellem beskrivende <strong>mål</strong> for en fordeling<br />

af en stokastisk variabel og for en virkelig population.<br />

5.1 <strong>Beskrivende</strong> <strong>mål</strong> og stokastiske variabler<br />

I kapitel 2 introducerede vi en række beskrivende <strong>mål</strong> for en virkelig population.<br />

Disse <strong>mål</strong> inkluderede middelværdien, variansen og medianen og beskrev<br />

aspekter ved en eksisterende virkelig population. Det er ideen bag sådanne<br />

beskrivende <strong>mål</strong>, vi nu vil overføre til stokastiske variabler, som kan<br />

håndtere mere generelle situationer, hvor der er usikkerhed involveret, og hvor<br />

populationen kan være en superpopulation.<br />

I kapitel 2 definerede vi andelsfunktionen, g(z), for en virkelig population.<br />

Den fortæller os, hvordan elementerne i populationen fordeler sig, dvs. hvor<br />

stor en del af elementerne i populationen, der fx har indkomsten z 1, z2, z3, osv.<br />

Middelværdien for en vir kelig population kan derfor betragtes som en summarisk<br />

beskrivelse af andelsfunktionen.<br />

Vi indførte stokastiske variabler i kapitel 4 for at kunne bearbejde komplicerede<br />

situationer med usikkerhed. Sandsynlighederne for de forskellige værdier<br />

af en stokastisk variabel er udtrykt i dens fordeling. Et beskrivende <strong>mål</strong> for<br />

en fordeling af en stokastisk variabel er derfor en summarisk beskrivelse af<br />

sandsynlighedsfunktionen (eller tæthedsfunktionen, hvis den stokastiske variabel<br />

er kon tinuert).<br />

Forbindelsen mellem en virkelig population og fordelingen af en stoka stisk<br />

variabel forklarede vi i kapitel 4. Når værdien af den stokastiske variabel er<br />

givet ved værdien af det element, der udtrækkes fra en virkelig population, og<br />

når alle elementer i populationen har samme chance for udvælgelse, så er<br />

sandsynlighedsfunktionen, f, lig med andelsfunktionen, g. Når dette er tilfældet,<br />

kan vi tænke på fordelingen af den stokastiske variabel som en fordeling<br />

af populationen. Faktisk vil vi i sådanne tilfælde ofte omtale sandsynlighedsfordelingen<br />

for den stokastiske variabel som populationsfordelingen, og de beskrivende<br />

<strong>mål</strong> for populationsfordelingen vil blive kaldt for populationsstørrelser.<br />

Fordelen ved at definere de beskrivende <strong>mål</strong> ud fra fordelingen af den stokastiske<br />

variabel er, at vi så også kan bruge dem i de situationer, hvor den<br />

stokastiske variabel ikke svarer til en udtrækning fra en virkelig population.<br />

Dette gælder fx i forbindelse med udtrækninger fra superpopulationer, eller


når der er tale om udtrækninger fra virkelige populationer, hvor alle elementer<br />

ikke har samme chance for udvælgelse. Lad os illustrere denne tankegang<br />

med et par eksempler:<br />

Eksempel 5.1: I forbindelse med indkomstfordelingen fra starten af kapitlet kan vi definere<br />

En virkelig<br />

population<br />

følgende eksperiment: „Udvælg en person og lad den stokastiske variabel, X,<br />

angive vedkommendes indkomst.“ Hvis alle personer har samme chance for<br />

udvælgelse, så vil sandsynlighedsfunktionen for X være lig med andelsfunktionen<br />

for populationen. Dermed har X samme „fordeling“ som populationen.<br />

Hvis en andel på 0,1 af befolkningen tjener mere end 300.000 kr., så<br />

er der tilsvarende sandsynligheden 0,1 for, at X antager en værdi større end<br />

300.000. Om vi beskriver fordelingen af populationen eller fordelingen af X,<br />

gør derfor ingen forskel i dette tilfælde.<br />

Eksempel 5.2: I eksemplet fra kapitel 3 med en 30­årig obligation er kursen i morgen kl.<br />

En superpopulation<br />

12.00 en stokastisk variabel, Y, som har en given sandsynlighedsfordeling.<br />

Der er fx sandsynligheden 0,3 for, at kursen vil ligge under 100. Sandsynlighedsfordelingen<br />

for denne variabel kan imidlertid ikke umiddelbart<br />

for tolkes som andele i superpopulationen af kurser. Men vi kan stadig beskrive<br />

sandsynlighedsfordelingen for Y ved hjælp af en række beskrivende<br />

<strong>mål</strong>.<br />

I mange af eksemplerne i dette kapitel vil der være den i eksempel 5.1 nævnte<br />

sammenhæng mellem fordelingen af den stokastiske variabel og en virkelig<br />

population. Det er dog vigtigt at huske på, at de beskrivende <strong>mål</strong> også finder<br />

anvendelse i en lang række andre situationer, hvor fordelingen af den stokastiske<br />

variabel ikke svarer til fordelingen af en underliggende virkelig population,<br />

som tilfældet fx er i eksempel 5.2.<br />

5.2 Momenter<br />

Det mest kendte moment for en stokastisk variabel, X, er middelværdien, også<br />

kaldet den forventede værdi. Middelværdien betegnes typisk med bogstavet µ<br />

eller E(X), hvor E’et står for „expectation“ (forventning). Et andet ofte brugt<br />

moment er variansen, som beskriver, hvor meget de mulige værdier af X gennemsnitligt<br />

er spredt i forhold til middelværdien. Variansen betegnes typisk<br />

med s 2 eller V(X).<br />

Fortolkningen af et moment er den samme, uanset om den stokastiske variabel<br />

er diskret eller kontinuert. Beregningsteknisk er der dog en forskel, så vi<br />

5.2 Momenter 103


5.2.1 Forventet værdi af en diskret stokastisk variabel<br />

Ideen med en forventet værdi af en stokastisk variabel,


Figur 5.1 4.1<br />

Middelværdi<br />

som balan balancecepunkt realiserer X mange gange, dvs. gentager eksperimentet, så vil gennemsnittet<br />

af de realiserede værdier af X nærme sig 3,5. Bemærk, hvordan dette harmonerer<br />

med fortolkningen af sandsynlighed fra kapitel 2 som andelen af gange<br />

kapitel 3, som andelen af gange en hÊ ndelse indtrÊ ffer, nÂr man gentager<br />

en hændelse indtræffer, når man gentager et eksperiment i det uendelige.<br />

et eksperiment i det uendelige.<br />

Fysisk kan man fortolke middelværdien som et balancepunkt. Hvis man forestiller<br />

Fysisk Fysisk<br />

sig, kan kan<br />

at man en<br />

man<br />

sandsynlighed fortolke fortolke middelværdien middelværdien<br />

er et vægtlod, som og<br />

som<br />

sandsynlighedsfordelin et et balancepunkt. balancepunkt. Hvis Hvis<br />

gen man er<br />

alle forestiller vægtlodderne placeret på en vippe, så er middelværdien det sted, man skal<br />

man forestiller<br />

sig, at en sandsynlighed<br />

sig, at en sandsynlighed<br />

er et vægtlod, og<br />

er<br />

sandsynlighedsfordelin-<br />

et vægtlod, og<br />

understøtte gen er alle vægtlodderne vippen for at placeret få den i på balance. en vippe, Figur så 5.1 er middelværdien illustrerer dette det for sted, ek­<br />

sandsynlighedsfordelingen er alle vægtlodderne placeret på en vippe,<br />

sempel man skal 5.3. understøtte vippen for at få den i balance. Figur 4.1 illustrerer dette<br />

så er middelværdien det sted, man skal understøtte vippen for at få den<br />

for eksempel 4.3.<br />

i balance. Figur 5.1 illustrerer dette for eksempel 5.3.<br />

[Indsæt 0 figur 1 5.1: Middelværdi 2 3 som balancepunkt]<br />

4 5 6 7<br />

Hvis en fordeling er symmetrisk omkring et punkt, symmetripunktet,<br />

Hvis en fordeling er symmetrisk omkring et punkt, symmetripunktet, så er<br />

så er middelværdien lig med dette symmetripunkt. I eksempel 5.3 er<br />

middelværdien lig med dette symmetripunkt. I eksempel 4.3 er sandsynlig-<br />

sandsynlighedsfordelingen symmetrisk omkring punktet 3,5, som det<br />

Hvis hedsfordelingen en fordeling symmetrisk er symmetrisk omkring omkring punktet et punkt, 3,5, som symmetripunktet, det ses i figur så 4.1, er<br />

ses i figur 5.1: Den ene side af fordelingen er en spejling af den anden,<br />

middelværdien hvor den ene side lig af med fordelingen dette symmetripunkt. er en spejling af I eksempel den anden, 5.3 hvis er man sandsynlig­ spejler<br />

hedsfordelingen i<br />

hvis<br />

punktet<br />

man<br />

3,5.<br />

spejler<br />

symmetrisk<br />

i punktet 3,5.<br />

omkring punktet 3,5, som det ses i figur 5.1: Den<br />

ene Eksempel Eksempel side af fordelingen 4.3 5.3 er er et et eksempel er eksempel en spejling på på en af stokastisk en den stokastisk anden, variabel, hvis variabel, man der spejler antager der antager i punktet de sam-<br />

3,5. me de værdier samme værdier som elementerne som elementerne i den virkelige i den virkelige population, population, den trækkes den fra,<br />

nemlig trækkes Eksempel 1, fra, 2, 3, 5.3 nemlig 4, er 5 og et eksempel 1, 6. 2, Da 3, alle 4, på 5 elementer og en 6. stokastisk Da i alle populationen variabel, elementer der har i populationen<br />

antager samme de chance samme<br />

for har udvælgelse, værdier samme som chance er elementerne sandsynlighedsfunktionen, for udvælgelse, i den er virkelige sandsynlighedsfunktionen, f, population, lig med andelsfunktionen, den trækkes


106 <strong>Beskrivende</strong> <strong>mål</strong><br />

Eksempel 5.4: En skoleklasse ñ del 1<br />

Antag, at alle elever i en klasse med 10 elever har samme chance for<br />

udvÊ lgelse, og lad den stokastiske variabel,


hvor


Eksempel 5.7: I eksempel 5.4 ønsker vi nu i stedet at <strong>mål</strong>e elevernes højde i meter. Dvs. vi<br />

En skoleklasse<br />

– del 2<br />

108 <strong>Beskrivende</strong> <strong>mål</strong><br />

de finerer en ny stokastisk variabel Z = 0,01 · Y, hvor Y er variablen fra eksempel<br />

5.4. Hvis Y angiver højden for den udtrukne person i cm, vil Z derfor give<br />

os højden i meter. Middelværdien af Z er da: E(Z) = 0,01 · E(Y) = 0,01 · 137,5<br />

= 1,375 meter.<br />

Eksempel 5.8: I eksempel 5.5 er Y en funktion af X, som opfylder den tredje regneregel i<br />

Et terningspil<br />

– del 4<br />

boksen ovenfor. Når vi kender middelværdien af X, kan vi derfor springe den<br />

lidt om stændelige udregning i eksempel 5.6 over og i stedet udregne middelværdien<br />

af Y som: E(Y) = E(–5 + 2 · X) = –5 + 2 · E(X) = –5 + 2 · 3,5 = 2.<br />

Det er værd at understrege, at den forventede værdi af en funktion af X,<br />

E(h(X)), generelt ikke er lig med funktionen af den forventede værdi, h(E(X)).<br />

Det næste eksempel illustrerer dette.<br />

Eksempel 5.9: Den stokastiske variabel, X, kan antage værdierne 3 og 5 med sandsynlig hed<br />

En ikke­lineær<br />

funktion<br />

0,5 for hver af dem. Dermed er E(X) = 3 · 0,5 + 5 · 0,5 = 4. Lad Y = X 2 . Da<br />

X = 3 med sandsynlighed 0,5, så er Y = 9 med sandsynlighed 0,5. Tilsvaren de<br />

er X = 5 med sandsynlighed 0,5, og dermed er Y = 25 med sandsynlig hed 0,5.<br />

Den forventede værdi af Y er derfor E(Y) = 9 · 0,5 + 25 · 0,5 = 17. Så E(Y) =<br />

E(X 2 ) = 17, mens (E(X)) 2 = 4 2 = 16.<br />

5.2.2 Forventet værdi af en kontinuert stokastisk variabel<br />

For at beregne den forventede værdi af en kontinuert stokastisk variabel skal<br />

man bruge integralregning. Tænk på eksemplerne 4.12 og 4.13 fra sidste kapitel,<br />

hvor en virksomhed skulle forudsige næste års vareproduktion. Her var<br />

sandsynlighederne for de enkelte udfald nul, fordi der var uendeligt mange<br />

udfald. Til gengæld var der en positiv sandsynlighed for en produktion mellem<br />

10 og 11 tons. Som i tilfældet med en diskret stokastisk variabel skal vi<br />

have foretaget en sammenvejning af sandsynligheder og værdier af udfald. Da<br />

sandsynligheden for et bestemt udfald er 0 for en kontinuert stokastisk variabel,<br />

viser det sig, at vi i stedet for kan bruge tæthedsfunktionen. Sammenvejningen<br />

sker ved at integrere tæthedsfunktionen ganget med værdier ne<br />

af udfaldene. Formelt er beregningsformlen som følger:


Den forventede værdi (middelværdien),


Middelværdien er da E(X) = 50. Antag, at vi har en anden stokastisk variabel, Y,<br />

som antager værdierne 0 og 100, også her med lige stor sandsynlighed. Middelværdien<br />

er igen E(Y) = 50, men de to variabler har tydeligvis forskel lige fordelinger.<br />

Fordelingen for Y er spredt mere ud end fordelingen for X.<br />

For at få et beskrivende <strong>mål</strong> for denne spredning kan man undersøge den<br />

forventede kvadrerede spredning omkring middelværdien. Dette <strong>mål</strong> kaldes<br />

variansen og betegnes med V(X) eller s 2 .<br />

Variansen, V(X), af en stokastisk variabel, X, er defineret som:<br />

V(X) = E([X – E(X)] 2 ) = s 2<br />

Variansen kan også udregnes som:<br />

V(X) = E(X2 ) – (E(X)) 2 = E(X2 ) – µ 2<br />

hvor µ = E(X).<br />

Denne definition gælder, uanset om den stokastiske variabel er diskret eller<br />

kontinuert. Det er beregningen af de forventede værdier, E(X 2 ) og E(X), som<br />

adskiller diskrete og kontinuerte stokastiske variabler. For en diskret stokastisk<br />

variabel kan variansen udregnes som følger:<br />

Variansen af en diskret stokastisk variabel, X, med sandsynlighedsfunktion, f(x), udregnes<br />

som:


vægter med sandsynligheden for de pågældende værdier.<br />

Lad os udregne variansen i nogle af eksemplerne fra tidligere:<br />

Eksempel 5.11: Et terningspil ñ del 5<br />

Eksempel 5.11: I terningspillet I terningspillet fra fra eksempel 5.3 5.3 bliver variansen:


112 <strong>Beskrivende</strong> <strong>mål</strong><br />

Ligesom for middelværdier har vi også nogle regneregler for varianser og<br />

standardafvigelser: 1<br />

Regneregler for varians og standardafvigelse:<br />

i) V(a) = 0 ⇒ s (a) = 0<br />

ii) V(b · X) = b 2 · V(X) = b 2 · s 2 ⇒ s (b · X) = |b| · s (X)<br />

iii) V(a + b · X) = V(b · X) = b 2 · s 2 ⇒ s (a + b · X) = |b| · s (X)<br />

hvor X er en diskret stokastisk variabel, a og b er konstanter, og s<br />

Variansen er således upåvirket af, at der lægges en konstant,


samme måde som for en diskret stokastisk variabel. Den eneste<br />

forskel er måden, den udregnes på. Da middelværdien af en kontinuert<br />

stokastisk variabel involverer integralregning, så gør udregningen af<br />

variansen det også.<br />

Variansen af en kontinuert stokastisk variabel,


højt. Derfor er dette beskrivende <strong>mål</strong> ofte brugt, hvis man vil beskrive sandsynligheden<br />

for ekstreme værdier i forhold til middelværdien.<br />

Der findes fordelinger for hvilke, der ikke eksisterer momenter. Dette kan<br />

ske, hvis der er for høj sandsynlighed for ekstreme (dvs. store negative eller<br />

store positive) værdier af den stokastiske variabel. For at forstå dette, kan man<br />

bruge billedet om middelværdien som det punkt, hvor man skal understøtte<br />

en vippe med vægtlodder for at holde den i balance, se figur 5.1. Hvis der er<br />

vægtlodder ekstremt langt ude på vippen, og disse er for tunge, så brækker<br />

vippen. Det næste eksempel viser en situation, hvor middelværdien af en stokastisk<br />

variabel ikke eksisterer.<br />

Eksempel 5.15: Antag at den diskrete stokastiske variabel, X, kan antage følgende værdier: x<br />

= 2, 4, 8, 16, …, med sandsynlighederne f(x) = 1 beskrivende <strong>mål</strong> ofte brugt, hvis man vil beskrive sandsynligheden for<br />

ekstreme værdier i forhold til middelværdien.<br />

Der findes fordelinger for hvilke, der ikke eksisterer momenter.<br />

Dette kan ske, hvis der er for høj sandsynlighed for ekstreme (dvs.<br />

store negative eller store positive) værdier af den stokastiske variabel.<br />

For at forstå dette, kan man bruge billedet om middelværdien som det<br />

punkt, hvor man skal understøtte en vippe med vægtlodder for at<br />

holde den i balance, se figur 5.1. Hvis der er vægtlodder ekstremt<br />

langt ude på vippen, og disse er for tunge, så brækker vippen. Det<br />

næste eksempel viser en situation, hvor middelværdien af en<br />

stokastisk variabel ikke eksisterer.<br />

Eksempel 5.15: Ingen middelvÊ rdi<br />

Antag at den diskrete stokastiske variabel,


Figur 5.2:<br />

Figur<br />

Tæthedsfunk-<br />

4.2<br />

Tæthedsfunktion<br />

og median<br />

tion og median<br />

stisk variabel, X, den værdi, som X er større end eller lig med med sandsynlighed<br />

0,5 og mindre end eller lig med med sandsynlighed 0,5. Rent visu elt<br />

så deler medianen derfor sandsynlighedsfordelingen for X på midten, som illustreret<br />

i figur 5.2, hvor tæthedsfunktionen for en kontinuert stokastisk variabel,<br />

X, er afbildet.<br />

median<br />

stokastiske variabel er kontinuert. For en kontinuert stokastisk variabel, X, er<br />

p-fraktilen den (eller de) værdi(er) af x, som, når de sættes ind i den kumulerede<br />

Man kan<br />

sandsynlighedsfunktion,<br />

også finde værdier af X,<br />

F(x),<br />

som<br />

giver<br />

opdeler<br />

p.<br />

fordelingen på en anden måde<br />

end med 0,5 til hver side. Disse værdier kalder man generelt for p­fraktiler,<br />

hvor p -fraktilen p angiver for den en kontinuert del af fordelingen, stokastisk variabel, der ligger X, med til ven kumuleret stre for sandsynlig- p­fraktilen. Den<br />

generelle hedsfunktion, definition F(x), af er en p­fraktil, værdi, q , således som gælder at:<br />

p både for kontinuerte og diskrete<br />

stokastiske variabler, er lidt Fq snørklet. ( p)=<br />

p Derfor tager vi først det letteste<br />

tilfælde, som – for en gangs skyld – forekommer, når den stokastiske variabel<br />

er kontinuert. For en kontinuert stokastisk variabel, X, er p­fraktilen den (eller<br />

de) værdi(er) af x, som, når de sættes ind i den kumu lative sandsynligheds­<br />

Eksempel 4.15 Den<br />

funktion,<br />

kontinuerte<br />

F(x), giver<br />

stokastiske<br />

p.<br />

variabel, X, fra eksempel 4.10, som angav en<br />

Vareproduktion virksomheds vareproduktion, havde følgende kumulerede sandsynligheds-<br />

– del 2 funktion, jf. eksempel 3.14:<br />

p-fraktilen for en kontinuert stokastisk variabel, = X, med kumulativ sandsynlighedsfunktion,<br />

F(x), er en værdi, ⎧0<br />

qp, således at: hvis x < 10<br />

⎪<br />

Fx () = ⎨01<br />

, ⋅( x −10) hvis 10 ≤ x < 20<br />

⎪ F(qp) = p<br />

⎩1<br />

hvis 20 ≤ x<br />

Eksempel 5.16: Vareproduktion ñ del 2<br />

Eksempel 5.16:<br />

Medianen<br />

Den Den kontinuerte<br />

(0,5-fraktilen),<br />

kontinuerte stokastiske<br />

q<br />

stokastiske variabel,<br />

, for X bestemmes<br />

variabel, , X, fra fra eksempel eksempel<br />

som en<br />

5.10, 5.10,<br />

løsning<br />

som som<br />

til<br />

angav angav<br />

F(q )<br />

en en<br />

=<br />

0,5 0,5<br />

Vareproduk-<br />

0,5,<br />

virksomheds<br />

dvs. 0,1 · (q<br />

virksomheds vareproduktion,<br />

– 10) = 0,5, som<br />

vareproduktion, havde<br />

giver<br />

havde følgende<br />

q = 15. Medianen 0,5 kumulative<br />

er<br />

f¯lgende sand<br />

altså<br />

kumulerede synlig<br />

den samme<br />

0,5 hedstion<br />

– del 2<br />

som<br />

funk sandsynlighedsfunktion,<br />

middelværdien<br />

tion, jf. eksempel<br />

i dette<br />

4.14: jf. eksempel<br />

tilfælde, jf.<br />

4.14:<br />

eksempel 4.10.<br />

0,05-fraktilen findes på tilsvarende vis:<br />

0 < 10<br />

() = 0,1<br />

( 10) 10 20<br />

Fq ( 005 , ) = 005 , ⇔ 0, 1⋅( q 0, 05 − 10) = 0, 05 ⇔ q 005 , = 10, 5<br />

1 20 < <br />

Medianen (0,5-fraktilen), 0,5, for bestemmes som en l¯sning til<br />

0,5 = 0,5, dvs. 0,1 0,5 10 = 0,5, som giver 0,5 = 15. Medianen er<br />

En alts stokastisk den samme variabel som kan middelvÊ dog godt rdien have i dette flere tilfÊ medianværdier<br />

5.3 lde, jf. Fraktiler eksempel (og p-frakti- 5.10. 115<br />

ler), 0,05-fraktilen som illustreret findes i p det tilsvarende følgende eksempel. vis:<br />

0,05 = 0,05 0,1 0,05 10 = 0,05 0,05 = 10,5<br />

Eksempel 4.16 Antag, at en kontinuert stokastisk variabel, X, har sandsynlighed 0,5 for at<br />

Multiple medi- ligge mellem 1 og 2 og sandsynlighed 0,5 for at ligge mellem 3 og 4. Tæthedsanværdierfunktionen<br />

En stokastisk<br />

for X<br />

variabel<br />

er tegnet<br />

kan<br />

i figur<br />

dog<br />

4.3.<br />

godt<br />

I<br />

have<br />

dette<br />

flere<br />

tilfælde<br />

medianværdier<br />

er der derfor<br />

(og<br />

sandsyn-<br />

p-<br />

()


Den kontinuerte stokastiske variabel, , fra eksempel 5.10, som angav en<br />

virksomheds vareproduktion, havde f¯lgende kumulerede<br />

sandsynlighedsfunktion, jf. eksempel 4.14:<br />

<br />

0<br />

() = 0,1<br />

( 10)<br />

<br />

<br />

< 10<br />

10 20<br />

1 20 < <br />

Medianen Medianen (0,5-fraktilen), (0,5-fraktilen), for X bestemmes som en løsning til F(q0,5) = 0,5,<br />

0,5, for bestemmes som en l¯sning til<br />

dvs. 0,1 · (q0,5 – 10) = 0,5, som giver q0,5 = 15. Medianen er altså den samme<br />

0,5 = 0,5, dvs. 0,1 0,5 10 = 0,5, som giver 0,5 = 15. Medianen er<br />

som alts middelværdien den samme i som dette middelvÊ tilfælde, rdien jf. eksempel i dette 5.10. tilfÊ lde, 0,05-fraktilen jf. eksempel findes 5.10. på<br />

tilsvarende 0,05-fraktilen vis: findes p tilsvarende vis:<br />

0,05 = 0,05 0,1 0,05 10 = 0,05 0,05 = 10,5<br />

En stokastisk variabel kan dog godt have flere medianværdier (og p-<br />

En<br />

fraktiler),<br />

stokastisk<br />

som<br />

variabel<br />

illustreret<br />

kan dog<br />

i det<br />

godt<br />

følgende<br />

have flere<br />

eksempel.<br />

medianværdier (og p-fraktiler),<br />

som illustreret i det følgende eksempel.<br />

Eksempel 5.17: Antag, Eksempel at en kontinuert 5.17: Multiple stokastisk medianvÊ variabel, rdier X, har sandsynlighed 0,5 for at<br />

Multiple ligge Antag, mellem at 1 en og kontinuert 2 og sandsynlighed stokastisk variabel, 0,5 for at , ligge har sandsynlighed mellem 3 og 4. 0,5 Tætheds- for at<br />

medianværdierfunktionen<br />

ligge mellem for X 1 er ogtegnet 2 og i sandsynlighed figur 5.3. I dette 0,5tilfælde for at ligge er der mellem derfor 3sandsyn og 4.<br />

lighed TÊ thedsfunktionen 0 for, at X antager for en er værdi tegnet mellem i figur 2 5.3. og I3. dette Men tilfÊ samtidig lde er vil der alle derfor vær-<br />

sandsynlighed 0 for, at antager en vÊ rdi mellem 2 og 3. Men samtidig vil<br />

lighed dier mellem 0 for, at 2 og X antager 3 dele sandsynlighedsmassen en værdi mellem 2 og i 3. to Men lige samtidig store dele. vil Derfor alle vær- vil<br />

alle vÊ rdier mellem 2 og 3 dele sandsynlighedsmassen i to lige store dele.<br />

dier alle værdier mellem mellem 2 og 3 dele 2 og sandsynlighedsmassen 3 opfylde kravet til en 0,5-fraktil i to lige store ifølge dele. definitionen Derfor vil<br />

Derfor vil alle vÊ rdier mellem 2 og 3 opfylde kravet til en 0,5-fraktil if¯lge<br />

alle i boksen ovenfor. Så disse værdier er alle medianværdier.<br />

definitionen<br />

værdier mellem<br />

i boksen<br />

2 og<br />

ovenfor.<br />

3 opfylde<br />

SÂ disse<br />

kravet<br />

vÊ<br />

til<br />

rdier<br />

en<br />

er<br />

0,5-fraktil<br />

alle medianvÊ<br />

ifølge<br />

rdier.<br />

definitionen<br />

i boksen ovenfor. Så de er alle medianværdier.<br />

Figur 5.3: 4.3<br />

Tæthedsfunktion<br />

med<br />

mul-<br />

multiple tiple medianer<br />

medianer<br />

0,5 ()<br />

[Indsæt figur 5.3: Tæthedsfunktion med multiple medianer]<br />

1 2 3 4<br />

Typisk gør man dog det, at når man som i eksempel 4.16 har et interval af<br />

værdier, Når man som som alle i eksempel opfylder 5.17 kravet har til et at interval være en af p-fraktil, værdier, så som vælger alle man opfylder den<br />

midterste kravet til at værdi være i en intervallet. p-fraktil, I så eksempel vælger man 4.16 typisk bliver den 2,5 således midterste medianen. værdi i inEt<br />

tilsvarende tervallet. I eksempel problem 5.17 har vi, bliver når 2,5 vi således har med medianen. diskrete stokastiske Et tilsvarende variabler problem at<br />

gøre, har vi, så når lad os vi kigge har med nærmere diskrete på stokastiske dem. variabler at gøre. Lad os derfor<br />

kigge nærmere på dem.<br />

Eksempel 4.17 Lad X være den diskrete stokastiske variabel, der angiver antallet af øjne ved<br />

Eksempel Et terningspil 5.18: et Lad terningslag. X være den Vi diskrete ved fra stokastiske tidligere, at variabel, sandsynlighedsfordelingen der angiver antallet for af øjne X er ved føl-<br />

Et – del terningspil 8 gende: et terningslag. Vi ved fra tidligere, at sandsynlighedsfordelingen for X er føl-<br />

– del 8<br />

gende:<br />

f () 1 = 16 /, f () 2 = 16 /, f () 3 = 16 /, f () 4 = 16 /, f () 5 = 16 /, f () 6 = 16 /<br />

Der er altså sandsynlighed 0,5 for at få en værdi af X mindre end 3,1, men<br />

der er også sandsynlighed 0,5 for at få en værdi mindre end 3,8. Så hvilken<br />

116 værdi <strong>Beskrivende</strong> er medianen? <strong>mål</strong> Som i tilfældet med kontinuerte variabler vælger man<br />

typisk den midterste værdi af det interval af værdier, der alle deler sandsynlighedsmassen<br />

i to lige store dele. Værdien 3,5 bliver derfor medianen i dette<br />

tilfælde.


Den kontinuerte stokastiske variabel, , fra eksempel 5.10, som angav en<br />

virksomheds vareproduktion, havde f¯lgende kumulerede<br />

sandsynlighedsfunktion, jf. eksempel 4.14:<br />

<br />

0<br />

() = 0,1<br />

( 10)<br />

<br />

<br />

< 10<br />

10 20<br />

1 20 < <br />

Medianen Medianen (0,5-fraktilen), (0,5-fraktilen), for X bestemmes som en løsning til F(q0,5) = 0,5,<br />

0,5, for bestemmes som en l¯sning til<br />

dvs. 0,1 · (q0,5 – 10) = 0,5, som giver q0,5 = 15. Medianen er altså den samme<br />

0,5 = 0,5, dvs. 0,1 0,5 10 = 0,5, som giver 0,5 = 15. Medianen er<br />

som alts middelværdien den samme i som dette middelvÊ tilfælde, rdien jf. eksempel i dette 5.10. tilfÊ lde, 0,05-fraktilen jf. eksempel findes 5.10. på<br />

tilsvarende 0,05-fraktilen vis: findes p tilsvarende vis:<br />

0,05 = 0,05 0,1 0,05 10 = 0,05 0,05 = 10,5<br />

En stokastisk variabel kan dog godt have flere medianværdier (og p-<br />

En<br />

fraktiler),<br />

stokastisk<br />

som<br />

variabel<br />

illustreret<br />

kan dog<br />

i det<br />

godt<br />

følgende<br />

have flere<br />

eksempel.<br />

medianværdier (og p-fraktiler),<br />

som illustreret i det følgende eksempel.<br />

Eksempel 5.17: Antag, Eksempel at en kontinuert 5.17: Multiple stokastisk medianvÊ variabel, rdier X, har sandsynlighed 0,5 for at<br />

Multiple ligge Antag, mellem at 1 en og kontinuert 2 og sandsynlighed stokastisk variabel, 0,5 for at , ligge har sandsynlighed mellem 3 og 4. 0,5 Tætheds- for at<br />

medianværdierfunktionen<br />

ligge mellem for X 1 er ogtegnet 2 og i sandsynlighed figur 5.3. I dette 0,5tilfælde for at ligge er der mellem derfor 3sandsyn og 4.<br />

lighed TÊ thedsfunktionen 0 for, at X antager for en er værdi tegnet mellem i figur 2 5.3. og I3. dette Men tilfÊ samtidig lde er vil der alle derfor vær-<br />

sandsynlighed 0 for, at antager en vÊ rdi mellem 2 og 3. Men samtidig vil<br />

lighed dier mellem 0 for, at 2 og X antager 3 dele sandsynlighedsmassen en værdi mellem 2 og i 3. to Men lige samtidig store dele. vil Derfor alle vær- vil<br />

alle vÊ rdier mellem 2 og 3 dele sandsynlighedsmassen i to lige store dele.<br />

dier alle værdier mellem mellem 2 og 3 dele 2 og sandsynlighedsmassen 3 opfylde kravet til en 0,5-fraktil i to lige store ifølge dele. definitionen Derfor vil<br />

Derfor vil alle vÊ rdier mellem 2 og 3 opfylde kravet til en 0,5-fraktil if¯lge<br />

alle i boksen ovenfor. Så disse værdier er alle medianværdier.<br />

definitionen<br />

værdier mellem<br />

i boksen<br />

2 og<br />

ovenfor.<br />

3 opfylde<br />

SÂ disse<br />

kravet<br />

vÊ<br />

til<br />

rdier<br />

en<br />

er<br />

0,5-fraktil<br />

alle medianvÊ<br />

ifølge<br />

rdier.<br />

definitionen<br />

i boksen ovenfor. Så de er alle medianværdier.<br />

Figur 5.3: 4.3<br />

Tæthedsfunktion<br />

med<br />

mul-<br />

multiple tiple medianer<br />

medianer<br />

0,5 ()<br />

[Indsæt figur 5.3: Tæthedsfunktion med multiple medianer]<br />

1 2 3 4<br />

Typisk gør man dog det, at når man som i eksempel 4.16 har et interval af<br />

værdier, Når man som som alle i eksempel opfylder 5.17 kravet har til et at interval være en af p-fraktil, værdier, så som vælger alle man opfylder den<br />

midterste kravet til at værdi være i en intervallet. p-fraktil, I så eksempel vælger man 4.16 typisk bliver den 2,5 således midterste medianen. værdi i inEt<br />

tilsvarende tervallet. I eksempel problem 5.17 har vi, bliver når 2,5 vi således har med medianen. diskrete stokastiske Et tilsvarende variabler problem at<br />

gøre, har vi, så når lad os vi kigge har med nærmere diskrete på stokastiske dem. variabler at gøre. Lad os derfor<br />

kigge nærmere på dem.<br />

Eksempel 4.17 Lad X være den diskrete stokastiske variabel, der angiver antallet af øjne ved<br />

Eksempel Et terningspil 5.18: et Lad terningslag. X være den Vi diskrete ved fra stokastiske tidligere, at variabel, sandsynlighedsfordelingen der angiver antallet for af øjne X er ved føl-<br />

Et – del terningspil 8 gende: et terningslag. Vi ved fra tidligere, at sandsynlighedsfordelingen for X er føl-<br />

– del 8<br />

gende:<br />

f () 1 = 16 /, f () 2 = 16 /, f () 3 = 16 /, f () 4 = 16 /, f () 5 = 16 /, f () 6 = 16 /<br />

Der er altså sandsynlighed 0,5 for at få en værdi af X mindre end 3,1, men<br />

der er også sandsynlighed 0,5 for at få en værdi mindre end 3,8. Så hvilken<br />

116 værdi <strong>Beskrivende</strong> er medianen? <strong>mål</strong> Som i tilfældet med kontinuerte variabler vælger man<br />

typisk den midterste værdi af det interval af værdier, der alle deler sandsynlighedsmassen<br />

i to lige store dele. Værdien 3,5 bliver derfor medianen i dette<br />

tilfælde.


Den første betingelse siger, at et udfald mindre end p-fraktilen højst må have<br />

sandsynlighed p, mens den anden betingelse siger, at sandsynligheden for at<br />

få et udfald større end p-fraktilen skal være mindre end eller lig med 1-p.<br />

Denne snørklede definition er nødvendig, fordi den kumulerede sandsynlighedsfunktion<br />

for en diskret stokastisk ⎧0<br />

, y < variabel 1 er en trappefunktion og dermed<br />

ikke kontinuert. “Ånden” F(y) = i ⎨en<br />

0,5 p-fraktil , 1 ≤ y < 2er<br />

dog den samme som i tilfældet<br />

med en kontinuert stokastisk ⎩1<br />

, y ≥ 2<br />

variabel.<br />

Lad os prøve at finde den nederste kvartil, som er 0,25-fraktilen. Hvis vi prø-<br />

Eksempel 4.18 Den ver diskrete at bruge stokastiske definitionen variabel, af en p-fraktil Y, der for antager en kontinuert værdien stokastisk 1, når en mønt variabel, lan-<br />

Plat og krone der så på vil plat, det ikke og værdien virke, da 2, det når er den umuligt lander at på løse krone, F(q0,25) har = følgende 0,25 for en kumulerede værdi af<br />

sandsynlighedsfunktion:<br />

q0,25. Se figur 5.4. Men da Y er diskret, skal vi bruge den generelle definition<br />

af en p-fraktil. En kandidat til 0,25-fraktilen ⎧0<br />

, y < er 1værdien<br />

1. Vi tjekker der for<br />

betingelserne i) og ii) fra ⎪<br />

Fy boksen ( ) = ⎨0,5<br />

ovenfor. , For 1 ≤ i) y fås < P(Y 2 < 1) = 0, som er mindre<br />

end 0,25. For ii) fås P(Y > 1) ⎪=<br />

1 – P(Y ≤ 1) = 1 – 0,5 = 0,5, som er mindre<br />

⎩1<br />

, y ≥ 2<br />

end 1 – 0,25 = 0,75. Begge betingelser er altså opfyldt, og dermed er 1 en<br />

Lad<br />

0,25-fraktil.<br />

os prøve at<br />

Grafisk<br />

finde den<br />

er 0,25-fraktilen<br />

nederste kvartil,<br />

den<br />

som<br />

værdi<br />

er<br />

af<br />

0,25-fraktilen.<br />

y, hvor F(y) springer<br />

Hvis vi prø-<br />

op<br />

over 0,25.<br />

ver at bruge definitionen af en p-fraktil for en kontinuert stokastisk variabel,<br />

Figur 5.4:<br />

Figur 4.4<br />

Kumuleret<br />

Kumuleret<br />

sandsynlighed<br />

sandsynlighed<br />

og 0,25-fraktil<br />

og 0,25-fraktil<br />

118 <strong>Beskrivende</strong> <strong>mål</strong><br />

1<br />

0,5<br />

0,25<br />

–1 0<br />

1 (= 0,25) 2<br />

Afslutningsvis bemærker vi, at fraktiler, modsat momenter, 4.3 Fraktiler altid eksisterer. En 69<br />

række fraktiler har endvidere specielle navne, som det fremgår af boksen nedenfor.<br />

Specielle navne for fraktiler:<br />

Statistik_04.InD 69<br />

18/03/03, 12:56<br />

q0,5 kaldes medianen.<br />

q0,25 og q0,75 kaldes kvartiler.<br />

q 0,1, q 0,2, …, q 0,9 kaldes deciler.<br />

q 0,01, q 0,02, …, q 0,99 kaldes percentiler.<br />

()


5.4 Valg af beskrivende <strong>mål</strong><br />

En gennemsnitlig beboer i København har færre end to ben. Dette udsagn<br />

vækker mistanke om, at en stor miljøkatastrofe må have ramt hovedstaden.<br />

Men udsagnet er faktisk korrekt, hvis der bare er én beboer i København, som<br />

kun har ét ben (og ingen har mere end to!). Man skal derfor være påpasselig<br />

med fortolkningen af beskrivende <strong>mål</strong>, som for eksempel en middelværdi,<br />

selvom udregnin gerne er korrekte. Ligeså vigtigt er det at vælge beskrivende<br />

<strong>mål</strong>, som i sammenhængen giver et relevant billede af en fordeling. I tilfældet<br />

med antal ben blandt de københavnske beboere kunne det således være mere<br />

interessant at kende sandsynligheden for, at en tilfældigt udvalgt beboer har to<br />

ben.<br />

Et andet eksempel er valget af beskrivende <strong>mål</strong> for en indkomstfordeling.<br />

Antag, at den sto kastiske variabel, X, angiver en simpel tilfældigt udvalgt indbyggers<br />

indkomst. Hvis den forventede værdi af X er høj, betyder det så, at<br />

man kan konkludere, at indbyggerne er rige? Nej, det betyder, at de i gennemsnit<br />

er rige. Hvis hovedparten af indbyggerne er fattige, men de få rige er ekstremt<br />

rige, så er middelindkomsten høj. Medianindkomsten vil derimod være<br />

lav, fordi den ikke er særlig påvirket af, at der findes en lille gruppe rige personer.<br />

For medianen gør det ingen forskel, om de rigeste 49 % er lidt rige eller<br />

stenrige. Både middelværdien og medianen er gyldige beskrivende <strong>mål</strong>, men<br />

de fortæller to vidt forskellige historier om de samme indbyggere.<br />

Middelværdien og medianen har det til fælles, at de begge giver et bud på<br />

den centrale ten dens i en fordeling. Medianen bygger primært på sandsynligheden<br />

for udfaldene, hvorimod middelværdien medtager udfaldenes størrelse.<br />

Hvilket af de to <strong>mål</strong>, der giver den bedste beskrivelse af fordelingens midte eller<br />

den „typiske“ observation, afhænger af det, vi ønsker at undersø ge.<br />

I en symmetrisk fordeling er medianen og middelværdien lig hinanden. I<br />

praksis kan man dog komme til at lave <strong>mål</strong>efejl. For eksempel kan man i indkomstfordelingen<br />

komme til at sætte et 0 for meget på nogle af de høje indkomster.<br />

Målefejl af denne type vil typisk påvirke udregningen af middelværdien<br />

mere end udregningen af medianen. Man siger derfor, at medianen er<br />

mere robust over for sådanne <strong>mål</strong>efejl.<br />

5.4.1 Modalværdi<br />

Et ofte (måske lidt for ofte) brugt beskrivende <strong>mål</strong> er modalværdien for en<br />

stokastisk variabel. Modelværdien kaldes også typetallet og er den mest sandsynlige<br />

værdi i en fordeling. Hvis den stokastiske variabel er givet ved en simpel<br />

tilfældig udtræk ning fra en virkelig population, så er modalværdien den<br />

oftest forekommen de værdi i populationen.<br />

5.4 Valg af beskrivende <strong>mål</strong> 119


Eksempel 5.20: Antag, at den stokastiske variabel, X, er defineret som udfaldet af en simpel<br />

Modelværdi tilfældig udtrækning fra følgende population: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1}. I<br />

dette tilfælde er modalværdien 1. Til sammenligning er middelværdien af X<br />

lig Eksemplet med 5,09, og medianen viser at man er 5. ikke skal fortolke modalværdien som et<br />

alternativ til middelværdi eller median.<br />

Når man skal beskrive formen af en fordeling kan man bruge<br />

Eksemplet udtrykkene viser, unimodal at man ikke og skal fortolke bimodal. modalværdien En unimodal som et alternativ fordeling til har<br />

middelværdien eller medianen.<br />

sandsynligheden koncentreret omkring modalværdien og med<br />

Når man skal beskrive formen af en fordeling kan man bruge udtrykkene<br />

unimodal<br />

faldende<br />

og<br />

sandsynligheder<br />

bimodal. En unimodal<br />

efterhånden<br />

fordeling<br />

som<br />

har sandsynligheden<br />

værdierne kommer<br />

koncentre-<br />

længere<br />

ret væk omkring fra modalværdien, modalværdien og se med figur faldende 5.5. For sandsynligheder en kontinuert efterhånden stokastisk<br />

som fordeling værdierne har kommer en unimodal længere fordeling væk fra modalværdien, således kun én se figur top. Som 5.5. For det en også<br />

kontinuert fremgår af stokastisk figur 5.5, fordeling så har har en en bimodal unimodal fordeling derimod således kun to toppe. én top.<br />

Som det også fremgår af figur 5.5, så har en bimodal fordeling derimod to<br />

toppe. Figur 5.5. Unimodal og bimodal fordeling<br />

Figur 5.5.<br />

Unimodal og<br />

bimodal<br />

fordeling<br />

Unimodal Bimodal<br />

Unimodal Bimodal<br />

5.5 <strong>Beskrivende</strong> <strong>mål</strong> for sammenhænge mellem stokastiske variabler<br />

For at sprede risikoen investerer investeringsforeninger i mange forskellige<br />

aktier. 5.5 Nogle <strong>Beskrivende</strong> aktier har tendens <strong>mål</strong> til at for gå op, sammenhænge når andre går ned, og vice mellem versa.<br />

Ved stokastiske at holde flere forskellige variabler aktier kan man således udjævne store, og potentielt<br />

konkursskabende, udsving i de enkelte aktier.<br />

Til at beskrive sammenhænge mellem stokastiske variabler, som fx aktie-<br />

For at sprede risikoen investerer investeringsforeninger i mange<br />

kurser, kan man se på deres simultane fordeling. Det gjorde vi i kapitel 4. Men<br />

fordi forskellige den simultane aktier. sandsynlighedsfunktion Nogle aktier har tendens indeholder til at al gå information op, når andre om går<br />

variablernes ned, og vice fordeling, versa. er den Ved svær at at holde bruge flere til at skabe forskellige sig overblik. aktier Nedenfor kan man<br />

ser således vi derfor udjævne på nogle store, beskrivende og potentielt <strong>mål</strong>, som har konkursskabende, vist sig at være yderst udsving nyttige i de<br />

til enkelte fx at beskrive aktier. sammenhænge mellem forskellige aktiers kurser.<br />

Til at beskrive sammenhænge mellem stokastiske variabler, som fx<br />

120 <strong>Beskrivende</strong> aktiekurser, <strong>mål</strong>kan<br />

man se på deres simultane fordeling. Det gjorde vi i<br />

kapitel 4. Men fordi den simultane sandsynlighedsfunktion indeholder


5.5.1 Forventet værdi af en sum af stokastiske variabler<br />

Afkastet på en aktie kan man beskrive som en stokastisk variabel, X. Antag, at<br />

der også er en anden aktie med afkast givet ved den stokastiske variabel, Y. Vi<br />

kan nu sammensætte en portefølje (en samling) af aktier, hvor a er antal aktier<br />

af den første type, og b er antal aktier af den anden type. Dermed vil vo res<br />

samlede afkast blive givet ved den stokastiske variabel, Z:<br />

Z = a · X + b · Y<br />

Hvad er nu det forventede afkast af denne portefølje? Dette kan bestemmes<br />

ud fra følgende generelle formel for den forventede værdi af en sum af stokastiske<br />

variabler, som både gælder for diskrete og kontinuerte variabler:<br />

Den forventede værdi af summen af to stokastiske variabler afhænger ikke af,<br />

hvordan de to stokastiske variabler samvarierer. Den afhænger udelukkende<br />

af de to stokastiske variablers individuelle forventede værdier.<br />

Det forventede afkast af porteføljen, Z, er derfor lig med det forventede afkast<br />

af de a X-aktier og de b Y-aktier:<br />

E(Z) = a · E(X) + b · E(Y)<br />

5.5.2 Kovarians<br />

Den forventede værdi af en sum af stokastiske variabler (diskrete eller kontinuerte) er givet<br />

ved:<br />

E(a · X + b · Y) = E(a · X) + E(b · Y) = a · E(X) + b · E(Y)<br />

hvor a og b er konstanter.<br />

Et <strong>mål</strong> for risikoen af en portefølje er variansen af porteføljen, V(Z) = V(a · X +<br />

b · Y). Variansen af en sum af stokastiske variabler, uanset om disse er diskrete eller<br />

kontinuerte, afhænger af variansen af hver enkelt stokastisk varia bel, men også af<br />

kovariansen. I kapitel 2 udregnede vi kovariansen mellem 2 populationskarakteristika.<br />

Kovariansen mellem to stokastisk variabler er tilsvarende defineret som:<br />

Kovariansen, Cov(X, Y), mellem to stokastiske variabler, X og Y, er defineret ved:<br />

Cov(X, Y) = E[(X – µX) · (Y – µ Y)]<br />

hvor µX = E(X) og µ Y = E(Y). En alternativ formel for udregning af kovariansen er:<br />

Cov(X, Y) = E(X · Y) – µX · µY<br />

5.5 <strong>Beskrivende</strong> <strong>mål</strong> for sammenhænge mellem stokastiske variabler 121


hvor


Dermed bliver kovariansen givet ved:<br />

Cov(X, Y) = E(X · Y) – µX · µY = 0,5 – 0,7 · 0,6 = 0,08<br />

størst<br />

størst<br />

chance<br />

chance<br />

for<br />

for<br />

at<br />

at<br />

undgå<br />

undgå<br />

fallit<br />

fallit<br />

(


124 <strong>Beskrivende</strong> <strong>mål</strong><br />

hvor


educere variansen p afkastet, uden at det gÂr ud over det forventede<br />

afkast! rsagen er, at nÂr


5.6 <strong>Beskrivende</strong> <strong>mål</strong> ved hjælp af Excel<br />

126 <strong>Beskrivende</strong> <strong>mål</strong><br />

Vi skal nu se, hvordan vi kan anvende Excel til at beregne beskrivende <strong>mål</strong> for<br />

fordelinger. Vi vil fokusere på det tilfælde, hvor vi har en virkelig popula tion.<br />

Her kan Excel udregne fx middelværdien for en stokastisk variabel, når denne<br />

er givet ved værdien af det element, der udtrækkes, og når alle elemen ter i<br />

populationen har samme sandsynlighed for udvælgelse. Excel udregner nemlig<br />

populationsmiddelværdien, som jo er den samme som middelværdien af<br />

den stokastiske variabel i dette tilfælde.<br />

I regnearket har vi vist en virkelig population bestående af de 27 lande i EU.<br />

Antag, at vi trækker et land tilfældigt i populationen og lader den stokastiske<br />

variabel, X, angive befolkningen (i millioner personer), mens Y angiver BNP<br />

per capita (indbygger).<br />

Hvis du endnu ikke føler dig helt fortrolig med Excel, kan det være en god<br />

ide selv at indtaste værdierne i et regneark, så du kan følge med på skærmen i<br />

eksemplerne nedenfor.<br />

5.6.1 Middelværdi<br />

Først udregner vi middelværdien for variablen X, dvs. befolkningen. Dette<br />

kan gøres på to måder i Excel. I begge tilfælde starter man med at placere kursoren<br />

i den celle, hvor man ønsker resultatet.


1. Den „guidede“ metode foregår ved at klikke på Formler i den øverste menu<br />

og derefter på Indsæt funktion. Da fremkommer følgende boks:<br />

Her vælges kategorien Statistisk i den øverste drop­down menu, og i det<br />

nederste vindue kan man nu se de statistiske funktioner, der er tilgængelige<br />

i Excel. Vi skal her klikke på MIDDEL og dernæst OK. Vi ser da følgende<br />

skærmbillede:<br />

I rubrikken ud for Tal1 skal man angive cellereferencerne for populationselementerne,<br />

dvs. hvor de befinder sig i regnearket. I dette tilfælde skal vi<br />

skrive B3:B29, fordi værdierne findes i cellerne mellem B3 og B29. Alternativt<br />

kan man klikke på regnskabsikonet til højre for rubrikken ved Tal1.<br />

Man kan nu med musen markere de celler, hvor populationselementerne<br />

5.6 <strong>Beskrivende</strong> <strong>mål</strong> ved hjælp af Excel 127


128 <strong>Beskrivende</strong> <strong>mål</strong><br />

befinder sig, hvorefter man trykker Return. Excel vil nu selv skrive B3:B29<br />

i rubrikken ud for Tal1. Derefter klikker man OK, og middelværdien fremkommer<br />

da i den celle, man startede øvelsen i.<br />

2. Den hurtige metode foregår ved direkte at skrive: =MIDDEL(B3:B29) i<br />

den celle, hvor man ønsker resultatet.<br />

5.6.2 Varians og standardafvigelse<br />

Beregning af varians og standardafvigelse foregår på helt samme måde, blot<br />

skal man skrive =VARIANSP(B3:B29) og =STDAFVP(B3:B29), hvis man<br />

bruger den hurtige metode, eller vælge VARIANSP og STDAFVP under Indsæt<br />

funktion, hvis man foretrækker den guidede fremgangsmåde.<br />

Øvelse: Udregn ved hjælp af Excel variansen og standardafvigelserne for X og Y.<br />

5.6.3 Kovarians og korrelationskoefficient<br />

Vi kan også finde kovariansen og korrelationskoefficienten for de to stokastiske<br />

variabler ved hjælp af Excel. Ønsker vi fx kovariansen mellem X og Y i<br />

ovenstå ende eksempel, gør vi følgende:<br />

1. Den „guidede“ metode: Vælg KOVARIANS under Indsæt funktion. I den<br />

fremkomne dialogboks angives cellereferencerne for X ud for Vektor1,<br />

dvs. B3:B29, og cellereferencerne for Y ud for Vektor2, dvs. C3:C29. Derefter<br />

tryk kes OK.<br />

2. Ved den hurtige metode skrives blot: =KOVARIANS(B3:B29;C3:C29) direkte<br />

i cellen.


Korrelationskoefficienten findes på helt tilsvarende vis ved blot at anven de<br />

funktionen KORRELATION. Fx kan man skrive =KORRELATION<br />

(B3:B29;C3:C29) i cellen, hvor man ønsker resultatet.<br />

Øvelse: Find korrelationen mellem X og Y ved hjælp af Excel. Plot derefter værdierne<br />

af X og Y mod hinanden i et diagram (funktionen til dette findes under Indsæt<br />

i den øverste menu). Bekræfter figuren den beregnede korrelation?<br />

5.7 Opgaver<br />

1) Repetitionsspørgs<strong>mål</strong>:<br />

a) Nævn de forskellige momenter, vi har stiftet bekendtskab med i dette<br />

ka pitel.<br />

b) Hvordan udregnes den forventede værdi af en diskret stokastisk variabel?<br />

c) Hvad er forskellen på variansen og standardafvigelsen af en stokastisk<br />

va riabel?<br />

d) Hvad er en fraktil?<br />

e) Hvad udtrykker kovariansen mellem to stokastiske variabler? Hvordan<br />

udregnes den?<br />

f) Hvad er sammenhængen mellem kovariansen og korrelationskoefficienten?<br />

g) Hvilke værdier kan korrelationskoefficienten antage?<br />

h) Hvordan udregnes forventningen af en sum af stokastiske variabler?<br />

i) Hvordan udregnes variansen af en sum af stokastiske variabler?<br />

2) Lad X være en diskret stokastisk variabel med sandsynlighedsfunktion<br />

som i tabellen.<br />

a) Bestem den forventede værdi af X.<br />

b) Find E(2 + 5,4 · X) og E(√⎺ X)<br />

c) Beregn V(X).<br />

d) Hvad er variansen af 3 · X?<br />

x f(x) = P(X = x)<br />

1 0,12<br />

3 0,43<br />

4 0,07<br />

5 0,30<br />

0 0,08<br />

5.7 Opgaver 129


3) Lad Y være en kontinuert stokastisk variabel med: E(Y) = 3,2 og E(Y 2 ) =<br />

14,1.<br />

a) Beregn variansen og standardafvigelsen af Y.<br />

b) Find også variansen af 7 · Y + 0,25.<br />

c) Beregn E(7 + 2 · Y 2 ).<br />

4) I et lotteri findes tre slags lodder, hvor gevinsten er henholdsvis 0 kr., 100<br />

kr. og 100.000 kr. Der findes 90.000 lodder af den første type, 9.999 af den<br />

anden type og kun ét af den tredje type.<br />

a) Hvad er den forventede gevinst på et tilfældigt udtrukket lod?<br />

b) Antag, at alle lodder sælges. Hvad skal et lod da minimum koste for, at<br />

lot teriet gennemføres uden tab for arrangøren?<br />

c) Et lod koster 25 kr. Hvad er det forventede overskud for arrangøren,<br />

hvis der sælges 9000 lodder?<br />

5) En stokastisk variabel, X, har middelværdi 10 og varians 50.<br />

a) Beregn middelværdi og varians af den stokastiske variabel, Y =<br />

10 + 5 · X.<br />

b) Find middelværdien af Y = (X – 10) 2 og Z = X 2 (udnyt at V(X) = E(X 2 )<br />

– [E(X)] 2 ).<br />

<br />

6) Lad X og Y være to kontinuerte stokastiske variabler med følgende<br />

fordelings funktioner:<br />

0<br />

() = /3<br />

,<br />

,<br />

0<br />

0 < 3<br />

1 , > 3<br />

0 , 4<br />

() = (1<br />

/4) 2 <br />

, 4 < 8<br />

1 , > 8<br />

a) Find medianen a) for Find henholdsvis medianen for X og henholdsvis Y. og .<br />

b) Find 0,05­fraktilen b) Find og 0,05-fraktilen 0,95­fraktilen og for 0,95-fraktilen X og Y. for og .<br />

7) Lad Y være en 7) stokastisk Lad være variabel, en stokastisk der kan variabel, antage der syv kan forskellige antage syv værdier. forskellige<br />

Fordelingsfunktionen værdier. (den kumulative Fordelingsfunktionen sandsynlighedsfunktion) (den for kumulerede Y er<br />

givet i tabellen nedenfor. sandsynlighedsfunktion) for er givet i tabellen.<br />

a) Bestem medianen a) Bestem for Y. medianen for .<br />

b) Find 0,1­fraktilen b) Find og 0,75­fraktilen.<br />

0,1-fraktilen og 0,75-fraktilen.<br />

() = ( )<br />

0 0,0083<br />

1 0,0692<br />

130 <strong>Beskrivende</strong> <strong>mål</strong><br />

2 0,2553<br />

3 0,5585<br />

4 0,8364<br />

5 0,9723<br />

6 1


y F(y) = P(Y ≤ y)<br />

0 0,0083<br />

1 0,0692<br />

2 0,2553<br />

3 0,5585<br />

4 0,8364<br />

5 0,9723<br />

6 1<br />

8) Betragt eksperimentet fra opgave 4 i kapitel 4, hvor X og Y var stokastiske<br />

variabler (indikato rer) for henholdsvis køn og arbejdsskift med si multane<br />

sandsynligheder som i tabellen nedenfor.<br />

a) Beregn kovariansen mellem X og Y.<br />

b) Find korrelationskoefficienten for X og Y.<br />

c) Hvad fortæller dine resultater dig om sammenhængen mellem køn og<br />

ar bejdsskift?<br />

Y = 1 Y = 0<br />

X = 1 0,35 0,23<br />

X = 0 0,15 0,27<br />

9) Lad X og Y være to stokastiske variabler med simultane sandsynligheder<br />

som i tabellen nedenfor.<br />

a) Beregn kovariansen mellem X og Y.<br />

b) Er X og Y uafhængige?<br />

c) Find den marginale sandsynligheds funktion for X.<br />

d) Find også den betingede sandsynlighedsfunktion for X givet Y = 1.<br />

e) Fortolk dine resultater.<br />

f) Find de forventede værdier af X og Y.<br />

g) Find varianserne af X og Y.<br />

h) Lad den stokastiske variabel Z være givet ved Z = 2 · X + 3 · Y. Beregn<br />

den forventede værdi og variansen af Z.<br />

Y = 0 Y = 1 Y = 2<br />

X = 0 0,15 0,1 0,15<br />

X = 1 0,10 0,0 0,10<br />

X = 2 0,15 0,1 0,15<br />

5.7 Opgaver 131


132 <strong>Beskrivende</strong> <strong>mål</strong><br />

10) Lad X og Y være to stokastiske variabler med E(X) = 2,3 og E(Y) = 1,4. Lad<br />

endvidere standardafvigelserne af X og Y være henholdsvis 1,1 og 0,8,<br />

mens kovariansen er 0,2.<br />

a) Beregn den forventede værdi af Z = 2 · X + 3,3 · Y.<br />

b) Find variansen af Z.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!