Några exempel där styrkan beräknas är: - Karlstads universitet

Karlstads universitet Avdelningen för nationalekonomi och 

statistik 

Tentamen i statistik för STA A13, 1-10 poäng 

Deltentamen II, 5p 

Lördag 9 juni 2007 kl. 09.00-13.00 

______________________________________________________________ 

Tillåtna hjälpmedel: Bifogad formel- och tabellsamling (skall returneras) 

samt miniräknare. 

Ansvarig lärare: Cecilia Hågland 

Övrigt: Varje uppgift kan ge max 10p. Lösningar skall utan svårighet kunna 

följas. Införda beteckningar skall förklaras. För betyget Godkänd krävs minst 

30p och för Väl godkänd krävs minst 45p. 

Uppgift 1 

Slumpvariabeln X är N(µ= 1 000; σ = 100). 

a) Skissa frekvens-/sannolikhetsfunktionen för variabeln X och markera 

väntevärde, median och standardavvikelse i figuren. 

b) Beräkna sannolikheten för att X ligger utanför intervallet µ ± σ, samt rita 

en figur som illustrerar denna sannolikhet. 

c) Vad är sannolikheten för att X ligger inom intervallet [950; 1 150]? 

Illustrera även detta i en figur. 

d) För vilka symmetriska intervall av värden gäller att sannolikheten att ett 

slumpmässigt X-värde hamnar inom själva intervallet är 0,90 respektive 

0,99? Rita en (eller två) figur(er) och markera tydligt hur intervallen ligger. 

e) Beräkna: P(|X-µ| ≤ σ) samt illustrera det aktuella området i en figur. 

För lösningar på uppgift 1, se separat fil. 

Uppgift 2 

Utgå från samma normalfördelade slumpvariabel, X, som i uppgift 1. 

a) Om vi är fullständigt insatta i vilken fördelning X följer och gör ett 

slumpmässigt urval om n=4 observationer från populationen, vilken 

fördelning följer då stickprovsmedelvärdet X ? Glöm inte att ange all 

relevant information (bara fördelningens namn räcker inte). 

Om X är normalfördelad är X också normalfördelad (se 

kompletteringsmaterialet till kapitel 8, under ”Anmärkning 2”. Detta räcker 

dock inte som svar, utan vi måste ha med normalfördelningens parametrar 

också. Väntevärdet E( X ) = μ X är alltid samma som väntevärdet för X, => 

μ X = μ 

σ X 

= 100 , och standardavvikelsen för X , σ X , är alltid 

n 

, vilket här 

100 

blir = 50 . ⇒ X är N( 

μ = 1000, 

σ = 50) 

X 

X . 

4


statistik 

b) Vad är sannolikheten för att medelvärdet i stickprovet ligger utanför 

intervallet E ( X ) ± V ( X ) ? 

Eftersom X är normalfördelad precis som X, är sannolikheten för att X 

skulle ligga utanför intervallet E ( X ) ± V ( X ) lika stor som att X skulle ligga 

utanför intervallet E ( X ) ± V ( X ) , d. v. s. utanför intervallet μ ± σ . 

Denna sannolikhet har vi redan tagit fram i 1b och den är 0,3174. 

Om man inte upptäcker likheten med 1b går det naturligtvis bra att i stället 

använda resultatet i 2a och räkna ut sannolikheten att X ligger utanför 

intervallet μ 

σ X 

± 

n 

= 1 000 ± 50 , eller utanför intervallet (950; 1 050). 

1− 

P( 

950 ≤ 

950 − 1000 

X ≤ 1050) 

= 1− 

P( 

≤ 

100 

X − 

σ 

μ 1050 

− μ 

≤ ) = 

100 

1 − P( 

− 1 ≤ Z ≤ 1) 

= 1− 

[ P( 

Z < 

1) 

− P( 

Z < − 

1)] 

4 n 4 

= 1− 

( 0, 

8413 − 0, 

1587) 

= 1 − 0, 

6826 = 

0, 

3174 

Uppgift 3 

Den förvirrade statistikläraren Ztatistica ”tappar bort” både väntevärde och 

standardavvikelse för slumpvariabeln X från uppgifterna ovan. 

a) Antag att Ztatistica trots allt lyckas hålla i minnet att variabeln är 

normalfördelad. Om hon i detta läge drar ett slumpmässigt stickprov om 

n=4 observationer från populationen och beräknar diverse intressanta 

läges- och spridningsmått i stickprovet – hur skulle hon därefter kunna 

utnyttja denna information på bästa sätt för att försöka ta reda på ungefär 

hur stort väntevärdet för X är? Hitta på siffror i lämplig storleksordning – 

sunt förnuft räcker! – för att illustrera din redogörelse ytterligare och 

förklara också i ord vad Ztatistica faktiskt skulle kunna säga beträffande 

väntevärdet för X. 

Om Ztatistica beräknar medelvärde och standardavvikelse i stickprovet, kan 

hon sedan utnyttja kunskapen om att den underliggande populationen är 

normalfördelad och ta fram ett konfidentiella för väntevärdet μ. Specifikt: 

När Ztatistica drar ett litet urval från en normalfördelad population med 

X − μ 

okänd standardavvikelse vet hon att 

t-fördelning med (n-1=3) frihetsgrader. 

s 

n 

följer en 

Ett (exempelvis) 95%-igt konfidensintervall för μ kan då beräknas som: 

x ± 

t0, 

975 ( 3) 

s 

= 

n 

x ± 3, 

18 

s 

4


statistik 

Om vi nu hittar på någorlunda realistiska värden, t. ex. att 

stickprovsmedelvärdet blir 982 och stickprovsstandardavvikelsen 54, får vi 

54 

intervallet 982 ± 3, 

18 = ( 896, 

14; 

1067, 

86) 

2 

Ztatistica kan nu påstå att ”Med 95% säkerhet ligger väntevärdet för X 

mellan 896 och 1068”. 

b) Den förvirrade statistikläraren Ztatistica är nu om möjligt ännu mer 

förvirrad. Hon kommer inte ihåg någonting om slumpvariabeln X (mer än 

att det är just en slumpvariabel!). Kom med en välmotiverad, utförlig 

beskrivning på hur Ztatistica i detta läge skulle kunna gå tillväga för att få 

en riktigt hygglig uppfattning om hur stort väntevärdet för X är. Hitta på 

siffror i lämplig storleksordning – sunt förnuft + relevanta ämneskunskaper 

krävs – för att illustrera din redogörelse ytterligare och förklara också i ord 

vad Ztatistica faktiskt skulle kunna säga beträffande väntevärdet för X. 

Om vi har en slumpvariabel som vi inte vet någonting om, är det en god idé 

för Ztatistica att dra ett stort slumpmässigt stickprov ur populationen. 

Eftersom hon vet att stickprovsmedelvärdet är en väntevärdesriktig 

skattning av väntevärdet µ, kan hon enkelt göra en punktskattning av 

väntevärdet. 

Men detta ger ju bara ett värde, som Ztatistica inte alls vet hur nära 

sanningen det ligger. Här kan hon därför med fördel utnyttja den Centrala 

gränsvärdessatsen, CGS. CGS säger att ”En summa av oberoende 

slumpvariabler från samma fördelning följer ungefär en normalfördelning, 

om antalet variabler som ingår i summan bara är tillräckligt stort”. Eftersom 

Ztatistica är väl påläst, vet hon vidare att ett stickprovsmedelvärde är just en 

X 1 X 2 X 3 X n 

summa av slumpvariabler, X = + + + ... + , och att vi dividerar 

n n n n 

respektive observation med ”n” saknar betydelse för formen på fördelningen. 

Om nu X = 

X 1 

+ 

n 

X 2 

+ 

n 

X 3 

+ 

n 

... + 

X n 

är ungefär normalfördelad och 

n 

Ztatistica vet (eller slår upp i formelsamlingen) att väntevärde och 

standardavvikelse för X är μ respektive 

σ 

kan hon även se att hon kan 

n 

beräkna ett 100(1-α)%-igt konfidensintervall för µ som x ± z 

1− 

σ 

n 

Fast hur gör hon med den okända standardavvikelsen σ? Jo, eftersom 

Ztatistica tog ett stort stickprov, om t. ex. n=100 observationer, kan hon 

skatta σ med stickprovsstandardavvikelsen s och säga att: ”Med cirka 95% 

(exempelvis) säkerhet ligger väntevärdet µ inom intervallet 

s 

s 

x ± z0, 

975 = x ± 1, 

96 ”. 

n 10 

α 

2


statistik 

Om vi hittar på att vi fått ett stickprovsmedelvärde på 1 006.2 och en 

stickprovsstandardavvikelse på 48.3 får vi: 

48, 

3 

1006 , 2 ± 1, 

96 = ( 996, 

7332, 

1015, 

6668) 

och vi kan säga att ”Med ca 95% 

10 

säkerhet ligger väntevärdet µ mellan 996,7 och 1015,7.”. 

c) Hur påverkas resonemanget/beräkningarna i b om Ztatistica plötsligt slås 

av insikten att vi söker väntevärdet i en ändlig population? 

Om populationen vi pratar om är ändlig, kan Ztatistica för det första börja 

med att konstatera att den aldrig kan vara exakt normalfördelad, eftersom 

normalfördelningen definitionsmässigt inte är ändlig. Om det gäller en liten 

ändlig population kan hon självfallet undersöka hela populationen och 

beräkna det sanna väntevärdet µ. Fast så enkelt är ju sällan fallet! Däremot 

är det ju så, att ju mindre populationen är, desto större andel kommer 

Ztatistica att ha undersökt med sin stickprovsstorlek på n=100. Det innebär 

vidare att ett konfidensintervall med samma bredd som ovan, d. v. s. ca 20, 

kommer att ha en mycket högre konfidensgrad än 95%. Analogt kommer ett 

95%-igt konfidensintervall att bli mycket smalare än 20 enheter, eftersom vi 

undersökt en större andel av populationen. Detta beror på att variansen för 

vår variabel, stickprovsmedelvärdet X , kommer att minska ju större andel 

av populationen vi undersöker. 

N − n 

Beräkningsmässigt dyker detta upp i ändlighetskorrektionen, . 

N − 1 

Ztatistica behöver därför reda på hur stor populationen är. Säg t. ex. att 

populationsstorleken N=300. 

I så fall kan vi ta fram ett ungefär 95%-igt konfidensintervall för µ som 

x ± 1, 96 

s 

n 

N − n 

48, 

3 

= 1006, 

2 ± 1, 

96 

N − 1 

10 

300 − 100 

ger ( 998, 

457; 

300 − 1 

1013, 

943) 

Med ca 95% säkerhet ligger väntevärdet µ mellan 998,4 och 1014,0 och vi har 

nu fått ett något snävare intervall. 

Sammanfattningsvis är det intressant att notera hur konfidensintervallens 

bredd påverkas av vad vi vet om slumpvariabelns fördelning, 

stickprovsstorlek och huruvida populationen är ändlig eller inte. Det 

bredaste intervallet fick vi i a, men då skall vi också ha i åtanke att vi bara 

hade fyra observationer!


statistik 

Uppgift 4 

En tillverkare av mp3-spelare garanterar att det är högst 10% av hans 

produkter som är defekta. En skeptisk inköpsansvarig gör en mycket 

noggrann urvalsprocedur och plockar ut 75 spelare som kan betraktas som 

slumpmässigt valda ur tillverkarens produktion. Om det är 13 eller fler defekta 

mp3-spelare bland dessa, så anser inköparen att han kunnat visa att spelarna 

är av sämre kvalitet än vad tillverkaren påstår, och planerar att konfrontera 

tillverkaren med detta. 

a) Sätt upp hypoteserna för testet som den inköpsansvarige gör. 

H0: Andelen defekta mp3-spelare π ≤ 0,10 

H1: Andelen defekta mp3-spelare π > 0,10 

b) Förklara dels i allmänna termer och dels i termer av vårt exempel vad typ- 

I-fel respektive typ-II-fel är. 

Ett typ-I-fel är att förkasta nollhypotesen trots att den är sann. Här skulle 

det motsvara att den inköpsansvarige får 13 eller fler defekta spelare i 

urvalet och drar slutsatsen att mer än 10% av mp3-spelarna är defekta, trots 

att så inte är fallet. Relaterat till typ-I-fel är signifikansnivån α, som är P(typ- 

I-fel). 

Ett typ-II-fel är att inte förkasta nollhypotesen när mothypotesen är sann. I 

vårt fall att den inköpsansvarige inte får åtminstone 13 defekta mp3-spelare i 

urvalet, trots att andelen defekta spelare är högre än 10%. Relaterat till typ- 

II-fel är β, P(typ-II-fel). 1- β kallas för styrka och är sannolikheten att 

förkasta den falska nollhypotesen givet en viss mothypotes. 

c) Beräkna testets signifikansnivå. Glöm inte halvkorrektionen! 

Signifikansnivån α är P(typ-I-fel). 

α=P(Minst 13 defekta mp3-spelare i urvalet | π = 0,10). 

Tillverkaren påstår att andelen defekta spelare är högst 10% och vi vill 

försöka visa att den är högre. Det värde vi räknar på i nollhypotesen måste 

då vara det högsta värdet i tillverkarens ”intervall”, d. v. s. 0,10. Tillverkaren 

har ju indirekt påstått att det i alla fall inte är mer än 10% defekta mp3spelare 

i urvalet. 

Vi inför X – Antal defekta mp3-spelare i ett slumpmässigt urval om 75 

spelare. En mp3-spelare är antingen defekt eller inte. Sannolikheten att en 

slumpmässigt vald spelare är defekt är π och den är samma för alla spelare i 

urvalet. Vidare: om vi har en mycket stor population av mp3-spelare kan vi 

anta att de 75 valda spelarna är oberoende av varandra. 

=> X är Bin(n=75 och π=0,10) när nollhypotesen är sann. 

=> α=P(X ≥ 13 | X är Bin(n=75 och π=0,10)) = 1-P(X ≤ 12)


statistik 

Eftersom vi inte har tabellvärden för n som är större än 50 och ogärna vill 

sitta och räkna för hand kontrollerar vi om vi kan approximera. Både nπ och 

n(1-π) är större än 5 (7,5 respektive 62,5) så det går bra. 

=> X är approx N(µ=nπ=7,5 σ=√(nπ(1-π))=√6,75). 

α = 1− 

P( 

X ≤ 12 + 0, 

5 | X är appr. 

N( 

μ = 7, 

5; 

σ = 6, 

75)) 

= 

X − μ 12 + 

1− 

P( 

≤ 

σ 

0, 

5 

− 

6, 

75 

7, 

5 

) = 1− 

P( 

Z ≤ 

1, 

92 

) = 1 − 

0, 

9726 

= 

0, 

0274 

Ang. halvkorrektion: Eftersom binomialfördelningen bara kan anta 

heltalsvärden medan normalfördelningen är kontinuerlig och kan anta alla 

värden, måste vi ”dela upp” värdeintervallet mellan 12 och 13. Vi 

halvkorrigerar, vilket motsvarar att tänka sig att värden mellan 12 och 12,5 

hör till 12 och att värden mellan 12,5 och 13 hör till 13. 

d) Anta det i själva verket är 20 % defekta enheter i partiet. Beräkna under 

denna förutsättning testets styrka. Glöm inte halvkorrektionen! 

Styrkan är sannolikheten att förkasta nollhypotesen givet att mothypotesen 

är sann, d. v. s. P(X ≥ 13 | π=0,20). 

Tumreglerna för normalapproximation är fortfarande uppfyllda, nπ=15 och 

n(1-π)=60. Uppställningen i övrigt blir precis som ovan, det som skiljer är att 

vi nu får ett nytt väntevärde och en ny standardavvikelse. X är approx 

N(µ=nπ=15 σ=√(nπ(1-π))=√12). 

Styrka = 1 − P( 

X ≤ 12 + 

0, 

5 | 

X är appr. 

N( 

μ = 

15; 

X − μ 12 + 0, 

5 − 15 

1− 

P( 

≤ 

) = 1− 

P( 

Z ≤ − 0, 

72 ) = 1− 

σ 12 

σ 

= 

12)) 

0, 

2358 

= 

= 

0, 

7642 

e) Vid stickprovskontrollen visade det sig vara 12 defekta enheter. Beräkna 

testets p-värde. Glöm inte halvkorrektionen! 

Ett tests p-värde är sannolikheten att få det observerade resultatet eller ännu 

extremare, givet att nollhypotesen är sann. P-värdet kan därför sägas vara 

den observerade, eller faktiska signifikansnivån om man tänker sig att man 

skulle förkasta nollhypotesen ”direkt”. 

=> P-värdet = P(X≥12 | π ≤ 0,10) = 1-P(X≤11 | π ≤ 0,10) 

α = 1− 

P( 

X ≤ 8 + 0, 

5 | X är appr. 

N( 

μ = 7, 

5; 

σ = 6, 

75)) 

= 

X − μ 11+ 

1− 

P( 

≤ 

σ 

0, 

5 

− 

6, 

75 

7, 

5 

) = 1− 

P( 

Z ≤ 

1, 

54 

) = 1− 

0, 

9382 

= 

0, 

0618 

Här är det en god idé att stanna upp ett slag och reflektera. Enligt vad 

inköpsansvarige bestämde från början, skulle han klaga hos tillverkaren om 

13 eller fler mp3-spelare i urvalet var defekta. Detta skulle då ge en 

signifikansnivå på knappt 3%, att jämföras med p-värdet på drygt 6%.


statistik 

Slutsatsen blir här att inte förkasta nollhypotesen, d. v. s. att avstå från att 

klaga hos tillverkaren. På 3% signifikansnivå kan vi inte påstå att andelen 

defekta mp3-spelare överstiger 10%. 

Men, frågan är om detta är det förnuftigaste att göra? En risk på drygt 6% - 

visserligen högre än vad inköparen från början bestämt sig för att acceptera 

– är den oacceptabelt hög egentligen? Detta kan bara den inköpsansvarige 

själv svara på. Det viktiga i sådana här situationer är att man inte bara 

mekaniskt jämför p-värdet med signifikansnivån, utan att man aktivt tar 

ställning till hur stor risk man är villig att ta att felaktigt förkasta 

nollhypotesen – även efter att själva stickprovsförfarandet har genomförts. 

Det är inte sällan som t. ex. forskare ”hoppar” direkt på p-värdet när man 

genomför olika studier, och sedan klassificerar undersökningens resultat 

utifrån dessa observerade signifikansnivåer. 

Uppgift 5 

Centrala gränsvärdessatsen, CGS, är mycket viktig inom statistisk teori. Ange 

i vilka av uppgifterna 1-4 ovan man kan dra nytta av CGS och på vilket sätt 

man utnyttjar satsen. För de uppgifter där CGS inte behöver användas, ge en 

kort motivering till varför satsen i dessa fall är ”överflödig/irrelevant”. 

Den Centrala gränsvärdessatsen formulerade vi i uppgift 3 ovan. Nu gäller det 

att se var den har använts, och var den inte har använts. 

Första gången vi var tvungna att utnyttja CGS för att kunna lösa uppgiften, var 

i 3b. Vi visste att vi hade en slumpvariabel, men ingenting mer. Vi behövde 

därför CGS, så att vi med hjälp av ett ”tillräckligt stort” stickprov kunde anta 

att stickprovsmedelvärdet blev approximativt normalfördelat. Därefter kunde vi 

beräkna ett konfidensintervall ”som vanligt”. Vi hade alltså inte kunnat beräkna 

konfidensintervallet på det sätt vi gjorde utan att stödja oss mot CGS. 

I 3c, som är en variant på 3b, använder vi en variant av CGS. Vi har ett 

”tillräckligt” stort stickprov, och behöver bara justera för att vi har en ändlig 

population. I övrigt stöjder vi oss mot CGS. 

Uppgift 4 har en binomialfördelad slumpvariabel, som redan i ”sig själv” är en 

summa av alla ”lyckade” oberoende delförsök under samma förutsättningar”. 

Detta innebär, att när antalet variabler i summan är tillräckligt stort, kan vi 

approximera variabeln till en normalfördelning. Dock: här är det inte bara att 

räkna antalet variabler n som ingår i summan. Vi behöver också ta hänsyn till π, 

sannolikheten för att ett enskilt delförsök skall lyckas. Ju längre från 0,5 π är, 

desto större antal delförsök behövs för att kompensera för att en sådan 

fördelning är väldigt skev. Även om binomialfördelningen bara kan anta 

heltalsvärden, är den ju faktiskt helt symmetrisk för π=0,5, vilket gör att det då 

också krävs väsentligen färre observationer för att normalapproximationen skall 

bli bra.


statistik 

Övriga uppgifter då? Uppgift 1 behandlar en ”enkel” normalfördelad 

slumpvariabel => CGS är helt överflödig. 

Uppgift 2 handlar om att vi beräknar medelvärdet av ett antal normalfördelade 

slumpvariabler. Detta medelvärdet kommer då också alltid att vara 

normalfördelat (se ”Anmärkning 2” på andra sidan i det kompletterande 

kompendiematerialet som hör till kapitel 8) och eftersom vi känner till 

populationsstandardavvikelsen kan vi även räkna ”normalfördelat”. 

I uppgift 3a har vi fortfarande medelvärdet av ett antal normalfördelade 

variabler, som då också är normalfördelat. Detta innebär att CGS inte är aktuell 

(CGS har ju bara någon poäng om den ursprungliga populationen inte är 

normalfördelad). Det som i stället händer, är att vi inte känner till 

populationsstandardavvikelsen σ och att vi därför utnyttjar t-fördelningen. 

Detta har dock ingenting med CGS att göra. 

Uppgift 6 

En pedagog vill undersöka hur läshastigheten Y (ord/minut) påverkas av 

åldern X (år). Hon utför därför ett experiment där hon låter 11 slumpmässigt 

valda barn på en skola göra ett läshastighetsprov. Resultatet blev 

y 110 100 130 120 150 130 140 150 185 180 155 

x 10 11 11 12 12 13 13 13 14 15 15 

För att beskriva det aktuella sambandet avser hon använda en linjär 

regressionsmodell. 

a) Ta fram en skattning av den linjära regressionsmodellen. 

Vi använder modellen y = a + bx, där 

b = 

n∑ 

n 

xy − ∑ 

2 

x − ( 

x∑ 

y 

= 2 

x) 

11* 

19945 

− 139* 

1550 

≈ 2 

11* 

1783 

− 139 

∑ ∑ 

1550 

− 13, 

5103* 

139 

a = y − bx 

= 

11 

=> y = –29,81 + 13,51x . 

≈ 

− 

29, 

8120 

13, 

5103 

Modellen ger alltså en rät linje med ett intercept på ca -30 och en 

riktningskoefficient på +13,5.


statistik 

b) Rita ett diagram över observationerna och regressionslinjen. 

Här är förvisso inte linjen inritad, men det går ändå att se att 

punkterna ligger spridda på ett sådant vis att ett linjär modell ger en 

ganska bra beskrivning av sambandet mellan läshastighet och ålder. 

c) Beräkna korrelationskoefficienten och förklaringsgraden / 

determinationskoefficienten. 

n xy − x y 

r = 

= 

2 

2 

n∑ 

x − ( ∑ x) 

⇒ 

r 

2 

∑ 

≈ 

Samband mellan läshastighet och ålder 

Läshastighet (ord/minut) 

200 

180 

160 

140 

120 

100 

80 

60 

40 

20 

0, 

6785 

0 

∑ ∑ 

9 10 11 12 13 14 15 16 

11* 

19945 

Ålder (år) 

− 

139* 

1550 

2 

11* 

1783 

− 139 

≈ 

0, 

8237 

d) Tolka regressionskoefficienten b i ord, och förklara vad som här kan 

utläsas av förklaringsgraden / determinationskoefficienten. 

Att regressionskoefficienten b=13,5 innebär att läshastigheten mätt i 

antal ord per minut ökar med i genomsnitt 13,5 ord för varje år äldre 

som barnen blir, givet det undersökta åldersintervallet i den 

undersökta populationen. 

Vad som är viktigt här, är att inte använda modellen utanför det 

undersökta åldersintervallet. Vi ser t. ex. att ett nyfött barn enligt 

modellen skulle ha en negativ läshastighet, på -30 ord/minut. Detta är 

självfallet helt orimligt. 

Förklaringsgraden, eller determinationskoefficienten mäter hur stor 

andel av variationen i läshastighet som kan hänföras till variationen i 

ålder, d. v. s att barnen är olika gamla. I den här modellen ser vi att 

68% av deras förbättrade läsförmåga verkar kunna förklaras av att 

barnen blir äldre (och har hunnit öva mer). Resterande kan 32% 

alltså anses bero dels på en individuell variation, dels på 

förklaringsvariabler som inte finns med i modellen.

Några exempel där styrkan beräknas är: - Karlstads universitet

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?