09.09.2013 Views

Några exempel där styrkan beräknas är: - Karlstads universitet

Några exempel där styrkan beräknas är: - Karlstads universitet

Några exempel där styrkan beräknas är: - Karlstads universitet

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />

statistik<br />

Tentamen i statistik för STA A13, 1-10 poäng<br />

Deltentamen II, 5p<br />

Lördag 9 juni 2007 kl. 09.00-13.00<br />

______________________________________________________________<br />

Tillåtna hjälpmedel: Bifogad formel- och tabellsamling (skall returneras)<br />

samt miniräknare.<br />

Ansvarig l<strong>är</strong>are: Cecilia Hågland<br />

Övrigt: Varje uppgift kan ge max 10p. Lösningar skall utan svårighet kunna<br />

följas. Införda beteckningar skall förklaras. För betyget Godkänd krävs minst<br />

30p och för Väl godkänd krävs minst 45p.<br />

Uppgift 1<br />

Slumpvariabeln X <strong>är</strong> N(µ= 1 000; σ = 100).<br />

a) Skissa frekvens-/sannolikhetsfunktionen för variabeln X och markera<br />

väntev<strong>är</strong>de, median och standardavvikelse i figuren.<br />

b) Beräkna sannolikheten för att X ligger utanför intervallet µ ± σ, samt rita<br />

en figur som illustrerar denna sannolikhet.<br />

c) Vad <strong>är</strong> sannolikheten för att X ligger inom intervallet [950; 1 150]?<br />

Illustrera även detta i en figur.<br />

d) För vilka symmetriska intervall av v<strong>är</strong>den gäller att sannolikheten att ett<br />

slumpmässigt X-v<strong>är</strong>de hamnar inom själva intervallet <strong>är</strong> 0,90 respektive<br />

0,99? Rita en (eller två) figur(er) och markera tydligt hur intervallen ligger.<br />

e) Beräkna: P(|X-µ| ≤ σ) samt illustrera det aktuella området i en figur.<br />

För lösningar på uppgift 1, se separat fil.<br />

Uppgift 2<br />

Utgå från samma normalfördelade slumpvariabel, X, som i uppgift 1.<br />

a) Om vi <strong>är</strong> fullständigt insatta i vilken fördelning X följer och gör ett<br />

slumpmässigt urval om n=4 observationer från populationen, vilken<br />

fördelning följer då stickprovsmedelv<strong>är</strong>det X ? Glöm inte att ange all<br />

relevant information (bara fördelningens namn räcker inte).<br />

Om X <strong>är</strong> normalfördelad <strong>är</strong> X också normalfördelad (se<br />

kompletteringsmaterialet till kapitel 8, under ”Anm<strong>är</strong>kning 2”. Detta räcker<br />

dock inte som svar, utan vi måste ha med normalfördelningens parametrar<br />

också. Väntev<strong>är</strong>det E( X ) = μ X <strong>är</strong> alltid samma som väntev<strong>är</strong>det för X, =><br />

μ X = μ<br />

σ X<br />

= 100 , och standardavvikelsen för X , σ X , <strong>är</strong> alltid<br />

n<br />

, vilket h<strong>är</strong><br />

100<br />

blir = 50 . ⇒ X <strong>är</strong> N(<br />

μ = 1000,<br />

σ = 50)<br />

X<br />

X .<br />

4


<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />

statistik<br />

b) Vad <strong>är</strong> sannolikheten för att medelv<strong>är</strong>det i stickprovet ligger utanför<br />

intervallet E ( X ) ± V ( X ) ?<br />

Eftersom X <strong>är</strong> normalfördelad precis som X, <strong>är</strong> sannolikheten för att X<br />

skulle ligga utanför intervallet E ( X ) ± V ( X ) lika stor som att X skulle ligga<br />

utanför intervallet E ( X ) ± V ( X ) , d. v. s. utanför intervallet μ ± σ .<br />

Denna sannolikhet har vi redan tagit fram i 1b och den <strong>är</strong> 0,3174.<br />

Om man inte upptäcker likheten med 1b går det naturligtvis bra att i stället<br />

använda resultatet i 2a och räkna ut sannolikheten att X ligger utanför<br />

intervallet μ<br />

σ X<br />

±<br />

n<br />

= 1 000 ± 50 , eller utanför intervallet (950; 1 050).<br />

1−<br />

P(<br />

950 ≤<br />

950 − 1000<br />

X ≤ 1050)<br />

= 1−<br />

P(<br />

≤<br />

100<br />

X −<br />

σ<br />

μ 1050<br />

− μ<br />

≤ ) =<br />

100<br />

1 − P(<br />

− 1 ≤ Z ≤ 1)<br />

= 1−<br />

[ P(<br />

Z <<br />

1)<br />

− P(<br />

Z < −<br />

1)]<br />

4 n 4<br />

= 1−<br />

( 0,<br />

8413 − 0,<br />

1587)<br />

= 1 − 0,<br />

6826 =<br />

0,<br />

3174<br />

Uppgift 3<br />

Den förvirrade statistikl<strong>är</strong>aren Ztatistica ”tappar bort” både väntev<strong>är</strong>de och<br />

standardavvikelse för slumpvariabeln X från uppgifterna ovan.<br />

a) Antag att Ztatistica trots allt lyckas hålla i minnet att variabeln <strong>är</strong><br />

normalfördelad. Om hon i detta läge drar ett slumpmässigt stickprov om<br />

n=4 observationer från populationen och beräknar diverse intressanta<br />

läges- och spridningsmått i stickprovet – hur skulle hon <strong>d<strong>är</strong></strong>efter kunna<br />

utnyttja denna information på bästa sätt för att försöka ta reda på ungef<strong>är</strong><br />

hur stort väntev<strong>är</strong>det för X <strong>är</strong>? Hitta på siffror i lämplig storleksordning –<br />

sunt förnuft räcker! – för att illustrera din redogörelse ytterligare och<br />

förklara också i ord vad Ztatistica faktiskt skulle kunna säga beträffande<br />

väntev<strong>är</strong>det för X.<br />

Om Ztatistica beräknar medelv<strong>är</strong>de och standardavvikelse i stickprovet, kan<br />

hon sedan utnyttja kunskapen om att den underliggande populationen <strong>är</strong><br />

normalfördelad och ta fram ett konfidentiella för väntev<strong>är</strong>det μ. Specifikt:<br />

N<strong>är</strong> Ztatistica drar ett litet urval från en normalfördelad population med<br />

X − μ<br />

okänd standardavvikelse vet hon att<br />

t-fördelning med (n-1=3) frihetsgrader.<br />

s<br />

n<br />

följer en<br />

Ett (<strong>exempel</strong>vis) 95%-igt konfidensintervall för μ kan då <strong>beräknas</strong> som:<br />

x ±<br />

t0,<br />

975 ( 3)<br />

s<br />

=<br />

n<br />

x ± 3,<br />

18<br />

s<br />

4


<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />

statistik<br />

Om vi nu hittar på någorlunda realistiska v<strong>är</strong>den, t. ex. att<br />

stickprovsmedelv<strong>är</strong>det blir 982 och stickprovsstandardavvikelsen 54, får vi<br />

54<br />

intervallet 982 ± 3,<br />

18 = ( 896,<br />

14;<br />

1067,<br />

86)<br />

2<br />

Ztatistica kan nu påstå att ”Med 95% säkerhet ligger väntev<strong>är</strong>det för X<br />

mellan 896 och 1068”.<br />

b) Den förvirrade statistikl<strong>är</strong>aren Ztatistica <strong>är</strong> nu om möjligt ännu mer<br />

förvirrad. Hon kommer inte ihåg någonting om slumpvariabeln X (mer än<br />

att det <strong>är</strong> just en slumpvariabel!). Kom med en välmotiverad, utförlig<br />

beskrivning på hur Ztatistica i detta läge skulle kunna gå tillväga för att få<br />

en riktigt hygglig uppfattning om hur stort väntev<strong>är</strong>det för X <strong>är</strong>. Hitta på<br />

siffror i lämplig storleksordning – sunt förnuft + relevanta ämneskunskaper<br />

krävs – för att illustrera din redogörelse ytterligare och förklara också i ord<br />

vad Ztatistica faktiskt skulle kunna säga beträffande väntev<strong>är</strong>det för X.<br />

Om vi har en slumpvariabel som vi inte vet någonting om, <strong>är</strong> det en god idé<br />

för Ztatistica att dra ett stort slumpmässigt stickprov ur populationen.<br />

Eftersom hon vet att stickprovsmedelv<strong>är</strong>det <strong>är</strong> en väntev<strong>är</strong>desriktig<br />

skattning av väntev<strong>är</strong>det µ, kan hon enkelt göra en punktskattning av<br />

väntev<strong>är</strong>det.<br />

Men detta ger ju bara ett v<strong>är</strong>de, som Ztatistica inte alls vet hur n<strong>är</strong>a<br />

sanningen det ligger. H<strong>är</strong> kan hon <strong>d<strong>är</strong></strong>för med fördel utnyttja den Centrala<br />

gränsv<strong>är</strong>dessatsen, CGS. CGS säger att ”En summa av oberoende<br />

slumpvariabler från samma fördelning följer ungef<strong>är</strong> en normalfördelning,<br />

om antalet variabler som ingår i summan bara <strong>är</strong> tillräckligt stort”. Eftersom<br />

Ztatistica <strong>är</strong> väl påläst, vet hon vidare att ett stickprovsmedelv<strong>är</strong>de <strong>är</strong> just en<br />

X 1 X 2 X 3 X n<br />

summa av slumpvariabler, X = + + + ... + , och att vi dividerar<br />

n n n n<br />

respektive observation med ”n” saknar betydelse för formen på fördelningen.<br />

Om nu X =<br />

X 1<br />

+<br />

n<br />

X 2<br />

+<br />

n<br />

X 3<br />

+<br />

n<br />

... +<br />

X n<br />

<strong>är</strong> ungef<strong>är</strong> normalfördelad och<br />

n<br />

Ztatistica vet (eller slår upp i formelsamlingen) att väntev<strong>är</strong>de och<br />

standardavvikelse för X <strong>är</strong> μ respektive<br />

σ<br />

kan hon även se att hon kan<br />

n<br />

beräkna ett 100(1-α)%-igt konfidensintervall för µ som x ± z<br />

1−<br />

σ<br />

n<br />

Fast hur gör hon med den okända standardavvikelsen σ? Jo, eftersom<br />

Ztatistica tog ett stort stickprov, om t. ex. n=100 observationer, kan hon<br />

skatta σ med stickprovsstandardavvikelsen s och säga att: ”Med cirka 95%<br />

(<strong>exempel</strong>vis) säkerhet ligger väntev<strong>är</strong>det µ inom intervallet<br />

s<br />

s<br />

x ± z0,<br />

975 = x ± 1,<br />

96 ”.<br />

n 10<br />

α<br />

2


<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />

statistik<br />

Om vi hittar på att vi fått ett stickprovsmedelv<strong>är</strong>de på 1 006.2 och en<br />

stickprovsstandardavvikelse på 48.3 får vi:<br />

48,<br />

3<br />

1006 , 2 ± 1,<br />

96 = ( 996,<br />

7332,<br />

1015,<br />

6668)<br />

och vi kan säga att ”Med ca 95%<br />

10<br />

säkerhet ligger väntev<strong>är</strong>det µ mellan 996,7 och 1015,7.”.<br />

c) Hur påverkas resonemanget/beräkningarna i b om Ztatistica plötsligt slås<br />

av insikten att vi söker väntev<strong>är</strong>det i en ändlig population?<br />

Om populationen vi pratar om <strong>är</strong> ändlig, kan Ztatistica för det första börja<br />

med att konstatera att den aldrig kan vara exakt normalfördelad, eftersom<br />

normalfördelningen definitionsmässigt inte <strong>är</strong> ändlig. Om det gäller en liten<br />

ändlig population kan hon självfallet undersöka hela populationen och<br />

beräkna det sanna väntev<strong>är</strong>det µ. Fast så enkelt <strong>är</strong> ju sällan fallet! D<strong>är</strong>emot<br />

<strong>är</strong> det ju så, att ju mindre populationen <strong>är</strong>, desto större andel kommer<br />

Ztatistica att ha undersökt med sin stickprovsstorlek på n=100. Det inneb<strong>är</strong><br />

vidare att ett konfidensintervall med samma bredd som ovan, d. v. s. ca 20,<br />

kommer att ha en mycket högre konfidensgrad än 95%. Analogt kommer ett<br />

95%-igt konfidensintervall att bli mycket smalare än 20 enheter, eftersom vi<br />

undersökt en större andel av populationen. Detta beror på att variansen för<br />

vår variabel, stickprovsmedelv<strong>är</strong>det X , kommer att minska ju större andel<br />

av populationen vi undersöker.<br />

N − n<br />

Beräkningsmässigt dyker detta upp i ändlighetskorrektionen, .<br />

N − 1<br />

Ztatistica behöver <strong>d<strong>är</strong></strong>för reda på hur stor populationen <strong>är</strong>. Säg t. ex. att<br />

populationsstorleken N=300.<br />

I så fall kan vi ta fram ett ungef<strong>är</strong> 95%-igt konfidensintervall för µ som<br />

x ± 1, 96<br />

s<br />

n<br />

N − n<br />

48,<br />

3<br />

= 1006,<br />

2 ± 1,<br />

96<br />

N − 1<br />

10<br />

300 − 100<br />

ger ( 998,<br />

457;<br />

300 − 1<br />

1013,<br />

943)<br />

Med ca 95% säkerhet ligger väntev<strong>är</strong>det µ mellan 998,4 och 1014,0 och vi har<br />

nu fått ett något snävare intervall.<br />

Sammanfattningsvis <strong>är</strong> det intressant att notera hur konfidensintervallens<br />

bredd påverkas av vad vi vet om slumpvariabelns fördelning,<br />

stickprovsstorlek och huruvida populationen <strong>är</strong> ändlig eller inte. Det<br />

bredaste intervallet fick vi i a, men då skall vi också ha i åtanke att vi bara<br />

hade fyra observationer!


<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />

statistik<br />

Uppgift 4<br />

En tillverkare av mp3-spelare garanterar att det <strong>är</strong> högst 10% av hans<br />

produkter som <strong>är</strong> defekta. En skeptisk inköpsansvarig gör en mycket<br />

noggrann urvalsprocedur och plockar ut 75 spelare som kan betraktas som<br />

slumpmässigt valda ur tillverkarens produktion. Om det <strong>är</strong> 13 eller fler defekta<br />

mp3-spelare bland dessa, så anser inköparen att han kunnat visa att spelarna<br />

<strong>är</strong> av sämre kvalitet än vad tillverkaren påstår, och planerar att konfrontera<br />

tillverkaren med detta.<br />

a) Sätt upp hypoteserna för testet som den inköpsansvarige gör.<br />

H0: Andelen defekta mp3-spelare π ≤ 0,10<br />

H1: Andelen defekta mp3-spelare π > 0,10<br />

b) Förklara dels i allmänna termer och dels i termer av vårt <strong>exempel</strong> vad typ-<br />

I-fel respektive typ-II-fel <strong>är</strong>.<br />

Ett typ-I-fel <strong>är</strong> att förkasta nollhypotesen trots att den <strong>är</strong> sann. H<strong>är</strong> skulle<br />

det motsvara att den inköpsansvarige får 13 eller fler defekta spelare i<br />

urvalet och drar slutsatsen att mer än 10% av mp3-spelarna <strong>är</strong> defekta, trots<br />

att så inte <strong>är</strong> fallet. Relaterat till typ-I-fel <strong>är</strong> signifikansnivån α, som <strong>är</strong> P(typ-<br />

I-fel).<br />

Ett typ-II-fel <strong>är</strong> att inte förkasta nollhypotesen n<strong>är</strong> mothypotesen <strong>är</strong> sann. I<br />

vårt fall att den inköpsansvarige inte får åtminstone 13 defekta mp3-spelare i<br />

urvalet, trots att andelen defekta spelare <strong>är</strong> högre än 10%. Relaterat till typ-<br />

II-fel <strong>är</strong> β, P(typ-II-fel). 1- β kallas för styrka och <strong>är</strong> sannolikheten att<br />

förkasta den falska nollhypotesen givet en viss mothypotes.<br />

c) Beräkna testets signifikansnivå. Glöm inte halvkorrektionen!<br />

Signifikansnivån α <strong>är</strong> P(typ-I-fel).<br />

α=P(Minst 13 defekta mp3-spelare i urvalet | π = 0,10).<br />

Tillverkaren påstår att andelen defekta spelare <strong>är</strong> högst 10% och vi vill<br />

försöka visa att den <strong>är</strong> högre. Det v<strong>är</strong>de vi räknar på i nollhypotesen måste<br />

då vara det högsta v<strong>är</strong>det i tillverkarens ”intervall”, d. v. s. 0,10. Tillverkaren<br />

har ju indirekt påstått att det i alla fall inte <strong>är</strong> mer än 10% defekta mp3spelare<br />

i urvalet.<br />

Vi inför X – Antal defekta mp3-spelare i ett slumpmässigt urval om 75<br />

spelare. En mp3-spelare <strong>är</strong> antingen defekt eller inte. Sannolikheten att en<br />

slumpmässigt vald spelare <strong>är</strong> defekt <strong>är</strong> π och den <strong>är</strong> samma för alla spelare i<br />

urvalet. Vidare: om vi har en mycket stor population av mp3-spelare kan vi<br />

anta att de 75 valda spelarna <strong>är</strong> oberoende av varandra.<br />

=> X <strong>är</strong> Bin(n=75 och π=0,10) n<strong>är</strong> nollhypotesen <strong>är</strong> sann.<br />

=> α=P(X ≥ 13 | X <strong>är</strong> Bin(n=75 och π=0,10)) = 1-P(X ≤ 12)


<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />

statistik<br />

Eftersom vi inte har tabellv<strong>är</strong>den för n som <strong>är</strong> större än 50 och og<strong>är</strong>na vill<br />

sitta och räkna för hand kontrollerar vi om vi kan approximera. Både nπ och<br />

n(1-π) <strong>är</strong> större än 5 (7,5 respektive 62,5) så det går bra.<br />

=> X <strong>är</strong> approx N(µ=nπ=7,5 σ=√(nπ(1-π))=√6,75).<br />

α = 1−<br />

P(<br />

X ≤ 12 + 0,<br />

5 | X <strong>är</strong> appr.<br />

N(<br />

μ = 7,<br />

5;<br />

σ = 6,<br />

75))<br />

=<br />

X − μ 12 +<br />

1−<br />

P(<br />

≤<br />

σ<br />

0,<br />

5<br />

−<br />

6,<br />

75<br />

7,<br />

5<br />

) = 1−<br />

P(<br />

Z ≤<br />

1,<br />

92<br />

) = 1 −<br />

0,<br />

9726<br />

=<br />

0,<br />

0274<br />

Ang. halvkorrektion: Eftersom binomialfördelningen bara kan anta<br />

heltalsv<strong>är</strong>den medan normalfördelningen <strong>är</strong> kontinuerlig och kan anta alla<br />

v<strong>är</strong>den, måste vi ”dela upp” v<strong>är</strong>deintervallet mellan 12 och 13. Vi<br />

halvkorrigerar, vilket motsvarar att tänka sig att v<strong>är</strong>den mellan 12 och 12,5<br />

hör till 12 och att v<strong>är</strong>den mellan 12,5 och 13 hör till 13.<br />

d) Anta det i själva verket <strong>är</strong> 20 % defekta enheter i partiet. Beräkna under<br />

denna förutsättning testets styrka. Glöm inte halvkorrektionen!<br />

Styrkan <strong>är</strong> sannolikheten att förkasta nollhypotesen givet att mothypotesen<br />

<strong>är</strong> sann, d. v. s. P(X ≥ 13 | π=0,20).<br />

Tumreglerna för normalapproximation <strong>är</strong> fortfarande uppfyllda, nπ=15 och<br />

n(1-π)=60. Uppställningen i övrigt blir precis som ovan, det som skiljer <strong>är</strong> att<br />

vi nu får ett nytt väntev<strong>är</strong>de och en ny standardavvikelse. X <strong>är</strong> approx<br />

N(µ=nπ=15 σ=√(nπ(1-π))=√12).<br />

Styrka = 1 − P(<br />

X ≤ 12 +<br />

0,<br />

5 |<br />

X <strong>är</strong> appr.<br />

N(<br />

μ =<br />

15;<br />

X − μ 12 + 0,<br />

5 − 15<br />

1−<br />

P(<br />

≤<br />

) = 1−<br />

P(<br />

Z ≤ − 0,<br />

72 ) = 1−<br />

σ 12<br />

σ<br />

=<br />

12))<br />

0,<br />

2358<br />

=<br />

=<br />

0,<br />

7642<br />

e) Vid stickprovskontrollen visade det sig vara 12 defekta enheter. Beräkna<br />

testets p-v<strong>är</strong>de. Glöm inte halvkorrektionen!<br />

Ett tests p-v<strong>är</strong>de <strong>är</strong> sannolikheten att få det observerade resultatet eller ännu<br />

extremare, givet att nollhypotesen <strong>är</strong> sann. P-v<strong>är</strong>det kan <strong>d<strong>är</strong></strong>för sägas vara<br />

den observerade, eller faktiska signifikansnivån om man tänker sig att man<br />

skulle förkasta nollhypotesen ”direkt”.<br />

=> P-v<strong>är</strong>det = P(X≥12 | π ≤ 0,10) = 1-P(X≤11 | π ≤ 0,10)<br />

α = 1−<br />

P(<br />

X ≤ 8 + 0,<br />

5 | X <strong>är</strong> appr.<br />

N(<br />

μ = 7,<br />

5;<br />

σ = 6,<br />

75))<br />

=<br />

X − μ 11+<br />

1−<br />

P(<br />

≤<br />

σ<br />

0,<br />

5<br />

−<br />

6,<br />

75<br />

7,<br />

5<br />

) = 1−<br />

P(<br />

Z ≤<br />

1,<br />

54<br />

) = 1−<br />

0,<br />

9382<br />

=<br />

0,<br />

0618<br />

H<strong>är</strong> <strong>är</strong> det en god idé att stanna upp ett slag och reflektera. Enligt vad<br />

inköpsansvarige bestämde från början, skulle han klaga hos tillverkaren om<br />

13 eller fler mp3-spelare i urvalet var defekta. Detta skulle då ge en<br />

signifikansnivå på knappt 3%, att jämföras med p-v<strong>är</strong>det på drygt 6%.


<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />

statistik<br />

Slutsatsen blir h<strong>är</strong> att inte förkasta nollhypotesen, d. v. s. att avstå från att<br />

klaga hos tillverkaren. På 3% signifikansnivå kan vi inte påstå att andelen<br />

defekta mp3-spelare överstiger 10%.<br />

Men, frågan <strong>är</strong> om detta <strong>är</strong> det förnuftigaste att göra? En risk på drygt 6% -<br />

visserligen högre än vad inköparen från början bestämt sig för att acceptera<br />

– <strong>är</strong> den oacceptabelt hög egentligen? Detta kan bara den inköpsansvarige<br />

själv svara på. Det viktiga i sådana h<strong>är</strong> situationer <strong>är</strong> att man inte bara<br />

mekaniskt jämför p-v<strong>är</strong>det med signifikansnivån, utan att man aktivt tar<br />

ställning till hur stor risk man <strong>är</strong> villig att ta att felaktigt förkasta<br />

nollhypotesen – även efter att själva stickprovsförfarandet har genomförts.<br />

Det <strong>är</strong> inte sällan som t. ex. forskare ”hoppar” direkt på p-v<strong>är</strong>det n<strong>är</strong> man<br />

genomför olika studier, och sedan klassificerar undersökningens resultat<br />

utifrån dessa observerade signifikansnivåer.<br />

Uppgift 5<br />

Centrala gränsv<strong>är</strong>dessatsen, CGS, <strong>är</strong> mycket viktig inom statistisk teori. Ange<br />

i vilka av uppgifterna 1-4 ovan man kan dra nytta av CGS och på vilket sätt<br />

man utnyttjar satsen. För de uppgifter <strong>d<strong>är</strong></strong> CGS inte behöver användas, ge en<br />

kort motivering till varför satsen i dessa fall <strong>är</strong> ”överflödig/irrelevant”.<br />

Den Centrala gränsv<strong>är</strong>dessatsen formulerade vi i uppgift 3 ovan. Nu gäller det<br />

att se var den har använts, och var den inte har använts.<br />

Första gången vi var tvungna att utnyttja CGS för att kunna lösa uppgiften, var<br />

i 3b. Vi visste att vi hade en slumpvariabel, men ingenting mer. Vi behövde<br />

<strong>d<strong>är</strong></strong>för CGS, så att vi med hjälp av ett ”tillräckligt stort” stickprov kunde anta<br />

att stickprovsmedelv<strong>är</strong>det blev approximativt normalfördelat. D<strong>är</strong>efter kunde vi<br />

beräkna ett konfidensintervall ”som vanligt”. Vi hade alltså inte kunnat beräkna<br />

konfidensintervallet på det sätt vi gjorde utan att stödja oss mot CGS.<br />

I 3c, som <strong>är</strong> en variant på 3b, använder vi en variant av CGS. Vi har ett<br />

”tillräckligt” stort stickprov, och behöver bara justera för att vi har en ändlig<br />

population. I övrigt stöjder vi oss mot CGS.<br />

Uppgift 4 har en binomialfördelad slumpvariabel, som redan i ”sig själv” <strong>är</strong> en<br />

summa av alla ”lyckade” oberoende delförsök under samma förutsättningar”.<br />

Detta inneb<strong>är</strong>, att n<strong>är</strong> antalet variabler i summan <strong>är</strong> tillräckligt stort, kan vi<br />

approximera variabeln till en normalfördelning. Dock: h<strong>är</strong> <strong>är</strong> det inte bara att<br />

räkna antalet variabler n som ingår i summan. Vi behöver också ta hänsyn till π,<br />

sannolikheten för att ett enskilt delförsök skall lyckas. Ju längre från 0,5 π <strong>är</strong>,<br />

desto större antal delförsök behövs för att kompensera för att en sådan<br />

fördelning <strong>är</strong> väldigt skev. Även om binomialfördelningen bara kan anta<br />

heltalsv<strong>är</strong>den, <strong>är</strong> den ju faktiskt helt symmetrisk för π=0,5, vilket gör att det då<br />

också krävs väsentligen f<strong>är</strong>re observationer för att normalapproximationen skall<br />

bli bra.


<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />

statistik<br />

Övriga uppgifter då? Uppgift 1 behandlar en ”enkel” normalfördelad<br />

slumpvariabel => CGS <strong>är</strong> helt överflödig.<br />

Uppgift 2 handlar om att vi beräknar medelv<strong>är</strong>det av ett antal normalfördelade<br />

slumpvariabler. Detta medelv<strong>är</strong>det kommer då också alltid att vara<br />

normalfördelat (se ”Anm<strong>är</strong>kning 2” på andra sidan i det kompletterande<br />

kompendiematerialet som hör till kapitel 8) och eftersom vi känner till<br />

populationsstandardavvikelsen kan vi även räkna ”normalfördelat”.<br />

I uppgift 3a har vi fortfarande medelv<strong>är</strong>det av ett antal normalfördelade<br />

variabler, som då också <strong>är</strong> normalfördelat. Detta inneb<strong>är</strong> att CGS inte <strong>är</strong> aktuell<br />

(CGS har ju bara någon poäng om den ursprungliga populationen inte <strong>är</strong><br />

normalfördelad). Det som i stället händer, <strong>är</strong> att vi inte känner till<br />

populationsstandardavvikelsen σ och att vi <strong>d<strong>är</strong></strong>för utnyttjar t-fördelningen.<br />

Detta har dock ingenting med CGS att göra.<br />

Uppgift 6<br />

En pedagog vill undersöka hur läshastigheten Y (ord/minut) påverkas av<br />

åldern X (år). Hon utför <strong>d<strong>är</strong></strong>för ett experiment <strong>d<strong>är</strong></strong> hon låter 11 slumpmässigt<br />

valda barn på en skola göra ett läshastighetsprov. Resultatet blev<br />

y 110 100 130 120 150 130 140 150 185 180 155<br />

x 10 11 11 12 12 13 13 13 14 15 15<br />

För att beskriva det aktuella sambandet avser hon använda en linj<strong>är</strong><br />

regressionsmodell.<br />

a) Ta fram en skattning av den linj<strong>är</strong>a regressionsmodellen.<br />

Vi använder modellen y = a + bx, <strong>d<strong>är</strong></strong><br />

b =<br />

n∑<br />

n<br />

xy − ∑<br />

2<br />

x − (<br />

x∑<br />

y<br />

= 2<br />

x)<br />

11*<br />

19945<br />

− 139*<br />

1550<br />

≈ 2<br />

11*<br />

1783<br />

− 139<br />

∑ ∑<br />

1550<br />

− 13,<br />

5103*<br />

139<br />

a = y − bx<br />

=<br />

11<br />

=> y = –29,81 + 13,51x .<br />

≈<br />

−<br />

29,<br />

8120<br />

13,<br />

5103<br />

Modellen ger alltså en rät linje med ett intercept på ca -30 och en<br />

riktningskoefficient på +13,5.


<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />

statistik<br />

b) Rita ett diagram över observationerna och regressionslinjen.<br />

H<strong>är</strong> <strong>är</strong> förvisso inte linjen inritad, men det går ändå att se att<br />

punkterna ligger spridda på ett sådant vis att ett linj<strong>är</strong> modell ger en<br />

ganska bra beskrivning av sambandet mellan läshastighet och ålder.<br />

c) Beräkna korrelationskoefficienten och förklaringsgraden /<br />

determinationskoefficienten.<br />

n xy − x y<br />

r =<br />

=<br />

2<br />

2<br />

n∑<br />

x − ( ∑ x)<br />

⇒<br />

r<br />

2<br />

∑<br />

≈<br />

Samband mellan läshastighet och ålder<br />

Läshastighet (ord/minut)<br />

200<br />

180<br />

160<br />

140<br />

120<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0,<br />

6785<br />

0<br />

∑ ∑<br />

9 10 11 12 13 14 15 16<br />

11*<br />

19945<br />

Ålder (år)<br />

−<br />

139*<br />

1550<br />

2<br />

11*<br />

1783<br />

− 139<br />

≈<br />

0,<br />

8237<br />

d) Tolka regressionskoefficienten b i ord, och förklara vad som h<strong>är</strong> kan<br />

utläsas av förklaringsgraden / determinationskoefficienten.<br />

Att regressionskoefficienten b=13,5 inneb<strong>är</strong> att läshastigheten mätt i<br />

antal ord per minut ökar med i genomsnitt 13,5 ord för varje år äldre<br />

som barnen blir, givet det undersökta åldersintervallet i den<br />

undersökta populationen.<br />

Vad som <strong>är</strong> viktigt h<strong>är</strong>, <strong>är</strong> att inte använda modellen utanför det<br />

undersökta åldersintervallet. Vi ser t. ex. att ett nyfött barn enligt<br />

modellen skulle ha en negativ läshastighet, på -30 ord/minut. Detta <strong>är</strong><br />

självfallet helt orimligt.<br />

Förklaringsgraden, eller determinationskoefficienten mäter hur stor<br />

andel av variationen i läshastighet som kan hänföras till variationen i<br />

ålder, d. v. s att barnen <strong>är</strong> olika gamla. I den h<strong>är</strong> modellen ser vi att<br />

68% av deras förbättrade läsförmåga verkar kunna förklaras av att<br />

barnen blir äldre (och har hunnit öva mer). Resterande kan 32%<br />

alltså anses bero dels på en individuell variation, dels på<br />

förklaringsvariabler som inte finns med i modellen.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!