Några exempel där styrkan beräknas är: - Karlstads universitet
Några exempel där styrkan beräknas är: - Karlstads universitet
Några exempel där styrkan beräknas är: - Karlstads universitet
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />
statistik<br />
Tentamen i statistik för STA A13, 1-10 poäng<br />
Deltentamen II, 5p<br />
Lördag 9 juni 2007 kl. 09.00-13.00<br />
______________________________________________________________<br />
Tillåtna hjälpmedel: Bifogad formel- och tabellsamling (skall returneras)<br />
samt miniräknare.<br />
Ansvarig l<strong>är</strong>are: Cecilia Hågland<br />
Övrigt: Varje uppgift kan ge max 10p. Lösningar skall utan svårighet kunna<br />
följas. Införda beteckningar skall förklaras. För betyget Godkänd krävs minst<br />
30p och för Väl godkänd krävs minst 45p.<br />
Uppgift 1<br />
Slumpvariabeln X <strong>är</strong> N(µ= 1 000; σ = 100).<br />
a) Skissa frekvens-/sannolikhetsfunktionen för variabeln X och markera<br />
väntev<strong>är</strong>de, median och standardavvikelse i figuren.<br />
b) Beräkna sannolikheten för att X ligger utanför intervallet µ ± σ, samt rita<br />
en figur som illustrerar denna sannolikhet.<br />
c) Vad <strong>är</strong> sannolikheten för att X ligger inom intervallet [950; 1 150]?<br />
Illustrera även detta i en figur.<br />
d) För vilka symmetriska intervall av v<strong>är</strong>den gäller att sannolikheten att ett<br />
slumpmässigt X-v<strong>är</strong>de hamnar inom själva intervallet <strong>är</strong> 0,90 respektive<br />
0,99? Rita en (eller två) figur(er) och markera tydligt hur intervallen ligger.<br />
e) Beräkna: P(|X-µ| ≤ σ) samt illustrera det aktuella området i en figur.<br />
För lösningar på uppgift 1, se separat fil.<br />
Uppgift 2<br />
Utgå från samma normalfördelade slumpvariabel, X, som i uppgift 1.<br />
a) Om vi <strong>är</strong> fullständigt insatta i vilken fördelning X följer och gör ett<br />
slumpmässigt urval om n=4 observationer från populationen, vilken<br />
fördelning följer då stickprovsmedelv<strong>är</strong>det X ? Glöm inte att ange all<br />
relevant information (bara fördelningens namn räcker inte).<br />
Om X <strong>är</strong> normalfördelad <strong>är</strong> X också normalfördelad (se<br />
kompletteringsmaterialet till kapitel 8, under ”Anm<strong>är</strong>kning 2”. Detta räcker<br />
dock inte som svar, utan vi måste ha med normalfördelningens parametrar<br />
också. Väntev<strong>är</strong>det E( X ) = μ X <strong>är</strong> alltid samma som väntev<strong>är</strong>det för X, =><br />
μ X = μ<br />
σ X<br />
= 100 , och standardavvikelsen för X , σ X , <strong>är</strong> alltid<br />
n<br />
, vilket h<strong>är</strong><br />
100<br />
blir = 50 . ⇒ X <strong>är</strong> N(<br />
μ = 1000,<br />
σ = 50)<br />
X<br />
X .<br />
4
<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />
statistik<br />
b) Vad <strong>är</strong> sannolikheten för att medelv<strong>är</strong>det i stickprovet ligger utanför<br />
intervallet E ( X ) ± V ( X ) ?<br />
Eftersom X <strong>är</strong> normalfördelad precis som X, <strong>är</strong> sannolikheten för att X<br />
skulle ligga utanför intervallet E ( X ) ± V ( X ) lika stor som att X skulle ligga<br />
utanför intervallet E ( X ) ± V ( X ) , d. v. s. utanför intervallet μ ± σ .<br />
Denna sannolikhet har vi redan tagit fram i 1b och den <strong>är</strong> 0,3174.<br />
Om man inte upptäcker likheten med 1b går det naturligtvis bra att i stället<br />
använda resultatet i 2a och räkna ut sannolikheten att X ligger utanför<br />
intervallet μ<br />
σ X<br />
±<br />
n<br />
= 1 000 ± 50 , eller utanför intervallet (950; 1 050).<br />
1−<br />
P(<br />
950 ≤<br />
950 − 1000<br />
X ≤ 1050)<br />
= 1−<br />
P(<br />
≤<br />
100<br />
X −<br />
σ<br />
μ 1050<br />
− μ<br />
≤ ) =<br />
100<br />
1 − P(<br />
− 1 ≤ Z ≤ 1)<br />
= 1−<br />
[ P(<br />
Z <<br />
1)<br />
− P(<br />
Z < −<br />
1)]<br />
4 n 4<br />
= 1−<br />
( 0,<br />
8413 − 0,<br />
1587)<br />
= 1 − 0,<br />
6826 =<br />
0,<br />
3174<br />
Uppgift 3<br />
Den förvirrade statistikl<strong>är</strong>aren Ztatistica ”tappar bort” både väntev<strong>är</strong>de och<br />
standardavvikelse för slumpvariabeln X från uppgifterna ovan.<br />
a) Antag att Ztatistica trots allt lyckas hålla i minnet att variabeln <strong>är</strong><br />
normalfördelad. Om hon i detta läge drar ett slumpmässigt stickprov om<br />
n=4 observationer från populationen och beräknar diverse intressanta<br />
läges- och spridningsmått i stickprovet – hur skulle hon <strong>d<strong>är</strong></strong>efter kunna<br />
utnyttja denna information på bästa sätt för att försöka ta reda på ungef<strong>är</strong><br />
hur stort väntev<strong>är</strong>det för X <strong>är</strong>? Hitta på siffror i lämplig storleksordning –<br />
sunt förnuft räcker! – för att illustrera din redogörelse ytterligare och<br />
förklara också i ord vad Ztatistica faktiskt skulle kunna säga beträffande<br />
väntev<strong>är</strong>det för X.<br />
Om Ztatistica beräknar medelv<strong>är</strong>de och standardavvikelse i stickprovet, kan<br />
hon sedan utnyttja kunskapen om att den underliggande populationen <strong>är</strong><br />
normalfördelad och ta fram ett konfidentiella för väntev<strong>är</strong>det μ. Specifikt:<br />
N<strong>är</strong> Ztatistica drar ett litet urval från en normalfördelad population med<br />
X − μ<br />
okänd standardavvikelse vet hon att<br />
t-fördelning med (n-1=3) frihetsgrader.<br />
s<br />
n<br />
följer en<br />
Ett (<strong>exempel</strong>vis) 95%-igt konfidensintervall för μ kan då <strong>beräknas</strong> som:<br />
x ±<br />
t0,<br />
975 ( 3)<br />
s<br />
=<br />
n<br />
x ± 3,<br />
18<br />
s<br />
4
<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />
statistik<br />
Om vi nu hittar på någorlunda realistiska v<strong>är</strong>den, t. ex. att<br />
stickprovsmedelv<strong>är</strong>det blir 982 och stickprovsstandardavvikelsen 54, får vi<br />
54<br />
intervallet 982 ± 3,<br />
18 = ( 896,<br />
14;<br />
1067,<br />
86)<br />
2<br />
Ztatistica kan nu påstå att ”Med 95% säkerhet ligger väntev<strong>är</strong>det för X<br />
mellan 896 och 1068”.<br />
b) Den förvirrade statistikl<strong>är</strong>aren Ztatistica <strong>är</strong> nu om möjligt ännu mer<br />
förvirrad. Hon kommer inte ihåg någonting om slumpvariabeln X (mer än<br />
att det <strong>är</strong> just en slumpvariabel!). Kom med en välmotiverad, utförlig<br />
beskrivning på hur Ztatistica i detta läge skulle kunna gå tillväga för att få<br />
en riktigt hygglig uppfattning om hur stort väntev<strong>är</strong>det för X <strong>är</strong>. Hitta på<br />
siffror i lämplig storleksordning – sunt förnuft + relevanta ämneskunskaper<br />
krävs – för att illustrera din redogörelse ytterligare och förklara också i ord<br />
vad Ztatistica faktiskt skulle kunna säga beträffande väntev<strong>är</strong>det för X.<br />
Om vi har en slumpvariabel som vi inte vet någonting om, <strong>är</strong> det en god idé<br />
för Ztatistica att dra ett stort slumpmässigt stickprov ur populationen.<br />
Eftersom hon vet att stickprovsmedelv<strong>är</strong>det <strong>är</strong> en väntev<strong>är</strong>desriktig<br />
skattning av väntev<strong>är</strong>det µ, kan hon enkelt göra en punktskattning av<br />
väntev<strong>är</strong>det.<br />
Men detta ger ju bara ett v<strong>är</strong>de, som Ztatistica inte alls vet hur n<strong>är</strong>a<br />
sanningen det ligger. H<strong>är</strong> kan hon <strong>d<strong>är</strong></strong>för med fördel utnyttja den Centrala<br />
gränsv<strong>är</strong>dessatsen, CGS. CGS säger att ”En summa av oberoende<br />
slumpvariabler från samma fördelning följer ungef<strong>är</strong> en normalfördelning,<br />
om antalet variabler som ingår i summan bara <strong>är</strong> tillräckligt stort”. Eftersom<br />
Ztatistica <strong>är</strong> väl påläst, vet hon vidare att ett stickprovsmedelv<strong>är</strong>de <strong>är</strong> just en<br />
X 1 X 2 X 3 X n<br />
summa av slumpvariabler, X = + + + ... + , och att vi dividerar<br />
n n n n<br />
respektive observation med ”n” saknar betydelse för formen på fördelningen.<br />
Om nu X =<br />
X 1<br />
+<br />
n<br />
X 2<br />
+<br />
n<br />
X 3<br />
+<br />
n<br />
... +<br />
X n<br />
<strong>är</strong> ungef<strong>är</strong> normalfördelad och<br />
n<br />
Ztatistica vet (eller slår upp i formelsamlingen) att väntev<strong>är</strong>de och<br />
standardavvikelse för X <strong>är</strong> μ respektive<br />
σ<br />
kan hon även se att hon kan<br />
n<br />
beräkna ett 100(1-α)%-igt konfidensintervall för µ som x ± z<br />
1−<br />
σ<br />
n<br />
Fast hur gör hon med den okända standardavvikelsen σ? Jo, eftersom<br />
Ztatistica tog ett stort stickprov, om t. ex. n=100 observationer, kan hon<br />
skatta σ med stickprovsstandardavvikelsen s och säga att: ”Med cirka 95%<br />
(<strong>exempel</strong>vis) säkerhet ligger väntev<strong>är</strong>det µ inom intervallet<br />
s<br />
s<br />
x ± z0,<br />
975 = x ± 1,<br />
96 ”.<br />
n 10<br />
α<br />
2
<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />
statistik<br />
Om vi hittar på att vi fått ett stickprovsmedelv<strong>är</strong>de på 1 006.2 och en<br />
stickprovsstandardavvikelse på 48.3 får vi:<br />
48,<br />
3<br />
1006 , 2 ± 1,<br />
96 = ( 996,<br />
7332,<br />
1015,<br />
6668)<br />
och vi kan säga att ”Med ca 95%<br />
10<br />
säkerhet ligger väntev<strong>är</strong>det µ mellan 996,7 och 1015,7.”.<br />
c) Hur påverkas resonemanget/beräkningarna i b om Ztatistica plötsligt slås<br />
av insikten att vi söker väntev<strong>är</strong>det i en ändlig population?<br />
Om populationen vi pratar om <strong>är</strong> ändlig, kan Ztatistica för det första börja<br />
med att konstatera att den aldrig kan vara exakt normalfördelad, eftersom<br />
normalfördelningen definitionsmässigt inte <strong>är</strong> ändlig. Om det gäller en liten<br />
ändlig population kan hon självfallet undersöka hela populationen och<br />
beräkna det sanna väntev<strong>är</strong>det µ. Fast så enkelt <strong>är</strong> ju sällan fallet! D<strong>är</strong>emot<br />
<strong>är</strong> det ju så, att ju mindre populationen <strong>är</strong>, desto större andel kommer<br />
Ztatistica att ha undersökt med sin stickprovsstorlek på n=100. Det inneb<strong>är</strong><br />
vidare att ett konfidensintervall med samma bredd som ovan, d. v. s. ca 20,<br />
kommer att ha en mycket högre konfidensgrad än 95%. Analogt kommer ett<br />
95%-igt konfidensintervall att bli mycket smalare än 20 enheter, eftersom vi<br />
undersökt en större andel av populationen. Detta beror på att variansen för<br />
vår variabel, stickprovsmedelv<strong>är</strong>det X , kommer att minska ju större andel<br />
av populationen vi undersöker.<br />
N − n<br />
Beräkningsmässigt dyker detta upp i ändlighetskorrektionen, .<br />
N − 1<br />
Ztatistica behöver <strong>d<strong>är</strong></strong>för reda på hur stor populationen <strong>är</strong>. Säg t. ex. att<br />
populationsstorleken N=300.<br />
I så fall kan vi ta fram ett ungef<strong>är</strong> 95%-igt konfidensintervall för µ som<br />
x ± 1, 96<br />
s<br />
n<br />
N − n<br />
48,<br />
3<br />
= 1006,<br />
2 ± 1,<br />
96<br />
N − 1<br />
10<br />
300 − 100<br />
ger ( 998,<br />
457;<br />
300 − 1<br />
1013,<br />
943)<br />
Med ca 95% säkerhet ligger väntev<strong>är</strong>det µ mellan 998,4 och 1014,0 och vi har<br />
nu fått ett något snävare intervall.<br />
Sammanfattningsvis <strong>är</strong> det intressant att notera hur konfidensintervallens<br />
bredd påverkas av vad vi vet om slumpvariabelns fördelning,<br />
stickprovsstorlek och huruvida populationen <strong>är</strong> ändlig eller inte. Det<br />
bredaste intervallet fick vi i a, men då skall vi också ha i åtanke att vi bara<br />
hade fyra observationer!
<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />
statistik<br />
Uppgift 4<br />
En tillverkare av mp3-spelare garanterar att det <strong>är</strong> högst 10% av hans<br />
produkter som <strong>är</strong> defekta. En skeptisk inköpsansvarig gör en mycket<br />
noggrann urvalsprocedur och plockar ut 75 spelare som kan betraktas som<br />
slumpmässigt valda ur tillverkarens produktion. Om det <strong>är</strong> 13 eller fler defekta<br />
mp3-spelare bland dessa, så anser inköparen att han kunnat visa att spelarna<br />
<strong>är</strong> av sämre kvalitet än vad tillverkaren påstår, och planerar att konfrontera<br />
tillverkaren med detta.<br />
a) Sätt upp hypoteserna för testet som den inköpsansvarige gör.<br />
H0: Andelen defekta mp3-spelare π ≤ 0,10<br />
H1: Andelen defekta mp3-spelare π > 0,10<br />
b) Förklara dels i allmänna termer och dels i termer av vårt <strong>exempel</strong> vad typ-<br />
I-fel respektive typ-II-fel <strong>är</strong>.<br />
Ett typ-I-fel <strong>är</strong> att förkasta nollhypotesen trots att den <strong>är</strong> sann. H<strong>är</strong> skulle<br />
det motsvara att den inköpsansvarige får 13 eller fler defekta spelare i<br />
urvalet och drar slutsatsen att mer än 10% av mp3-spelarna <strong>är</strong> defekta, trots<br />
att så inte <strong>är</strong> fallet. Relaterat till typ-I-fel <strong>är</strong> signifikansnivån α, som <strong>är</strong> P(typ-<br />
I-fel).<br />
Ett typ-II-fel <strong>är</strong> att inte förkasta nollhypotesen n<strong>är</strong> mothypotesen <strong>är</strong> sann. I<br />
vårt fall att den inköpsansvarige inte får åtminstone 13 defekta mp3-spelare i<br />
urvalet, trots att andelen defekta spelare <strong>är</strong> högre än 10%. Relaterat till typ-<br />
II-fel <strong>är</strong> β, P(typ-II-fel). 1- β kallas för styrka och <strong>är</strong> sannolikheten att<br />
förkasta den falska nollhypotesen givet en viss mothypotes.<br />
c) Beräkna testets signifikansnivå. Glöm inte halvkorrektionen!<br />
Signifikansnivån α <strong>är</strong> P(typ-I-fel).<br />
α=P(Minst 13 defekta mp3-spelare i urvalet | π = 0,10).<br />
Tillverkaren påstår att andelen defekta spelare <strong>är</strong> högst 10% och vi vill<br />
försöka visa att den <strong>är</strong> högre. Det v<strong>är</strong>de vi räknar på i nollhypotesen måste<br />
då vara det högsta v<strong>är</strong>det i tillverkarens ”intervall”, d. v. s. 0,10. Tillverkaren<br />
har ju indirekt påstått att det i alla fall inte <strong>är</strong> mer än 10% defekta mp3spelare<br />
i urvalet.<br />
Vi inför X – Antal defekta mp3-spelare i ett slumpmässigt urval om 75<br />
spelare. En mp3-spelare <strong>är</strong> antingen defekt eller inte. Sannolikheten att en<br />
slumpmässigt vald spelare <strong>är</strong> defekt <strong>är</strong> π och den <strong>är</strong> samma för alla spelare i<br />
urvalet. Vidare: om vi har en mycket stor population av mp3-spelare kan vi<br />
anta att de 75 valda spelarna <strong>är</strong> oberoende av varandra.<br />
=> X <strong>är</strong> Bin(n=75 och π=0,10) n<strong>är</strong> nollhypotesen <strong>är</strong> sann.<br />
=> α=P(X ≥ 13 | X <strong>är</strong> Bin(n=75 och π=0,10)) = 1-P(X ≤ 12)
<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />
statistik<br />
Eftersom vi inte har tabellv<strong>är</strong>den för n som <strong>är</strong> större än 50 och og<strong>är</strong>na vill<br />
sitta och räkna för hand kontrollerar vi om vi kan approximera. Både nπ och<br />
n(1-π) <strong>är</strong> större än 5 (7,5 respektive 62,5) så det går bra.<br />
=> X <strong>är</strong> approx N(µ=nπ=7,5 σ=√(nπ(1-π))=√6,75).<br />
α = 1−<br />
P(<br />
X ≤ 12 + 0,<br />
5 | X <strong>är</strong> appr.<br />
N(<br />
μ = 7,<br />
5;<br />
σ = 6,<br />
75))<br />
=<br />
X − μ 12 +<br />
1−<br />
P(<br />
≤<br />
σ<br />
0,<br />
5<br />
−<br />
6,<br />
75<br />
7,<br />
5<br />
) = 1−<br />
P(<br />
Z ≤<br />
1,<br />
92<br />
) = 1 −<br />
0,<br />
9726<br />
=<br />
0,<br />
0274<br />
Ang. halvkorrektion: Eftersom binomialfördelningen bara kan anta<br />
heltalsv<strong>är</strong>den medan normalfördelningen <strong>är</strong> kontinuerlig och kan anta alla<br />
v<strong>är</strong>den, måste vi ”dela upp” v<strong>är</strong>deintervallet mellan 12 och 13. Vi<br />
halvkorrigerar, vilket motsvarar att tänka sig att v<strong>är</strong>den mellan 12 och 12,5<br />
hör till 12 och att v<strong>är</strong>den mellan 12,5 och 13 hör till 13.<br />
d) Anta det i själva verket <strong>är</strong> 20 % defekta enheter i partiet. Beräkna under<br />
denna förutsättning testets styrka. Glöm inte halvkorrektionen!<br />
Styrkan <strong>är</strong> sannolikheten att förkasta nollhypotesen givet att mothypotesen<br />
<strong>är</strong> sann, d. v. s. P(X ≥ 13 | π=0,20).<br />
Tumreglerna för normalapproximation <strong>är</strong> fortfarande uppfyllda, nπ=15 och<br />
n(1-π)=60. Uppställningen i övrigt blir precis som ovan, det som skiljer <strong>är</strong> att<br />
vi nu får ett nytt väntev<strong>är</strong>de och en ny standardavvikelse. X <strong>är</strong> approx<br />
N(µ=nπ=15 σ=√(nπ(1-π))=√12).<br />
Styrka = 1 − P(<br />
X ≤ 12 +<br />
0,<br />
5 |<br />
X <strong>är</strong> appr.<br />
N(<br />
μ =<br />
15;<br />
X − μ 12 + 0,<br />
5 − 15<br />
1−<br />
P(<br />
≤<br />
) = 1−<br />
P(<br />
Z ≤ − 0,<br />
72 ) = 1−<br />
σ 12<br />
σ<br />
=<br />
12))<br />
0,<br />
2358<br />
=<br />
=<br />
0,<br />
7642<br />
e) Vid stickprovskontrollen visade det sig vara 12 defekta enheter. Beräkna<br />
testets p-v<strong>är</strong>de. Glöm inte halvkorrektionen!<br />
Ett tests p-v<strong>är</strong>de <strong>är</strong> sannolikheten att få det observerade resultatet eller ännu<br />
extremare, givet att nollhypotesen <strong>är</strong> sann. P-v<strong>är</strong>det kan <strong>d<strong>är</strong></strong>för sägas vara<br />
den observerade, eller faktiska signifikansnivån om man tänker sig att man<br />
skulle förkasta nollhypotesen ”direkt”.<br />
=> P-v<strong>är</strong>det = P(X≥12 | π ≤ 0,10) = 1-P(X≤11 | π ≤ 0,10)<br />
α = 1−<br />
P(<br />
X ≤ 8 + 0,<br />
5 | X <strong>är</strong> appr.<br />
N(<br />
μ = 7,<br />
5;<br />
σ = 6,<br />
75))<br />
=<br />
X − μ 11+<br />
1−<br />
P(<br />
≤<br />
σ<br />
0,<br />
5<br />
−<br />
6,<br />
75<br />
7,<br />
5<br />
) = 1−<br />
P(<br />
Z ≤<br />
1,<br />
54<br />
) = 1−<br />
0,<br />
9382<br />
=<br />
0,<br />
0618<br />
H<strong>är</strong> <strong>är</strong> det en god idé att stanna upp ett slag och reflektera. Enligt vad<br />
inköpsansvarige bestämde från början, skulle han klaga hos tillverkaren om<br />
13 eller fler mp3-spelare i urvalet var defekta. Detta skulle då ge en<br />
signifikansnivå på knappt 3%, att jämföras med p-v<strong>är</strong>det på drygt 6%.
<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />
statistik<br />
Slutsatsen blir h<strong>är</strong> att inte förkasta nollhypotesen, d. v. s. att avstå från att<br />
klaga hos tillverkaren. På 3% signifikansnivå kan vi inte påstå att andelen<br />
defekta mp3-spelare överstiger 10%.<br />
Men, frågan <strong>är</strong> om detta <strong>är</strong> det förnuftigaste att göra? En risk på drygt 6% -<br />
visserligen högre än vad inköparen från början bestämt sig för att acceptera<br />
– <strong>är</strong> den oacceptabelt hög egentligen? Detta kan bara den inköpsansvarige<br />
själv svara på. Det viktiga i sådana h<strong>är</strong> situationer <strong>är</strong> att man inte bara<br />
mekaniskt jämför p-v<strong>är</strong>det med signifikansnivån, utan att man aktivt tar<br />
ställning till hur stor risk man <strong>är</strong> villig att ta att felaktigt förkasta<br />
nollhypotesen – även efter att själva stickprovsförfarandet har genomförts.<br />
Det <strong>är</strong> inte sällan som t. ex. forskare ”hoppar” direkt på p-v<strong>är</strong>det n<strong>är</strong> man<br />
genomför olika studier, och sedan klassificerar undersökningens resultat<br />
utifrån dessa observerade signifikansnivåer.<br />
Uppgift 5<br />
Centrala gränsv<strong>är</strong>dessatsen, CGS, <strong>är</strong> mycket viktig inom statistisk teori. Ange<br />
i vilka av uppgifterna 1-4 ovan man kan dra nytta av CGS och på vilket sätt<br />
man utnyttjar satsen. För de uppgifter <strong>d<strong>är</strong></strong> CGS inte behöver användas, ge en<br />
kort motivering till varför satsen i dessa fall <strong>är</strong> ”överflödig/irrelevant”.<br />
Den Centrala gränsv<strong>är</strong>dessatsen formulerade vi i uppgift 3 ovan. Nu gäller det<br />
att se var den har använts, och var den inte har använts.<br />
Första gången vi var tvungna att utnyttja CGS för att kunna lösa uppgiften, var<br />
i 3b. Vi visste att vi hade en slumpvariabel, men ingenting mer. Vi behövde<br />
<strong>d<strong>är</strong></strong>för CGS, så att vi med hjälp av ett ”tillräckligt stort” stickprov kunde anta<br />
att stickprovsmedelv<strong>är</strong>det blev approximativt normalfördelat. D<strong>är</strong>efter kunde vi<br />
beräkna ett konfidensintervall ”som vanligt”. Vi hade alltså inte kunnat beräkna<br />
konfidensintervallet på det sätt vi gjorde utan att stödja oss mot CGS.<br />
I 3c, som <strong>är</strong> en variant på 3b, använder vi en variant av CGS. Vi har ett<br />
”tillräckligt” stort stickprov, och behöver bara justera för att vi har en ändlig<br />
population. I övrigt stöjder vi oss mot CGS.<br />
Uppgift 4 har en binomialfördelad slumpvariabel, som redan i ”sig själv” <strong>är</strong> en<br />
summa av alla ”lyckade” oberoende delförsök under samma förutsättningar”.<br />
Detta inneb<strong>är</strong>, att n<strong>är</strong> antalet variabler i summan <strong>är</strong> tillräckligt stort, kan vi<br />
approximera variabeln till en normalfördelning. Dock: h<strong>är</strong> <strong>är</strong> det inte bara att<br />
räkna antalet variabler n som ingår i summan. Vi behöver också ta hänsyn till π,<br />
sannolikheten för att ett enskilt delförsök skall lyckas. Ju längre från 0,5 π <strong>är</strong>,<br />
desto större antal delförsök behövs för att kompensera för att en sådan<br />
fördelning <strong>är</strong> väldigt skev. Även om binomialfördelningen bara kan anta<br />
heltalsv<strong>är</strong>den, <strong>är</strong> den ju faktiskt helt symmetrisk för π=0,5, vilket gör att det då<br />
också krävs väsentligen f<strong>är</strong>re observationer för att normalapproximationen skall<br />
bli bra.
<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />
statistik<br />
Övriga uppgifter då? Uppgift 1 behandlar en ”enkel” normalfördelad<br />
slumpvariabel => CGS <strong>är</strong> helt överflödig.<br />
Uppgift 2 handlar om att vi beräknar medelv<strong>är</strong>det av ett antal normalfördelade<br />
slumpvariabler. Detta medelv<strong>är</strong>det kommer då också alltid att vara<br />
normalfördelat (se ”Anm<strong>är</strong>kning 2” på andra sidan i det kompletterande<br />
kompendiematerialet som hör till kapitel 8) och eftersom vi känner till<br />
populationsstandardavvikelsen kan vi även räkna ”normalfördelat”.<br />
I uppgift 3a har vi fortfarande medelv<strong>är</strong>det av ett antal normalfördelade<br />
variabler, som då också <strong>är</strong> normalfördelat. Detta inneb<strong>är</strong> att CGS inte <strong>är</strong> aktuell<br />
(CGS har ju bara någon poäng om den ursprungliga populationen inte <strong>är</strong><br />
normalfördelad). Det som i stället händer, <strong>är</strong> att vi inte känner till<br />
populationsstandardavvikelsen σ och att vi <strong>d<strong>är</strong></strong>för utnyttjar t-fördelningen.<br />
Detta har dock ingenting med CGS att göra.<br />
Uppgift 6<br />
En pedagog vill undersöka hur läshastigheten Y (ord/minut) påverkas av<br />
åldern X (år). Hon utför <strong>d<strong>är</strong></strong>för ett experiment <strong>d<strong>är</strong></strong> hon låter 11 slumpmässigt<br />
valda barn på en skola göra ett läshastighetsprov. Resultatet blev<br />
y 110 100 130 120 150 130 140 150 185 180 155<br />
x 10 11 11 12 12 13 13 13 14 15 15<br />
För att beskriva det aktuella sambandet avser hon använda en linj<strong>är</strong><br />
regressionsmodell.<br />
a) Ta fram en skattning av den linj<strong>är</strong>a regressionsmodellen.<br />
Vi använder modellen y = a + bx, <strong>d<strong>är</strong></strong><br />
b =<br />
n∑<br />
n<br />
xy − ∑<br />
2<br />
x − (<br />
x∑<br />
y<br />
= 2<br />
x)<br />
11*<br />
19945<br />
− 139*<br />
1550<br />
≈ 2<br />
11*<br />
1783<br />
− 139<br />
∑ ∑<br />
1550<br />
− 13,<br />
5103*<br />
139<br />
a = y − bx<br />
=<br />
11<br />
=> y = –29,81 + 13,51x .<br />
≈<br />
−<br />
29,<br />
8120<br />
13,<br />
5103<br />
Modellen ger alltså en rät linje med ett intercept på ca -30 och en<br />
riktningskoefficient på +13,5.
<strong>Karlstads</strong> <strong>universitet</strong> Avdelningen för nationalekonomi och<br />
statistik<br />
b) Rita ett diagram över observationerna och regressionslinjen.<br />
H<strong>är</strong> <strong>är</strong> förvisso inte linjen inritad, men det går ändå att se att<br />
punkterna ligger spridda på ett sådant vis att ett linj<strong>är</strong> modell ger en<br />
ganska bra beskrivning av sambandet mellan läshastighet och ålder.<br />
c) Beräkna korrelationskoefficienten och förklaringsgraden /<br />
determinationskoefficienten.<br />
n xy − x y<br />
r =<br />
=<br />
2<br />
2<br />
n∑<br />
x − ( ∑ x)<br />
⇒<br />
r<br />
2<br />
∑<br />
≈<br />
Samband mellan läshastighet och ålder<br />
Läshastighet (ord/minut)<br />
200<br />
180<br />
160<br />
140<br />
120<br />
100<br />
80<br />
60<br />
40<br />
20<br />
0,<br />
6785<br />
0<br />
∑ ∑<br />
9 10 11 12 13 14 15 16<br />
11*<br />
19945<br />
Ålder (år)<br />
−<br />
139*<br />
1550<br />
2<br />
11*<br />
1783<br />
− 139<br />
≈<br />
0,<br />
8237<br />
d) Tolka regressionskoefficienten b i ord, och förklara vad som h<strong>är</strong> kan<br />
utläsas av förklaringsgraden / determinationskoefficienten.<br />
Att regressionskoefficienten b=13,5 inneb<strong>är</strong> att läshastigheten mätt i<br />
antal ord per minut ökar med i genomsnitt 13,5 ord för varje år äldre<br />
som barnen blir, givet det undersökta åldersintervallet i den<br />
undersökta populationen.<br />
Vad som <strong>är</strong> viktigt h<strong>är</strong>, <strong>är</strong> att inte använda modellen utanför det<br />
undersökta åldersintervallet. Vi ser t. ex. att ett nyfött barn enligt<br />
modellen skulle ha en negativ läshastighet, på -30 ord/minut. Detta <strong>är</strong><br />
självfallet helt orimligt.<br />
Förklaringsgraden, eller determinationskoefficienten mäter hur stor<br />
andel av variationen i läshastighet som kan hänföras till variationen i<br />
ålder, d. v. s att barnen <strong>är</strong> olika gamla. I den h<strong>är</strong> modellen ser vi att<br />
68% av deras förbättrade läsförmåga verkar kunna förklaras av att<br />
barnen blir äldre (och har hunnit öva mer). Resterande kan 32%<br />
alltså anses bero dels på en individuell variation, dels på<br />
förklaringsvariabler som inte finns med i modellen.