04.10.2014 Views

formelsamling till kursen dataanalys och statistik för ekonomer

formelsamling till kursen dataanalys och statistik för ekonomer

formelsamling till kursen dataanalys och statistik för ekonomer

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Högskolan i Gävle<br />

Institutionen för Matematik, Natur- <strong>och</strong> Datavetenskap<br />

Avdelningen för Statistik<br />

FORMELSAMLING TILL<br />

KURSEN DATAANALYS OCH<br />

STATISTIK FÖR EKONOMER<br />

Tillåtet hjälpmedel vid tentamen/ ht 2008


1<br />

INNEHÅLL<br />

BESKRIVANDE STATISTIK 2<br />

SANNOLIKHETSLÄRA 3<br />

DISKRETA SANNOLIKHETSFÖRDELNINGAR 3<br />

KONTINUERLIGA SANNOLIKHETSFÖRDELNINGAR 4<br />

APPROXIMATIONER 5<br />

LINJÄRKOMBINATIONER AV TVÅ SLUMPVARIABLER 6<br />

INFERENS 7<br />

ENKEL LINJÄR REGRESSION 9<br />

MULTIPEL REGRESSION 11<br />

UTVÄRDERING AV PROGNOSER 12<br />

EXPONENTIELL UTJÄMNING 13<br />

TABELLER


2<br />

BESKRIVANDE STATISTIK<br />

Aritmetiskt medelvärde:<br />

∑ x<br />

∑<br />

i<br />

fx<br />

i<br />

x = x =<br />

n<br />

n<br />

i<br />

Median:<br />

Vid klassindelat material:<br />

n<br />

− b<br />

md = a +<br />

2<br />

* d<br />

c<br />

där a = undre klassgräns i medianklassen<br />

b = kumulerad frekvens i klassen<br />

före medianklassen (F i-1 )<br />

c = frekvens i medianklassen (f i )<br />

d = klassbredd i medianklassen (w i )<br />

Vid icke-klassindelat material (observationerna ordnade<br />

i storleksordning):<br />

md = det mittersta värdet (om n är udda)<br />

md = medelvärdet av de två mittersta värdena<br />

(om n är jämnt)<br />

Standardavvikelsen:<br />

s =<br />

∑( xi − x) ∑xi −n⋅x<br />

n∑xi − ( ∑xi)<br />

=<br />

=<br />

n − 1 n − 1 nn ( − 1)<br />

2 2 2 2 2<br />

För material i frekvenstabell:<br />

s =<br />

∑fi( xi − x) ∑fx<br />

i i<br />

−n⋅x<br />

n∑<br />

fixi − ( ∑fixi)<br />

=<br />

=<br />

n − 1 n − 1 nn ( − 1)<br />

2 2 2 2 2


3<br />

SANNOLIKHETSLÄRA<br />

P( A) = sannolikheten att händelse A inträffar<br />

P( B) = sannolikheten att händelse B inträffar<br />

P( A ∩ B)<br />

= sannolikheten att både händelse A <strong>och</strong> händelse B inträffar (snitt)<br />

P( A ∪ B)<br />

= sannolikheten att åtminstone händelse A eller händelse B inträffar (union)<br />

P( A| B) = sannolikheten att händelse A inträffar givet att händelse B har inträffat (betingad sannolikhet)<br />

Additionssatsen<br />

P( A ∪ B) = P( A) + P( B) − P( A ∩ B)<br />

Multiplikationssatsen<br />

PA ( ∩ B) = PAB ( | ) ⋅ PB ( ) = PBA ( | ) ⋅ PA ( )<br />

Betingad sannolikhet<br />

P( A| B)<br />

=<br />

P( A∩<br />

B)<br />

PB ( )<br />

Oberoende händelser<br />

två händelser, A <strong>och</strong> B, är oberoende om <strong>och</strong> endast om<br />

P( A| B) = P( A)<br />

eller ekvivalent PBA ( | ) = PB ( )<br />

DISKRETA SANNOLIKHETSFÖRDELNINGAR<br />

X är en diskret slumpvariabel <strong>och</strong> x 1 , x 2 , x 3 ,…….. x n är de olika värden som X kan anta<br />

∑<br />

Medelvärde (förväntat värde): μ = E( X) = x P( x )<br />

n<br />

i=<br />

1<br />

E( X<br />

2 ) = x 2 P( x )<br />

n<br />

∑<br />

i=<br />

1<br />

i<br />

n<br />

Varians: σ 2 2<br />

2 2<br />

= V( X) = [ x − E( X)] ⋅ P( x ) = E( X ) −[ E( X)]<br />

i<br />

∑<br />

i=<br />

1<br />

i<br />

i<br />

i<br />

i


4<br />

Några ofta förekommande diskreta fördelningar<br />

Namn <strong>och</strong> ev. beteckning<br />

Likformig<br />

fördelning<br />

Hypergeometrisk<br />

fördelning<br />

Hyp( N , n, p)<br />

N1<br />

= N ⋅ p<br />

N = N ⋅( − p)<br />

2<br />

1<br />

Sannolikhetsfunktion<br />

P(x)<br />

Vänte<br />

värde<br />

E(X)<br />

1<br />

N + 1<br />

N för x=1,2…, N 2<br />

N1 N<br />

2<br />

( ) ⋅ ( ) 0 ≤ x ≤ N1<br />

x n−<br />

x<br />

np<br />

där 0 ≤ n− x ≤ N2<br />

N<br />

( ) N = N1 + N2<br />

n<br />

Varians<br />

V(X)<br />

( N 2 − 1)<br />

12<br />

( N − n)<br />

= np (1 − p)<br />

( N −1)<br />

Binomial<br />

fördelningen<br />

B( n, p)<br />

Poisson<br />

x<br />

λ ⋅ e<br />

fördelningen<br />

Po (λ)<br />

x!<br />

n<br />

x<br />

n−x<br />

( ) p ⋅ (1 − p)<br />

för x=0,1…..n np np 1− p<br />

x<br />

−λ<br />

för x=0,1,2,……….. λ λ<br />

( )<br />

KONTINUERLIGA SANNOLIKHETSFÖRDELNINGAR<br />

X är en kontinuerlig slumpvariabel som antar värden i ett intervall (ändligt eller oändligt)<br />

Täthetsfunktion<br />

f ( x)<br />

Fördelningsfunktion F( x) = f ( x)<br />

dx<br />

Väntevärde (medelvärde): μ = E( X) = xf ( x)<br />

dx<br />

x<br />

∫<br />

−∞<br />

+∞<br />

∫<br />

∞<br />

∫<br />

−∞<br />

2 2<br />

E( X ) = x f ( x)<br />

dx<br />

Varians σ 2 = V( X) = E( X 2 ) −[ E( X)]<br />

2<br />

−∞


5<br />

Några ofta förekommande kontinuerliga sannolikhetsfördelningar<br />

Namn <strong>och</strong> beteckning<br />

Rektangelfördelning<br />

Rab ( , )<br />

Exponential fördelniingen<br />

Exp( λ )<br />

Normalfördelningen<br />

N ( μ, σ )<br />

Täthetsfunktion<br />

f(x)<br />

Vänte<br />

värde<br />

E(X)<br />

Varians<br />

V(X)<br />

1<br />

a+<br />

b<br />

,a< x<<br />

b<br />

b−a<br />

2<br />

12<br />

λe<br />

för x ≥ 0 1<br />

1<br />

λ<br />

1 x−μ<br />

2<br />

1 − ( )<br />

2 σ<br />

e<br />

σ 2π<br />

för<br />

μ σ 2<br />

−∞< x 10<br />

N n<br />

Hyp( N, n, p) ∼ N( μ = np, σ = np( 1−<br />

p) ( − )<br />

N − 1 1 N<br />

där p N1<br />

=<br />

N<br />

N n<br />

np( 1 − p) ( )<br />

N − 1 N<br />

Po( λ ) ∼ N( μ = λ, σ = λ)<br />

om λ > 15<br />

om<br />

1− >10


6<br />

LINJÄRKOMBINATIONER AV TVÅ SLUMPVARIABLER X OCH Y<br />

Om Z = aX + bY så är<br />

E(<br />

Z)<br />

= aE(<br />

X ) + bE(<br />

Y )<br />

V ( Z)<br />

= a<br />

2<br />

V ( X ) + b V ( Y ) + 2ab<br />

⋅Cov(<br />

X , Y )<br />

2<br />

Om Z = aX − bY så är<br />

E(<br />

Z)<br />

= aE(<br />

X ) − bE(<br />

Y )<br />

V ( Z)<br />

= a<br />

2<br />

V ( X ) + b V ( Y ) − 2ab<br />

⋅Cov(<br />

X , Y )<br />

2<br />

där Cov ( X , Y ) är kovariansen mellan X <strong>och</strong> Y.<br />

Under denna kurs behandlas endast fall där X <strong>och</strong> Y kan antas vara oberoende, vilket innebär att kovariansen är<br />

noll.


7<br />

Inferens<br />

Konfidensintervall<br />

För skattning av medelvärden <strong>och</strong> proportioner samt skillnader mellan sådana gäller<br />

under vissa förutsättningar:<br />

(1-α)⋅100 % konfidensintervall för en parameter θ<br />

Generell formel: θ$ ± c ⋅ $ $<br />

σ θ<br />

$θ = punktskattningen av parametern θ<br />

c = ett värde ur den standardiserade normalfördelningen (z) eller ett värde ur<br />

t-fördelningen (t)<br />

σ θ $ = medelfel för skattningen<br />

σ$ θ $ = skattat medefel för skattningen<br />

Under vissa förutsättningar skattas medelfelet enligt nedan:<br />

Parameter (θ) Estimator ( θ $ ) Skattat medelfel för estimatorn ( σ$ θ $ )<br />

_________________________________________________________________<br />

μ<br />

x<br />

2<br />

s<br />

n<br />

n<br />

( 1−<br />

)<br />

N<br />

pˆ(1<br />

− pˆ)<br />

n<br />

p pˆ (1 − )<br />

n N<br />

μ 1 -μ 2 x1 − x2<br />

s<br />

n<br />

2<br />

1<br />

1<br />

2<br />

n1<br />

s2<br />

n<br />

2<br />

( 1− ) + ( 1−<br />

)<br />

N n N<br />

1<br />

2<br />

2<br />

p1 − p 2<br />

ˆ ˆ<br />

1<br />

p2<br />

pˆ<br />

ˆ<br />

ˆ ˆ<br />

1(1<br />

− p1)<br />

n1<br />

p2<br />

(1 − p2<br />

) n2<br />

p − (1 − ) + (1 − )<br />

n N n N<br />

1<br />

1<br />

2<br />

2<br />

Ändlighetskorrektionsfaktorn kan utelämnas om stickprovsstorleken är mindre<br />

än en tiondel av populationsstorleken.


8<br />

Hypotesprövning<br />

Testfunktion:<br />

z = θ$<br />

− θ<br />

eller t = θ$<br />

− θ<br />

σ$<br />

s<br />

0 0<br />

θ$ θ$<br />

Definition av p-värde<br />

Sannolikheten att få det erhållna resultatet eller ett mer extremt givet att<br />

nollhypotesen är sann.<br />

Bestämning av stickprovsstorlek vid dragning enligt OSU ur ändliga populationer<br />

n = den stickprovsstorlek som erfordras<br />

N = antal element i populationen<br />

z = ett värde (en kvantil) i z-fördelningen (N(0,1)-fördelningen)<br />

s <strong>och</strong> p nedan är uppskattningar av populationens standardavvikelse respektive<br />

populationsandelen. Dessa uppskattningar grundas på förhandsinformation eller<br />

bdömning.<br />

E = felmarginalen = halva konfidensintervallets längd<br />

Parameter μ<br />

2<br />

s<br />

=<br />

E 2 s<br />

( ) +<br />

z N<br />

n<br />

2<br />

Parameter π<br />

p(1 − p)<br />

n =<br />

E 2 p(1 − p)<br />

( ) +<br />

z N<br />

Vanliga värden på z<br />

Konfidensgrad Signifikansnivå Dubbelsidigt Enkelsidigt<br />

90 % 10 % 1,645 1,282<br />

95 % 5 % 1,960 1,645<br />

99 % 1 % 2,576 2,326<br />

99,9 % 0,1 % 3,290 3,090


9<br />

Enkel linjär regression<br />

Sammanfattning av formler<br />

a) Koefficienterna i regressionslinjen y = a + bx<br />

erhålles enligt<br />

b =<br />

∑<br />

∑<br />

∑ ∑<br />

∑<br />

n xy−<br />

x y<br />

=<br />

n x − ( x)<br />

∑<br />

∑<br />

xy −n ⋅x ⋅y<br />

x<br />

−n⋅x<br />

2 2 2 2<br />

respektive<br />

a = y−<br />

bx<br />

b) Residualvariansen <strong>och</strong> residualspridningen vid<br />

enkel, linjär regression definieras enligt<br />

s<br />

2<br />

e<br />

=<br />

∑e<br />

∑( y−<br />

y$)<br />

=<br />

n − 2 n − 2<br />

2 2<br />

respektive<br />

s<br />

e<br />

=<br />

s<br />

2<br />

e<br />

c) Den lämpligaste definitionen av korrelationskoefficienten<br />

vid uträkning på miniräknare är<br />

r =<br />

=<br />

n∑<br />

xy−<br />

∑ x∑<br />

y<br />

∑ ∑ ∑ ∑<br />

∑ xy −n ⋅x ⋅y<br />

∑ ∑<br />

2 2 2 2<br />

( n x −( x) )( n y −( y) )<br />

2 2 2 2<br />

( x −n⋅x )( y −n⋅y<br />

)<br />

=<br />

d) Vid flera y-observationer för varje x-värde kan<br />

formlerna för regressionslinjens koefficienter<br />

modifieras så här:<br />

b =<br />

nixiyi<br />

∑∑<br />

−n⋅x⋅y<br />

nx<br />

−n⋅x<br />

i<br />

i<br />

a = y - b x<br />

∑<br />

nx<br />

där n = ∑ ni<br />

, x = <strong>och</strong> y =<br />

n<br />

∑<br />

ny<br />

i i i i<br />

n


10<br />

e) Den sannolikhetsteoretiska modellen. Enligt modellen<br />

följer de betingade populationsmedelvärdena den<br />

räta linjen<br />

μ y/x = α + βx<br />

Den enskilda y-observationen betraktas som bestående<br />

av två komponenter, det betingade medelvärdet <strong>och</strong><br />

en slumpkomponent: y = μ y/x + ε. Modellen skrivs då<br />

y = α + βx + ε<br />

Man kan visa att koefficienterna i stickprovets<br />

regressionslinje, a <strong>och</strong> b, är förväntningsriktiga<br />

skattningar av modellens koefficienter α resp β.<br />

Modellen kan byggas ut med antagande om att residualerna<br />

är normalfördelade <strong>och</strong> har samma varians, σ ε 2 , efter<br />

hela linjen. Vidare antar man i regel att residualerna<br />

är oberoende av varandra. Dessa antaganden utnyttjas<br />

vid signifikanstest, konfidensintervall <strong>och</strong><br />

prognosintervall men inte vid punktskattningarna<br />

av α <strong>och</strong> β med a resp b.<br />

f) Den "sanna" standardavvikelsen för regressionskoefficienten<br />

b skatts med<br />

$<br />

= s =<br />

s<br />

( x−<br />

x)<br />

s<br />

x −n⋅x<br />

e e<br />

σ b b 2 2 2<br />

∑<br />

=<br />

∑<br />

Antalet frihetsgrader i denna skattning är lika många<br />

som i skattningen av σ ε<br />

2<br />

med s e 2 , dvs n-2.<br />

g) Vid t ex n = 10 erhålles ett 95% konfidensintervall<br />

för den "sanna" riktningskoefficienten b enligt<br />

b ± t<br />

10−−<br />

1 1, 0. 025<br />

⋅ sb<br />

dvs b ± 2.<br />

306⋅<br />

s<br />

b


11<br />

Multipel regression<br />

Sammanfattning av formler<br />

a) Koefficienterna i regressionssambandet<br />

$y = a+ b1x1 + b2x2<br />

erhålls genom lösning av det ekvationssystem som<br />

utgörs av normalekvationerna<br />

∑ ∑ ∑<br />

⎧ a⋅ n+ b1 x1 + b2 x2<br />

= y<br />

⎪<br />

2<br />

⎨a∑x1 + b1∑x1<br />

+ b2∑x1x2 = ∑x1y<br />

⎪<br />

2<br />

⎩a∑x2 + b1∑x1x2 + b2∑x2<br />

= ∑x2y<br />

b) Residualvariansen definieras vid två förklarande<br />

variabler enligt<br />

s<br />

2<br />

e<br />

=<br />

∑ ( yi<br />

− y$ i)<br />

n − 3<br />

2<br />

<strong>och</strong> utgör en förväntningsriktig skattning av<br />

σ ε 2 med n-3 frihetsgrader.<br />

Vid k förklarande variabler är definitionen<br />

2<br />

y y<br />

2 ∑ (<br />

i<br />

− $<br />

i)<br />

se<br />

=<br />

n−k−1<br />

<strong>och</strong> antalet frihetsgrader är n-k-1.<br />

c) Determinationskoefficienten (som även kallas<br />

förklaringsgraden) definieras enligt<br />

R<br />

2<br />

= 1−<br />

∑<br />

∑<br />

( y−<br />

y$)<br />

( y−<br />

y)<br />

2<br />

2<br />

R 2<br />

kan i kvadratsummetermer skrivas<br />

R<br />

2<br />

SSE SST − SSE SSR<br />

= 1− =<br />

=<br />

SST SST SST


12<br />

Utvärdering av prognoser<br />

I det följande betecknas utfallen med U t <strong>och</strong> prognosvärdena med P t .<br />

Mean square error = MSE =<br />

∑<br />

t<br />

(U<br />

t<br />

n<br />

− P )<br />

t<br />

2<br />

Root mean square error = RMSE =<br />

Mean absolute deviation = MAD =<br />

∑<br />

t<br />

MSE<br />

U<br />

t<br />

n<br />

− P<br />

t<br />

1 U<br />

t<br />

− Pt<br />

Mean absolute percentage error = MAPE = ⋅∑<br />

n U<br />

t<br />

t<br />

⋅100,<br />

(U<br />

t<br />

> 0)


13<br />

Exponentiell utjämning<br />

Inledning<br />

Exponentiell utjämning är en speciell teknik för att utjämna <strong>till</strong>fälliga variationer i<br />

tidsseriedata <strong>och</strong> för att göra prognoser. Metoden används ofta för att beskriva utveckling av<br />

ekonomiska företeelser. Men den kan användas för att beskriva ett godtyckligt dataset med<br />

upprepade regelbundet tagna observationer.<br />

Flytande medelvärde (Moving average).<br />

Enklaste sättet att jämna ut en tidsserie är att räkna fram ett flytande medelvärde, dvs<br />

medelvärdet av de k senaste k observationerna:<br />

yˆ<br />

t<br />

k −1<br />

∑ y<br />

n 0 t n yt<br />

+ yt−<br />

1<br />

+ yt−2<br />

+ ..... + yt−k<br />

+ 1<br />

= =<br />

= yt−<br />

1<br />

+<br />

k<br />

k<br />

= − t<br />

−<br />

y<br />

k<br />

y<br />

t−k<br />

Valet av antalet observationer k i medelvärdet är godtyckligt. Ett litet k-värde har mindre<br />

utjämnande effekt än ett större. Ett större medför en större kvardröjande effekt (lag) av<br />

tidigare data. En nackdel med tekniken är att den inte kan användas på de k-1 första data i<br />

serien. Tekniken lämpar sig för data som inte har tydlig trend eller säsongsvariation.<br />

Enkel exponentiell utjämning (Single exponential smothing)<br />

Princip: En ny prognos erhålls genom att man väger ihop faktiska utfallet med föregående<br />

prognos. Den nya prognosen blir ett vägt medelvärde av dessa.<br />

yˆ t 1<br />

y<br />

t<br />

(1<br />

)<br />

yˆ<br />

t<br />

α kallas utjämningskonstant (väljs vanligen i intervallet 0,01 – 0,30). Passar för tidsserier<br />

utan tydlig trend <strong>och</strong> säsongsvariationer. Stora α-värden ger större vikt <strong>till</strong> senaste<br />

observationen <strong>och</strong> mindre vikt <strong>till</strong> tidigare data som senaste prognosen bygger på.<br />

Exponentiell utjämning vid linjär trend (Holt’s teknik) (Double exponential<br />

smothing)<br />

Princip: En ny prognos erhålls genom att man väger ihop en nivåskattning L (level) med en<br />

skattning av trendökningen T. Dessa erhålles först genom formlerna:<br />

L<br />

= α ⋅ y<br />

T = γ ( L − L<br />

t<br />

t<br />

t<br />

t<br />

+ (1 −α)<br />

⋅ ( L<br />

t−1<br />

t−1<br />

) + (1 − λ)<br />

T<br />

+ T<br />

t−1<br />

t−1<br />

)<br />

där<br />

där<br />

0 < α < 1<br />

0 < γ < 1<br />

Därefter erhålles en prognos för h perioder framåt genom formeln:<br />

yˆ<br />

t+<br />

h<br />

= L<br />

t<br />

+ h ⋅T<br />

t<br />

Denna metod passar för tidsserier med trend men utan säsongsvariationer. Stora värden på<br />

konstanterna α <strong>och</strong> γ innebär att senare observationer får större vikt <strong>och</strong> tidigare observationer<br />

mindre.


Winters’ metod för exponentiell utjämning med linjär trend <strong>och</strong> multiplikativ<br />

säsongsseffekt<br />

I exemplet med anställda i privat sektor <strong>och</strong> liknande skulle det vara intressant att också pröva<br />

en metod som kan ge större vikt åt senare observationer. Vid metoden exponentiell utjämning<br />

uppdaterar man skattningsformlerna med nya observationer då dessa blir <strong>till</strong>gängliga.<br />

Winters har utvecklat denna metod för exponentiell utjämning <strong>till</strong> att också hantera<br />

säsongseffekter.<br />

Princip: För varje ny prognos uppdateras trendnivån L, trendökningstakten T <strong>och</strong><br />

säsongseffekten S.<br />

yt<br />

Lt<br />

= α ⋅<br />

St−s<br />

+ (1 − α)<br />

⋅ ( Lt<br />

−1<br />

+ Tt<br />

−1<br />

) där 0 < α < 1<br />

Tt<br />

= γ ( Lt<br />

− Lt<br />

−1<br />

) + (1 − γ ) Tt<br />

−1<br />

där 0 < γ < 1<br />

yt<br />

St<br />

= δ ⋅ + (1 − δ ) St−s<br />

Lt<br />

där 0 < δ < 1<br />

Därefter erhålles en prognos för h perioder framåt genom formeln:<br />

ˆ<br />

y<br />

t+ h<br />

= ( Lt<br />

+ h ⋅Tt<br />

) St−s+<br />

h<br />

(Metoden kan anpassas <strong>till</strong> additiv modell)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!