26.09.2018 Views

analitika teorija

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Marketing <strong>analitika</strong>: Istraºiva£ki proces 1<br />

autor: doc. dr Emir Agi¢<br />

02. 03. 2015. (ver. 1.1)<br />

1 NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnoºavanje<br />

ovog materijala ili nekih njegovih dijelova bez prethodnog pisanog pristanka<br />

autora.


Sadrºaj<br />

1 Metodologija istraºiva£kog procesa 2<br />

1.1 Denisanje problema istraºivanja . . . . . . . . . . . . . . . . 3<br />

1.2 Generisanje teoretskog okvira . . . . . . . . . . . . . . . . . . 4<br />

1.3 Denisanje istraºiva£kih hipoteza . . . . . . . . . . . . . . . . 8<br />

1.4 Kreiranje istraºiva£kog dizajna za provjeru hipoteza . . . . . 9<br />

1.4.1 Denisanje na£ina mjerenja: varijable . . . . . . . . . 9<br />

1.4.1.1 Kvalitativne i metrijske varijable . . . . . . . 10<br />

1.4.1.2 Opservirane i latentne varijabe . . . . . . . . 11<br />

1.4.2 Denisanje na£ina mjerenja: korelacioni i eksperimentalni<br />

dizajn . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

1.4.3 Prikupljanje podataka: Uzorak i uzorkovanje . . . . . 15<br />

1.5 Analiza podataka i interpretacija rezultata . . . . . . . . . . . 17<br />

1.5.1 Priprema podataka za analizu . . . . . . . . . . . . . . 17<br />

1.5.2 Odabir tehnike analize . . . . . . . . . . . . . . . . . . 18<br />

1.5.3 Analiza podataka . . . . . . . . . . . . . . . . . . . . . 23<br />

1.5.3.1 Statisti£ko modeliranje . . . . . . . . . . . . 23<br />

1.5.3.2 Interpretacija dobijenih rezultata . . . . . . . 24<br />

1.6 Zaklju£ak istraºivanja . . . . . . . . . . . . . . . . . . . . . . 26<br />

1


Poglavlje 1<br />

Metodologija istraºiva£kog<br />

procesa<br />

Istraºivanje u naj²irem smislu moºemo denisati kao skup aktivnosti koje<br />

poduzimamo kako bi pro²irili postoje¢a znanja i dobili odgovore na razli£ita<br />

pitanja. Iz ove ²ire denicije izvodi se pojam nau£nog istraºivanja koje podrazumjeva<br />

primjenu nau£nog metoda u istraºivanju. Nau£ni metod je<br />

primjena standardizovanog procesa putem kojeg se postavljene pretpostavke<br />

provjeravaju analizom empirijskih podataka. Dakle, da bi imalo nau£ni karakter<br />

istraºivanje mora biti zasnovan na prikupljanju empirijskih i mjerljivih<br />

podataka [6]. Uobi£ajeno je da se istraºivanje uz primjenu nau£nog metoda<br />

prikazuje kao skup koraka koje nazivamo istraºiva£ki proces. U ²irem<br />

smislu ovaj proces obuhvata:<br />

1. Denisanje problema istraºivanja<br />

2. Generisanje teoretskog okvira<br />

3. Denisanje istraºiva£kih hipoteza<br />

4. Odabir istraºiva£kog dizajna za provjeru hipoteza<br />

5. Analiza podataka i interpretacija rezultata<br />

6. Formulisanje odgovora na postavljeno pitanje (zaklju£ak istraºivanja)<br />

2


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 3<br />

1.1 Denisanje problema istraºivanja<br />

Ovaj korak podrazumjeva odabir teme istraºivanja i denisanje istraºiva£kog<br />

pitanja (engl. research question). Tema istraºivanja treba biti relevantna<br />

sa teoretskog i/ili prakti£nog aspekta. U okviru ovog koraka obavlja<br />

se i pregled literature. Danas se kao nezaobilazni izvori, posebno za radove<br />

nau£nog karaktera, name¢u specijalizovane baze tekstova objavljenih u<br />

stru£nim £asopisima i na konferencijama. Neke od popularnih baza za oblast<br />

dru²tvenih nauka su: Ebsco, Emerald, Science Direct i sli£no. Antonius [2]<br />

navodi da pregled literature treba da ostvari tri cilja:<br />

• da obezbjedi spisak autora, radova, knjiga i nau£nih izvje²taja koji se<br />

odnose na dato istraºiva£ko pitanje;<br />

• identikuje teoretske pristupe koji se koriste pri istraºivanju datog pitanja;<br />

• da pruºi spoznaju o dosada²njim glavnim empirijskim nalazima o istraºivanoj<br />

probelmatici i povezanim temama.<br />

Nakon ²to smo obavili pregled literature i stekli uvid u dosad²nja istraºivanja<br />

moramo specicirati glavno istraºiva£ko pitanje na²e studije. Istraºiva£ko<br />

pitanje predstavlja formalnu izjavu o cilju studije i daje jasnu naznaku o<br />

tome ²ta istraºujemo i ²ta poku²avamo da dokaºemo. Odabrana tema i<br />

istraºiva£ko pitanje trebaju biti orginalni. Ukoliko se pregledom literature<br />

ispostavi da je neko ve¢ istraºivao odabranu temu potrebno je istoj pristupiti<br />

sa novog aspekta i vidjeti da li moºemo postoje¢em znanju dodati ne²to novo<br />

ili pro²iriti studiju na populaciju koja nije bila predmet prethodnih radova<br />

(drugim rije£ima, da li moºemo uraditi replikaciono istraºivanje). U tabeli<br />

1.1 je dat primjer istraºiva£kih pitanja formulisanih na bazi odabrane teme<br />

istraºivanja.


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 4<br />

Tablica 1.1: Primjer tema istraºivanja i povezanih pitanja<br />

Tema istraºivanja<br />

Istraºiva£ko pitanje<br />

Primjena marketing koncepta Da li kompanije koje su vi²e<br />

poslovanja i performanse trºi²no orijentisane ostvaruju<br />

kompanije.<br />

bolje poslovne performanse u<br />

Programi lojalnosti i pona²anje<br />

kupaca pri kupovini.<br />

Uticaj eksibilnog radnog<br />

vremena na motivaciju<br />

zaposlenika.<br />

odnosu na druge kompanije?<br />

U kojoj mjeri programi sa<br />

karticama lojalnosti koje svojim<br />

kupcima nude veliki trgova£ki<br />

centri uti£u na pona²anje<br />

potro²a£a u kupovini?<br />

Kakva ¢e biti reakcija<br />

zaposlenika na uvoženje<br />

eksibilnijeg radnog vremena?<br />

1.2 Generisanje teoretskog okvira<br />

Nakon ²to smo postavili istraºiva£ka pitanja potrebno je razraditi teoretski<br />

okvir. Teoretski okvir (engl. theoretical framework) sa£injavaju koncepti,<br />

konstrukti, njihove denicije i <strong>teorija</strong> koja ih povezuje zajedno sa referencama<br />

na odgovaraju¢u literaturu. Unutar teoretskog okvira istraºiva£ mora<br />

demonstrirati razumjevanje koncepata i <strong>teorija</strong> koji su relevantni za istraºivanje<br />

[8]. Zbog toga je generisanje teoretskog okvira, naro£ito u akademskim<br />

istraºivanjima, usko povezano sa pregledom literature. Teoretski okvir povezuje<br />

trenutno istraºivanje sa prethodnim saznanjima, usmjerava istraºiva£a<br />

u pogledu obuhvata istraºivanja (²ta ¢e biti fokus) i deni²e speci£nu ta£ku<br />

gledi²ta (perspektivu, aspekt) iz koje ¢e istraºiva£ pristupiti analizi i interpretaciji<br />

podataka koje prikupi tokom istraºivanja.<br />

Ako se vratimo na tabelu 1.1 moºemo uo£iti razli£ite pojmove: marketing<br />

koncept, trºi²na orijentacija, poslovne performanse, programi lojalnosti,<br />

pona²anje potro²a£a, veliki trgova£ki centri, felskibilno radno vrijeme, zaposlenici<br />

i reakcija zaposlenika. Izuzetno je vaºno da se sloºimo oko zna£enja<br />

ovih pojmova. ’ta zna£i biti trºi²no orijentisan? Koje performanse i kako<br />

ih mjerimo? ’ta su veliki trgova£ki centri i koje kriterije koristimo za njihovu<br />

klasikaciju? ’ta podrazumjevamo pod programima lojalnosti? Kakve<br />

vrste reakcija zaposlenika? Kojih zaposlenika? ’ta su najvaºniji indikatori?


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 5<br />

Ovakva i sli£na pitanja zahtijevaju kori²tenje koncepata, konstrukata i denicija.<br />

Koncept je uop²tena ideja o odreženim objektima, atributima, pojavama<br />

ili procesima koja ima svoj naziv [11, p.40]. Koncepti se opisuju pojmovima<br />

(rije£ima i frazama), pa se recimo pojmovi trºi²te i orijentacija koriste za<br />

opis koncepta trºi²ne orijentacije. U svakodnevnom govoru mi se u znatnoj<br />

mjeri koristimo konceptima kako bi lak²e baratali kompleksnim objektima<br />

i dogažajima. Tako na primjer kada £ujemo putni£ki automobil u svijest<br />

prizivamo £itav niz mogu¢ih modela automobila koje povezuju odrežene<br />

karakteristike.<br />

Uspjeh istraºivanja zavisi od jasne konceptualizacije i sposobnosti drugih<br />

da razume koncepte koje koristimo. Ljudi vrlo £esto istim pojmovima pridaju<br />

razli£ita zna£enja pa su £este situacije da, iako govore istim jezikom,<br />

ne razumiju jedni druge. Npr., uobi£ajeno pitanje: Primanja va²eg doma-<br />

¢instva iznose... sadrºi naizgled jasan koncept primanja. Mežutim, mnogi<br />

ispitanici ne¢e znati ²ta ta£no odgovoriti jer nije naveden period na koji se<br />

primanja odnose (sedmica, mjesec, godina), da li se uklju£uju samo primanja<br />

glave porodice ili svih £lanova doma¢instva, da li osim plate u primanja<br />

ulaze i ostali prihodi (dividende, kamate...) i sl.<br />

Posebno treba obratiti paºnju da u slu£aju nekih koncepata postoji izrazito<br />

velik nivo apstrakcije. Kako nivo apstrakcije raste, pove¢ava se vjerovatno¢a<br />

da ¢e ljudi razli£ito poimati zna£enje koncepta. Na primjer, koncepti<br />

oko £ijeg se zna£enja moºemo lako sloºiti su: zaposlenik, automobil, kompjuter,<br />

novac, trgova£ki centar i sl. Ove koncepte karakterizira niºi nivo<br />

apstrakcije i lako moºemo vizualizirati svaki od pobrojanih koncepata. Mežutim,<br />

ve¢ koncepti kao ²to su primanja, kompanija, zaposlenici, poslovne<br />

performanse, trgova£ki centar i sl. mogu izazvati probleme u komunikaciji.<br />

Stvari se dodatno kompliciraju u slu£aju izazovnih koncepata kao ²to su:<br />

programi lojalnosti, marketing, trºi²na orijentacija i sl. U slu£aju ovih koncepata<br />

imamo visok nivo apstrakcije i vizualizacija je mnogo teºa.<br />

Apstraktni koncepti se £esto nazivaju konstruktima i obi£no grade kombinovanjem<br />

drugih koncepata ili konstrukata, posebno kada ideja koju namjeravamo<br />

iskazati nije direktno vidljiva ili mjerljiva. Na primjer, marketing<br />

koncept je poslovna lozoja prema kojoj je klju£ uspjeha kompanije u zadovoljenju<br />

potro²a£kih potreba na bolji na£in nego ²to to rade konkurenti.<br />

S druge strane, koncept trºi²ne orijentacije se odnosi na primjenu marketing<br />

koncepta praksi. Oba koncepta su dosta apstraktna i te²ko ih je izmjeriti.<br />

Samim tim postoji velika vjerovatno¢a da ¢e imati sasvim razli£ita zna£enja


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 6<br />

za razli£ite osobe. ’tavi²e, ako napravimo pregled dosada²njih istraºivanja<br />

moºemo primjetiti da autori trºi²noj orijentaciji kompanije pristupaju iz<br />

razli£itih perspektiva. U tabeli 1.2 su predstsvljena dva pristupa iz kojih vidimo<br />

da je trºi²na orijentacija sloºeni konstrukt koji se gradi kombinovanjem<br />

drugih konstrukata.<br />

Tablica 1.2: Dva razli£ita pristupa konstruktu trºi²ne orijentacije<br />

Perspektiva Denicija Konstrukti Autori<br />

Trºi²na orijentacija je<br />

(1) Orijentacija<br />

organizaciona kultura koja<br />

na potro²a£e;<br />

najefektivnije i<br />

(2) Orijentacija Narver i<br />

Organizaciona najekasnije kreira<br />

na konkurente; Slater<br />

kultura neophodno pona²anje<br />

(3) Interfunkcionalna<br />

(1990)<br />

kompanije £iji je krajnji<br />

cilj isporuka superiorne<br />

koordinacija<br />

vrijednosti potro²a£ima.<br />

Pona²anje<br />

organizacije<br />

Trºi²na orijentacija se<br />

odnosi na generiranje<br />

informacija vezanih za<br />

sada²nje i budu¢e potrebe<br />

potro²a£a, ²irenje tako<br />

prikupljenih informacija u<br />

sve organizacione dijelove<br />

kompanije, i organizovanje<br />

reagovanja kompanije na<br />

osnovu tih informacija.<br />

(1) Generisanje<br />

informacija; (2)<br />

Diseminacija<br />

informacija; (3)<br />

Responsivnost<br />

Kohli i<br />

Jaworski<br />

(1990)<br />

Pogre²no razumjevanje zna£enja koncepta i konstrukta moºe potkopati<br />

rezultate istraºivanja a da istraºiva£ toga nije ni svjestan. Zbog toga, nakon<br />

²to identikujemo sve koncepte i konstrukte relevantne za istraºivanje, potrebno<br />

je razviti operativnu deniciju koja mora precizirati karateristike<br />

koje se prou£avaju i na£in na koji ¢e te karakteristike biti mjerene. Osnovna<br />

svrha operativne denicije je da omogu¢i razumjevanje i mjerenje koncepata,<br />

posebno onih koje ¢emo koristiti za testiranje hipoteza i teorije [3]. Pri<br />

kreiranju operativne denicije moramo biti svjesni i odreženih problema.<br />

Cooper i Emory [3] skre¢u paºnju na stalno prisutnu opasnost izjedna£avanja<br />

koncepta i operativne denicije. Ipak, denicija uvijek ima uºe zna£enje<br />

od koncepta. Ona £esto pruºa uvid u neku pojavu iz samo jedne perspek-


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 7<br />

tive. Zato se de²ava da pri istraºivanju iste pojave imamo denicije koje su<br />

mežusobno znatno razli£ite po zna£enju. Ovo je posebno izraºeno kada u<br />

istraºivanju koristimo konstrukte. Tada, zbog visokog nivoa apstrakcije, postoji<br />

veoma malo empirijskih pokazatelja na osnovu kojih moºemo procjeniti<br />

da li se operativna denicija zaista odnosi na ono ²to bi trebali mjeriti. Na<br />

primjer, u tabeli 1.1 su navedene dvije razli£ite operativne denicije koje proizilaze<br />

iz dva razli£ita pristupa fenomenu trºi²ne orijentacije. Ipak, obzirom<br />

da su vezane za isti fenomen, obje denicije sadrºe zajedni£ku poveznicu, a<br />

to je aktivan stav kompanije prema potro²a£ima. Oni su u centru paºnje i<br />

sve po£inje od njihovih potreba.<br />

Nakon ²to smo denisati glavne koncepte potrebno je odrediti njihove mežusobne<br />

odnose i pretpostavke na kojima se ti odnosi baziraju. Pogledajnmo<br />

istraºiva£ka pitanja iz tabele 1.1. Prvo istraºiva£ko pitanje odnosi na uticaj<br />

trºi²ne orijentacije na poslovne performanse. Pretpostavka je da ¢e trºi²no<br />

orijentisane kompanije bolje poznavati potrebe potro²a£a ²to im omogu¢ava<br />

da tim istim potro²a£ima isporu£e ve¢u vrijednost. Takvi potro²a£i ¢e biti<br />

zadovoljni i stalno se vra¢ati da kupuju od kompanije koja im je dala vi²e u<br />

odnosu na konkurente. Samim tim ve¢a trºi²na orijentisanost ¢e u krajnjoj<br />

liniji rezultirati superiornim poslovnim performansama. Drugo istraºiva£ko<br />

pitanje odnosi se na programe lojalnosti i pona²anje potro²a£a. Istraºiva£<br />

moºe po¢i od pretpostavke da kartice lojalnosti imaju uticaj na pona²anje<br />

potro²a£a zbog toga ²to lojalnim kupcima omogu¢uju kupovinu po sniºenim<br />

cijenama. Zato ¢e takvi kupci vi²e i £e²¢e kupovati u prodavnici odnosu na<br />

kupce koji nisu £lanovi.<br />

Ovakve i sli£ne generalizacije, koje pravimo kada govorimo o konceptima<br />

i vezama izmežu njih, predstavljaju teoriju. Teorije se razvijaju kako bi<br />

razumjeli, objasnili i predvidjeli neki fenomen, £esto i kako bi opovrgli ili<br />

pro²irili postoje¢a saznanja. U tom kontekstu, unutar teoretskog okvira se<br />

predstavlja i opisuje <strong>teorija</strong> koja obja²njava za²to smo uop²te postavili istra-<br />

ºiva£ko pitanje [8].<br />

Ako se vratimo na prethodne primjere, mogu¢e je razviti i alternativne teorije.<br />

Tako se moºe ustvrditi da implementacija trºi²ne orijentacije zahtjeva<br />

dosta resursa i da ¢e zbog tih tro²kova poslovne performanse biti slabije, a ne<br />

bolje. Takožer, mogu¢e je da programi lojalnosti uti£u samo na pona²anje<br />

kupaca sa manjim primanjima budu¢i da niska visina cjenovnih u²teda nije<br />

dovoljan motiv za promjenu kupovnih navika ve¢ine kupaca.<br />

Da bi testirali da li je neka <strong>teorija</strong> ta£na neophodno je prikupiti empirijske<br />

podatke na bazi kojih ¢e se uraditi provjera. Mežutim, prije toga se formuli²u


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 8<br />

formalne izjave unutar kojih je nazna£eno kakvi se rezultati o£ekuju ako je<br />

<strong>teorija</strong> ispravna. Drugim rije£ima, deni²u se prijedlozi i hipoteze.<br />

1.3 Denisanje istraºiva£kih hipoteza<br />

Izjave kojima se speciciraju karakteristike i veze izmežu koncepata nazivaju<br />

se propozicijama ili prijedlozima [11, p. 40]. Na primjer, ako kaºemo da<br />

ve¢a trºi²na orijentacija preduze¢a rezultira boljim poslovnim performansama,<br />

mi smo specicirali vezu izmežu trºi²ne orijentacije preduze¢a i njegovih<br />

poslovnih performansi. Propoziciju koju moºemo empirijski provjeriti<br />

nazivamo hipotezom [3]. Hipoteza ukazuje na rezultat koji najvjerovatnije<br />

o£ekujemo, a koji se ne mora pokazati kao ta£an. Zbog toga i provodimo<br />

istraºivanje, da testiramo da li je neka hipoteza ta£na ili ne. Ako smo unaprijed,<br />

bez ikakve sumnje, sigurni u to ²ta ¢e biti rezultat istraºivanja onda<br />

nam istraºivanje i ne treba.<br />

Generalno govore¢i, hipoteze moºemo podijeliti u dvije grupe: deskriptivne<br />

i relacione. Relacione hipoteze mogu biti korelacione ili kauzalne.<br />

Deskriptivnim hipotezama obi£no izraºavamo postojanje, veli£inu ili<br />

distribuciju frekvencija neke varijable [3, p. 39]. Na primjer, U Bosni i Hercegovini,<br />

trºi²no u£e²¢e kompanije Meggle u prodaji mlijeka iznosi manje<br />

od 20%. U praksi istraºiva£i rijetko eksplicitno speciciraju deskriptivne<br />

hipoteze ve¢ je dovoljno navesti samo istraºiva£ko pitanje. Tako se umjesto<br />

prethodno navedene hipoteze, moºe formulisati pitanje Koliko trºi²no u£e²¢e<br />

ima kompanije Meggle u prodaji milijeka na teritoriji Bosne i Hercegovine?<br />

Relacionim hipotezama deni²emo vrste odnosa koji postoje izmežu varijabli.<br />

Relacione hipoteze mogu biti koralcione i kauzalne. Korelacione<br />

hipoteze govore o tome da li je kretanje vrijednosti dvije ili vi²e varijabli<br />

mežusobno povezano, bez speciciranja uzro£no posljedi£ne veze. Na<br />

primjer, Broj prodatih automobila varira u zavisnosti od stadija poslovnog<br />

ciklusa privrede . Kauzalne hipoteze govore o tome da promjena vrijednosti<br />

jedne varijable direktno uti£e na drugu varijablu. Na primjer, Ve¢a<br />

trºi²na orijentacija rezultira ve¢im ostvarenim protom kompanije.<br />

Cooper i Emory [3] navode da hipoteze igraju vi²estruku ulogu:<br />

• Usmjeravaju istraºivanje u odgovaraju¢em pravcu,<br />

• Pomaºu da se identikuju sve relevantne £injenice,


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 9<br />

• Sugeri²u najprikladniji istraºiva£ki dizajn i<br />

• Pruºaju okvir za organizovanje dobijenih zaklju£aka.<br />

Uzmimo za primjer hipotezu: Zadovoljstvo potro²a£a trgova£kom markom<br />

je pozitivno povezano sa lojalno²¢u prema prodavnici koja prodaje tu marku.<br />

Ovako postavljena hipoteza determini²e koga istraºujemo (potro²a£e), u kojem<br />

kontekstu se studija provodi (kupovina) i ²ta je predmet istraºivanja<br />

(zadovoljstvo trgova£kom markom i lojalnost prema prodavnici).<br />

Nakon ²to smo kreirali teoretski okvir i denisali hipoteze istraºivanja,<br />

sljede¢i korak je operacionalizacija, tj. prelazak sa teoretskog na empirijski<br />

nivo istraºivanja.<br />

1.4 Kreiranje istraºiva£kog dizajna za provjeru hipoteza<br />

Prvi korak u okviru operacionalizacije istraºivanja odnosi se na odabir istra-<br />

ºiva£kog dizajan. Istraºiva£ki dizajn predstavlja osnovni plan istraºivanja<br />

kojim se deni²e na£in mjerenja, prikupljanja i analize podataka. Odabir<br />

pravog istraºiva£kog dizajna nije lagan zadatak obzirom da postoji veliki<br />

broj faktora koje treba uzeti u obzir. Denitivno najvaºniji faktor je istraºiva£ki<br />

problem. U skladu sa tim, istraºiva£ki dizajn treba da pruºi strategiju<br />

kojom ¢e se na koherentan i logi£an na£in objediniti razli£ite komponente<br />

studije u cilju pronalaºenja efektivnog odgovora na postavljeno istraºiva£ko<br />

pitanje. Dakle, problem istraºivanja diktira izbor vrste kori²tenog dizajna a<br />

ne obratno [1].<br />

1.4.1 Denisanje na£ina mjerenja: varijable<br />

Na empirijskom nivou istraºivanja, gdje se na bazi prikupljenih podataka<br />

odvija provjera postavljenih hipoteza, moramo prvo odrediti na£in na koji<br />

¢emo mjeriti identikovane koncepte i konstrukte. U tom kontekstu govorimo<br />

o varijablama. Varijabla je pojava ili osobina koja se mijenja, i po<br />

kojoj se jedinice odrežene populacije mežusobno razlikuju, ili se mogu razlikovati.<br />

Modalitet koji varijabla moºe uzeti naziva se vrijedno²¢u varijable.<br />

Na primjer, spol je kvalitativna varijabla koja ima samo dva modaliteta:<br />

mu²ki ili ºennski.


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 10<br />

U praksi, varijabla je £esto sinonim za koncept ili obiljeºje koje se prou£ava<br />

[3]. Na primjer, za mjerenje socio-demografskih karkateristika koristimo<br />

neke od sljede¢ih varijabli: dob, pol, religija, nivo obrazovanja, bra£ni<br />

status, nacionalnost, prebivali²te... Za mjerenje ekonomskih karakteristika<br />

upotrebljavamo: radni status, primanja, duºina radnog vremena... Varijable<br />

kojima mjerimo psiholo²ka obiljeºja izmežu ostalog uklju£uju: stepen depresivnosti,<br />

preferencije, rezultat ostvaren na testu personalnosti... Neke od<br />

ostalih £esto kori²tenih varijabli su: broj stanovnika, ostvareni prot, stepen<br />

trºi²ne orijentacije, i sli£no.<br />

1.4.1.1 Kvalitativne i metrijske varijable<br />

Primje¢ujemo da neke od gore nabrojanih varijabli odraºavaju karakteristike<br />

ili kvalitativna svojstva koja nisu numeri£ke prirode, kao ²to je na primjer<br />

mjesto prebivali²ta. S druge strane, neke se odnose na kvantitativna svojstva,<br />

kao ²to je recimo ostvareni prot. Generalno, prema vrsti podataka<br />

koje reprezentuju, varijable moºemo podijeliti u dvije grupe: kategorijske<br />

(kvalitativne) i metrijske varijable.<br />

Prvi tip kategorijskih varijabli su dihotomne (binarne) varijable koje<br />

mogu imati samo dvije vrijednosti: 0 ili 1. Ove vrijednosti ozna£avaju prisustvo,<br />

odnosno odsustvo neke osobine, obiljeºja ili kategorije. Na primjer, pol<br />

ispitanika moºe se ozna£iti sa: 0 mu²ki, 1 ºenski. Za ovakav tip varijabli<br />

nije smisleno izra£unavati mjere centralne tendencije kao ²to je aritmeti£ka<br />

sredina ili medijana, budu¢i da brojevi 0 i 1 nemaju zna£enje u smislu vrijednosti.<br />

Drugi tip kategorisjkih varijabli su politomne varijable koje mogu biti<br />

nominalne kategorijske varijable ili ordinalne kategorijske varijable. Nominalne<br />

kategorijske varijable su ekstenzija prethodno pomenutih dihotomnih<br />

varijabli i za razliku od njih mogu imati vi²e kategorija. Na primjer,<br />

primarna djelatnost kompanije se moºe ozna£iti sa: 0 Poljoprivreda, 1 <br />

’umarstvo, 2 Preraživa£ka industrija itd. Kao i kod binarnih varijabli<br />

broj£ane vrijednosti su radi identikacije i nemaju zna£enje u smislu vrijednosti.<br />

Ordinalne kategorijske varijable imaju vi²e kategorija koje se<br />

ozna£avaju sa brojevima, koji za razliku od prethodnog slu£aja, daju indikaciju<br />

odrežene vrijednosti s obzirom na redoslijed u nizu u kojem su poredani.<br />

Na primjer, kompanije prema visini ostvarenog prota moºemo ozna£iti na<br />

sljede¢i na£in: 1 Lo²ije u donosu na konkurente, 2 Jednake u odnosu na<br />

konkurente, 3 Bolje u odnosu na konkurente. Za razliku od prethodna dva


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 11<br />

slu£aja jasno se vidi da broj dva ozna£ava ve¢u vrijednost u odnosu na broj<br />

jedan a broj tri ve¢u vrijednost u odnosu na broj dva, a samim tim i u odnosu<br />

na broj jedan. Ono ²to se ne vidi je veli£ina stvarna razlike izmežu ovih<br />

kategorija. Da li su kompanije iz tre¢e kategorije mnogo bolje u odnosu na<br />

one u drugoj kategoriji ili je ta razlika mala? Na ovo pitanje je te²ko dati odgovor<br />

budu¢i da ordinalne varijable ne omogu¢avaju mjerenje veli£ine razlike<br />

izmežu datih kategorija. Kod ovih varijabli za mjerenje centralne tendencije<br />

ima smisla koristiti medijanu, ali ne i aritmeti£ku sredinu.<br />

Metrijske varijable predstavljaju podatke mjerene na intervalnim i proporcionalnim<br />

skalama. Osnovna razlika izmežu ova dva tipa skala je ²to<br />

proporcionalne skale imaju prirodnu nulu kao svoj po£etak, dok intervalne<br />

skale za po£etnu vrijednost uzimaju arbitrarnu vrijednost. Ono ²to je bitno<br />

naglasiti za skale je £injenica da omogu¢avaju mjerenje veli£ine razlike izmežu<br />

vrijednosti na kojima se skala kre¢e. U statisti£kim paketima kao ²to<br />

je SPSS, STATA i sl. ne pravi se posebna diferencijacija izmežu intervalnih<br />

i proporcionalnih skala i one se u analizama tretiraju jednako.<br />

1.4.1.2 Opservirane i latentne varijabe<br />

Osvrnimo se sada na jednu drugu vrstu kategorizacije, prema kojoj varijabile<br />

dijelimo na opservirane (engl. observed), dakle, one koje smo direktno<br />

izmjerili i latentne (skrivene), tj. one koje ne moºemo mjeriti direktno ve¢<br />

isklju£ivo indirektno putem opserviranih varijabli (koje u takvoj ulozi zovu<br />

indikatorima ili manifestnim varijablama). U literaturi je uobi£ajeno da se<br />

opservirane varijable na ²ematskim prikazima predstavljaju pravugaonicima<br />

dok se latentne varijable predstavljaju elipsama. Na primjer, stepen trºi²ne<br />

orijentacije odrežene kompanije ne moºemo nikada precizno izmjeriti samo sa<br />

jednim pitanjem (varijablom). Ukoliko bi koristili samo jednu varijablu javila<br />

bi se velika mogu¢nost da ¢e razli£iti ispitanici interpretirati pitanje na svoj<br />

na£in i davati razli£ite odgovore, ²to smanjuje sigurnost da precizno mjerimo<br />

konstrukt trºi²ne orijentacije koji nas interesuje. Mežutim, preciznost se<br />

moºe pove¢ati ako postavimo vi²e razli£itih pitanja koja mjerenju trºi²ne<br />

orijentacije pristupaju sa razli£itih aspekata. Kombinirani odgovori na data<br />

pitanja daju ve¢u preciznost i sigurnost da mjerimo ono ²to nas interesuje.<br />

Na slici 1.1 je dat prikaz opserviranih varijabli koje predstavljaju pitanja<br />

na sedmostepenoj Likertovoj skali a kojima se mjere tri koncepta koja<br />

prema Narveru i Slateru £ine konstrukt trºi²ne orijentacije. Sam proces<br />

kojim sloºeni konstrukt ra²£lanjujemo na dimenzije i indikatore naziva se


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 12<br />

operacionalizacija konstrukta.<br />

Slika 1.1<br />

Drugi primjer u okviru kojeg moºemo ilustrovati odnos izmežu manifestnih<br />

i latentnih varijabli odnosi se na poslovne performanse. Ukupne poslovne<br />

performanse predstavljaju konstrukt koji se manifestuje preko razli£itih<br />

dimenzija. Jedan od na£ina na koji moºemo izmjeriti ukupne poslovne<br />

performanse je da ih podijelimo na proizvodne, marketini²ke i nansijske


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 13<br />

performanse koje ¢emo mjeriti sa nekoliko indikatora kao ²to je prikazano u<br />

tabeli 1.3<br />

Tablica 1.3: Sloºeni konstrukt ra²£lanjen na nekoliko dimenzija koje<br />

mjerimo indikatorima<br />

Konstrukt Dimenzije Indikatori<br />

Proizvodne performanse<br />

Tro²kovi (T)<br />

Kvalitet (Q)<br />

Fleksibilnost (F)<br />

Poslovne performanse Marketing performanse<br />

Trºi²no u£e²¢e (S)<br />

Rast trºi²nog u£e²¢a (G)<br />

Finansijske performanse<br />

Povrat na aktivu (ROA)<br />

Povrat na ulaganja (ROI)<br />

Povrat od prodaje (ROS)<br />

Latentne varijable<br />

Opserivrane varijable<br />

Na desnoj strani tabele imamo niz indikatora, odnosno opserviranih varijabli<br />

koje moºemo direktno mjeriti. Ni jedan indikator samostalno ne moºe<br />

mjeriti konstrukt poslovnih performansi ve¢ samo neke njegove aspekte. Mežusobno<br />

sli£ni indikatori se grupi²u u dimenzije ili faktore. Kona£no, razli£ite<br />

dimenzije posmatrane zajedno, mjere sloºeni konstrukt.<br />

1.4.2 Denisanje na£ina mjerenja: korelacioni i eksperimentalni<br />

dizajn<br />

Prema na£inu na koji organizujemo prikupljanje podataka razlikujemo korelacioni<br />

i eksperimentalni dizajn. U oba slu£aja cilj nam je da utvrdimo<br />

postojanje veza i kauzalnosti izmežu varijabli od interesa a osnovna razlika<br />

ogleda se u na£inu na koji dolazimo do podatka kojima testiramo hipoteze<br />

Korelacioni dizajn podrazumjeva posmatranje i prikupljanje podatka<br />

o odnosima koji postoje izmežu varijabli bez bilo kakvog upliva istraºiva£a u<br />

sam proces prikupljanja podataka. Jednostavno re£eno, istraºiva£ biljeºi ono<br />

²to se de²ava u stvarnom svijetu pri tome poku²avaju¢i utvrditi na koji na£in<br />

su varijable mežusobno povezane. U zavisnosti od toga da li se ¢e se podaci<br />

prikupljati u samo jednom, ta£no odreženom, vremenskom periodu ili kroz<br />

kroz vi²e perioda, korelacioni dizajn moºe biti kros-sekcioni i longitudinalni.<br />

O kros-sekcionom dizajnu govorimo onda kada se prikupljeni podaci


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 14<br />

odnose na samo jedan vremenski period (dan, sedmica, mjesec, godina i<br />

sli£no). Na primjer, istraºiva£ moºe pitati ispitanike o tome gdje su ljetovali<br />

tokom zadnjeg godi²njeg odmora i koji faktori su opredijelili njihov izbor<br />

lokacije ljetovanja. O£ito je da ¢e se prikupljeni podaci u ovom slu£aju<br />

odnositi samo na jedan period (posljednji godi²nji odmor).<br />

Ako pojave mjerimo na istim subjektima kroz vi²e vremenskih perioda<br />

onda govorimo o longitudinalnom dizajnu. Na primjer, istraºiva£ tokom<br />

niza godina moºe biljeºiti kretanje potraºnje nekom destinacijom zajedno<br />

sa ostalim varijablama kao ²to su preferencije, cijena smje²taja i sli£no, a<br />

sve kako bi utvrdio dinamiku promjena i klju£ne faktore koji determini²u tu<br />

dinamiku.<br />

U oba prethodno navedena primjera, nije bilo direktne manipulacije od<br />

strane istraºiva£a na varijable od interesa. Istraºiva£ je samo biljeºio stvarnu<br />

situaciju u datom vremenskom momentu (kros sekcioni dizajn) ili tokom nekog<br />

vremenskog perioda (longitudinalni dizajn). Nasuprot tome, ekperimentalni<br />

dizajn se odnosi na situacije u kojima istraºiva£ direktno manipluli²e<br />

nezavisnom varijablom kako bi izmjerio kakve efekte ta manipulacija<br />

ima na zavisnu varijablu. Vezano za na£in na koji prikupljamo podatke u<br />

eksperimentalnom dizajnu, razlikujemo nezavisni i zavisni eksperimentalni<br />

dizajn. 1<br />

Na primjer, pretpostavimo da istraºiva£ ºeli organizovati eksperiment<br />

kako bi utvrdio da li potro²a£i vi²e preferiraju plavu ili crvenu boju pakovanja.<br />

Prvi na£in na koji se moºe organizovati ovakav eksperiment je da<br />

ispitanike iz uzorka potpuno slu£ajno raspodijelimo u dvije grupe. Zatim<br />

da jednoj grupi pokaºemo plavo a drugoj crveno pakovanje pri tome mjere¢i<br />

razlike u preferencijama izmežu ove dvije grupe. U ovom slu£aju radi se o<br />

nezavisnom dizajnu jer istraºiva£ manipuli²e nezavisnom varijablom (boja<br />

pakovanja) na dvije odvojene grupe ispitanika. Drugim rije£ima, mjerenje<br />

preferencija u jednoj grupi je potpuno nezavisno od mjerenja u drugoj grupi.<br />

Drugi na£in je da istraºiva£ svim ispitanicima pokaºe prvo plavo a zatim<br />

crveno pakovanje istovremeno mjere¢i njihove preferencije prema ova dva<br />

pakovanja. Tada govorimo o zavisnom dizajnu, jer istraºiva£ manipuli²e<br />

1 Nezavisni dizajn (engl. independent design) nekada se naziva jo² i mežugrupni dizajn<br />

(engl. between-groups ili between-subjects design). S druge strane, nije neuobi£ajeno<br />

da se zavisni dizajn (engl. dependent design) £esto imenuje kao unutar grupni dizajn<br />

(engl. within-subject design) ili £ak dizajn ponovljenih mjerenja (engl. repeated-measures<br />

design). Bez obzira na naziv, rije£ je o istoj stvari.


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 15<br />

nezavisnom varijablom (boja pakovanja) ali na istoj grupi ispitanika. U tom<br />

smislu drugo mjerenje je zavisno jer se obavlja na istim ispitanicima.<br />

1.4.3 Prikupljanje podataka: Uzorak i uzorkovanje<br />

Vrlo vaºan dio istraºiva£kog dizajna odnosi se na pitanja odreživanja uzorka.<br />

Pretpostavimo da ºelimo saznati koliko potro²a£i u Bosni i Hercegovini mjese£no<br />

potro²e na kupovinu nekog proizvoda. Do potpuno ta£ne informacije<br />

do²li bi samo ako bi obuhvatili sve potro²a£e tj. sve jedinice populacije.<br />

Skup svih elemenata na kojima se izvjesna pojava statisti£ki posmatra zove<br />

se populacija [5]. Populacija se moºe odnositi na razli£ite subjekte ili pojave<br />

koje posmatramo na odreženoj teritoriji i tokom odreženog vremenskog<br />

razdoblja, kao ²to su potro²a£i, kompanije, proizvodi, marke, krediti, potraºivanja,<br />

investicije... Pojedina£ni elementi od kojih se sastoji populacija<br />

su jedinice populacije. U na²em primjeru mjese£ni izdaci predstavljali<br />

bi varijablu dok bi izra£unata prosje£na potro²nja predstavljala speci£no<br />

obiljeºje populacije koje nazivamo nazivamo parametar [9].<br />

Provoženje istraºivanja koje bi obuhvatilo cjelokupnu populaciju naj£e²¢e<br />

zahtjeva dosta vremena i ogromne materijalne resurse. U takvim slu£ajevima<br />

moºemo kreirati uzorak i na osnovu uzorka procijeniti parametre populacije.<br />

Uzorak je dio populacije na osnovu £ijeg prou£avanja donosimo zaklju£ke<br />

o samoj populaciji. Proces odabira jedinica populacije u uzorak naziva se<br />

uzorkovanje. Sam postupak dono²enja zaklju£aka o karakteristikama populacije<br />

na osnovu uzorka nazivamo statisti£kim zaklju£ivanjem [5]. Prema<br />

na£inima stvaranja zaklju£aka razlikujemo dvije vrste statistike: deskriptivnu<br />

i inferencijalnu.<br />

Deskriptivna statistika obuhvata numeri£ke i gra£ke procedure koje<br />

se koriste za organizovanje i opisivanje vaºnih svojstava podataka. Koriste¢i<br />

deskriptivnu statistiku istraºiva£ izra£unava numeri£ke vrijednosti (prosjek,<br />

standardna devijacija, medijana...) i gra£ki predstavlja podatke (histogrami,<br />

dijagrami...). Ako analiziramo podatke iz uzorka, primarni cilj desktiptivne<br />

statistike je da predstavi rezultate analize bez poku²aja da se ti<br />

rezultati generaliziraju izvan uzorka na £itavu populaciju (Norman & Streiner,<br />

2003). Deskriptivni pokazatelji koji se izra£unavaju pomo¢u podataka<br />

u uzorku nazivaju se statistikom uzorka. Na primjer, ako na bazi uzorka<br />

izra£unamo prosje£nu mjese£nu potro²nju govorimo o statistici tog obiljeºja<br />

u uzorku [10].


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 16<br />

Mežutim, vrlo £esto istraºiva£ ºeli oti¢i dalje i biti siguran da se ono ²to<br />

vaºi za uzorak moºe primjeniti i na populaciju u cjelini. Na primjer, cilj<br />

istraºivanja moºe biti da ispitamo da li ¢e novo pakovanje rezultirati ve¢im<br />

obimom prodaje. Kada istraºujemo efekte novog pakovanja na prodaju, na²a<br />

namjera je da dožemo do generalnog zaklju£aka koji ¢e vaºiti za sve prodavnice<br />

u kojima ¢e se to pakovanje prodavati, a ne samo za one prodavnice<br />

koje su u uzorku. Da bi zaklju£ke do kojih dožemo na bazi uzorka generalizirali<br />

na populaciju potrebno je da uzorak bude reprezentativan, tj. da se<br />

u njemu posmatrana pojava ispoljava pribliºno isto kao i u cjelokupnoj populaciji.<br />

Zbog toga je u okviru planiranja uzroka potrebno donijeti odluke o<br />

veli£ini uzorka i na£inu uzorkovanja kojim ¢e se obezbjediti reprezentativnost<br />

i mogu¢nost generalizacije nalaza iz uzorka na populaciju u cijelini.<br />

Pretpostavimo da se pokazalo da je prosje£na prodaja proizvoda u prodavnicama<br />

iz uzorka ve¢a nakon uvoženja novog pakovanja. Prije nego po-<br />

ºurimo da zaklju£imo istraºivanje i ustvrdimo da novo pakovanje rezultira<br />

boljom prodajom moramo biti svjesni dvije stvari. Prvo, kad koristimo uzorak<br />

postoji mogu¢nost da on ne bude reprezentativan za populaciju. Taj<br />

problem predstavlja gre²ku uzorkovanja (engl. sampling error) i odra-<br />

ºava se u £injenici da uzorak nikada ne¢e biti savr²eno identi£an populaciji.<br />

Tako se moºe desiti da su u uzorak sasvim slu£ajno odaberene prodavnice u<br />

kojima bi prosje£na prodaja proizvoda bila ve¢a £ak i da nismo uveli novo<br />

pakovanje.<br />

Drugo, zbog kompleksnosti i heterogenosti ispitivanih pojava mogu¢e su<br />

gre²ke u mjerenju. Ove gre²ke mogu biti sistematske i slu£ajne. Sistematske<br />

gre²ke (engl. systematic errors) nastaju kao posljedica pristrasnosti pri<br />

prikupljanju podataka (pristrasnost izbora, neodgovaraju¢i upitnik...). Na<br />

primjer, moºda smo prodaju mjerili u periodu kada se dati proizvod ina£e<br />

vi²e kupuje pa je pove¢anje prodaje posljedica sezonskog uticaja a ne novog<br />

pakovanja. Paºljiv istraºiva£ nastoji da sistematske gre²ke izbjegne pravilnim<br />

uzorkovanjem (reprezentativnost i veli£ina uzorka) i kroz kori²tenje odgovaraju¢ih<br />

instrumenta kojima se mjere varijable (validnost i pouzdanost).<br />

Slu£ajne gre²ke (engl. random errors) posljedica su varijabiliteta posmatranih<br />

pojava koji nastaje zbog djelovanja mnogih nepoznatih varijabli koje<br />

nisu pod kontrolom istraºiva£a. Na primjer, moºda je ve¢a prodaja posljedica<br />

djelovanja neke varijable koju nismo mjerili. Mogu¢e je da je porastao<br />

dohodak pa ve¢a prodaja nije rezultat uvoženja novog pakovanja ve¢ £injenice<br />

da ljudi generalno vi²e kupuju taj proizvod. Istraºiva£i slu£ajne gre²ke<br />

poku²avaju ²to vi²e drºati pod kontrolom odabirom odgovaraju¢eg istraºiva£kog<br />

dizajna kao i uklju£ivanjem u analizu svih varijabli koje mogu imati


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 17<br />

uticaja na posmatranu pojavu. Ipak, slu£ajne gre²ke se nikada ne mogu u<br />

potpunosti izbje¢i.<br />

Zbog svega navedenog, logi£no je postaviti pitanje o tome da li rezultati<br />

iz uzorka vaºe i za populaciju u cjelini? Da li je nalaz o pove¢anju prodaje<br />

proizvoda u prodavnicama iz na²eg uzorka zaista posljedica uvoženja novog<br />

pakovanja? Drugim rije£ima, kako znati da li je novo pakovanje primarni<br />

uzrok porasta prodaje i sa kolikom sigurno²¢u moºemo tvrditi da ¢e na²i<br />

nalazi vrijediti u svim prodavnicama, a ne samo u onim iz uzorka? Na<br />

ovakva pitanja dobijamo odgovor kori²tenjem inferencijalne statistike.<br />

Inferencijalna statistika obuhvata tehnike koje omogu¢uju da se, na<br />

osnovu karakteristika uzorka i teorije vjerovatno¢e, dobijeni rezultati generaliziraju<br />

na populaciju u cjelini. U ve¢em dijelu ove knjige mi ¢emo se upravo<br />

baviti razli£itim tehnikama inferencijalne statistike. Ona moºe uklju£ivati<br />

tehnike za procjenu parametara populacije, testiranje hipoteza o karakteristikama<br />

populacije, analizu odnosa izmežu dvije ili vi²e varijabli i prognoziranje<br />

[9]. U na²em primjeru, uz pretpostavku da smo odabrali odgovaraju¢i<br />

slu£ajan uzorak, primjenom tehnika inferencijalne statistike moºemo sa odreženim<br />

stepenom sigurnosti re¢i da li su ve¢i prodajni efekti rezultat uvoženja<br />

novog pakovanja ili ne.<br />

1.5 Analiza podataka i interpretacija rezultata<br />

Kao ²to je ranije re£eno, da bi odgovorili na istraºiva£ko pitanje prvo kreiramo<br />

teoriju a zatim na bazi teorije postavljamo hipoteze istraºivanja. Da bi<br />

provjerili postavljene hipoteze prikupljamo podatke koje zatim analiziramo<br />

primjenom odgovaraju¢ih tehnika statisti£ke analize.<br />

1.5.1 Priprema podataka za analizu<br />

Prikupljene podatke podrebno je prvo pripremiti za analizu. Priprema podataka<br />

prvenstveno podrazumjeva unos podataka u tabele unutar nekog softverkih<br />

paketa kao ²to je na primjer Excel. Tako uneseni podaci se zatim<br />

spremaju u datoteke i u£itavaju u specijalizovani statisti£ki softver unutar<br />

kojeg se vr²i njihova dalja obrada.


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 18<br />

1.5.2 Odabir tehnike analize<br />

Ovo je vjerovatno korak u kojem istraºiva£i po£etnici prave najve¢i broj gre-<br />

²ki. Problem nastaje zbog toga ²to je odabir odgovaraju¢e statisti£ke tehnike<br />

analize podataka usko povezan sa hipotezama koje namjeravamo provjeriti<br />

i podacima koji nam trebaju za takvu analizu. Istraºiva£i po£etnici obi£no<br />

o tehnici analize po£nu razmi²ljati nakon ²to su postavili hipoteze, kreirali<br />

upitnik i prikupili podatke. Nerijetko se desi da u tom momentu shvate da<br />

su prikupljeni podaci neadekvatni za analizu koja bi odgovarala postavljenim<br />

ciljevima i hipotezama istraºivanja. To obi£no zna£i ponavljanje procesa<br />

prikupljanja podataka, ²to iziskuje dodatne tro²kove i vrijeme. U najgorem<br />

slu£aju moºe se desiti da istraºiva£ spozna da je nemogu¢e do¢i do podataka<br />

koji su potrebni za datu vrstu analize. Takožer, nije rijetka situacija<br />

da £itavo istraºivanje treba osmisliti od po£etka jer potrebna tehnika analize<br />

jednostavno prelazi mogu¢nosti sa kojima istraºiva£ raspolaºe (softver i<br />

ekspertiza neophodna za provoženje analize).<br />

Da bi se izbjegli navedeni problemi izuzetno bitno je poznavati osnovne<br />

vrste i karakteristike razli£itih statisti£kih tehnika analize jo² u fazi postavljanja<br />

ciljeva i hipoteza istraºivanja i kreiranja upitnika. Samo tako moºemo<br />

izbje¢i nepotrebne tro²kovi i imati £itav proces istraºivanja pod kontrolom<br />

od po£etka do kraja.<br />

Statisti£ke tehnike moºemo primarno podijeliti na univariacione tehnike<br />

(engl. univariate techniques) gdje analiziramo podatake jedne varijable<br />

i multivariacione tehnike (engl. multivariate techniques) gdje simultano<br />

analiziramo dvije ili vi²e varijabli. Na primjer, pretpostavimo da ºelimo da<br />

saznamo od £ega zavisi obim prodaje nekog proizvoda. Moºemo testirati<br />

hipotezu da visina sredstava uloºenih u ogla²avanje zna£ajno uti£e na obim<br />

prodaje. U ovom primjeru analiziramo uticaj samo jedne varijable, budºeta<br />

za ogla²avanje na obim prodaje. Mežutim, ako smatramo da ¢e obim prodaje<br />

pored budºeta za ogla²avanje zavisiti i od drugih faktora, npr. cijene<br />

proizvoda i vrste pakovanja, onda je potrebno analizirati efekte vi²e varijabli<br />

( i tada govorimo o multivariocinoj analizi). Rezultati do kojih dožemo upotrebom<br />

multivariacionih tehnika su relevantniji, obzirom da tada simultano<br />

kontroli²emo efekte razli£itih faktora.<br />

Dalje, statisti£ke tehnike moºemo podijeliti u zavisnosti od toga da li su<br />

podaci metri£ki ili nemetri£ki (kategorijski). Za analizu metrijskih podataka<br />

koristimo parametarske tehnike, dok za analizu nemetrijskih podataka<br />

koristimo neparametarske tehnike. Parametarskim tehnikama obi£no se


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 19<br />

procjenjuju vrijednosti nepoznatih parametara kao ²to su aritmeti£ka sredina,<br />

varijansa i kovarijansa. Pri tome se pretpostavlja da podaci pripadaju<br />

nekoj od poznatih teorijskih distribucija vjerovatno¢e (naj£e²¢e se koristi normalna<br />

raspodjela). Parametarske tehnike su obi£no preciznije ali po£ivaju na<br />

brojnim pretpostavkama koje, ako su naru²ene, mogu voditi do nepouzdanih<br />

rezultata.<br />

S druge strane, neparametarske tehnike ne zahtjevaju da podaci imaju<br />

normalnu raspodjelu, srednju vrijednost i varijansu pa se upotrebljavaju za<br />

analizu podataka iskazanih preko nominalnih i ordinalnih skala. Neparametarske<br />

tehnike se koriste i u slu£ajevima kada je distribucija vjerovatno¢a<br />

potpuno nepoznata i onda kada su naru²ene pretpostavke parametarskih<br />

tehnika (na primjer, ako je poznato da distribucija ne slijedi normalnu raspodjelu).<br />

2<br />

Sljede¢a podjela bazira se na tome kakvu ulogu varijable imaju u samoj<br />

analizi. Tehnike kod kojih je za dobijanje odgovora na postavljeno pitanje<br />

nepohodno denisati zavisne i nezavisne varijable nazivaju se tehnikama<br />

zavisnosti (engl. dependence techniques). U takvim situacijama nastojimo<br />

da objasnimo ili predvidimo vrijednosti zavisne varijable na bazi nezavisnih<br />

varijabli. U slu£aju kada je fokus istraºivanja na grupisanju varijabli<br />

ili objekata (ispitanici, stvari, pojave) govorimo o tehnikama mežuzavisnosti<br />

(engl. interdependence techniques).<br />

U literaturi se mogu na¢i razli£iti poku²aji da se odabir odgovaraju¢e<br />

tehni£ke analize predstavi u formi ²eme. Mežutim, kako postoji vi²e faktora<br />

koji uti£u na odabir, potrebno je imati u vidu da ni jedna takva ²ema nije<br />

potpuna. Kori²tenje ²ematskih prikaza moºe biti korisno ako smo svjesni<br />

da oni predstavlju samo grubi vodi£. Pravilna odluka o izboru statisti£ke<br />

tehnike £esto je mnogo sloºenija. Generalno govore¢i izbor tehnike analize<br />

naj£e²¢e zavisi od:<br />

1. Vrste istraºiva£kog pitanja<br />

2. Vrsti kori²tenih varijabli<br />

3. Vrste istraºiva£kog dizajna (korelacioni ili eksperimentalni)<br />

2 Ipak, kod mnogih neparametarskih testova prisutne su z-vrijednosti (odnosno t-<br />

vrijednosti). To je zbog toga ²to neparametarska statistika ipak podrazumjeva o£ekivane<br />

varijacije i distribucije uzoraka. Odnosno, ako uzorci nisu premali, bez obzira na orginalnu<br />

distribuciju populacije, uzorci aritmeti£kih sredina ima¢e normalnu raspodjelu <br />

²to rezultira uvoženjem z-vrijednosti u neparametarsku statistiku (Horvat, 1995).


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 20<br />

Ova lista nije sveobuhvatna i potrebno je imati u vidu da odluka o jednom<br />

naj£e²¢e ima uticaj na ostala dva elementa. U nastavku ¢emo izloºiti neke<br />

od osnovnih vrsta statisti£kih tehnika analize koje se koriste u zavisnosti<br />

od karakteristika postavljenog istraºiva£kog pitanja i odgovora koji nam<br />

trebaju.<br />

• Kakve se sumarne informacije mogu dobiti iz raspoloºivih podataka?<br />

Primjeri ovakvih pitanja:<br />

Kakva je distribucija ispitanika u uzorku prema: polu, dobi, zanimanju,<br />

mjestu boravka...?<br />

Koliko potro²a£a iz uzorka preferira pakovanje A u odnosu na<br />

pakovanje B?<br />

Koliko potro²a£a iz uzorka kupuje marku X?<br />

Koliko novca potro²ite prosje£no dnevno u ka¢ima?<br />

Za sumiranje informacija o raspoloºivim podacima iz uzorka koristimo<br />

razli£ite vrste deskriptivne analize. Konkretan izbor tehnike analize<br />

zavisi¢e prije svega od toga da li imamo kategorijske podatke (binarne,<br />

nominalne i ordinalne kategorijske varijable) ili metrijske podatke.<br />

Za dobijanje opisnih statisti£kih pokzatelja kategorijskih varijabli naj-<br />

£e²¢e koristimo tabele frekvencija i razli£ite vrste dijagrama, dok za<br />

metrijske varijable obi£no izra£unavamo zbirne statisti£ke pokazatelje<br />

kao ²to su prosjek, medijana i standardna devijacija. Nerijetko se<br />

koriste i zahtjevnije vrste deskriptivne analize kao ²to su krostabelacije<br />

i gra£ko opisivanje podataka.<br />

• Da li postoji statisti£ki zna£ajna razlika izmežu razli£itih grupa ispitanika<br />

u pogledu nekog obiljeºja (varijable)? Neki od primjera za ovakva<br />

pitanja:<br />

Da li postoji statisti£ki zna£ajna razlika izmežu mu²karaca i ºena<br />

u pogledu mjese£nih izdataka na proizvod A?<br />

Da li postoji statisti£ki zna£ajna razlika izmežu preferencija potro²a£a<br />

prema proizvodu A prije i nakon probe tog proizvoda?<br />

Da li postoji statisti£ki zna£ajna razlika u proporciji izmežu mu-<br />

²karaca i ºena u pogledu toga da li ¢e kupiti neki proizvod ili<br />

ne?


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 21<br />

Postoji vi²e statisti£kih tehnika kojima se utvržuje da li postoje statisti£ki<br />

zna£ajne razlike izmežu grupa po posmatranim varijablama. U<br />

literaturi se ove tehnike jednim imenom nazivaju statisti£ki testovi.<br />

Odabir konkretnog testa zavisi¢e od broja grupa za koje testiramo te<br />

razlike (jedna, dvije ili vi²e), od toga da li je rije£ o nezavisnim ili zavisnim<br />

grupama i od na£ina na koji smo mjerili varijable od interesa<br />

(kategorisjki ili metrijski podaci). Testovi kojima se utvržuje postojanje<br />

razlika izmežu grupa spadaju u tehnike zavisnosti jer tu imamo<br />

jednu zavisnu i jednu nezavisnu varijablu. Na primjer, pretpostavimo<br />

nas interesuje da li postoji razlika izmežu mu²karaca i ºena u pogledu<br />

mjese£nih izdataka na proizvod A. U ovom slu£aju visina mjese£nih<br />

izdataka prestavlja zavisnu a pol ispitanika nezavisnu varijablu.<br />

• Da li postoji veza izmežu raznih obiljeºja (varijabli)? Neki od primjera<br />

za ovakva pitanja:<br />

Koliko je jaka veza izmežu mjese£nih primanja doma¢instva i izdataka<br />

na uslugu A?<br />

Da li je ulaganje u marketin²ke aktivnosti povezano sa veli£inom<br />

komapnije?<br />

Za utvrživanje postojanja veza izmežu varijabli koristimo se korelacionom<br />

analizom. Primarno, odabir tehnike korelacione analize zavisi<br />

od toga na koji na£in su mjerene varijable od interesa.<br />

• Koliki uticaj ima promjena jedne (ili vi²e) nezavisnih varijabli na zavisnu<br />

varijablu? Neki od primjera za ovakva pitanja:<br />

Koliko na motivaciju prodajnog osoblja uti£e vi²e visina dohodka<br />

a koliko eksibilno radno vrijeme?<br />

Ako pove¢amo budºet za ogla²avanje koliki rast prodaje i moºemo<br />

o£ekivati?<br />

Postoji vrlo ²irok spektar statisti£kih tehnika kojima se nastoji izmjeriti<br />

uticaj nezavisnih na zavisnu varijablu. Odabir konkretne tehnike<br />

zavisi¢e prije svega od toga da li je zavisna varijabla metrijskog ili<br />

kategorijskog tipa. Ukoliko se radi o zavisnoj metrijskoj varijabli koristi¢emo<br />

regresionu analizu. U slu£aju da imamo zavisnu varijabla<br />

kategorijskog tipa, odabir tehnike analize zavisi¢e od toga da li je rije£<br />

o dihotomnoj, nominalnoj kategorijskoj ili ordinalnoj kategorijskoj<br />

varijabli.


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 22<br />

• Da li ve¢i broj opserviranih varijabli moºemo svesti na manji broj latentnih<br />

varijabli (faktora) a da pri tome ne izgubimo mnogo informacija?<br />

Neki od primjera za ovakva pitanja:<br />

Ispitanicima je postavljeno dvadeset pitanja kojima smo mjerili<br />

njihove stavove prema odreženoj marki proizvoda. Da li tih dvadeset<br />

pitanja moºemo reducirati na manji broj faktora?<br />

Da bi smo dobili odgovore na ovakva i sli£na pitanja prvenstveno poku-<br />

²avamo grupisati opservirane varijable u grupe. Eksplorativna faktorska<br />

analiza (engl. Exploratory Factor Analysis - EFA) je najpogodnija<br />

za tu vrstu zadataka.<br />

• Kako mjeriti latentne varijable i kako analizirati njihove mežusobne<br />

odnose? Neki od primjera za ovakva pitanja:<br />

Kako izmjeriti sloºene apstraktne konstrukte kao ²to su trºi²na<br />

orijentacija, ljubaznost prodajnog osoblja, etnocentrizam i sl.?<br />

Kako dokazati da su pitanja kojima ih mjerimo pouzdana i validna<br />

za takvu vrstu mjerenja?<br />

Da li kompanije koje su vi²e trºi²no orijentisane ostvaruju bolje<br />

poslovne rezultate?<br />

Tehnike konrmativne faktorske analize (engl. Conrmatory Factor<br />

Analysis - CFA) i modeliranja putem strukturnih jedna£ina<br />

(engl. Structural Equation Modeling SEM ) se koriste da bi smo mogli<br />

raditi istraºivanja koja uklju£uju mjerenje i analizu latentnih konstrukata.<br />

• Kako grupisati jedinice posmatranja u grupe ili klase tako da se sli£ne<br />

jedinice nažu u istoj klasi (klasteru)? Neki od primjera za ovakva<br />

pitanja:<br />

Da li je mogu¢e potro²a£e na nekom podru£ju grupisatii prema<br />

njihovim obiljeºijima (kao ²ti su godine, pol, preferencije i sl.) u<br />

trºi²ne segmente? Koliko takvih segmenata ima, ²ta ih karakteri²e,<br />

koliko su homogeni i kolika je veli£ina svakog pojedina£nog<br />

segmenta?<br />

Da li se kompanije mogu klasikovati u grupe prema tome koju<br />

strate²ku orijentaciju primjenjuju u svom nastupu prema trºi²tu?<br />

U prvom slu£aju, kada razli£ite objekte (ispitanike) trebamo grupisati<br />

prema opservirsanim obiljeºjima u homogene grupe, koristimo se


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 23<br />

tehnikama klaster analize. U drugom slu£aju, za grupisanje koristimo<br />

latentne konstrukte (traºi²na orijentacija) koristi¢emo se tehnikom<br />

analze latentnih klasa.<br />

1.5.3 Analiza podataka<br />

Nakon ²to smo pripremili podatke pristupamo njihovoj analizi. U su²tini to<br />

zna£i da na prikupljene podatke primjenjujemo odabranu statisti£ku tehniku<br />

kako bi dobili odgovor na postavljeno istraºiva£ko pitanje. Ovdje ¢emo se<br />

osvrnuti i na pojam statisti£kog modeliranja.<br />

1.5.3.1 Statisti£ko modeliranje<br />

Analiziranje podataka podrazumjeva izgradnju statisti£kih modela kojima<br />

¢emo provjeriti da li prikupljeni podaci podrºavaju postavljene hipoteze.<br />

Model moºemo denisati kao poku²aj da se neki fenomen predstavi na na-<br />

£in da se moºe predvidjeti njegovo pona²anje. Na primjer, prije izgradnje<br />

nekog objekta (graževina, vozilo, letjelica...) inºinjeri prvo izražuju makete,<br />

odnosno manje modele objekata. Svrha izgradnje ovih maketa je da se predvidi<br />

kako bi se stvarni objekat pona²ao u odreženim uslovima (zemljotres,<br />

olujno vrijeme i sli£no). Da bi zaklju£ci bili vjerodostojni, potrebno je da<br />

maketa ²to vjernije odgovara stvarnom objektu u pogledu dizajna, kori²tenog<br />

materijala i sli£no.<br />

Na sli£an na£in, u dru²tvenim naukama, istraºiva£i putem modela nastoje<br />

da predstave kompleksne odnose izmežu razli£itih koncepata i pokaºu kako<br />

oni mežusobno djeluju u razli£itim uslovima. U tom smislu, statisti£ki<br />

model je poku²aj opisivanja odnosa koji postoje izmežu varijabli u formi<br />

matemati£kih jedna£ina i gradi se isklju£ivo na bazi emprijskih kvantitativnih<br />

podataka. Dakle, statisti£ki model predstavlja apstrakciju (ili aproksimaciju)<br />

stvarnog svijeta [7]. Statisti£ki modeli nam pomaºu da bolje razumijemo<br />

za²to se ne²to de²ava i da predvidimo ²ta ¢e se de²avati u budu¢nosti.<br />

Field [4] navodi da se u statistici sve moºe svesti na jedan izraz:<br />

rezultat i = (model) + greška i<br />

Ovaj izraz nam prakti£no govori da na osnovu modela moºemo opisati


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 24<br />

prikupljene podatke i utvrditi ²ta djeluje na rezultat i predvidjeti kakva ¢e<br />

biti promjena njihovih vrijednosti u zavisnosti od toga kako su specicirane<br />

veze izmežu varijabli u samom modelu.<br />

Uobi£ajne tehnike statisti£ke analize o kojima govorimo u ovoj knjizi u<br />

stvari i nisu ni²ta drugo nego na£ini na koje procjenjujemo parametre modela.<br />

Sama estimacija modela uz pomo¢ specijalizovanih statisti£kih alata<br />

znatno olak²ava posao jer je istraºiva£ po²težen toga da samostalno rje²ava<br />

komplekse jedna£ine kako bi do²ao do ºeljenih rezultata. Statisti£ki softver<br />

¢e korisniku, naj£e²¢e u par sekundi, dati na uvid rezultate prora£una za koje<br />

bi ina£e trebalo iznimno veliko znanje matematike i sati vremena, ukoliko<br />

bi se do njih dolazilo uz pomo¢ papira i olovke. Neke od tehnika analize<br />

koje pominjemo u ovoj knjizi su prije pojave softverskih paketa ražene vrlo<br />

rijetko upravo zbog kompleksnosti potrebnih matemati£kih prora£una.<br />

1.5.3.2 Interpretacija dobijenih rezultata<br />

Rezultate analize statisti£ki softver ¢e korisniku prezentirati u obliku graka<br />

ili tabela koje sadrºavaju razi£ite numeri£ke vrijednosti. Korisnik mora biti<br />

u stanju pravilno interpretirati ove vrijednosti kako bi iz njih dobio uvid u<br />

ono ²to ga interesuje. Statisti£ka interpretacija rezultata je samo prvi korak.<br />

Nakon nje slijedi kvalitativna interpretacija koja podrazumjeva razumjevanje<br />

zna£enja i relavantnosti numeri£kih rezultata kao i izvoženje zaklju£aka o<br />

postavljenom i straºiva£kom pitanju i hipotezama.<br />

Obzirom da u dru²tvenim naukama posmatrane pojave karakteri²e varijabilitet<br />

(stohasti£ki odnosi) predvižanje putem modela nikada nije u potpunosti<br />

precizno i podloºno je gre²kama. Zbog toga ni jedan statisti£ki model<br />

nikada ne¢e savr²eno opisivati i predvižati podatke i potrebno je procijeniti<br />

njegovu preciznost. To se radi tako da uporedimo prikupljene empirijske<br />

podatke sa podacima koji su rezultat predvižanja na bazi modela. Drugim<br />

rije£ima, da bi zaklju£ci koje izvedemo na bazi statisiti£kog modela bili<br />

validni, dati model mora oslikavati prikupljene podatke ²to je mogu¢e preciznije.<br />

Omjer u kojem statisti£ki model precizno opisuje prikupljene podatke<br />

predstavlja reprezentativnost modela 3 [4].<br />

Najjednostavniji na£in da provjerimo da li neki model dobro reprezentuje<br />

prikupljene podatke je da uporedimo koliko varijacije unutar rezultata<br />

3 engl. model t


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 25<br />

obja²njava model u odnosu na neobja²njenu varijaciju.<br />

Statistika testa =<br />

varijacije objašnjene modelom<br />

varijacije koje nisu objašnjene modelom = efekat<br />

greška<br />

Odnos izmežu obja²njenog i neobja²njenog varijabiliteta naziva se statistikom<br />

testa [4]. Postoji vi²e razli£itih statistika testa a sve se zasnivaju na<br />

nekoj od teoretskih distribucija vjerovatno¢e sa poznatim karakteristikama.<br />

Detaljnije obja²njavanje statistika testa izlazi iz okvira ove knjige pa £itaoce<br />

savjetujemo da za detalje konsultuju neki statisti£ki udºbenik. Ono ²to je<br />

bitno je da shvatimo da se sve statistike testa u su²tini predstavljaju istu<br />

stvar: odnos izmežu varijanse obja²njene modelom i neobja²njene varijanse.<br />

U slu£aju kada je statistika testa jednaka broju 1 odnos izmežu obja²njene<br />

i neobja²nje varijanse je jednak. Kako statistika testa raste, model obja²njava<br />

sve vi²e i vi²e varijabiliteta a gre²ka se smanjuje. ’tavi²e, njenim<br />

rastom smanjuje se vjerovatno¢a da je ono ²to model obja²njava rezultat<br />

slu£ajnosti. Kada ova vjerovatno¢a padne ispod .05, sa velikom sigurno²¢u<br />

moºemo tvrditi da model reprezentuje ono ²to se zaista de²ava u populaciji.<br />

U tom slu£aju kaºemo da postoji statisti£ka signikantnost.<br />

Kako bi smo vidjeli ²ta to zna£i vratimo se na na² raniji primjer. Pretpostavimo<br />

da smo kreirali statisti£ki model na osnovu kojeg testiramo hipotezu:<br />

Uvoženje novog pakovanja rezultira¢e ve¢im obimom prodaje datog<br />

proizvoda. Trebamo vidjeti koliko dobro dati model opisuje prikupljene podatke<br />

koriste¢i se odgovaraju¢om statistikom testa koja se svodi na:<br />

Statistika testa =<br />

var. u prodaji objašnjene pakovanjem<br />

var. u prodaji koje nisu objašnjene pakovanjem = efekat<br />

greška<br />

Budu¢i da model kojim opisujemo prikupljene podatke oslikava hipotezu<br />

koju ºelimo testirati, onda nam signikantna statistika testa govori da je<br />

malo vjerovatno da bi model tako dobro predstavljao odnose mežu varijablama<br />

(prodaja i vrsta pakovanja) u slu£aju da ne postoji stvarni efekat<br />

(novo pakovanje) u populaciji. Suprotno, nesignikantna statistika testa bi<br />

zna£ila da model ne pruºa dovoljno dokaza o tome da novo pakovanje uti£e<br />

na pove¢anje prodaje.


POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 26<br />

1.6 Zaklju£ak istraºivanja<br />

Kona£no, na bazi rezultata provedene analize istraºiva£ donosi generalni sud<br />

o relevantnosti i adekvatnosti postavljene teorije. Na osnovu toga daju se<br />

prakti£ne preporuke vezane za ono ²to smo istraºivali. Naj£e²¢e se u ovom<br />

dijelu navedu i ograni£enja istraºivanja kao i preporuke u pogledu toga kako<br />

otkloniti ta ograni£enja u ponovljenim studijama.


Bibliograja<br />

[1] Organizing your social sciences research paper, 2014. Pristupljeno: 09.<br />

11. 2014.<br />

[2] Rachad Antonius. Interpreting Quantitative Data With SPSS. SAGE<br />

Publications Ltd, 2003.<br />

[3] Donald R. Cooper and William Emory. Business Research Methods.<br />

Irwin, 1995.<br />

[4] Andy Field. Discovering Statistics Using SPSS. SAGE Publications<br />

Ltd., 3 edition, 2009.<br />

[5] Mileva šiºi¢, Miodrag Lovri¢, and Dubravka Pavli£i¢. Metodi statisti£ke<br />

analize. Ekonomski fakultet Beograd, Beograd, 11 edition, 2001.<br />

[6] Andrew Janiak. Newton's philosophy, Summer 2014.<br />

[7] Wolfgang Jank. Business Analytics for Managers. Use R! Springer,<br />

2011.<br />

[8] libgudes. Theoretical framework.<br />

[9] Paul Newbold, William L. Carlson, and Betty M. Throne. Statistika za<br />

poslovanje i ekonomiju. Mate d.o.o., Zagreb, Zagreb, 2010.<br />

[10] Kultar Singh. Quantitative Social Research Methods. SAGE Publications<br />

Pvt. Ltd, 2007.<br />

[11] William G. Zikmund, Barry J. Babin, Jon C. Carr, and Mitch Grin.<br />

Business Research Methods. Cengage Learning, 8 edition, 2009.<br />

27


lzbor prikladnih<br />

statistidkih tehnika<br />

Za ve(ina studenata istraZivadkih tehnika, jedan od naiteLih (moZda dak i<br />

zastraSuju6ih) delova istraZivadkog procesa jeste pronalai.enje (izbor) statistidke<br />

tehnike prikladne za analizu datih podataka. Na veiini statistidkih<br />

kurseva udi se izradunavanje koeficijenta korelacije i kako se radi t-test, pa<br />

im obidno ne ostaje dovoljno vremena da studente naude da izaberu statistidki<br />

pristup prikladan zapronalaLenje odgovora na konkretna istraZivaika pitanja.<br />

U veiini istraZivadkih projekata upotrebljavaju se razlidite statistidke<br />

tehnike, u zavisnosti od pitanja na koja treba odgovoriti i prirode podataka<br />

koje treba analizirati. Zato je vaLno da steknete makar i elementarno poznavanje<br />

razliditih statistidkih tehnika, vrsta pitanja na koja one mogu odgovoriti,<br />

njihovih zahteva i pretpostavki na kojima podivaju.<br />

Zato iskopajte svoje udZbenike statistike i pregledajte osnovne tehnike i<br />

nadela na kojima one podivaju. Isto tako, trebalo bi da prelistate dlanke u dasopisima<br />

o vaSoj temi i identifikujete statistidke tehnike upotrebljene u tim<br />

studijama. Raznim oblastima statistidki se pristupa na razllEite nadine, pa je<br />

vaZno da uwrdite kako su drugi istraZivali analizirali podatke. TraLite<br />

dugadke i detaljne dlanke u dasopisima u kojima jasno i jednostavno piSe<br />

koje statistidke tehnike su koriSiene. Sakupite takve dlanke i spremite ih u<br />

zasebnu fasciklu radi lakSeg koriSienja. Dobro 6e vam doii i kasnije, kada<br />

budete razmatrali kako da predstavite rezultate svojih analiza.<br />

U ovom poglavlju razmotridemo razne dostupne statistidke tehnike i korak<br />

po korak pro6i kroz proces izbora. Ukoliko vas ve6 i sama red statistika baca<br />

u paniku, smatrajte sve ovo izborom recepta po kome iete vederas pripremiti<br />

jelo. Sta imate u friZideru, 5ta vam se jede (supa, pe6enje, ne5to prZeno, kuvano<br />

jelo) i koji je postupak? Statistidkim jezikom redeno, razmotriiemo vrste<br />

istraZivaikih pitanja koja postoje, promenljive (obeleija, karakteristike) koje<br />

treba analizirati i prirodu samih podataka. Prodite kroz ovaj proces korak po<br />

korak i vide6ete da je konadna odluka 6esto iznenadujude jednostavna. Kada<br />

utvrdite Sta imate i 5ta Zelite da uradite, desto preostaje samo jedan nadin da<br />

se to postigne. NajvaZniji deo ovog procesa je jasno napisati Sta imate i 5ta s<br />

tim treba da uradite.


106 Deo lll: Preliminarne analize<br />

Pregled raznih statistidkih tehnika<br />

Ovaj odeljak ima dva osnovna dela. Prvo 6emo razmotriti tehnike istraZivanja<br />

ueza izmedu promenliiuih (npr. starosti i optimizma), a potom nadine<br />

istraiivanja razlika izmedu grupd (npr. polnih ruzlika u stavovima o optimizmu).<br />

Tehnike sam ovako podelila zato Sto je tako ustrojena ve6ina<br />

udZbenika iz statistike, a i veiinu studenata su tako udili osnove statistike.<br />

Time se pomalo ve5tadki istiie razlika izmedu ta dva skupa tehnika. U stvari,<br />

izmedu raznth statistiikih tehnika ima mnogo slidnosti, Sto se na prvi pogled<br />

ne vidi. Celovito razmatranje te teme nije predmet ove knjige. Ko o tome Zeli<br />

da sazna vi5e, preporudujem da najpre prodita L7. poglavlje knjige koju su<br />

napisale Tabachnick i Fidell (20071. Tu je dat prikaz oplteg linearnog modela,<br />

pod koji se mogu svrstati mnoge statistidke tehnike.<br />

Razne statistidke tehnike namerno sam opisala saZeto i jednostavno da bi<br />

ih podetnici lakSe razumeli. U ovom poglavlju nisu dak ni nabrojane sve dostupne<br />

tehnike, ali su date osnove koje su dovoljne da Eovek podne da ih<br />

upotrebljava i tako stekne samopouzdanje.<br />

lstraZivanje veza izmedu raznih obeleZia<br />

U anketnom istraZivanju desto nisu vaLne ruzhke izmedu grupa, nego jadina<br />

veze izmedu obeleZja (promenljivih). MoZe se upotrebiti viSe tehnika.<br />

Korelacija<br />

Za istraLivanje jadine veze izmedu dve neprekidne promenljive upotrebljavaju<br />

se Pirsonova i Spirmanova korelacija. Korelacija pokazuje smer (pozitivan<br />

ili negativan) i jadinu veze. Pozitivna korelacija pokazuje da obe<br />

promenljive zajedno i opadaju i rastu. Negativna korelacija pokazuje da jedna<br />

promenljiva opada kada druga raste i obrnuto. To je tema 11. poglavlja.<br />

Delimiina korelacija<br />

Delimidna (parcijalna) korelacija je proSirenje Pirsonove korelacije. Pomoiu<br />

nje iskljudujemo uticaj tre6e, remetilaike promenljive. Delimidna korelacija<br />

uklanja uticaj remetiladke promenljive (npr. svesno davanje netadnih, ali<br />

druStveno poZeljnih odgovora), dime je omogu6eno dobijanje tadnije slike<br />

veze izmedu dve promenljive od interesa. Delimidna korelacija je tema L2.<br />

poglavlja.<br />

Viiestruka regresiia<br />

ViSestruka regresija je sofisticiranije proSirenje korelacije, kojim se izraiunava<br />

moguinost da se pomoiu skupa nezavisnih promenljivih predvidi vrednost<br />

jednog neprekidnog zavisnog obeleZja. Razne vrste vi5estruke regresije<br />

slui.e za poredenje prediktivne moguinosti (predvidanja) odredenih nezavisnih<br />

promenljivih i pronalaZenje najboljeg skupa promenljivih za predikciju<br />

jedne zavisne promenljive. Videti poglavlje 13.


Poglavlje 10: lzbor prikladnih statistidkih tehnika 1O7<br />

Faktorska analiza<br />

Faktorska analiza sltfi,i za svodenje velikog skupa promenljivih ili stavki<br />

skale na manji broj dimenzija ili faktora, s kojima je lak5e raditi. To se posti-<br />

Le saLimanjem oblika korelacije koji leZe u njihovoj osnovi i pronalaZenjem<br />

grupa tesno povezanih stavki. Ova tehnika se Eesto koristi prilikom razvoja<br />

skala i merila, za identifikaciju pripadne strukture. Videti poglavlje 15.<br />

Sa2etak<br />

Sve navedene analize obuhvataju istraZivanje veza izmedu neprekidnih promenljivih.<br />

Kada imate samo kategorijske promenljive, za ispitivanje njihove<br />

uzajamne veze moLe se upotrebiti hi-kvadrat test veza i nezavisnosti (npn za<br />

odgovor na pitanje da li pol klijenata utiie na stopu njihovog odustajanja od<br />

odredenog programa tretmana). U toj situacijizanimavas broj osoba u svakoj<br />

kategoriji (broj muSkaracaii.enakoji odustaju od tog programa ili ga zavrSavaju),<br />

a ne njihove prosedne vrednosti na nekoj skali posmatranog obeleZja.<br />

Spomenuiu jo5 neke tehnike o kojima treba barem znati da postoje. ViSe o<br />

njima na6i iete u knjizi koju su napisale Tabachnick i Fidell (2007). To su:<br />

o Diskriminaciona analiza (engl. discriminant function analysis) shtli za<br />

ispitivanje moguinosti da se pomoiu skupa nezavisnih promenljivih<br />

predvidi vrednost jednog kategoriiskoe zavisnog obeleZja, tj. da se<br />

odredi koje promenljive najbolje predvidaju pripadnost grupi. (Diskriminaciona<br />

funkcija je linearna kombinacija nezavisnih promenljivih<br />

koja najbolje razdvaja sludajeve na a priori definisane grupe.) U ovom<br />

sludaju, zavisna promenljiva je obiino neki jasan kriterijum (poloZio/<br />

pao, prekinuo/nastavio tretman). Videti poglavlje 9, Tabachnick i Fidell<br />

(2007).<br />

o Kanonska korelaciia (engl. canonical correlation) sluLi za analiza uzajamnih<br />

veza dva skupa promenljivih. Na primer, moglo bi se istraZiti<br />

kako razne demografske promenljive utidu na merila opSteg raspoloZenja<br />

i sposobnosti prilagodenja. Videti poglavlje 12, Tabachnick i<br />

Fidell (2007).<br />

o Strukturno modelouanie (engl. structural equation modelling) relativno<br />

je nova i veoma sofisticirana tehnika za ispitivanje raznih modela meduveza<br />

u skupu promenljivih. Zasnovana je na viSestrukoj regresiji i<br />

tehnikama faktorske analize. SluZi za izradunavanje vaZnosti svake nezavisne<br />

promenljive u modelu i testiranje koliko dobro ceo model odgovara<br />

podacima, kao i za poredenje alternativnih modela. Sam SPSS<br />

nema modul za strukturno modelovanje, ali podriava odgovarajuii dodatni<br />

program AMOS. Videti poglavlje 14, Tabachnick i Fidell (20071.


108 Deo lll: Preliminarne analize<br />

lspitivanje razlika izmedu grupa<br />

Postoji joS jedna porodica statistidkih tehnika za utvrdivanje statistiEki<br />

znadajnih nzllka izmedu grupa. U nastavku iemo prikazati parametarske<br />

verzrje tih testova prikladne za podatke na intervalnim skalama s normalnom<br />

raspodelom rezultata i njihove neparametarske alternative.<br />

T-testovi<br />

T:testovi se upotrebljavaju kada imate due grupe (recimo, mulkarce i Zene) ili<br />

dva skupa podataka (pre i posle), i Zelite da uporedite srednje vrednosti neke<br />

neprekidne promenljive. Postoje dve glavne vrste t-testova. Tltestove uparenih<br />

uzoraka (ili ponovljenih merenja, engl. repeated measures) upotrebljavate<br />

kada vas zanimaju promene vrednosti posmatranog obeleZja dobijene<br />

od udesnika testiranih u Vreme l izatim ponovo u Vreme 2 (obidno posle<br />

neke intervencije ili dogadaja). Ti uzorci su povezani poito se radi o istimljudima<br />

testiranim u dva navrata. T:testovi nezavisnih uzoraka upotrebljavaju<br />

se kada imate dve razliiite (nezavisne) grupe ljudi (muSkarce i Zene) i Zelite da<br />

uporedite njihove rezultate za posmatrano obeleZje. U tom sludaju informacije<br />

prikupljate samo jednom, ali od dve grupe ljudi. T:testovi su obradeni u<br />

poglavlju 17. Njihove neparametarske alternative, Man-Vitnijev U test i Vilkoksonov<br />

test ranga, predstavljeni su u poglavlju 16.<br />

Jed nofa ktorska a na I iza va riia nse<br />

Jednofaktorska analiza varijanse (engl. one-uay ANOVA) slidna je t-testu,<br />

ali se koristi kada imate due ili uiie grupa i ielite da uporedite njihove srednje<br />

vrednosti za iednu neprekidnu promenljivu (obeleZje). Jednofaktorska<br />

znaEi da se istraiuje uticaj samo iedne nezavisne promenljive na zavisnu.<br />

ANOVA kazaje da li se grupe razlikuju, ali ne kazuje gde je razhkaznaEajna<br />

(gp7lgp3,gp2lgp3 itd.). Naknadnim poredenjem moie se utvrditi koje grupe<br />

se medusobno znadajno razlikuju. Umesto da se porede sve grupe, mogu se<br />

ispitati i razlike izmedu odredenih grupa; to su planirana poredenja. Sliino<br />

t-testovima, postoje dve vrste jednofaktorske analize varijanse: ANOVA ponovljenih<br />

merenja (kada se isti ljudi ispituju u vi5e od dva navrata) i ANOVA<br />

razliiitih grupa (ili nezavisnih uzoraka), kada se porede srednje vrednosti<br />

posmatranogobeleLja u dve ili vi5e grupa. Jednofaktorska ANOVA je obradena<br />

u poglavlju 18, dok su njene neparametarske alternative (Kruskal-Volisov<br />

test i Fridmanov test) predstavljene u poglavlju L5.<br />

Dvofa kto rska a n a I iza va rii a n se<br />

Dvofaktorska analiza varijanse (engl. tuto-utay ANOVA) sluLi za ispitivanje<br />

uticaja dve nezavisne promenljive na jednu zavisnu. Prednost dvofaktorske<br />

analize varijanse je to Sto omogu6ava ispitivanje jadine interakcije, tj. uticaja<br />

druge nezavisne promenljive na dejstvo prve; na primeq kada posumnjate da<br />

se optimizam poveiava s godinama, ali samo kod mu5karaca. Ona meri i<br />

osnovne, zasebne uticaje, tj. celokupan uticaj svake nezavisne promenljive


Poglavlje 10: lzbor prikladnih statistidkih tehnika 109<br />

(npr. pola, starosti). Postoje dve vrste dvofaktorske analizevarijanse: ANOVA<br />

razliditih grupa (engl. betuteen-groups ANOVA), kada se ispituju grupe koje<br />

se medusobno razlikuju, i ANOVA ponovljenih merenja (engl. repeated measures<br />

ANOVA), kada se isti ljudi ispituju u vi5e navrata. Neka istraZivanja su<br />

projektovana tako da u istoj studiji kombinuju analize varijanse razliditih<br />

grupa i ponovljenih merenja. To se onda na engleskom naziva Mixed Between-I7ithin<br />

Designs ili Split Plot, tj. kombinovana ANOVA. Dvofaktorska<br />

ANOVA obradena je u poglavlj u L9, a kombinovana ANOVA u poglavlju 20.<br />

M u ltivarijaciona a nal iza va rij a n se<br />

Multivarijaciona analiza varijanse (engl. multiuariate analysis of uariance,<br />

MANO VA ) sluLi za poredenj e srednj e vrednosti posmatrano g obeleLja grupa<br />

u vi5e razliditih, ali pouezanih,zavisnih promenljivih; na primer, poredite uticaj<br />

razliditih tretmana narazne merljive ishode (npr. anksioznost, depresiju).<br />

Multivarijaciona ANOVA moZe biti uradena uz jednofaktorske, dvofaktorske<br />

ili vi5efaktorske analize varijanse sa jednom, dve ili viSe nezavisnih promenljivih.<br />

MANOVA je obradena u poglavlju 21.<br />

Analiza kovarijanse<br />

Analiza kovarijanse (ANCOVA) sluliza statistiiku kontrolu mogudih uticaja<br />

dodatne, remetiladke (engl. confounding) promenljive (engl. couariate).<br />

Ovo je korisno kada posumnjate da se vale grupe razlikuju po nekom obeleZju<br />

koje utide na dejstvo nezavisnih promenljivih na zavisnu. Kako biste<br />

bili sigurni da uticaj potiEe od nezavisne promenljive, ANCOVA statistidki<br />

uklanja dejstvo remetilaEke promenljive. Analiza kovarijanse moie se obaviti<br />

kao deo jednofaktorske, dvofaktorske ili multivarijacione analize varijanse.<br />

ANCOVA je obradena u poglavlju 22.<br />

Proces dono5enia odluka<br />

PoSto ste videli 5ta vam stoji na raspolaganju, vreme je da izaberete tehnike<br />

koje odgovaraju vaSim potrebama. Prilikom izbora odgovarajuie statistidke<br />

analize, treba uzeti u obzir viSe dinilaca. To su vrsta pitanja na koja traLite<br />

odgovore, vrsta stavki i merne skale u vaSem upitniku, priroda podataka dostupnih<br />

za svaku promenljivu i pretpostavke koje moraju biti zadovol jene za<br />

svaku statistidku tehniku. Proii iemo korak po korak kroz proces odludivanja.<br />

Korak 1: na koja pitania traZite odgovore?<br />

NapiSite spisak sa svim pitanjima na koja bi istraZivanje trebalo da odgovori.<br />

Videiete da se neka pitanja mogu postaviti na razliEite nadine. U svakoj<br />

oblasti od interesa, pitanje poku5ajte da postavite na viSe nadina. Te alternative<br />

iete upotrebiti kada budete razmatrali razne staristidke pristupe koje biste<br />

mogli primeniti. Na primer, zanima vas uticaj starosti na optimizam. To<br />

pitanje se moZe postaviti na viSe nadina:


110 Deo lll: Preliminarne analize<br />

. Postoji liveza izmedu starosti i nivoa optimizma?<br />

. Da li su starije osobe optimistidnije od mladih?<br />

Ova dva pitanja se razlikuju i za dobijanje odgovora na njih potrebne su<br />

razlitite statistidke tehnike. Od prirode prikupljenih podataka zavisi koje pitanje<br />

iemo proglasiti za prikladnije. Zato za svaku oblast od interesa postavite<br />

viSe pitanja.<br />

Korak 2: pronadite stavke i skale koie cete upotrebiti<br />

zalralenie odgovora na ta pitanja<br />

Vrsta stavki i skala u upitniku i studiji igra veliku ulogu pri izboru statistidkih<br />

tehnika koje su prikladne zatraLenje odgovora na istraiivadka pitanja.<br />

Zato je prilikom projektovanja istraZivanja toliko vaLno imati u vidu predvidene<br />

analize. Na primer, nadin prikupljanja informacija o starosti ispitanika<br />

(videti primer u 1. koraku) odredide koje su statistidke analize<br />

dostupne. Ako od ispitanika zatraLite da izaberu jednu od dve opcije (ispod<br />

35 godina/preko 35 godina), izbor analiza bi6e vrlo ograniden, zato 5to promenljiva<br />

starost moZe imati samo dve vrednosti. S druge strane, ukoliko od<br />

ispitanika zatraLite da svoju starost navedu u godinama, izbor 6e biti Siri<br />

zato 5to promenljiva moZe poprimiti vrednosti u Sirokom opsegu od L8 do<br />

80 i vi5e. U toj situaciji, mogli biste za neke analize (kao Sto je ANOVA) svesti<br />

raspon vrednosti na manji broj kategorija, a za druge analize (npr. korelaciju)<br />

zadri.ati ceo opseg vrednosti.<br />

Ako ste za svoje istraZivanje razdelili upitnik ili anketu, vratite se na konkretne<br />

stavke upitnika i Sifarnika i pronadite svako pojedinadno pitanje (npr.<br />

starost) i ukupne vrednosti posmatranih obeleZja na skalama (npr. optimizma)<br />

koje iete upotrebiti u svojim analizama.Identifikujte svaku promenljivu,<br />

kako je bila merena, koliko je bilo mogu6nosti za odgovor i moguii<br />

raspon vrednosti (brojeva, Sifara) u koje su odgovori pretvoreni.<br />

Ukoliko je studija obuhvatala eksperiment, proverite kako je bila merena<br />

svaka zavisna i nezavisna promenljiva. Da li se vrednosti promenljive sastoje<br />

od broja tadnih odgovora, opservatorove ocene konkretnog pona5anja ili<br />

duZine vremena koje je subjekat proveo baveii se odredenom aktivnoSiu?<br />

Bez obzira na prirodu istraZivanja, treba da vam je jasno kako je svaka promenljiva<br />

bila merena.<br />

Korak 3: identifikujte prirodu svake promenliive<br />

Slede6i korak je identifikacija prirode svake promenljive u studiji, tj. za svaku<br />

promenljivu treba utvrditi da li je nezavisna ili zavisna. Te informacije ne<br />

potiiu od samih podataka, nego od vaSeg shvatanja oblasti i teme studije, relevantnih<br />

<strong>teorija</strong> i prethodnih istraZivanja. Mora vam biti jasno u glavi (i u<br />

pitanjima postavljenim u istraZivanju) kakva je veza izmedu vaSih promenljivih<br />

- koje (nezavisne) utidu na druge, a koje (zavisne) trpe uticaj drugih.<br />

Ima nekih analiza (npr. korelacija) gde nije neophodno uwrditi koje su pro-


Poglavlje 10: lzbor prikladnih statistidkih tehnika 111<br />

menljive nezavisne a koje zavisne. Za druge analize, kao sto je ANOVA, to<br />

vam mora biti jasno. Korisno je nacrtati model uzajamnog odnosa promenljivih<br />

kako ga sami vidite (pogledajte korak 4 u nastavku).<br />

Zasvakupromenljivu trebaznati i njen nivo merenja. Zavisno od toga da<br />

li su promenljive kategorijske ili neprekidne, upotrebljavaju se razlidite statistidke<br />

analize, pa morate znati s dim radite. Da li su va5e promenljive:<br />

r kategorijske (nominalni podaci, npr. pol: mulkilZenski);<br />

. ordinalne (rangirani podaci: prvi, drugi, treii); ili<br />

. neprekidne (intervalni podaci, npr. starost u godinama ili vrednosti na<br />

skalama optimizma)?<br />

U nekim prilikama treba promeniti nivo merenja odredenih promenljivih.<br />

Odgovori za neprekidne promenljive mogu se svesti na manji broj kategorija<br />

(videti 8. poglavlje). Na primer, starost se moZe podeliti na razb(ite kategorije<br />

(npr. ispod 35 godina/preko 35 godina). To bi bilo podesno za analint<br />

varijanse (proceduru ANOVA), a i u sludaju da neprekidna promenljiva ne<br />

zadovoljava neku od polaznih pretpostavki odredenih analiza (npr. ima veoma<br />

asimetridnu raspodelu). Medutim, saiimanje podataka ima odigledan<br />

nedostatak jer se njime gube informacije. 'Sabijanjem'ljudi u istu grupu katkada<br />

se gube vaZne nzllke izmedu njlh. Zato dobre i lode strane treba pa-<br />

Zljivo odvagnuti.<br />

Dodatne informacije potrebne za neprekidne<br />

i kategorijske promenljive<br />

Za neprekidne promenljive trebalo bi da prikupite informacije o raspodeli<br />

rezultata (npr. da li im je raspodela normalna ili jako asimetridna?). Koji je<br />

raspon njihovih moguiih vrednosti? (Kako se to radi objaSnjeno je u poglavlju<br />

5.) Kada promenljiva obuhvata kategoriie (npr. grupa Tlgrupa 2, mu-<br />

SkarcilZene), utvrdite koliko osoba spada u svaku od kategorija i da li su te<br />

grupe pribliino jednake ili veoma razllEite po broju dlanova?). Da li je neka<br />

od moguiih kategorija prazna? (Videti poglavlje 5.) Sve informacije koje<br />

ovde prikupite o promenljivama kasnije ie se koristiti za sttLavanje izbon<br />

dostupnih statistidkih analiza.<br />

Korak 4: nacrtajte dijagram za svako istraiiva6ko pitanje<br />

Moji studenti desto ostaju bez teksta kada treba da objasne 5ta istraZuju. Ponekad<br />

je lakSe, a i jasnije, saZeti kljudne tadke pomoiu dijagrama. Ideja je<br />

deo informacija prikupljenih u koracima 1 i 2 objediniti u jednostavnom<br />

formatu koji ie pomoii pri izboru prikladne statistidke tehnike ili izabrati<br />

jednu od vi5e opcija.<br />

Trebalo bi da razmislite o jednom od kljudnih pitanja: da li me zanima<br />

odnos/ueza dve promenljive ili poredenje dve grupe subjekata? Mol.da ee<br />

vam biti lakbe da odgovorite kada za svako pitanje saZmete prikupljene<br />

informacije i nacrtate dijagram. Ilustrovaiu to navodenjem informacija<br />

i crtanjem dijagrama za viSe istraZivadkih pitanja.


112 Deo lll: Preliminarne analize<br />

Pitanje l: Postoji Ii veza izmedu sfarosfi i nivoa optimizma?<br />

Promenljive:<br />

r Starost - neprekidna: starost u godinama od 18 do 80;<br />

. Optimizam - neprekidna: vrednosti na skali optimizma, u rasponu od<br />

5 do 30.<br />

Iz literature ste izvukli hipotezu da su stariji ljudi optimistidniji od mladih.<br />

Ta veza izmedu dve neprekidne promenljive moZe se ilustrovati ovako:<br />

Optimizam<br />

***<br />

***<br />

** **<br />

**<br />

**<br />

Starost<br />

Kada odekujete da vrednost na skali optimizma raste sa Zivotnim dobom,<br />

tadke crtate podev od donjeg levog ugla dijagrama prema gornjem desnom<br />

uglu. Ukoliko prognozirate da vrednost na skali optimizma opada sa iivotnim<br />

dobom, tadke crtate podev od gornjeg levog ugla dijagrama prema donjem<br />

desnom uglu.<br />

Pitanie 2: Da li su muEkarci skloniji optimizmu od ilena?<br />

Promenliive:<br />

. Pol - nezavisna, kategorijska (dve grupe): mulkarci i Lene;<br />

. Optimizam - zavisna, neprekidna: vrednosti na skali optimizma, u<br />

rasponu od 6 do 30.<br />

Rezultati dobijeni kao odgovor na ovo pitanje, s jednom kategorijskom<br />

promenljivom (sa samo dve grupe) i jednom neprekidnom promenljivom,<br />

mogu se saZeti ovako:<br />

MuSkarci<br />

Zene<br />

Srednja vrednost na skali optimizma<br />

Pitanje 3: Da li se starost razlidito utiie na optimizam<br />

mu5karaca iZena?<br />

Kada biste istraZivali zajednidki uticaj starosti i pola na vrednost na skali optimizma,<br />

mogli biste podeliti svoj uzorak na tri starosne grupe (ispod 30,<br />

3L49 godina i 50 i viSe).


Poglavlje 10: lzbor prikladnih statistidkih tehnika 113<br />

Promenljive:<br />

o Pol - nezavisna, kategorijska: mudkarcilZene;<br />

o Starost - nezavisna, kategorijska: udesnici podeljeni na<br />

grupe;<br />

. Optimizam - zavisna, kategorijska: vrednosti na skali<br />

raspon od 5 do 30.<br />

Dijagram bi mogao izgledati ovako:<br />

tri jednake<br />

optimizma,<br />

Srednja vrednost na skali<br />

ootimizma<br />

MuSkarci<br />

Zene<br />

Starost<br />

lspod 3O 31 -49 50 i vi5e<br />

Pitanje 4: Kolikise deo variianse u zadovoljsttru iivotom moZe<br />

o bj a s n iti po m o Cu d atog s ku p a oso b i n a I i 6n osti (sa m o poitova ni e,<br />

o pti m i za m, s u bj e ktiva n d oiivlj aj sa m o ko n tro I e) ?<br />

MoZda treba da uporedite prediktivnu moguinost viSe nezavisnihza jednuzavisnu<br />

promenljivu. Takode vas zanima koliki deo varijanse zavisne promenljive<br />

potide od varijanse tog skupa nezavisnih promenljivih, tj. obja5njen je njom.<br />

Promenljive:<br />

o Samopoltovanje - nezavisna, neprekidna;<br />

. Optimizam - nezavisna, neprekidna;<br />

. Subjektivan doLivljaj samokontrole - nezavisna, neprekidna;<br />

. Zadovoljstvo iivotom - zavisna, neprekidna.<br />

Va5 dijagram bi mogao daizgleda ovako:<br />

Samopo5tovanj€<br />

Optimizam ---------------- Zadovoljstvo iivotom<br />

----------------<br />

Subjektivan doiivljaj samokontrole<br />

J<br />

Y<br />

Korak 5: Zakljudite da li je prikladna parametarska<br />

ili neparametarska statistidka tehnika<br />

Samo da bi studentima bilo teZe, mno5tvo dostupnih statistidkih tehnika podeljeno<br />

je u dve glavne grupe: parametarske i neparametarske. Parametarska<br />

statistika je mo6nija, ali podiva na viSe pretpostavki, tj. njene pretpostavke o<br />

podacima su stroie. Na primer, sve parametarske metode podivaju na pretpostavci<br />

da je raspodela rezultata analize u populaciji iz koje je izvuden<br />

uzorak normalna.<br />

Svaka parametarska tehnika (kao 5to su t-testovi, ANOVA, Pirsonova<br />

korelacija) ima i svoje dodatne pretpostavke. Da li su one zadovoljene ili ne,


114 Deo lll: Preliminarne analize<br />

treba proveriti pre sprovodenja analiza. Za svaku tehniku obradenu u preostalim<br />

poglavljima, biie navedene konkretne pretpostavke na kojima podiva.<br />

Sta ako pretpostauh.e na koiima poiiua statistiiha tehnika koiu ielite da<br />

upotrebite nisu zadouoliene? Nai.alost, to se desto dogada u istraZivan jima iz<br />

oblasti druStvenih nauka. Mnogi od atributa koje ho6emo da izmerimo nisu<br />

normalno raspodeljeni. Neki su jako asimetridni, pri iemu veiina rezultata<br />

ima malu vrednost (npr. depresija); drugi su asimetridni tako da ve6ina rezultata<br />

ima veliku vrednost na skali (npr. samopoltovanje).<br />

Kada pretpostavke na kojima podiva statistidka tehnika koju Zelite da<br />

upotrebite nisu zadovoljene, na raspolaganju vam je viSe mogudnosti koje<br />

iemo sada podrobno opisati.<br />

1. mogucnost<br />

Mogli biste ipak upotrebiti tu parametarsku tehniku i nadati se da time niste<br />

ozbiljno narulili valjanost svojih nalaza. Neki autori tvrde da je vedina statistidkih<br />

postupaka prilidno robusna, tj. da one dobro podnose manja odstupanja<br />

od pretpostavki, narodito kada je uzorak pristojne veliiine. Ako<br />

odludite da ipak uradite neku parametarsku analizu, to iete morati nekako<br />

da opravdate u izveStaju, pa prikupite podesne citate autora statistidkih knjiga,<br />

prethodnih istraZivada itd. koji podrZavaju takvu odluku. Proverite 5ta<br />

kaiu iasopisi o oblasti koju istraZujete, pogotovo oni dlanci koji opisuju<br />

upotrebu istih skala. Pominju li sliine probleme? Ukoliko ih pominju,5ta su<br />

ti autori preduzeli? Jednostavan i ditljiv prikaz robusnosti raznih statistidkih<br />

testova proditajte u knjizi Conea i Fostera (2006).<br />

2. mogu6nost<br />

Mogli biste modifikovati podatke tako da zadovolje pretpostavke na kojima<br />

podiva statistidki test (npr. normalnost raspodele). Neki autori predlaZu<br />

transformaciju promenljivih dija raspodela nije normalna (videti poglavlje 8).<br />

MiSljenja o tome su podeljena, pa 6ete morati mnogo toga da proditate kako<br />

biste uspeino opravdali svoj postupak (videti Thbachnick & Fidell, 2007).<br />

3. mogudnost<br />

Kada podaci ne zadovoljavaju pretpostavke parametarskih tehnika, moiete<br />

umesto njih upotrebiti neku neparametarsku tehniku. Mnoge desto koriSdene<br />

parametarske tehnike imaju svoje neparametarske alternative. I one podivaju<br />

na nekim pretpostavkama, ali manje strogim. Te neparametarske alternative<br />

(npr. Kruskal-Volisov test, Man-Vitnijev U test, hi-kvadrat) najdeSie su manje<br />

moine, tj. manje osetljive prilikom otkrivanja vezainzlika izmedu grupa. U<br />

poglavlju 16 obradene su neke od uobidajenih neparametarskih tehnika.<br />

Korak 6: dono6enie konadne odluke<br />

Nakon 5to prikupite informacije koje se odnose na istraZivaika pitanja, nivo<br />

merenja svih promenljivih i karakteristike dostupnih podataka, konadno ste


Poglavlje 10: lzbor prikladnih statistidkih tehnika 115<br />

u poloiaju da razmotrite sve mogu6nosti. U narednom tekstu saZela sam<br />

kljudne elemente osnovnih statistidkih analiza s kojima iete se sretati. Prodite<br />

dui tog spiska, nadite primer vrste istraZivadkog pitanja na koje treba da<br />

odgovorite i proverite imate li sve potrebne sastojke. Takode razmislite ima<br />

li i drugih nadina na koje biste mogli postaviti isto pitanje i stoga primeniti<br />

drugadiji statistidki pristup. Na kraj poglavlja stavila sam saZetu tabelu koja<br />

6e vam pomoii u procesu odlu6ivanja.<br />

PotraLite dodatne informacije o tehnikama za koje ste se odludili i postarajte<br />

se da dobro shvatite nadela i pretpostavke na kojim a po(ivaiu. Za to<br />

je dobro upotrebiti viSe razliditih izvora: razni autori imaju razlidita miSljenja.<br />

Treba dobro da shvatite sporna pitanja - moida iete dak morati da<br />

opravdate koriSienje odredene statistidke tehnike u svojoj situaciji - zato<br />

obavezno mnogo toga proditajte.<br />

Osnovne osobine glavnih statistidkih tehnika<br />

Ovaj odeljak je podeljen na dva pododeljka:<br />

1. tehnike za istrai,ivanje veza (odnosa) izmedu promenljivih<br />

detvrtom delu knjige);<br />

2. tehnike za istraLivanje razlika izmedu grupa (obradene u<br />

knjige).<br />

(obradene u<br />

petom delu<br />

lstraiivanje veza (odnosa) izmedu promenliivih<br />

Hi-kvadrat za nezavisnost<br />

Primer istraZivadkog pitanja: Kakav je odnos izmedu pola osobe i stope odustajanja<br />

od terapije?<br />

Treba vam:<br />

o jedna kategorijska nezavisna promenljiva (npr. pol: mudkarci/Zene);<br />

o jedna kategorijska zavisna promenljiva (npr. odustajanje: DaAtre).<br />

Diiagram:<br />

Zanimavas broiosoba u svakoj kategoriji (ne vrednosti na nekoj skali).<br />

Muikarci<br />

Zene<br />

Odustajanje<br />

Da<br />

Ne<br />

Korelacija<br />

Primer istraiivadkog pitanja: Postoji li veza izmedu starosti i vrednosti na<br />

skali optimizma? Raste li optimizam s pove6anjem Zivotne dobi?<br />

Tieba vam: dve neprekidne promenljive (npr. starost, vrednosti na skali optimizma)


116 Deo lll: Preliminarne analize<br />

Dijagram:<br />

Optimizam<br />

***<br />

***<br />

** **<br />

**<br />

**<br />

Starosl<br />

Neparametarska alternativa: Spirmanova korelacija ranga<br />

Delimiina korelacija<br />

Primer istraiivaikog pitanja: Nakon uklanjanja uticaja svesno netadnih, ali<br />

druStveno poZeljnih odgovora, postoji li jo5 uvek veza izmedu optimizma i<br />

zadovoljstva Zivotom?<br />

Treba vam: Tri neprekidne promenljive (npr. optimizam,zadovoljstvo Zivotom,<br />

svesno davanje netadnih, ali drultveno poZeljnih odgovora)<br />

Neparametarska alternativa: Ne postoji.<br />

ViSestruka regresiia<br />

Primer istraiivaikog pitanja: Koliki deo varijanse pri ispitivanju zadovoljswa<br />

Zivotom potide od varijanse (tj. moie biti pripisan varijansi) slededeg skupa<br />

promenljivih: samopoStovanje, optimizam, subjektivan doZivljaj samokontrole?<br />

Koja od ovih promenljivih bolje predvida zadovoljstvo Zivotom?<br />

Theba vam:<br />

o jedna neprekidna zavisna promenljiva (npr. zadovoljstvo Zivotom);<br />

r dve ili viSe neprekidnih nezavisnih promenljivih (npr. samopoltovanje,<br />

optimizam, sub j ektivan dolivljaj samokontrole ).<br />

Dilagram:<br />

Samopo5tovanje ----------------<br />

Optimizam<br />

ZaOovotlJwo iivotom<br />

Subjektivan doiivljaj samokontrole J<br />

Neparametarska alternativa: Ne postoji.<br />

lstraZivanie razlika izmedu grupa<br />

I-fesf nezavisnih uzoraka<br />

Primer istraZivaikog pitania: Da li su mulkarci skloniji optimizmu od Zena?


Poglavlje 10: lzbor prikladnih statistidkih tehnika 117<br />

Tleba vam:<br />

o jedna kategorijska nezavisna promenljiva sa samo due grtpe (npr. pol:<br />

muSkarci/Zene);<br />

o jedna neprekidna zavisna promenljiva (npr. vrednost na skali optimizma).<br />

Udesnici mogu pripadati samo iednoi grupi.<br />

Diiagram:<br />

Srednja vrednost na skali optimizma<br />

MuSkarci<br />

Zene<br />

I-tesf uparenih uzoraka (ponovlienih merenia)<br />

Primer istraZivadkog pitania: Smanjuje li 10-nedeljna obuka u meditaciji<br />

anksioznost udesnika? Da li se nivo anksioznosti menja od vremena L (pre<br />

intervencije) do vremena 2 (posle intervencije)?<br />

teba vam:<br />

o jedna kategorijska nezavisna promenljiva (npr. vreme 7 / weme 2); i<br />

o jedna neprekidna zavisna promenljiva (npr. vrednost na skali anksioznosri).<br />

Isti uiesnici ispitani u dua zasebna navrata: vreme 1 (pre intervencije) i vreme<br />

2 (posle intervencije).<br />

Dijagram:<br />

Srednja vrednost na skali anksioznosti<br />

Neparametarska alternativa: Vilkoksonov test ranga<br />

Vreme 1 Vreme 2<br />

J ed n ofa ktorska a n a I iza va rij a n se rad i eifi h g ru pa<br />

Primer istraiivaikog pitania: Postoji li razlika u vrednostima na skali optimizma<br />

kod osoba mladih od 30, izmedu 3L49, i starih 50 i vi5e godina?<br />

teba vam:<br />

o jedna kategorijska nezavisna promenljiva sa dve ili viSe grupa (npr. starost:<br />

ispod 3013149150 i viSe);<br />

o jedna neprekidna zavisna promenljiva (npr. vrednost na skali optimizma).<br />

Diiagram:<br />

Srednja vrednost na skali optimizma<br />

Starost<br />

lspod 30 34-49 50 i vi5e<br />

Neparametarska dternativa: Kruskal-Volisov test


118 Deo lll: Preliminarne analize<br />

Dvofa kto rska a n a I i za va rii a n se ra zl i iiti h g r u pa<br />

Primer istraiivadkog pitanja: Koliko starost utide na rezultate na skali optimizma<br />

za mu5karc e i za i.ene?<br />

Sta ta- treba:<br />

o dve kategorijske nezavisne promenljive (npr. pol: mu5karcilZene; starosna<br />

grupa: ispod 30/3149150 i viSe);<br />

o jedna neprekidna zavisna promenljiva (npr vrednost na skali optimizma).<br />

Diiagram:<br />

Srednja vrednost na skali<br />

ootimizma<br />

MuSkarci<br />

Zene<br />

Starost<br />

lspod 30 34-49 50 ivi5e<br />

Neparametarska alternativa: Ne postoji.<br />

Napomena: analiza varijanse se moZe proliriti tako da obuhvati tri ili viSe nezavisnih<br />

promenljivih. (To se najdeSde naziva faktorskom analizom varijanse).<br />

Kombinovana analiza varijanse razliditih grupa<br />

iponovljenih merenja<br />

Primer istraiivaikog pitanja: Koja intervencija (pove6anje matematidkog<br />

znanja/izgradnja samopouzdanja) delotvornije smanjuje strah udesnika od<br />

statistike, meren u tri navrata (pre intervencije, odmah posle intervencije, tri<br />

meseca posle intervencije) ?<br />

Theba vam:<br />

o jedna nezavisna promenljiva razliditih grupa (npr. vrsta intervencije);<br />

o jedna nezavisna promenljiva ponovljenih merenja istih grupa (npr. vreme<br />

1-, vreme 2, vreme 3);<br />

o jedna neprekidna zavisna promenljiva (npr. vrednosti na testu kojim se<br />

ispituje strah od statistike).<br />

Dijagram:<br />

Srednja vrednosl<br />

na testu kojim se<br />

ispituje strah od<br />

statistike<br />

Intervencija povecanjem<br />

matematidkog znanja<br />

Intervencija izgradnjom<br />

samopouzdanja<br />

Vreme<br />

Vreme 1 Vreme 2 Vreme 2<br />

Neparametarska alternativa: Ne postoji.


Poglavlje 10: lzbor prikladnih statistidkih tehnika 119<br />

M ultivarijaciona analiza variianse<br />

Primer istraiivaEkog pitania: Da li su mu5karci bolje prilagodeni od i,ena po<br />

opStem telesnom i dulevnom zdravlju (meri se nivo anksioznosti, depresije i<br />

subjektivno doiivljenog stresa) ?<br />

Treba vam:<br />

o jedna kategorijska nezavisna promenljiva (npr. pol: muSkarcilZene); i<br />

o dve ili vi5e zavisnih promenljivih (npr. anksioznost, depresija, subjektivno<br />

doZivljen stres).<br />

Dijagram:<br />

Anksioznost<br />

Depresija<br />

Subjektivno doZivljen stres<br />

Mu5karci<br />

Zene<br />

Neparametarska alternativa: Ne postoji.<br />

Napomena: multivarijaciona analiza varijanse moZe se koristiti uz jednofaktorsku<br />

(jedna nezavisna promenljiva), dvofaktorsku (dve nezavisne promenljive)<br />

i viSefaktorsku analizu varijanse. MoZe se uzeti u obzir i dejstvo<br />

drugih promenljivih (kovarijansi).<br />

Analiza kovarijanse<br />

Primer istraZivaikog pitania: Postoji li znalajna razlika u rezultatima ispitivanja<br />

straha od statistike izmedu dlanova grupe koja pove6ava matematidko<br />

znanje i dlanova grupe koja gradi samopouzdanje, kada se oduzme uticaj<br />

njihovih prethodnih rezultata na tom testu?<br />

Treba vam:<br />

o jedna kategorijska nezavisna promenljiva (npr. vrsta intervencije);<br />

o jedna neprekidna zavisna promenljiva (npr. vrednosti na skali straha<br />

od statistike u vreme 2); i<br />

o jedna ili viSe neprekidnih remetiladkih promenljivih (npr. vrednosti na<br />

skali straha od statistike u vreme L).<br />

Neparametarska alternativa: Ne postoji.<br />

Napomena: analiza kovarijanse se moie obaviti kao deo jednofaktorske<br />

(jedna nezavisna promenljiva), dvofaktorske (dve nezavisne promenljive) ili<br />

viSefaktorske analize varijanse (dve ili viSe zavisnih promenljivih).


6<br />

o<br />

o<br />

o<br />

c<br />

s<br />

o<br />

-j gE<br />

?'9/J<br />

'-6 (!<br />

Yl c<br />

3fg<br />

*gu<br />

6sg<br />

==JFEo<br />

9 .9'For<br />

rr.i0 H 9<br />

E$E:<br />

f€EE<br />

:<br />

do;,<br />

sE E-<br />

l!9or<br />

E t:.9 E<br />

F c!= O<br />

I €.A: *<br />

EE6;P<br />

EE E Fg<br />

:<br />

No Ee<br />

!!E<br />

XE<br />

x't<br />

=6<br />

FE<br />

i5<br />

o(6<br />

.E<br />

E<br />

fi '5<br />

ra (E<br />

N<br />

9o<br />

._o .oc<br />

-l:*'6' '=XJ(<br />

5 E:<br />

$I;<br />

s ?€*<br />

d<br />

(6<br />

6<br />

c<br />

o:<br />

E<br />

-<br />

.9<br />

o<br />

OE<br />

co otr<br />

EE<br />

No.<br />

6<br />

5 E{,<br />

E<br />

eCI<br />

o<br />

c<br />

.9<br />

o<br />

N<br />

o<br />

z<br />

* ,**<br />

'c >n<br />

o G-<br />

g=i$'t<br />

qFEb<br />

EE.8E<br />

.I<br />

c<br />

tr<br />

(!<br />

J<br />

o<br />

o<br />

o,<br />

0)<br />

ii ,N<br />

J\<br />

;<br />

R o^o<br />

gt<br />

E;<br />

Oe<br />

tc<br />

9=<br />

*8<br />

:€<br />

tS p<br />

s E:E<br />

€sE<br />

EgggEiF<br />

i9o<br />

g FB<br />

-!9F<br />

;i o\\ ^<br />

(!; O*t<br />

EfiN,S<br />

€=t$€<br />

gEggs<br />

?S<br />

=.s $ Es<br />

€ "$E dE oS<br />

;E$ F<br />

:-*=9'g<br />

tF$*<br />

flf;$t<br />

o<br />

.9,<br />

(6<br />

N<br />

(!<br />

I o<br />

d)d<br />

o.><br />

IP<br />

E3R<br />

g\<br />

d.z o<br />

€;{r<br />

= 9bcR<br />

E OE<br />

o !'E<br />

g:8 = N<br />

: ts c.x<br />

E.9! C<br />

7 > 9=<br />

o<br />

.o<br />

6<br />

N<br />

o<br />

(uN<br />

is^ E<br />

o<br />

EDd^S<br />

!t,<br />

g-18S<br />

*EEc<br />

;o'0<br />

EEdts<br />

.0. ae s<br />

o<br />

.Y<br />

c<br />

-c<br />

G)<br />

E<br />

J<br />

)(Jl<br />

o<br />

F o<br />

t<br />

€ C<br />

o cooo<br />

o<br />

oo<br />

o<br />

-g c, lto G c<br />

II<br />

N<br />

o<br />

.Y o o(r6<br />

c><br />

F€<br />

qi<br />

!+o<br />

z@<br />

o<br />

J oo!Uo<br />

FJ<br />

!Utr<br />

dg<br />

(t<br />

E<br />

6<br />

'6.<br />

(,<br />

E<br />

o.<br />

o<br />

c<br />

o<br />

E<br />

Gt<br />

z<br />

(o<br />

*5<br />

=> >=<br />

+o,<br />

=8<br />

o<br />

o<br />

z<br />

0)<br />

6<br />

';<br />

a'.<br />

oo<br />

s.^<br />

f:i<br />

d]'O<br />

NX<br />

R9<br />

va oF<br />

-o<br />

)<br />

'i :-<br />

.YO<br />

r6 5F<br />

o^<br />

F-E E-)g.,! =<br />

,".E E'P<br />

.Q c,<br />

x:<br />

-vu >.:.:a o<br />

A _.i __<br />

ie E i<br />

*a€p<br />

oas<br />

YC<br />

6.N<br />

OE<br />

- 'i:<br />

.N j;<br />

66<br />

tt!<br />

-o '= :J<br />

8E (Lt<br />

o<br />

z<br />

c-{<br />

E,gi-<br />

E!E<br />

+ EE.,<br />

d9d<br />

bti9<br />

^ --T'=.,<br />

rD o-y O<br />

iaaE<br />

sg g:<br />

.EPa i<br />

l€:3F<br />

.FCUJtr E;: &*<br />

f,o ord x<br />

!Et9:<br />

E: s *,i<br />

?':icN;<br />

Zi'E 3-o<br />

'a<br />

o<br />

o<br />

z<br />

.P<br />

* o.9-<br />

;'dE<br />

gsg<br />

t;sEEa<br />

g$gEtE<br />

:=<br />

a<br />

o-<br />

z<br />

6<br />

.N o<br />

;- r><br />

og<br />

dO<br />

U:(L<br />

J


G<br />

o<br />

o<br />

a<br />

6<br />

c<br />

g<br />

(t<br />

o<br />

:-a<br />

OE<br />

to |/|c<br />

FE<br />

NO<br />

.l o-<br />

E3<br />

H _9-<br />

;a<br />

;g<br />

F,()<br />

$\<br />

€;i*<br />

=Ec<br />

F*f s<br />

frf;EE<br />

Aa<br />

6I<br />

3E<br />

o)tg<br />

$-<br />

o)><br />

'55<br />

.- ro<br />

:-f<br />

-<br />

€;{;<br />

g;<br />

! - 6i:<br />

KqS P<br />

o scl -<br />

: H8 H<br />

E.= X{<br />

.!4. ii > o<br />

! EE-<br />

3;E<br />

v,> N'=<br />

8Rg5<br />

.: E 3.3<br />

3 * Ei<br />

-.9;<br />

€ET<br />

F3E $<br />

flf;!E<br />

4E*i<br />

FciE*<br />

BebsX<br />

3Ti B,E<br />

*.9 t.*<br />

i --t.g<br />

i8c€ pxsa<br />

F[EE cEPo<br />

eE3$*<br />

gEE$*$$,<br />

- 9t'+<br />

€E-Iff"<br />

s$$$$<br />

o<br />

.:<br />

cll,<br />

E<br />

e<br />

o<br />

E<br />

.9<br />

o<br />

N<br />

o<br />

z<br />

ox '=<br />

.:<br />

iic<br />

g:: .<br />

'fe $<br />

or(! ('<br />

9,: o<br />

l;io<br />

fl[$<br />

oG)<br />

fi€ $<br />

iE*<br />

b;c<br />

9,2:<br />

(!=F<br />

{6cr<br />

a3c<br />

P<br />

.9e-<br />

PE<br />

or '=d<br />

'E is- 9S c'E B<br />

9;i€ H<br />

'6<br />

! EEE<br />

o--v (a<br />

,l '1X<br />

E qr<br />

E;E<br />

+ - iE'$<br />

g5:gsg<br />

!ig€ !i $r<br />

atsEgg<br />

E-<br />

'i;> E<br />

x= 4.<br />

r Ee $<br />

.q; o'E B<br />

=Eg H<br />

gE€$<br />

i.e g it<br />

g;Eett$<br />

s<br />

EEgEFg$*<br />

6<br />

.Y g6IDG<br />

c><br />

EE q!<br />

t+o<br />

zA<br />

o<br />

.9. o<br />

)o (u><br />

JO<br />

Y(L<br />

o<br />

9o<br />

YO<br />

o><br />

PP<br />

|id<br />

o<br />

a<br />

o<br />

z<br />

o<br />

an<br />

o<br />

z<br />

'a<br />

6<br />

o<br />

q)<br />

z<br />

:=<br />

6<br />

q)<br />

z<br />

o<br />

.Y g6<br />

lD(E<br />

E*<br />

FC<br />

IE<br />

6<br />

c<br />

6<br />

'd.<br />

o<br />

E<br />

o.<br />

(!E<br />

+{) c= o<br />

-6< 9id<br />

x><br />

5<br />

;r..l xJ -<br />

n> f z<br />

P<br />

ga bd<br />

*#;<br />

)c x$<br />

oE<br />

oo<br />

,ggE<br />

oxc<br />

upg<br />

91 X.-<br />

:.; *<br />

-t<br />

(!<br />

(!(E0)<br />

-= ><br />

E* s<br />

d€<br />

iZ= =<br />

o)<br />

Eid<br />

iS -;'<br />

<br />

*Z-l<br />

E >E)<br />

€ E8<br />

;t sg* *<br />

;ii1.s.;E<br />

a ar c.!aE<br />

-<br />

t*$Eatr<br />

iEEEEE:<br />

FEE€gE;<br />

o<br />

c<br />

o<br />

E<br />

6<br />

z


122 Deo lll: Preliminarne analize<br />

Literatu ra za dalie usavrSavanje<br />

Statistidke tehnike obradene u ovom poglavlju samo su mali deo dostupnih<br />

nadina analize podataka. Morate biti svesni postojanja i moguiih nadina<br />

upotrebe velikog broja tehnika kako biste mogli da izabercte onu najprikladniju<br />

za va5u situaciju. eitajte dto vi5e moZete.<br />

Osnovne tehnike (t-test, analizu varijanse, korelaciju) udite iz svog udZbenika<br />

statistike ili iz knjiga koje su napisali Cooper i Schindler (2003); Gravetter<br />

i 'Wallnau (200a); Peat, J. (2001); Runyon, Coleman i Pittenger<br />

(2000); Norman i Streiner (2000). Podrobnije informacije, narodito o multivarijacionoj<br />

statistici, videti u knjigama Haiq Black, Babin, Anderson i<br />

Tatham (2006) ili Tabachnick i Fidell (2007\.


UNIVERZITETSARAJEVU<br />

EKONOMSKIFAKULTETSARAJEVU<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

OsnoveradastatistikompaketuStata:<br />

Deskriptivnastatistikavišestrukiodgovori 1 <br />

<br />

<br />

<br />

<br />

Autor:<br />

doc.drEmirAgi<br />

<br />

<br />

Sarajevo,30.mart2013.godine<br />

<br />

<br />

1 NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />

njegovih dijelova bez prethodnog pisanog pristanka autora.<br />

1


Sadržaj<br />

1. Tabele frekvencija ......................................................................................................3<br />

2. Dijagrami stupaca ......................................................................................................4<br />

3. Deskriptivne mjere.....................................................................................................5<br />

4. Histogrami ..................................................................................................................8<br />

5. Unakrsno tabeliranje ............................................................................................... 10<br />

6. Višestruki odgovori .................................................................................................. 13<br />

6.1. Indikativni mod................................................................................................... 13<br />

6.2. Politomni mod .................................................................................................... 16<br />

2


1. TABELE FREKVENCIJA<br />

Tabele frekvencija uglavnom koristimo kako bi dobili distribuciju vrijednosti neke varijable.<br />

Distribucija predstavlja skup vrijednosti koje neka varijabla može uzeti zajedno sa podatkom<br />

o tome koliko esto se svaka od tih vrijednosti javlja. Tabele frekvencija se naješe koriste<br />

za tabeliranje vrijednosti pojedinanih kategorijalnih varijabli. Tabeliranje vrijednosti jedne<br />

varijable možemo uraditi preko menija (Statistics Summaries, tables, and tests Tables <br />

One-way tables) ili preko naredbe tabulate (skraeno tab). Sintaksa glasi:<br />

.tab varname, missing nofreq nolabel plot sort<br />

gdje je:<br />

Opcija<br />

missing<br />

nofreq<br />

nolabel<br />

plot<br />

sort<br />

Opis<br />

- U tabeli prikazuje i broj opservacija sa nedostajuim vrijednostima<br />

- Ne prikazuje frekvencije<br />

- Prikazuje samo numerike kodove umjesto opisa kategorija<br />

- Kreira grafik sa stupcima relativnih frekvencija<br />

- Sortira kategorije prema frekvencijama<br />

Na primjer, ukoliko želimo da vidimo kakva je dobna struktura našeg uzorka (varijabla dob)<br />

možemo ukucati:<br />

. tab dob, missing<br />

Dob | Freq. Percent Cum.<br />

------------+-----------------------------------<br />

18-25 | 111 55.78 55.78<br />

25-29 | 20 10.05 65.83<br />

30-34 | 16 8.04 73.87<br />

35-39 | 14 7.04 80.90<br />

40-44 | 14 7.04 87.94<br />

45-49 | 6 3.02 90.95<br />

50-54 | 10 5.03 95.98<br />

55-59 | 2 1.01 96.98<br />

60-64 | 3 1.51 98.49<br />

65-69 | 3 1.51 100.00<br />

------------+-----------------------------------<br />

Total | 199 100.00<br />

Iz tabele vidimo da u uzorku ima dosta mlaih osoba. Štaviše, više od polovine ispitanika<br />

(55,8%) nalazi se u dobi od 18-25 godina starosti. Posljednja kolona (cum.) su kumulativni<br />

procenti koje dobijamo tako što redom sabiramo procente iz prethodne kolone (percent). Tako<br />

na primjer možemo proitati da je 91% ispitanika koji su ušli u uzorak mlae od 50 godina.<br />

3


2. DIJAGRAMI STUPACA<br />

Vrijednosti jedne kategorijlne varijable graki se naješe predstavljaju pomou dijagrama<br />

stupaca. Najbolji nain na koji možemo dobiti dijagram stupaca je preko komande catplot<br />

(ukoliko to nismo ranije uradili potrebno je prvo instalirati catplot paket naredbom: ssc<br />

inst usespss). Sintaksa naredbe je:<br />

. catplot ime_varijable, percent recast(bar) blabel(bar, format())<br />

gdje je:<br />

Opcija<br />

percent<br />

Opis<br />

- Prikazuje procente umjesto frekvencija<br />

recast(bar) - Kreira vertikalni dijagram stupaca umjesto horizontalnog<br />

blabel(bar,<br />

format())<br />

- Ispisuje numeriku vrijednost stupca (podopcija format služi da<br />

preciziramo broj decimala u outputu i može se izostaviti)<br />

Na primjer, ukoliko želimo grafiki prestaviti varijablu eduk (obrazovanje ispitanika) tako da<br />

stupci reprezentuju postotke umjesto frekvencija ukucaemo:<br />

. catplot eduk, percent blabel(bar, format(%4.1f))<br />

Završena osnovna škola<br />

2.5<br />

Obrazovanje<br />

Završena srednja škola<br />

Završen fakultet<br />

22.1<br />

72.9<br />

Završen postidiplomski studij<br />

2.5<br />

0 20 40 60 80<br />

percent<br />

Alternativno, za grafiki prikaz vrijednosti kategorijalne varijable možemo koristiti i tzv.<br />

tortni dijagram (engl. pie chart). Dijaloški okvir za kreiranje ovog grafa pozivamo preko<br />

menija (Graphics Pie chart) ili upotrebom naredbe graph pie. Na primjer:<br />

. graph pie, over(spol)<br />

4


3. DESKRIPTIVNE MJERE<br />

Naredba summarize daje osnovnu deskriptivnu statistiku (Statistics Summaries, tables, and<br />

tests Summary and descriptive statistics Summary statistics). Deskriptivne mjere ima<br />

smisla tražiti samo za numerike varijable. Uzmimo za primjer numeriku varijablu koja se<br />

odnosi na veliinu porodice (brclan):<br />

. summarize brclan<br />

Variable | Obs Mean Std. Dev. Min Max<br />

-------------+--------------------------------------------------------<br />

brclan | 199 3.819095 1.225749 1 8<br />

Vidimo da prosjean broj lanova domainstva iznosi 3,82 lanova (uz standardnu devijaciju<br />

od 1,23). Prema podacima iz uzorka najvee domainstvo broji osam dok najmanje broji<br />

jednog lana.<br />

Nešto detaljnije podatke možemo dobiti ako uz naredbu summarize ukucamo i opciju detail.<br />

. summarize brclan, detail<br />

Veliina domainstva<br />

-------------------------------------------------------------<br />

Percentiles Smallest<br />

1% 1 1<br />

5% 2 1<br />

10% 2 1 Obs 199<br />

25% 3 1 Sum of Wgt. 199<br />

50% 4 Mean 3.819095<br />

Largest Std. Dev. 1.225749<br />

75% 4 6<br />

90% 5 7 Variance 1.502462<br />

95% 6 7 Skewness .03472<br />

99% 7 8 Kurtosis 3.621425<br />

Dakle, pored ve objašnjenih pokazatelja opcija detail nam omoguava da vidimo percentile,<br />

varijansu, kao i dva pokazatelja o zakrivljenosti distribucije.<br />

Druga naredba koju možemo koristiti za deskriptivne statistike pokazatelje je tabstat<br />

(Statistics Summaries, tables, and tests Tables Table of summary statistics (tabstat)).<br />

Ova naredba nam omoguava dosta veu fleksibilnost i kontrolu u pogledu toga kako e<br />

izgledati konana tabela sa rezultatima. Štaviše, mogue je direktno porediti vrijednosti dvije<br />

numerike varijable. Na primjer, ako želimo da istovremeno dobijemo deskriptivne<br />

pokazatelje za varijable brclan (broj lanova domainstva) i brdjece (broj djece u<br />

domainstvu) dovoljno je ukucati:<br />

. tabstat brclan brdjece, s(mean semean median sd var skew k count sum<br />

range min max)<br />

5


gdje opcije znae: mean (aritmetika sredina), semean (standardna greška aritmetike<br />

sredine), median (medijana), sd (standardna devijacija), var (varijansa), skew (engl. skewness<br />

– zakrivljenost distribucije), k (engl. kurtosis – spljoštenost distribucije), sum (zbirna<br />

vrijednost), range (raspon), min (minimalna vrijednost) i max (maksimalna vrijednost).<br />

stats | brclan brdjece<br />

---------+--------------------<br />

mean | 3.819095 1.497487<br />

se(mean) | .0868911 .0912035<br />

p50 | 4 2<br />

sd | 1.225749 1.286583<br />

variance | 1.502462 1.655297<br />

skewness | .03472 1.225218<br />

kurtosis | 3.621425 7.767028<br />

N | 199 199<br />

sum | 760 298<br />

range | 7 9<br />

min | 1 0<br />

max | 8 9<br />

------------------------------<br />

Poreenje dvije numerike varijable omoguava istraživau da pored uvida u deskriptivne<br />

pokazatelje uradi i logiku kontrolu kako bi se otkrile greške pri unosu podataka ili<br />

nepouzdani odgovori. Na primjer, u gornjoj tabeli možemo uoiti da je maksimalan broj<br />

lanova porodice 8, dok je istovremeno maksimalan broj djece u porodici 9. Ovo upuuje na<br />

zakljuak da je pri unosu podataka došlo do greške ili da anketar nije obavio kvalitetnu<br />

kontrolu na licu mjesta.<br />

Deskriptivnu statistiku za numerike varijable pored cjelokupnog uzorka (prethodni primjer)<br />

možemo gledati i prema odreenim grupama. Za ovo možemo iskoristiti opciju by. Na<br />

primjer, pretpostavimo da želimo da vidimo prosjenu veliinu porodice i broj djece prema<br />

entitetima u kojima ispitanici žive:<br />

. tabstat brclan brdjece, by (entitet) s(mean median sd)<br />

Summary statistics: mean, p50, sd<br />

by categories of: entitet (Entitet)<br />

entitet | brclan brdjece<br />

--------+--------------------<br />

FBiH | 3.879699 1.699248<br />

| 4 2<br />

| 1.348611 1.193321<br />

--------+--------------------<br />

RS | 3.69697 1.090909<br />

| 4 1<br />

| .9276886 1.378151<br />

--------+--------------------<br />

Total | 3.819095 1.497487<br />

| 4 2<br />

| 1.225749 1.286583<br />

-----------------------------<br />

6


Iz dobijenog outputa uoavamo da prosjena porodica u FBiH broji 3.9 lanova (sd = 1.35) a<br />

u RS-u 3.7 lanova (sd = .93). U oba suaja medijana je 2. Kad je rije o broju djece,<br />

prosjena porodica iz FBiH ima 1.7 djece (sd = 1.19) dok prosjena porodica iz RS-a ima 1.4<br />

djece (sd = 1.38). Medijana za FBiH prema ovoj varijabli je 2 djece, dok je u RS-u medijana 1<br />

djete.<br />

Ono što može biti dodatno interesantno je da grafiki predstavimo prosjene vrijednosti<br />

prema kategorijama neke kvalitativne varijable. Ako se vratimo na prethodni primjer,<br />

dobijene pokazatelje možemo grafiki predstaviti koristei naredbu graph bar:<br />

. graph bar (mean) brclan (mean) brdjece, by(entitet)<br />

FBiH<br />

RS<br />

0 1 2 3 4<br />

Graphs by Entitet<br />

mean of brclan<br />

mean of brdjece<br />

Korištenjem opcije over možemo dobiti još kompleksnije grafike prikaze. Na primjer,<br />

ukoliko želimo da grafiki prikažemo prosjene vrijednosti za muške i ženske ispitanike<br />

(varijabla spol) prema entitetu (varijabla entitet) u kojem žive ukucaemo:<br />

. graph bar (mean) brclan (mean) brdjece, over(spol) by(entitet)<br />

7


FBiH<br />

RS<br />

0 1 2 3 4<br />

Muški Ženski Muški Ženski<br />

Graphs by Entitet<br />

mean of brclan<br />

mean of brdjece<br />

Postoji još dosta mogunosti kojima se može precizno definisati izgled ovakve vrste grafova.<br />

Obzirom da bi puna sintaksa bila prilino kompleksna mnogo bolje rješenje je koristiti<br />

dijaloške okvire koje pozivamo preko menija Graphics Bar chart.<br />

4. HISTOGRAMI<br />

Histograme koristimo za grafiko prestavljanje numerikih podataka. Numeriki podaci mogu<br />

biti prekidni (engl. discrete) i kontinuirani (engl. continuous). Prekidni podaci mogu imati<br />

samo odreene numerike vrijednosti. Na primjer, broj osoba u domainstvu (vrijabla<br />

brclan) je prekidni podatak jer jedno domainstvo ne može imati 3,5 lanova. S druge strane<br />

strane, kontinuirani podaci mogu uzeti bilo koju vrijednostu u datom rasponu. Na primjer,<br />

cijena jednog litra mineralne vode može uzeti bilo koju vrijednost u rasponu od 0,50 do 4,00<br />

KM. U suštini, može se rei da prekidni podatak dobijamo prebrojavanjem dok kontinuirani<br />

podatak dobijamo mjerenjem. Takoer, histograme možemo iskoristiti i za grafiko<br />

prestavljanje grupisanih numerikih podataka. Na primjer, varijabla dob ima kategorije koje<br />

predstavljaju grupisane numerike podatke (18-25 godina, 25-29 godina, 30-34 godine itd.).<br />

Naredba za crtanje je histogram i ima sljedeu sintaksu:<br />

. histogram ime_varijable, discrete freq addlalbel<br />

. histogram ime_varijable, discrete percent addlabel<br />

gdje opciju discrete koristimo ukoliko varijabla sadrži prekidne numerike vrijednosti.<br />

Ukoliko izostavimo ovu opciju Stata e automatski podrazumjevati da su podaci unutar<br />

varijable kontinuirani. Opcijama freq i percent definišemo da li Y-osa prestavlja frekvencije<br />

ili procente. Obratite pažnju da, ukoliko ne stavimo jednu od ove dvije opcije, Stata e na Y-<br />

osu staviti vrijednosti funkcije gustoe vjerovatnoe što nije uobiajen nain na koji se<br />

interpretiraju histogrami. I na kraju, ako želimo, opcijom addlabel možemo dati numeriku<br />

vrijednost iznad svakog stupca kako bi olakšali interpretaciju.<br />

8


Na primjer:<br />

. histogram brclan, discrete percent<br />

. histogram brdjece, discrete percent<br />

Percent<br />

0 10 20 30 40 50<br />

0 2 4 6 8<br />

Veliina domainstva<br />

Percent<br />

0 10 20 30 40<br />

0 2 4 6 8 10<br />

Broj djece<br />

Taoer, ono što može biti korisno je da se prikažu histogrami varijable prema željenim<br />

grupama. Na primjer, histogram za varijablu brdjece možemo posmatrati prema entitetima:<br />

. histogram brdjece, discrete percent addlabel by(entitet)<br />

Percent<br />

0 50<br />

FBiH<br />

RS<br />

0 5 10 0 5 10<br />

Broj djece<br />

Graphs by Entitet<br />

Pored ovih osnovnih postoji niz i drugih opcija kojma možemo definisati konani izgled<br />

histograma kao što su broj stupaca (bin), njihova širina (width), boja i slino. Obzirom da<br />

puna sintaksa može biti dosta komplikovana preporuka je da se za dodatno podešavanje<br />

izgleda histograma koriste dijaloški okviri do kojih dolazim preko menija: Graphics <br />

Histogram.<br />

9


5. UNAKRSNO TABELIRANJE<br />

Unakrsno tabeliranje se koristi kada želimo da vidimo zajednike distribucije frekvencija<br />

dvije ili više kategorijalnih varijabli. Rezultat koji dobijemo naziva se tabela kontegencije.<br />

Broj polja unutar tabele kontigencije e zavisiti od broja kategorija varijabli koje ukrštavamo.<br />

Najjednostavnija tabela kontigencije ima etiri polja (2x2) i dobije se kada ukrstimo dvije<br />

varijable od kojih svaka ima dvije kategorije.<br />

Pretpostavimo da želimo utvrditi da li je radni status ispitanika (varijabla v3) povezan sa<br />

entitetom prebivališta (varijabla entitet). Kod unakrsnog tabeliranja uobiajeno je da<br />

nezavisna varijabla predstavlja kolone a zavisna varijabla redove kontigencijske tabele. Kako<br />

bi dobili kontigencijsku tablicu za dvije kategorijalne varijable iskoristiemo naredbu tabulate<br />

koja ima sljedeu sintaksu:<br />

. tab nezavisna_var zavisna_var, col row cell nofreq<br />

gdje je<br />

Opcija<br />

col<br />

row<br />

cell<br />

noofreq<br />

Opis<br />

- Unutar tabele prikazuje procente prema kolonama<br />

- Prikazuje procente prema redovima<br />

- Prikazuje procente prema ukupnom zbiru svih elija tabele<br />

- Iskljuuje prikazivanje frekvencija<br />

Alternativno, ukrstanje dvije kategorijske varijable možemo uraditi i preko dijaloškog okvira<br />

kojeg pozivamo putem menija: Statistics Summaries, tables, and tests Tables Twoway<br />

tables with measures of association<br />

Kreirajmo sada kontigencijsku tabelu za varijable rstatus i entitet:<br />

. tab rstatus entitet<br />

Radni | Entitet<br />

status | FBiH RS | Total<br />

-----------+----------------------+----------<br />

Zaposlen | 55 19 | 74<br />

Nezaposlen | 18 1 | 19<br />

Student | 49 46 | 95<br />

Penzioner | 9 0 | 9<br />

-----------+----------------------+----------<br />

Total | 131 66 | 197<br />

Dobili smo 2x4 tabelu kontigencije iz koje možemo vidjeti strukutru ispitanika prema tome iz<br />

kojeg entiteta dolaze i kakav radni status imaju. Grafiki ove podatke možemo prestaviti uz<br />

pomo naredbe catplot ako ukucamo:<br />

. catplot rstatus entitet, blabel (bar)<br />

10


Zaposlen<br />

55<br />

FBiH<br />

Nezaposlen<br />

Student<br />

18<br />

49<br />

Penzioner<br />

9<br />

Zaposlen<br />

19<br />

RS<br />

Nezaposlen<br />

Student<br />

1<br />

46<br />

Penzioner<br />

0 20 40 60<br />

frequency<br />

Pri direktnim kompariranjima dobijenih frekvencija trebamo biti oprezni jer je oito da je<br />

rije o nejadnakim uzorcima budui da imamo duplo više ispitanika iz FBiH nego iz RS-a. U<br />

situaciji kada imamo grupe nejednakih veliina, a kako bi lakše interpretirali dobijene<br />

frekvencije, poželjno je pogledati i relativne (procentualne) odnose unutar tabele kontigencije.<br />

Uobiajeno je da se procenti prikažu za kolone kako bi direktno komparirali razlike izmeu<br />

kategorija nezavisne varijable:<br />

. tab rstatus entitet, column nofreq<br />

Radni | Entitet<br />

status | FBiH RS | Total<br />

-----------+----------------------+----------<br />

Zaposlen | 41.98 28.79 | 37.56<br />

Nezaposlen | 13.74 1.52 | 9.64<br />

Student | 37.40 69.70 | 48.22<br />

Penzioner | 6.87 0.00 | 4.57<br />

-----------+----------------------+----------<br />

Total | 100.00 100.00 | 100.00<br />

Ili grafiki:<br />

. catplot rstatus entitet, percent(entitet) blabel(bar, format(%4.1f))<br />

11


Zaposlen<br />

42.0<br />

FBiH<br />

Nezaposlen<br />

Student<br />

13.7<br />

37.4<br />

Penzioner<br />

6.9<br />

Zaposlen<br />

28.8<br />

RS<br />

Nezaposlen<br />

Student<br />

1.5<br />

69.7<br />

Penzioner<br />

0 20 40 60 80<br />

percent<br />

Na osnovu postotaka možemo uoiti da je u uzorak iz FBiH ušao znatno vei broj zaposlenih<br />

(42.0%) u odnosu na RS (28.8%). Isto tako u uzorku iz FBiH imamo znatno vei broj<br />

nezaposlenih (13.7% prema 1.5%) i penzionera (6.9%). Nasuprot tome, više od dvije treine<br />

uzorka iz RS-a ine studenti (69.7%) i uzorkom nije obuhvaen niti jedan penzioner (0.0%).<br />

Sve ovo ukazuje da su oba uzorka pristrasna u pogledu toga da znatno više reprezentuju<br />

mlau populaciju. Ovo se posebno odnosi na uzorak iz RS-a koji je sastavljen primarno od<br />

studentske populacije.<br />

12


6. VIŠESTRUKI ODGOVORI<br />

U praksi se istraživai vrlo esto susreu sa pitanjima kod kojih je ispitanik pri odgovaranju<br />

mogao odabrati više od jednog ponuenog odgovora. Ovakva pitanja se javljaju u dva<br />

pojavna oblika: indikativi i politomni. Bez obzira o kojem pojavnom obliku se radi, za analizu<br />

pitanja sa višestrukim odgovorima nužno je prvo instalirati dodatni paket mrtab.<br />

. ssc install mrtab<br />

6.1. INDIKATIVNI MOD<br />

Kod indikativnih pitanja imamo situaciju da za svaki odgovor bilježimo vrijednost 1 onda<br />

kada je ispitanik odbrao datu alternativu. Na primjer, u okviru istraživanja igara na sreu<br />

ispitanicima je postavljeno sljedee pitanje:<br />

Molimo Vas da sa „X“ oznaite koje od navednih<br />

igara na sreu ste igrali tokom prethodih 12 mjeseci:<br />

L O T O<br />

Sreke (instant)<br />

B I N G O<br />

Sportska kladionica<br />

Poker (automat)<br />

Rulet<br />

Ostalo<br />

U tabeli je predstavljen dio baze koji se odnosi na odgovore prvih pet ispitanika. Iz tabele<br />

možemo vidjeti da prvi ispitanik igra Loto i Bingo, drugi ispitanik igra Loto, Spotrsku<br />

kladionicu i poker itd.<br />

id igra1 igra2 igra3 igra4 igra5 igra6 igra7<br />

1 1 1<br />

2 1 1 1<br />

3 1<br />

4 1 1<br />

5 1 1 1<br />

Da bi sumirali ovako unesene višestruke odgovore potrebno je ukucati sljedeu naredbu:<br />

. mrtab igra1-igra7, title (Igre na sreu)<br />

gdje se igra1-igra7 odnosi na varijable indikatore, dok se opcija title koristi kako bi se<br />

definisao naziv tabele koji e Stata prikazati po završetku analize.<br />

Dobijeni rezultat je predstavljen na sljedeem outputu:<br />

13


| Percent of Percent<br />

Igre na sreu | Frequency responses of cases<br />

--------------------------+-----------------------------------<br />

igra1 L O T O | 452 24.82 77.00<br />

igra2 Sreke | 393 21.58 66.95<br />

igra3 B I N G O | 512 28.12 87.22<br />

igra4 Sportska kladionica | 307 16.86 52.30<br />

igra5 Automati | 100 5.49 17.04<br />

igra6 Rulet | 23 1.26 3.92<br />

igra7 Ostalo | 34 1.87 5.79<br />

--------------------------+-----------------------------------<br />

Total | 1821 100.00 310.22<br />

Valid cases: 587<br />

Missing cases: 3<br />

U kolonama „Frequency“ i „Percent of Responses“ dat je prikaz strukture frekvencija<br />

odgovora i odgovarajuih procenata. Na primjer, možemo vidjeti da je najšeši odgovor<br />

Bingo sa 512 odgovora, što je 28.1% od ukupnog broja odgovora. Mnogo interesantnije<br />

podatake imamo u koloni „Percent of Cases (Procenat ispitanika)“. Ova kolona pokazuje<br />

koliko je ispitanika u zadnjih 12 mjeseci igralo neku od navedenih igara na sreu. Tako<br />

vidimo da je 87.2% ispitanika igralo Bingo, 77.0% ih je igralo Loto itd. U ovoj koloni zbir<br />

prelazi 100% ali je to normalno obzirom da je jedan ispitanik mogao navesti da je igrao više<br />

od jedne igre na sreu u protekloj godini.<br />

Grafiki prikaz možemo pozvati sa:<br />

. mrgraph hbar igra1-igra7, stat(column) blabel(bar, format(%4.1f))<br />

title(Zastupljenost igara na sreu)<br />

Zastupljenost igara na sreu<br />

L O T O<br />

77.0<br />

Sreke<br />

67.0<br />

B I N G O<br />

87.2<br />

Sportska kladionica<br />

52.3<br />

Automati<br />

17.0<br />

Rulet<br />

3.9<br />

Ostalo<br />

5.8<br />

0 20 40 60 80<br />

column percent (base: cases)<br />

Varijable sa višestrukim odgovorima mogue je ukrstiti sa drugim varijablama. Na primjer,<br />

ako želimo dobiti zastupljenost igranja pojedinih igara prema polu:<br />

14


. mrgraph hbar igra1-igra7, stat(column) blabel(bar, format(%4.1f))<br />

title(Zastupljenost igara na sreu (prema polu)) by (spol)<br />

Zastupljenost igara na sreu (prema polu)<br />

L O T O<br />

Sreke<br />

62.3<br />

75.4<br />

80.0<br />

78.8<br />

B I N G O<br />

85.7<br />

91.3<br />

Sportska kladionica<br />

33.1<br />

59.9<br />

Automati<br />

8.8<br />

20.3<br />

Rulet<br />

Ostalo<br />

4.3<br />

3.1<br />

5.5<br />

6.9<br />

0 20 40 60 80 100<br />

column percent (base: cases)<br />

Muški<br />

Ženski<br />

Možemo primjetiti da žene u odnosu na muškarce dosta više igraju sreke, dok neznatno više<br />

igraju Bingo i Loto. S druge strane, muškarci u odnosu na žene mnogo više igraju sportsku<br />

kladionicu i automate.<br />

Alternativno, podatke smo mogli prikazati i na sljedei nain:<br />

. mrgraph hbar igra1-igra7, stat(column) blabel(bar, format(%4.1f)) by<br />

(spol, separate title(Zastupljenost igara na sreu))<br />

Zastupljenost igara na sreu<br />

Muški<br />

Ženski<br />

L O T O<br />

75.4<br />

L O T O<br />

80.0<br />

Sreke<br />

62.3<br />

Sreke<br />

78.8<br />

B I N G O<br />

85.7<br />

B I N G O<br />

91.3<br />

Sportska kladionica<br />

59.9<br />

Sportska kladionica<br />

33.1<br />

Automati<br />

20.3<br />

Automati<br />

8.8<br />

Rulet<br />

4.3<br />

Rulet<br />

3.1<br />

Ostalo<br />

5.5<br />

Ostalo<br />

6.9<br />

Graphs by spol<br />

0 20 40 60 80 100 0 20 40 60 80 100<br />

column percent (base: cases)<br />

15


6.2. POLITOMNI MOD<br />

Vrlo esto se tokom istraživanja javljaju situacije u kojima je ispitanicima ponueno mnogo<br />

više od samo nekoliko alternativa. Jedno uobiajeno takvo pitanje može se odnositi na to da<br />

ispitanik navede marke koje naješe kupuje.<br />

Zaokružite koje od navedenih marki flaširane mineralne vode naješe kupuje vaše domainstvo?<br />

1. Olimpija 2. Ilidžanski Dijamant 3. Sarajevski Kiseljak 4. Prolom<br />

5. Jamnica 6. Studenac 7. Studena 8. Vitinka<br />

9. Knjaz Miloš 10. Princess 11. Jana 12. Tuzlanski Kiseljak<br />

13. Tešanjski Dijamant 14. Oaza 15. Radenska 16. Kristal<br />

17. Ledena 18. Evian 19. Sarajevska 20. Donat Mg<br />

21. Rosa Rosa 22. Voda Voda 23. Zlatobor 24. Voda Vrnci<br />

25. Ostalo 26. Minaqua<br />

Ako bi ovakvo pitanje tretirali kao indikativno to bi zahtjevalo da svaka od ponuenih<br />

alternativa u okviru tabele sa podacima ima svoju kolonu (varijablu). Obzirom da u najveem<br />

broju sluajeva ispitanik kupuje samo jednu ili dvije marke, ostala polja u tabeli bi veinom<br />

bila prazna.<br />

Kako bi izbjegli takvu situaciju navedeno pitanje emo tretirati kao politomno. Kod<br />

politomnih pitanja pri unosu podataka kreiramo onoliko kolona koliko je najviše zaokruženo<br />

alternativa. Na primjer, u narednoj tabeli je dat prikaz dijela baze podataka koji obuhvata<br />

odgovore prvih deset ispitanika na prethodno postavljeno pitanje. Odgovore unosimo tako da<br />

kolone redom popunjavamo brojanim oznakama odgovarajue alternative.<br />

id marka1 marka2 marka3 marka4 marka5 marka6<br />

1 3 5 8<br />

2 3 21<br />

3 1 10 11 21<br />

4 3 11<br />

5 2 3 20<br />

6 3<br />

7 3 11<br />

8 3<br />

9 1 3<br />

10 4 8 9 16 22 23<br />

Iz tabele možemo uoiti da je prvi ispitanik odgovrio da kupuje tri marke i to: Sarajevski<br />

Kiseljak (3), Jamnicu (5) i Vitinku (8). Drugi ispitanik kupuje samo dvije marke, Sarajevski<br />

Kiseljak (3) i DonatMg (21). Trei ispitanik kupuje etiri marke, itd. Obratimo pažnju da<br />

ispitanik broj 10 kupuje ak šest razliitih marki. Upravo ovaj ispitanik je zaokružio najvei<br />

broj alternativa (šest) pa unutar tabele za unos imamo isto toliko (šest) kolona.<br />

Odgovore na politomni tip pitanja sa višestrukim odgovorima možemo analizirati sa<br />

sljedeom naredbom:<br />

. mrtab marka1-marka6, poly response(1/26) title (Marka)<br />

16


gdje marka1-marka6 oznaava kolone u koje su bilježeni mogui odgovori, dok se opcijom<br />

poly response naglašava da se radi o politomnom tipu pitanja i da pri obradi treba uzeti sve<br />

alternative od 1 do 27. Opcija title definiše naziv tabele u otputu.<br />

| Percent of Percent<br />

Marka | Frequency responses of cases<br />

------------------------+-----------------------------------<br />

1 Olimpija | 26 7.07 13.07<br />

2 Ilidžanski Dijamant | 10 2.72 5.03<br />

3 Sarajevski Kiseljak | 67 18.21 33.67<br />

4 Prolom | 14 3.80 7.04<br />

5 Jamnica | 33 8.97 16.58<br />

6 Studenac | 3 0.82 1.51<br />

7 Studena | 5 1.36 2.51<br />

8 Vitinka | 36 9.78 18.09<br />

9 Knjaz Miloš | 32 8.70 16.08<br />

10 Princess | 14 3.80 7.04<br />

11 Jana | 38 10.33 19.10<br />

12 Tuzlanski Kiseljak | 2 0.54 1.01<br />

13 Tešanjski Dijamant | 9 2.45 4.52<br />

14 Oaza | 5 1.36 2.51<br />

15 Radenska | 23 6.25 11.56<br />

16 Kristal | 0 0.00 0.00<br />

17 Ledena | 0 0.00 0.00<br />

18 Evian | 2 0.54 1.01<br />

19 Sarajevska | 21 5.71 10.55<br />

20 Donat Mg | 4 1.09 2.01<br />

21 Rosa Rosa | 7 1.90 3.52<br />

22 Voda Voda | 8 2.17 4.02<br />

23 Zlatobor | 1 0.27 0.50<br />

24 Voda Vrnci | 5 1.36 2.51<br />

25 Ostalo | 1 0.27 0.50<br />

26 Minaqua | 2 0.54 1.01<br />

------------------------+-----------------------------------<br />

Total | 368 100.00 184.92<br />

Valid cases: 199<br />

Missing cases: 0<br />

Struktura, izgled i tumaenje dobijene tabele je identiano kao i kod indikativnih pitanja. U<br />

konkretnom primjeru, najvei broj ispitanika kupuje Sarajevski Kiseljak (33.7%) koji je<br />

samm tim najzustupljenija marka u Bosni i Hercegovini. Na drugom mjestu je Jana (19.1%),<br />

zatim Vitinka (18.1%), Jamnica (16.6%) itd. Pored ovoga interesantno je uoiti da ni jedan od<br />

199 ispitanika nije naveo da konzumira dvije od ponuenih marki: Kristal i Ledenu.<br />

Naravno i ove varijable možemo ukrstiti sa drugim varijablama. Pogledajmo strukturu<br />

odgovora prema entitetima:<br />

17


. mrtab marka1-marka6, poly response(1/26) by(entit) column nofreq<br />

| Entitet<br />

| FBiH RS | Total<br />

------------------------+------------------------+-----------<br />

1 Olimpija | 14.29 10.61 | 13.07<br />

2 Ilidžanski Dijamant | 7.52 0.00 | 5.03<br />

3 Sarajevski Kiseljak | 47.37 6.06 | 33.67<br />

4 Prolom | 5.26 10.61 | 7.04<br />

5 Jamnica | 20.30 9.09 | 16.58<br />

6 Studenac | 1.50 1.52 | 1.51<br />

7 Studena | 2.26 3.03 | 2.51<br />

8 Vitinka | 2.26 50.00 | 18.09<br />

9 Knjaz Miloš | 0.75 46.97 | 16.08<br />

10 Princess | 10.53 0.00 | 7.04<br />

11 Jana | 17.29 22.73 | 19.10<br />

12 Tuzlanski Kiseljak | 1.50 0.00 | 1.01<br />

13 Tešanjski Dijamant | 6.77 0.00 | 4.52<br />

14 Oaza | 3.76 0.00 | 2.51<br />

15 Radenska | 12.78 9.09 | 11.56<br />

16 Kristal | 0.00 0.00 | 0.00<br />

17 Ledena | 0.00 0.00 | 0.00<br />

18 Evian | 0.75 1.52 | 1.01<br />

19 Sarajevska | 15.79 0.00 | 10.55<br />

20 Donat Mg | 2.26 1.52 | 2.01<br />

21 Rosa Rosa | 0.00 10.61 | 3.52<br />

22 Voda Voda | 0.00 12.12 | 4.02<br />

23 Zlatobor | 0.00 1.52 | 0.50<br />

24 Voda Vrnci | 0.00 7.58 | 2.51<br />

25 Ostalo | 0.00 1.52 | 0.50<br />

26 Minaqua | 0.00 3.03 | 1.01<br />

------------------------+------------------------+-----------<br />

Total | 172.93 209.09 | 184.92<br />

Valid cases: 199<br />

Missing cases: 0<br />

Ono što možemo primjetiti je da se neke marke uopšte ne prodaju u bar jednom od entiteta.<br />

Na primjer, marke Rosa Rosa, Voda Voda, Zlatibor, Voda Vrnci i Minaqua se uopšte ne<br />

prodaju u FBiH, iako su neke od ovih marki prilino zastupljene u RS-u. Isto tako, marke<br />

Vitinka i Knjaz Miloš su ubjedljivo dvije najdominantnije marke u RS-u dok su u FBiH<br />

sasvim malo zastupljene.<br />

S druge strane, Ilidžanski Dijamant, Princess, Tešanjski Dijamant, Tuzlanski Kiseljak, Oaza i<br />

Sarajevska uopšte nisu zastupljene u RS-u. Takoer, Sarajevski Kiseljak, kao najjaa marka<br />

na nivou cijele države i marka koja definitivno dominira u FBiH, ima relativno slab položaj u<br />

RS-u.<br />

Još bolji uvid možemo dobiti ako kupovinu marki uporedimo prema tri regiona:<br />

. mrtab marka1-marka6, poly response(1/26) by(region) column nofreq<br />

18


| Region<br />

| FBiH - Bos FBiH - Her RS | Total<br />

------------------------+------------------------------------+-----------<br />

1 Olimpija | 23.94 3.23 10.61 | 13.07<br />

2 Ilidžanski Dijamant | 14.08 0.00 0.00 | 5.03<br />

3 Sarajevski Kiseljak | 66.20 25.81 6.06 | 33.67<br />

4 Prolom | 8.45 1.61 10.61 | 7.04<br />

5 Jamnica | 4.23 38.71 9.09 | 16.58<br />

6 Studenac | 0.00 3.23 1.52 | 1.51<br />

7 Studena | 0.00 4.84 3.03 | 2.51<br />

8 Vitinka | 2.82 1.61 50.00 | 18.09<br />

9 Knjaz Miloš | 0.00 1.61 46.97 | 16.08<br />

10 Princess | 19.72 0.00 0.00 | 7.04<br />

11 Jana | 22.54 11.29 22.73 | 19.10<br />

12 Tuzlanski Kiseljak | 2.82 0.00 0.00 | 1.01<br />

13 Tešanjski Dijamant | 12.68 0.00 0.00 | 4.52<br />

14 Oaza | 7.04 0.00 0.00 | 2.51<br />

15 Radenska | 8.45 17.74 9.09 | 11.56<br />

16 Kristal | 0.00 0.00 0.00 | 0.00<br />

17 Ledena | 0.00 0.00 0.00 | 0.00<br />

18 Evian | 1.41 0.00 1.52 | 1.01<br />

19 Sarajevska | 25.35 4.84 0.00 | 10.55<br />

20 Donat Mg | 4.23 0.00 1.52 | 2.01<br />

21 Rosa Rosa | 0.00 0.00 10.61 | 3.52<br />

22 Voda Voda | 0.00 0.00 12.12 | 4.02<br />

23 Zlatobor | 0.00 0.00 1.52 | 0.50<br />

24 Voda Vrnci | 0.00 0.00 7.58 | 2.51<br />

25 Ostalo | 0.00 0.00 1.52 | 0.50<br />

26 Minaqua | 0.00 0.00 3.03 | 1.01<br />

------------------------+------------------------------------+-----------<br />

Total | 223.94 114.52 209.09 | 184.92<br />

Valid cases: 199<br />

Missing cases: 0<br />

Postaje evidentno da je i Federacija u suštini podjeljena na dva prilino razliita tržišta. Tako<br />

se marke: Olimpija, Ilidžanski Dijamant, Princess, Tuzlanski Kiseljak, Tešanjski Dijamant,<br />

Oaza i Sarajevska, prodaju vrlo malo ili gotvo nikako u južnom dijelu (Hercegovini). Na jugu<br />

primarno dominiraju Jamnica (38.7%), Sarajevski Kiseljak (25.8%), Radenska (17.7%) i Jana<br />

(11.3%).<br />

S druge strane, u sjevernom dijelu Federacije, daleko najvei udio ima Sarajevski Kiseljak<br />

(66.2%) a zatim slijede: Sarajevska (25.4%), Olimpija (23.9%), Jana (22.5%) i Princess<br />

(19.7%).<br />

19


Marketing <strong>analitika</strong>: Uvod u Statu 1<br />

autor: doc. dr Emir Agi¢<br />

02. 03. 2015. (ver. 1.1)<br />

1 NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnoºavanje<br />

ovog materijala ili nekih njegovih dijelova bez prethodnog pisanog pristanka<br />

autora.


Sadrºaj<br />

1 Uvod u Statu 2<br />

1.1 Tipografske konvencije . . . . . . . . . . . . . . . . . . . . . . 2<br />

1.2 Stata radno okruºenje . . . . . . . . . . . . . . . . . . . . . . 2<br />

1.3 Instaliranje dodataka i update-a . . . . . . . . . . . . . . . . . 4<br />

1.4 Pretraºivanje sistema pomo¢i . . . . . . . . . . . . . . . . . . 5<br />

1.5 Radni direktorij . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />

1.6 U£itavanje eksterno spremljenih podataka . . . . . . . . . . . 6<br />

1.6.1 Podaci iz Excel-a . . . . . . . . . . . . . . . . . . . . . 6<br />

1.6.2 Podaci iz SPSS-a . . . . . . . . . . . . . . . . . . . . . 7<br />

1.7 Upravljanje varijablama . . . . . . . . . . . . . . . . . . . . . 7<br />

1.7.1 Tipovi varijabli . . . . . . . . . . . . . . . . . . . . . . 9<br />

1.7.2 Format prikaza . . . . . . . . . . . . . . . . . . . . . . 10<br />

1.7.3 Promjena naziva varijabli . . . . . . . . . . . . . . . . 11<br />

1.7.4 Opisivanje varijabli . . . . . . . . . . . . . . . . . . . . 12<br />

1.7.5 Dodjeljivanje opisa vrijednostima kategorijskih varijabli 13<br />

1.8 Nedostaju¢e vrijednosti . . . . . . . . . . . . . . . . . . . . . 14<br />

1.9 Upravljanje podacima . . . . . . . . . . . . . . . . . . . . . . 15<br />

1.9.1 Selektiranje i brisanje varijabli . . . . . . . . . . . . . 16<br />

1.9.2 Selektiranje i brisanje opservacija . . . . . . . . . . . . 17<br />

1.9.3 Generiranje novih i transformacija postoje¢ih varijabli 19<br />

1.9.4 Rekodiranje vrijednosti varijable . . . . . . . . . . . . 22<br />

1.9.4.1 Pretvaranje metrijskih varijabli u kategorijalne 22<br />

1.9.4.2 Rekodiranje vrijednosti kategorijalne varijable 23<br />

A Variables Manager 27<br />

1


Poglavlje 1<br />

Uvod u Statu<br />

1.1 Tipografske konvencije<br />

Za Stata komande je kori²ten je typewriter font. Ako je u pitanju cjelokupna<br />

naredba, nju smo nazna£ili sa ta£kom, obzirom da takav output<br />

ispisuje sama Stata u Results window-u ili unutar .log datoteka.<br />

Imena varijabli ili fajlova unutar samog teksta su nagla²ena italic fontom<br />

kako bi se dalo do znanja da su arbitrarni a ne ksni dio neke naredbe.<br />

Nazivi prozora i izbornici unutar menija su prikazani sa Sans Serif fontom.<br />

Na primjer, File > Open zna£i da treba kliknuti na meni File a zatim na stavku<br />

Open.<br />

Stata razlikuje velika i mala slova. Ako ukucamo summarize, Stata ¢e to<br />

razumjeti kao komandu, ali Summarize ne¢e.<br />

1.2 Stata radno okruºenje<br />

Nakon ²to pokrenemo program pojavi¢e se radno okruºenje koje £ini ²est<br />

glavnih elemenata prikazanih na slici 1.1.<br />

2


POGLAVLJE 1. UVOD U STATU 3<br />

Slika 1.1: Stata radno okruºenje<br />

1. Menu bar element gra£kog okruºenja koji sadrºi menije preko kojih<br />

pristupamo razli£itim funkcijama.<br />

2. Tool bar element gra£kog okruºenja koji sadrºi ikone i kratice do<br />

£esto kori²tenih funkcija za upravljanje podacima i Stata sintaksom.<br />

3. Variables window Prozor u kojem se nalazi spisak trenutno u£itanih<br />

varijabli.<br />

4. Command window Prozor u koji unosimo Stata naredbe.<br />

5. Results window Prozor u kojem se ispisuju rezultati analize i poruke.<br />

6. Review window Prozor koji sadrºi spisak svih naredbi upotrebljenih<br />

tokom jedne radne sesije. Na svaku naredbu je mogu¢e kliknuti i ona<br />

¢e automatski biti ponovo ispisana u prozora za uno²enje komandi.<br />

Ovo moºe biti prakti£no ako ºelimo ponoviti neku naredbu bez da je<br />

ponovo tipkamo.


POGLAVLJE 1. UVOD U STATU 4<br />

1.3 Instaliranje dodataka i update-a<br />

Stata je softver koji se stalno nadogražuje. Vremenom se dodaju nove naredbe<br />

ili se ispravljaju uo£ene gre²ke unutar postoje¢e verzije. Nakon uspje²ne<br />

instalacije poºeljno je provjeriti da li postoji novija verzija. Ukoliko<br />

smo konektovani na Internet dovoljno je da ukucamo:<br />

. update all<br />

U slu£aju da u okviru update-a postoji i nova verzija izvr²ne datoteke<br />

(.exe), mora¢emo upisati komandu:<br />

. swap all<br />

kako bi Stata izvr²ila zamjenu stare izvr²ne datoteke novijom.<br />

Sami korisnici £esto pi²u vlastite pakete (engl. packages) koje omogu¢avaju<br />

da se znatno pro²iri postoje¢a funkcionalnost State. Ve¢ina ovih paketa<br />

nalazi se na SSC serveru i potpuno je besplatna za kori²tenje. Na primjer, u<br />

osnovnoj verziji State ne postoji komanda kojom bi se podaci jedne kategorijalne<br />

varijable jednostavno predstavili pomo¢u graka stupaca (engl. bar<br />

graph). Postoje zaobilazni (i komplikovani) na£ini da se to uradi, ali puno<br />

je jednostavnije instalirati specijalizovani paket catplot .<br />

Prije same instalacije moºemo provjeriti ²ta nudi paket kojeg namjeravamo<br />

instalirati tako ²to ¢emo upisati:<br />

ssc type catplot.hlp<br />

Prvi na£in na koji moºemo dodati ovaj (ili bilo koji drugi) paket je da<br />

ga diretktno instaliramo sa SSC servera. Dovoljno je da unutar komandne<br />

linije ukucamo:<br />

. ssc install catplot<br />

Drugi na£in je da upotrijebimo naredbu findit. Na primjer:<br />

. findit catplot<br />

Ovim putem sama Stata ¢e locirati gdje se na Internetu nalazi paket<br />

kojeg traºimo, a zatim ¢e u zasebnom pregledniku ponuditi opciju da ga<br />

instaliramo ili ne.


POGLAVLJE 1. UVOD U STATU 5<br />

1.4 Pretraºivanje sistema pomo¢i<br />

Stata u sebi ima ugražen ekstenzivan sistem pomo¢i kojeg korisnik moºe<br />

pozvati u bilo kojem trenutku. Ako ºelimo pozvati generalnu pomo¢ moºemo<br />

koristiti naredbu help. Ako nas pak interesuje pomo¢ za ta£no odreženi<br />

paket ili naredbu, onda uz help moramo ukucati i naziv paketa (ili naredbe)<br />

za koji traºimo pomo¢. Na primjer, naredbom:<br />

. help catplot<br />

pozvimo pomo¢ za paket catplot u okviru kojeg moºemo pro£itati za ²ta<br />

je paket namjenjen, kako izgleda sintaksa naredbi unutar ovog paketa, primjere<br />

njegove upotrebe, op²te napomene, a nerijetko ¢e nam biti ponužena<br />

mogu¢nost preuzimanja datoteke sa podacima za koje se primjeri odnose.<br />

1.5 Radni direktorij<br />

Radni direktorij (engl. working directory) je lokacija na disku unutar koje<br />

Stata snima i iz koje u£itava datoteke sa podacima. Naredbom pwd dobijamo<br />

trenutnu lokaciju radnog direktorija, dok naredbom cd moºemo promjeniti<br />

teku¢i radni direktorij. Na primjer:<br />

. pwd<br />

D:\Stata11<br />

govori da se teku¢i radni diretorij nalazi na disku [D:], unutar foldera Stata<br />

11 .<br />

Ukoliko ºelimo da promjenimo radni direktorij moramo eksplicitno naglasiti<br />

putanju do lokacije foldera koji ¢e biti novi radni direktorij. Na primjer:<br />

. cd D:\Users\Projekat1\<br />

za novi radni direktorij odrežuje folder Projekat1 koji se nalazi na disku<br />

[D:], unutar foldera Users.<br />

Alternativno, novi radni direktorij moºemo odabrati i preko menija: File<br />

> Change Working Directory.


POGLAVLJE 1. UVOD U STATU 6<br />

Generalni savjet je da se za svako istraºivanje kreira zaseban folder u<br />

okviru kojeg ¢e se snimati podaci, rezultati analize i ostala prate¢a dokumentacija<br />

vezana za dato istraºivanje.<br />

1.6 U£itavanje eksterno spremljenih podataka<br />

1.6.1 Podaci iz Excel-a<br />

Iako Stata ima mogu¢nost direktnog u£itavanje podataka iz Excel datoteka<br />

(*.xls i *.xlsx), u ranijim verzijama (Stata 11 ili starije) potrebno je da se<br />

podaci iz Excela prvo snime u format tekstualne datoteke razgrani£ene tabulatorom<br />

(*.txt) ili nekim drugim znakom (*.csv) 1 . Tako spremljenu datoteku<br />

u Statu u£itavamo pomo¢u naredbe insheet. Na primer, pretpostavimo da<br />

ºelimo u£itati datoteku snimljenu u .csv formatu. Ukoliko je datoteka ve¢<br />

locirana u radnom direktoriju dovoljno je upisati:<br />

. insheet using file.csv, delimiter(";")<br />

gdje se le.csv odnosi na naziv datoteke iz koje ¢e se u£itati podaci. Argument<br />

delimiter(";") se koristi kako bi Stati rekli da su varijable (kolone)<br />

unutar .csv datoteke odvojene znakom ta£ka-zarez (;).<br />

Ako se pak datoteka nalazi u nekom drugom folderu potrebno je ta£no<br />

specicirati putanju. Putanja moºe upu¢ivati i na datoteku koja nije lokalno<br />

pohranjena na disku (ve¢ na drugom ra£unaru u mreºi ili na Internetu). Na<br />

primjer:<br />

. insheet using "D:\Stata11\Projekat\datoteka.csv, delimiter(";")<br />

gdje D:\Stata11\Projekat ozna£ava putanju do foldera u kojem se nalazi<br />

datoteka sa podacima pod nazivom le.csv.<br />

Alternativni na£in je da podatke u£itamo koriste¢i dijalo²ki obrazac koji<br />

se dobija preko menija File > Import > ASCII data created by a spreadsheet.<br />

1 Datoteku iz Microsoft Excela moºemo pretvoriti u drugi datote£ni format tako ²to ¢emo<br />

je iz samog Excela spremiti pomo¢u naredbe: File > Save as > Other Formats u ºeljenu<br />

odredi²nu datoteku.


POGLAVLJE 1. UVOD U STATU 7<br />

Nakon ²to je Stata u£itala podatke u radnu memoriju, u prozoru sa rezultatima<br />

(Results window), ispisa¢e koliko varijabli i opservacija se nalazilo<br />

u datoteci sa podacima. Na primjer:<br />

(20 vars, 199 obs)<br />

zna£i da je u£itano ukupno 20 varijabli (kolone) i 199 opservacija (redovi). U<br />

prozoru Variables moºemo vidjeti imena varijabli i eventualno njihove oznake.<br />

1.6.2 Podaci iz SPSS-a<br />

Osnovna verzija State ne moºe direktno uvesti podatake iz SPSS-a. Mežutim,<br />

postoji dodatni paket pod nazivom usespss koji omogu¢ava direktno<br />

£itanje podataka iz SPSS datoteka zajedno sa svim denisanim parametrima<br />

(nazivi varijabli, opisi vrijednosti kategorijskih varijabli i sl.). Ukoliko to nismo<br />

ranije uradili, potrebno je prvo instalirati pomenuti paket:<br />

. ssc inst usespss<br />

a zatim u£itati podatke kori²tenjem naredbe:<br />

. usespss using file.sav<br />

Ukoliko se datoteka le.sav ne nalazi u radnom direktoriju, kao i u ranijem<br />

primjeru, potrebno je specicirati ta£nu putanju do iste.<br />

1.7 Upravljanje varijablama<br />

Svaka varijabla unutar baze ima pet osnovnih atributa. Uzmimo za primjer<br />

varijablu eduk unutar koje je zabiljeºen stepen formalnog obrazovanja ispitanika.<br />

Rije£ je o kategorijalnoj varijabli a njene atribute moºemo dobiti uz<br />

pomo¢ naredbe describe:


POGLAVLJE 1. UVOD U STATU 8<br />

. describe eduk<br />

storage display value<br />

variable name type format label variable label<br />

eduk byte %9.0f obraz Obrazovanje<br />

Output 1.1<br />

Prvi atribut odnosi se na naziv same varijable (engl. variable name).<br />

Zatim slijedi opis \ref{output:describe} (engl. storage type), format prikaza<br />

varijable (engl. display format), naziv seta koji sadrºi opis vrijednosti varijable<br />

(engl. value label) i opis varijable (engl. variable label).<br />

Neke od ovih elemenata je obavezno denisati. Tako svaka varijabla mora<br />

imati naziv, tip pohrane i format. S druge strane, opis varijable i opis vrijednosti<br />

varijable je poºeljno ali ne i obavezno denisati. Naro£ito je poºeljno<br />

denisati opise vrijednosti za kategorijske varijable. Vrijednosti metrijskih<br />

varijabli nije potrebno opisivati jer su one same po sebi jasne. Na pimjer,<br />

u slu£aju varijable eduk ne moramo imati opis varijable i njenih vrijednosti<br />

da bi mogli raditi analizu. Mežutim, ove elemente je poºeljno denisati radi<br />

bolje preglednosti i smanjenja mogu¢nosti pogre²ne interpretacije dobijenih<br />

rezultata. Tako iz outputa 1.1 moºemo vidjeti da se varijabla eduk odnosi<br />

na obrazovanje (variable label) i da su opisi vrijednosti za ovu varijablu u<br />

memoriji pohranjeni unutar seta pod nazivom obraz (value labels). Opise<br />

vrijednosti varijable moºemo dobiti uz pomo¢ naredbe labelbook:


POGLAVLJE 1. UVOD U STATU 9<br />

. labelbook obraz<br />

value label obraz<br />

values<br />

labels<br />

range: [1,4] string length: [8,20]<br />

N: 4 unique at full length: yes<br />

gaps: no unique at length 12: yes<br />

missing .*: 0 null string: no<br />

leading/trailing blanks: no<br />

numeric -> numeric: no<br />

definition<br />

1 Osnovna skola<br />

2 Srednja skola<br />

3 Fakultet<br />

4 Postdiplomski studij<br />

variables:<br />

Output 1.2<br />

eduk<br />

Output 1.2 pokazuje da opservacije unutar kategorijalne varijable eduk<br />

mogu uzeti jednu od £etiri mogu¢e vrijednosti: range [1,4]. Opisi ovih vrijednosti<br />

su dati u rubrici denition i odnose se na: 1 osnovna ²kola, 2 <br />

srednja ²kola, 3 fakultet i 4 postdiplomski studij.<br />

U nastavku je obja²njeno kako korisnik unutar State moºe denisati i<br />

promjeniti svaki od navedenih pet atributa.<br />

1.7.1 Tipovi varijabli<br />

Za razliku od nekih drugih statisti£kih paketa (npr. SPSS-a), unutar kojih<br />

je mogu¢e denisati da li je pojedina£ni podatak mjeren na nominalnom,<br />

ordinalnom ili metrijskom nivou, Stata barata sa samo dvije vrste podataka:<br />

tekstovnim (engl string) i numeri£kim (engl. numeric).<br />

Numeri£ki podaci mogu biti pohranjeni u jednoj od pet varijanti: byte,<br />

int, long, oat, ili double. Za pohranu cjelobrojnih vrijednosti se koriste<br />

byte, int i long, dok se za racionalne brojeve koristee float i double.<br />

Defaultni tip pohrane numeri£kih vrijednosti je float. Obzirom da Stata<br />

sve numeri£ke vrijednosti £uva u radnoj memoriji, razli£ite varijante £uvanja<br />

numeri£kih podataka sluºe da se racionalizira kori²tenje memorije. Tako<br />

numeri£ki podatak pohranjen kao byte zauzima najmanje prostora u radnoj<br />

memoriji dok double zauzima najvi²e. Na£in pohrane numeri£kih vrijednosti


POGLAVLJE 1. UVOD U STATU 10<br />

nije toliko bitan ukoliko radimo sa manjim bazama podataka. Mežutim u<br />

slu£ajevima kada u bazi imamo veliki broj opservacija i varijabli, kori²tenjem<br />

odgovaraju¢eg tipa pohrane moºe se u²tediti znatan dio radne memorije.<br />

Detaljnije informacije o ovim tipovima se mogu dobiti ako ukucamo naredbu:<br />

. help datatype<br />

Da bi promijenili na£in pohrane vrijednosti varijable iz jednog tipa u<br />

drugi koristimo naredbu recast. Na primjer:<br />

. recast long prihod<br />

¢e od State traºiti da promjeni postoje¢i tip pohrane vrijednosti unutar varijable<br />

prihod u long kao novi tip pohrane. Stata ¢e promjenu izvr²iti samo<br />

ako ona ne¢e dovesti do gubitka preciznosti spremljenih podataka. Ako ºelimo<br />

izvr²iti promjenu na£ina pohrane bez obzira na mogu¢i rizik gubitka<br />

preciznosti, onda to moºemo posti¢i tako da nakon naredbe recast upotrijebimo<br />

opciju force.<br />

1.7.2 Format prikaza<br />

Tekstualni podaci imaju oznaku str#, gdje je broj nakon oznake pokazuje<br />

maksimalnu duºinu teksualnog zapisa. Tako, ako vidimo da uz varijablu stoji<br />

type: str13, to zna£i da se radi o tekstovnoj varijabli koja ima maksimalnu<br />

duºinu od 13 karaktera.<br />

Stata nudi nekoliko razli£itih formata za prikaz numeri£kih vrijednosti<br />

unutar seta podataka. Format uvijek po£inje sa %, a naj£e²¢e se koristi f ili<br />

ksini numeri£ki format. Pretpostavimo, da unutar varijable x imamo broj<br />

123,321. Format prikaza %9.1f zna£i da ¢e prilikom prikaza broj ispuniti<br />

devet kolona i da ¢e imati jednu cifru iza decimalnog zareza. Samim tim ¢e<br />

123,321 biti prikazan kao 123,3. Pored ksnog, postoji jo² e (eksponencijalni)<br />

i g (generalni) format. Eksponencijalni format se naj£e²¢e koristi za prikaz<br />

vrlo malih ili velikih brojeva, dok generalni format Stati prepu²ta da izabere<br />

f ili e format u zavisnosti od situacije.<br />

Pri unosu podataka, Stata automatski bira format prikaza numeri£kih<br />

vrijednosti unutar seta podataka ali se to moºe promijeniti. Na primjer, ako


POGLAVLJE 1. UVOD U STATU 11<br />

ºelimo da broj£ane vrijednosti unutar varijable x umjesto jednog imaju tri<br />

decimalna mjesta, ona je dovoljno unijeti:<br />

. format x %9.3f<br />

Bez obzira koji format koristili, orginalno unesene vrijednosti uvijek ostaju<br />

iste. Mijenja se samo na£in njihovog prikaza. Detaljnije obja²njenje<br />

o na£inu prikazivanja numeri£kih vrijednosti unutar seta podataka moºe se<br />

pozvati sa:<br />

. help format<br />

1.7.3 Promjena naziva varijabli<br />

Promjenu imena varijabli moºemo izvr²iti na dva na£ina: a) preko dijalo²kog<br />

okvira kojeg pozivamo preko menija Data > Data utilities > Rename variables<br />

ili b) kori²tenjem naredbe rename koja ima sljede¢u sintaksu:<br />

. rename old_varname new_varname<br />

gdje se old_varname odnosi na postoje¢i (stari) naziv varijable, a new_varname<br />

na novi naziv koji ¢e zamjeniti ve¢ postoje¢i naziv.<br />

Na primjer, unutar baze u koju su snimljeni podaci o navikama u potro²a£a<br />

u pogledu konzumacije mineralnih voda, varijabla v1 se odnosi na<br />

u£estalost konzumaciju gazirane mineralne vode. Obzirom da je naziv v1<br />

prili£no generi£ki ºelimo da naziv varijable v1 promjenimo u ne²to ²to ¢e<br />

nas vi²e asocirati na to na ²ta se pomenuta vrajbla odnosi. Pretpostavimo<br />

da smo se opredjelili da novi naziv bude kgaz. Promjenu ¢emo izvr²iti tako<br />

da ukucamo:<br />

. rename v1 kgaz<br />

£ime smo varijablu v1 preimenovali u kgaz.<br />

Ovdje je potrebno napomenuti da se imena varijabli obi£no ozna£avaju<br />

skra¢enicama. Poºeljno je da ime ne bude previ²e dugo (do 8 karaktera), a


POGLAVLJE 1. UVOD U STATU 12<br />

uobi£ajeno je da se za ime varijable koriste isklju£ivo mali znakovi. Unutar<br />

imena se ne moºe koristi ta£ka (.) ali umjesto nje moºe se koristiti donja<br />

crtu (_). Na primjer, varijablu v1 umjesto kgaz mogli smo imenovati kao<br />

k_gaz ali ne i kao k.gaz.<br />

Razlog zbog kojeg se imena varijabli pi²u skra¢enicama ogleda se u tome<br />

²to tokom analize £esto trebamo navoditi varijable na koje se neka naredba<br />

odnosi. U tom smislu mnogo je lak²e i brºe obaviti posao ako koristimo skra-<br />

¢enicu (npr. kgaz) umjesto punog imena (npr. konzumacija_gazirane_vode).<br />

Na ovaj na£in smanjuje se mogu¢nost gre²ke pri kucanju a istovremeno se<br />

pove¢ava preglednost kori²tene sintakse.<br />

1.7.4 Opisivanje varijabli<br />

Opisivanje varijabli je postupak u kojem varijablama dodjeljujemo duºe<br />

opisno ime od onog kojeg varijabla trenutno ima. Na primjer, ve¢ smo rekli<br />

da se varijabla kgaz odnosi sna u£estalost konzumacije. Nakon nekog vremena<br />

moºe se desiti da se ne sje¢amo ²ta zna£e skra¢enice koje smo koristili<br />

u imenima varijabli. Upravo da bi izbjegli taj problem, ali i da bi pove¢ali<br />

preglednost dobijenog outputa, koristimo se postupkom labeliranja putem<br />

kojeg pobliºe opisujemo varijable. Kori²tenje opisnih imena je posebno zna-<br />

£ajno za istraºiva£e koji obražuju podatke iz razli£itih anketa ali i za neke<br />

vrste analiza.<br />

Za dodjeljivanje duºeg opisa nekoj varijabli koristi se dijalo²ki okvir Data<br />

> Variables Manager. Unutar ovog dijalo²kog okvira potrebno je mi²em ozna£iti<br />

varijablu na lijevoj strani i u polju Label unijeti opis varijable.<br />

Drugi na£in za opisivanje varijable je uz kori²tenje naredbe label koja<br />

ima sljede¢u sintaksu:<br />

. label variable ime_varijable "Opis varijable"<br />

Na primjer, varijablu kgaz moºemo pobliºe opisati tako da ukucamo:<br />

. label variable kgaz "Sedmi£na konzumacija gazirane vode"


POGLAVLJE 1. UVOD U STATU 13<br />

1.7.5 Dodjeljivanje opisa vrijednostima kategorijskih varijabli<br />

Nakon u£itavanja iz eksterne datoteke Stata ¢e sve varijable unutar kojih<br />

nema tekstualnih karaktera automatski denisati kao numeri£ke varijable.<br />

Na primjer, znamo da je varijabla spol kategorijska varijabla sa vrijednostima:<br />

1 za mu²ki i 2 za ºenski spol. Kako pri £itanju rezultata analize ne bi<br />

morali pamtiti ²ta ozna£ava 1 a ²ta 2, poºeljno je da broj£anim vrijednostima<br />

kategorijskih varijabli dodijelimo i tekstualni opis.<br />

Stata koristi dvostepeni proces dodjeljivanja opisa vrijednostima kategorijskih<br />

varijabli. Prvo je potrebno denisati set sa opisom kategorija i tom<br />

setu dodijeliti naziv. To ¢emo uraditi uz pomo¢ naredbe label:<br />

. label define Spol 1 "mu²ki" 2 "ºenski"<br />

Dakle, ovim smo denisali opisni set sa nazivom Spol. U drugom koraku<br />

potrebno je ovako denisani set dodijeliti varijabli spol a za to koristimo<br />

naredbu:<br />

. label values spol Spol<br />

Obratite paºnju da se ime opisnog seta poklapa sa imenom varijable (osim<br />

velikog po£etnog slova).<br />

U praksi se nerijetko javljaju situacije u kojima jedan opisni set moºemo<br />

primjeniti na va²i varijabli. Na primjer, pretpostavimo da smo neki konstrukt<br />

mjerili sa tri tvrdnje na petostepenoj Likertovoj skali gdje je 1 apsolutno<br />

se ne slaºem, 2 ne slaºem se, 3 niti se slaºem niti se ne slaºem, 4 slaºem<br />

se, 5 apsolutno se slaºem. Odgovore ispitanika prema ove tri tvrdnje smo<br />

zabiljeºili unutar varijabli: item1, item2 i item3.<br />

U ovakvom slu£aju prvo bi trebali denisati opisni set, nazovimo ga Likert5,<br />

sa:<br />

. label define Likert5 1 "apsolutno se ne slaºem" 2 "ne slaºem se"<br />

3 "niti se slaºem niti se ne slaºem" 4 " slaºem se" 5 "apsolutno se ne slaºem"


POGLAVLJE 1. UVOD U STATU 14<br />

A zatim bi, u jednom koraku, svakoj varijabli dodijeliti ovako denisani<br />

set:<br />

. label values item1 item2 item3 likert5<br />

Naravno, sve ovo moºemo uraditi i preko ranije pomenutog Variables Managera,<br />

a kompletan postupak opisan je u Dodatku A.<br />

1.8 Nedostaju¢e vrijednosti<br />

Prazne ¢elije u tabeli sa podacima Stata automatski prepoznaje kao nedostaju¢e<br />

vrijednosti. Ove vrijednosti prikazane su u tabeli sa podacima sa<br />

ta£kom (.). Po£ev²i od verzije 8 postoji jo² 26 kodova koji se mogu iskoristiti<br />

za nedostaju¢e vrijednosti. Kodovi se ozna£avaju sa ta£kom koju prati<br />

malo slovo (od .a do .z).<br />

Nedostaju¢e vrijednosti za tekstualne podatke ozna£avaju se sa "" (ravni<br />

navodnici bez razmaka izmežu), ²to ne treba mje²ati sa " " (ravni navodnici<br />

sa razmakom).<br />

Vrlo £esto se u istraºivanjima nedostaju¢i podaci ozna£avaju sa specijalnim<br />

kodovima kao ²to su npr.: 88 nije primjenljivo, 99 nije utvrženo i sl.<br />

U slu£aju da dobijemo datoteku u kojoj je kori²ten ovakav na£in kodiranja<br />

nedostaju¢ih vrijednosti, nakon ²to importujemo podatke, potrebno je Stati<br />

jasno nazna£iti da 88, 99 (ili bilo koja druga sli£na oznaka) ne predstavlja<br />

broj nego nedostaju¢i podatak. Na primjer, pretpostavimo da su za varijablu<br />

primanja neki odgovori kodirani kao: 99 odbija odgovoriti i 999 ne moºe<br />

se sjetiti. Nakon ²to importujemo podatke u Satu potrebno je naredbom<br />

replace ili recode oznake 99 i 999 zamjeniti sa oznakama koje koristi Stata:<br />

. replace primanja = .n if primanja == 99<br />

. replace primanja = .m if primanja == 999<br />

ili<br />

. recode primanja 99 = .n<br />

. recode primanja 999 = .m


POGLAVLJE 1. UVOD U STATU 15<br />

Ukoliko se u £itavom skupu podataka, za sve varijable koristila ista oznaka,<br />

recimo da je to znaka: −9, onda jednostavno moºemo ukucati:<br />

. recode _all -9 = .<br />

Da li unutar neke varijable postoje nedstaju¢i podaci moºemo provjeriti<br />

ako ukucamo naredbu inspect ime_varijable.<br />

Vrijedi napomenuti da, za razliku od drugih statisti£kih paketa, Stata<br />

nedostaju¢e vrijednosti tretira kao beskona£no velike brojeve, s tim da je<br />

.< .a < .b < ... < .z. Ovo uvijek treba imati na umu kako bi izbjegli<br />

potencijalne gre²ke pri denisanju odgovaraju¢ih matematskih izraza.<br />

Na primjer, recimo da u bazi od 199 ispitanika imamo 134 ºene, 62 mu-<br />

²karca i 3 ispitanika koji nisu naveli podatak o spolu. Pretpostavimo da za<br />

potrebe analize ºelimo da prebrojimo broj ºena. Obzirom da smo unutar varijable<br />

spol brojem 1 ozna£ili mu²karce, a sa brojem 2 ºene, provjeru moºemo<br />

izvr²iti tako da ukucamo:<br />

. count if spol>1 & spol1<br />

137<br />

dobili bi broj 137 jer bi 3 ispitanika koja nisu navela podatak o spolu u²la u<br />

prebrojavanje. To bi se desilo jer nismo eksplicitno nazna£ili da se nedostaju¢e<br />

vrijednosti ne trebaju ra£unati.<br />

1.9 Upravljanje podacima<br />

U ovom dijelu nau£i¢emo osnovne operacije koje se ti£u upravljanja podacima.<br />

Ove operacije odnose se na selektiranje ºeljenih varijabli i opservacija,<br />

2 Ne zaboravimo da ta£ka (.) ozna£ava dosta veliku numeri£ku vrijednost.


POGLAVLJE 1. UVOD U STATU 16<br />

rekodiranje varijabli, transformaciju varijabli, preoblikovanje skupa podataka<br />

(engl. reshaping) i pretvaranje jedne vrste podataka u drugu.<br />

Prvo je bitno da poznajemo operatore koji se koriste u relacionim i aritmeti£kim<br />

izrazima. Naj£e²¢e kori²teni operatori predstavljeni su u narednoj<br />

tabeli 1.1.<br />

Operator Zna£enje Napomena<br />

== jednako kao koristi se u relacionim izrazima<br />

= proizvodi koristi se u aritm. operacijama<br />

, == realcioni operatori koriste se nakon izraza if<br />

= ili ~= razli£ito od desni alt + 1 za simbol ~<br />

! ili ~ nije<br />

&<br />

i<br />

| ili desni alt + w za simbol |<br />

+, -, *, /, ^ aritmeti£ki operatori desni alt + 3 za simbol ^<br />

Tablica 1.1: Operatori unutar State<br />

Obratiti paºnju na razliku izmežu = i ==. Simbol jednakosti (=) se<br />

obi£no koristi kada dodjeljujemo vrijednosti varijabli. Na primjer:<br />

. gen wage = salary/(hours*weeks)<br />

dok se dvostruki simbol jednakosti (==) koristi kada ºelimo da napravimo<br />

komparaciju.<br />

. replace fulltime = 1 if hours == 40<br />

1.9.1 Selektiranje i brisanje varijabli<br />

Operacija selektiranja varijabli i opservacija moºe biti korisna kada imamo<br />

skup sa velikim brojem podataka, a za analizu ºelimo upotrijebiti samo jedan<br />

njegov dio. To zna£i da ¢emo odabrati samo one varijable i/ili opservacije<br />

koje nam trebaju.<br />

Pretpostavimo od svih varijabli ºelimo zadrºati samo tri varijable: id, v1<br />

i v2. To moºemo uraditi koriste¢i naredbu keep:


POGLAVLJE 1. UVOD U STATU 17<br />

. keep id v1 v2<br />

Alternativno, ako ºelimo da izbacimo varijable, koristi¢emo naredbu drop:<br />

. drop id v1 v2<br />

Naredbama keep i drop mijenjamo sadrºaj skupa podataka koji se nalazi<br />

u memoriji. To zna£i da varijable koje smo izbacili nisu izbrisane u datoteci<br />

sa podacima. Ukoliko ºelimo da varijable izbri²emo i sa diska onda, nakon<br />

²to ih izbacimo iz memorije, potrebno je da promjene snimimo na disk preko<br />

naredbe save.<br />

Jo² jedna bitna naredba je clear. Ovom naredbom bri²emo sve varijable<br />

iz memorije.<br />

1.9.2 Selektiranje i brisanje opservacija<br />

Naredbe drop i keep moºemo korsititi i za selektovanje ispitanika koji zadovoljavaju<br />

odrežene uslove. Uzmimo za primjer varijablu eduk koja se odnosi<br />

na nivo formlanog obrazovanja ispitanika, gdje je: 1 osnovna ²kola, 2 <br />

srednja ²kola, 3 fakultet, 4 postdiplomski studij. Kada tabeliramo vrijednosti<br />

ove varijable dobijamo sljede¢i output:<br />

. tab eduk, missing<br />

Obrazovanje Freq. Percent Cum.<br />

Zavrsena osnovna skola 5 2.51 2.51<br />

Zavrsena srednja skola 145 72.86 75.38<br />

Zavrsen fakultet 44 22.11 97.49<br />

Zavrsen postidiplomski studij 5 2.51 100.00<br />

Output 1.3<br />

Total 199 100.00<br />

Pretpostavimo da ºelimo analizirati samo ispitanike koji imaju fakultetsko<br />

ili vi²e obrazovanje. Da bi smo selektovali i u memoriji ostavili samo<br />

opservacije koje ispunjavaju taj kriterij ukuca¢emo:


POGLAVLJE 1. UVOD U STATU 18<br />

. keep if (eduk >= 3)<br />

(150 observations deleted)<br />

Stata nas obavje²tava da je iz memorije izbrisano 150 opservacija ²to<br />

zna£i da je za dalji rad ostalo 49 ispitanika koji ispunjavaju traºeni kriterij.<br />

Ako pogledamo prethodnu tabelu, jasno je da se tih 49 ispitanika odnosi<br />

na one koji imaju zavr²en fakultet (44 ispitanika) i postdiplomski studij (5<br />

ispitanika).<br />

Mežutim, ²ta da smo ºeljeli odabrati samo osobe ºenskog pola koje imaju<br />

srednjo²kolsko obrazovanje? Ponovo ¢emo prvo tabelirali odgovore naredbom<br />

tab. Obratimo paºnju da postoje 3 ispitanika koja nisu navela podatak<br />

o spolu.<br />

. tab spol, missing<br />

Spol Freq. Percent Cum.<br />

Muski 62 31.16 31.16<br />

Zenski 134 67.34 98.49<br />

. 3 1.51 100.00<br />

Total 199 100.00<br />

Output 1.4<br />

Naredba za selektovanje osoba ºenskog pola koje imaju zavr²enu srednju<br />

²kolu glasi:<br />

. keep if (eduk==2 & spol==2)<br />

(104 observations deleted)<br />

Nakon ove naredbe Stata nas obavje²tava da je iz memorije izbacila 104<br />

opservacije od ukupnih 199. Istu stvar mogli smo posti¢i da smo ukucali:<br />

. use ime_datoteke if (eduk==2) & (spol==2)<br />

Na ovaj na£in bi direktno sa hard diska, iz datoteke u kojoj su spremljeni<br />

podaci, u memoriju u£itali samo one ispitanike koji imaju zavr²enu srednju<br />

²kolu i koji su ºenskog spola.


POGLAVLJE 1. UVOD U STATU 19<br />

Jo² nekoliko primjera vezanih za selektovanje i brisanje opservacija je<br />

prikazano u tabeli 1.2.<br />

Naredba<br />

Opis<br />

. keep if id!=51 & id!=85 Izbacuje opservacije sa id 51 i 85<br />

. drop in 6 Izbacuje opservaciju pod rednim brojem 6<br />

. drop in 2/4 Izbacuje opservacije 2, 3 i 4<br />

Tablica 1.2<br />

1.9.3 Generiranje novih i transformacija postoje¢ih varijabli<br />

Nove varijable generiramo preko komandi generate i egen. Sintaksa glasi:<br />

. gen new_variable = exp<br />

gdje new_variable ozna£ava ime varijable koju kreiramo a exp je funkcija ili<br />

izraz koji koristimo za kreiranje varijable.<br />

U tabeli 1.3 su dati neki od £e²¢e kori²tenih izraza za generiranje novih<br />

varijabli ili transformacije podataka.<br />

Izraz<br />

ln(x) ili log(x)<br />

exp(x)<br />

sqrt(x)<br />

x^2<br />

x1*x2 Proizvod x 1 i x 2<br />

Tablica 1.3<br />

Opis<br />

Prirodni logaritam od varijable x<br />

Eksponencijalna funkcija varijable x<br />

Kvadratni korijen od x<br />

x na kvadrat<br />

Na primjer, pretpostavimo da ºelimo transformirati metrijsku varijablu<br />

var1 tako ²to ¢emo na njene vrijednosti primjeniti funkciju prirodnog logaritma<br />

ln(x). Dovoljno je ukucati:<br />

. gen lnvar1=ln(var1)<br />

£ime smo kreirali novu varijablu lnvar1 koja sadrºi logaritamske vrijednosti<br />

izvorne varijable var1.


POGLAVLJE 1. UVOD U STATU 20<br />

Naredba gen moºe biti korisna i kada ºelimo napravimo identi£nu kopiju<br />

izvorne varijable. Na primjer, logaritamsku transformaciju mogli smo uraditi<br />

i na sljede¢i na£in:<br />

. gen lnvar1=var1<br />

. replace lnvar1 = ln(lnvar1)<br />

Na ovaj na£in smo kreirali novu varijablu lnvar1 koja je po sadrºaju identi£na<br />

ve¢ postoje¢oj varijabli var1. U sljede¢em koraku smo na novokreiranu<br />

varijablu primjenili logaritamsku transformaciju. Krajnji rezultat je isti kao<br />

i u prethodnom slu£aju.<br />

Pretpostavimo da smo ºeljeli transformirati vrijednosti varijable var1, bez<br />

kreiranja nove varijable. Za to smo se mogli posluºiti naredbom replace:<br />

. replace var1 = ln(var1)<br />

¢ime smo sve izvorne vrijednosti varijable var1 zamijenili njihovom logaritamskom<br />

vrijedno²¢u. Potrebno je obratiti paºnju na to da je sadrºaj<br />

varijable promjenjen iako je njen naziv ostao isti.<br />

Vrlo £esto je na osnovu vrijednosti postoje¢ih varijabli potrebno izra£unati<br />

njihov prosjek. Na primjer, zamislimo da imamo tri varijable nazvane:<br />

item1, item2, item3, kojima smo na petostepenoj Likertovoj skali mjerili neki<br />

konstrukt. Odgovori za prvih pet ispitanika prikazani su na outputu 1.5.<br />

. list<br />

id item1 item2 item3<br />

1. 1 3 2 5<br />

2. 2 4 2 4<br />

3. 3 2 4 4<br />

4. 4 . 3 1<br />

5. 5 5 5 2<br />

Output 1.5<br />

Pretpostavimo da ºelimo izra£unati novu varijablu (nazovimo je prosjek1 )<br />

koja ¢e predstavljati prosje£nu vrijednost koju svaki ispitanik ima po osnovu<br />

pomenute tri varijable. Prvi na£in je da koristimo izraz:


POGLAVLJE 1. UVOD U STATU 21<br />

. gen prosjek_k = (item1 + item2 + item3)/3<br />

£ime smo za svakog ispitanika sabrali vrijednosti odgovora i podijelili tako<br />

dobijenu sumu sa brojem varijabli. Rezultat je prikazan na outputu 1.6 u<br />

koloni prosjek1.<br />

. list<br />

id item1 item2 item3 prosjek1<br />

1. 1 3 2 5 3.333333<br />

2. 2 4 2 4 3.333333<br />

3. 3 2 4 4 3.333333<br />

4. 4 . 3 1 .<br />

5. 5 5 5 2 4<br />

Output 1.6<br />

Obratimo paºnju da za ispitanika broj 4 nije izra£unata prosje£na vrijednost<br />

jer nemamo podatka za item1. Ovaj primjer pokazuje da ¢e Stata u<br />

slu£aju da ne postoji podatak po samo jednoj varijabli u potpunosti presko-<br />

£iti tu opservaciju i kao kona£ni rezultat izraza ¢e takože biti nedostaju¢a<br />

vrijednost.<br />

Sre¢om, u okviru naredbe egen postoji funkcija rowmean (ili skra¢eno<br />

rmean) koja pri izra£unavanju prosjeka uzima u obzir samo validne podatke,<br />

zanemaruju¢i nedostaju¢e vrijednosti. Puna sintaksa bi bila:<br />

. egen prosjek2 = rmean(item1 item2 item3)<br />

a rezultat je prikazan u okviru outputa 1.7


POGLAVLJE 1. UVOD U STATU 22<br />

. list<br />

id item1 item2 item3 prosjek1 prosjek2<br />

1. 1 3 2 5 3.333333 3.333333<br />

2. 2 4 2 4 3.333333 3.333333<br />

3. 3 2 4 4 3.333333 3.333333<br />

4. 4 . 3 1 . 2<br />

5. 5 5 5 2 4 4<br />

Output 1.7<br />

Za razliku od prethodnog poku²aja, vidimo da je sada izra£unat prosjek<br />

i za ispitanika broj 4.<br />

1.9.4 Rekodiranje vrijednosti varijable<br />

Rekodiranje se odnosi na zamjenu postoje¢ih vrijednosti neke varijable sa<br />

novim vrijednostima. U zavisnosti od ciljeva analize razlikuju se dvije vrste<br />

rekodiranja. Prva vrsta odnosi se na konverziju metrijskih varijabli u kategorijalne,<br />

dok se druga vrsta odnosi na rekodiranje postoje¢ih vrijednosti<br />

kategorijalni varijabli. Iako nije obavezno, poºeljno je varijable sa rekodiranim<br />

vrijednostima snimiti kao zasebne varijable. Na taj na£in ¢e se sa£uvati<br />

nepromjenjene vrijednosti izvorne varijable.<br />

1.9.4.1 Pretvaranje metrijskih varijabli u kategorijalne<br />

Pretpostavimo da imamo varijablu prot u okviru koje su zabiljeºeni podaci<br />

o ostvarenom godi²njem protu preduze¢a i da cilj analize zahtjeva da sva<br />

preduze¢a podjelimo u dvije grupe: a) ona koja posluju sa gubitkom i b) ona<br />

koja posluju sa dobitkom. Kako bi to postigli potrebno je kreirati novu kategorijalnu<br />

varijablu (nazovimo je pos_rezultat) koja ¢e imati dvije kategorije:<br />

1 gubitak i 2 dobit.<br />

Prvi na£in na koji ovo moºemo uraditi je da upotrijebimo komandu<br />

replace:<br />

. gen pos_rezultat=.<br />

. replace pos_rezultat =1 if (profit0 & profit


POGLAVLJE 1. UVOD U STATU 23<br />

Potrebno je voditi ra£una o tome da li unutar varijable prot ima nedostaju¢ih<br />

vrijednosti ili ne. U slu£aj da imamo nedostaju¢e vrijednosti bilo bi<br />

pogre²no u posljednjoj naredbi ne uklju£iti naznaku za to i recimo napisati<br />

samo:<br />

. replace pos_rezultat =2 if (profit>0) //pogre²no<br />

jer bi u tom slu£aju sve opservacije sa nedostaju¢im vrijednostima u²le u<br />

kategoriju 2 (dobitak) ²to nije poºeljno.<br />

Drugi na£in je da iskoristimo naredbu recode. U ovom slu£aju sintaksa<br />

je mnogo kra¢a:<br />

. recode profit (min/0=1) (0/max=2), gen (pos_rezultat)<br />

Tre¢i na£in je da se rekodiranje obavi uz pomo¢ naredbe egen i opcije<br />

group. Ovaj na£in je poºeljan u slu£aju kada ºelimo da dobijemo grupe sa<br />

jednakim brojem opservacija. Sintaksa glasi:<br />

. egen newvariable = cut (oldvariable), group(# broj grupa)<br />

Tako na primjer, ako bi sva preduze¢a u zavisnosti od visine njihovog pro-<br />

ta ºeljeli podjeliti u tri jednake grupe onda bi konkretna naredba izgledala:<br />

. egen pos_rezultat = cut (profit), group(3)<br />

1.9.4.2 Rekodiranje vrijednosti kategorijalne varijable<br />

Kada je rije£ o kategorijalnim varijablama istraºiva£ se naj£e²¢e susre¢e sa<br />

dvije situcije. U prvoj situaciji potrebno je rekodirati vrijednosti kategorijalne<br />

varijable tako da ostane isti broj kategorija ali sa druga£ijim redosljedom.<br />

Na primjer, pretpostavmo da imamo varijablu item1 gdje kategorije<br />

prestavljaju odgovore na petosteponoj Likertovoj skali: 1 apsolutno se ne<br />

slaºem, 2 ne slaºem se, 3 niti se slaºem niti se ne slaºem, 4 slaºem


POGLAVLJE 1. UVOD U STATU 24<br />

se, 5 apsolutno se slaºem. Vidimo da item1 ima pet nivoa koji se kre¢u<br />

u rasponu od apsolutnog neslaganja (1) do apsolutnog slaganja (5).<br />

Ukoliko ºelimo da obrnemo redoslijed nivoa tako da imaju suprotan slijed,<br />

onda moramo rekodirati vrijednosti varijable item1. To je najlak²e posti¢i<br />

upotrebom naredbe recode:<br />

. recode item1 (1=5) (2=4) (3=3) (4=2) (5=1), gen (item1r)<br />

Druga situacija se javlja kada ve¢i broj kategorija neke varijable ºelimo<br />

svesti na manji broj kategorija. Na primjer, ako ºelimo odgovore sa petostepene<br />

Likertove skale spremljene unutar varijable item1 svesti na samo tri<br />

kategorije: 1 (neslaganje), 2 (neutralan) i 3 (slaganje), moºemo iskoristiti<br />

sljede¢u sintaksu:<br />

. recode item1 (1 2=1) (3=2) (4 5=3), gen (item1r)<br />

Unutar naredbe recode mogli smo odmah denisati i opise kategorija.<br />

Na primjer:<br />

. recode item1 (1 2 = 1 "Ne slaºem se") (3 = 2 "Nemam stav")<br />

(4 5 = 3 "Slaºem se") (else=.), gen (item1r)<br />

Za razliku od prethodne komande ovdje smo koristili i else=. uslov<br />

kojim smo kao nedostaju¢e podatake deklarisali sve vrijednosti koje izlaze<br />

iz raspona skale od 1 do 5. Kori²tenje ove opcije moºe biti korisno ako smo<br />

u tabeli sa podacima imali oznake kao ²to su npr.: 6 nije siguran, 7 <br />

odbija da odgovori i sli£no.<br />

Nave²¢emo jo² jedan primjer. Recimo da za varijablu primanja imamo<br />

sljede¢u distribuciju odgovora:


POGLAVLJE 1. UVOD U STATU 25<br />

. tab primanja, missing<br />

Visina<br />

primanja Freq. Percent Cum.<br />

ispod 200 KM 10 5.03 5.03<br />

200-299 KM 2 1.01 6.03<br />

300-399 KM 5 2.51 8.54<br />

400-599 KM 11 5.53 14.07<br />

600-699 KM 9 4.52 18.59<br />

700-799 KM 9 4.52 23.12<br />

800-899 KM 14 7.04 30.15<br />

900-999 KM 7 3.52 33.67<br />

1.000-1.099 KM 16 8.04 41.71<br />

1.100-1.199 KM 11 5.53 47.24<br />

1.200-1.299 KM 19 9.55 56.78<br />

1.300 i vise 80 40.20 96.98<br />

. 6 3.02 100.00<br />

Output 1.8<br />

Total 199 100.00<br />

Pretpostavimo da varijablu ºelimo rekodirati tako da ispitanike svrstamo<br />

u jedan od tri razreda: 1 niska primanja (do 599 KM), 2 srednja primanja<br />

(600-1.299 KM) i 3 visoka primanja (1.300 KM i vi²e). Sintaksa bi izgledala<br />

ovako:<br />

. recode primanja (min/4=1) (5/11=2) (12/max =3), gen (primanja_r)<br />

Dakle, u okviru naredbe recode smo prvo denisali tri nove kategorije i<br />

kriterije koje opservacija treba zadovoljoti da bi bila svrstana u jednu od ove<br />

tri kategorije. Opcija gen je posluºila da rekodirane vrijednosti spremimo<br />

unutar zasebne varijable primanja_r £ime smo izvornu varijablu primanja<br />

ostavili nepromijenjenom.<br />

Nakon toga ostaje jo² da novokreiranoj varijabli damo ²iri opis (label) i<br />

da svakoj kategoriji pridruºimo odgovaraju¢i opis (value label):<br />

. label variable primanja_r "Primanja (R)"<br />

. label define Primanja_r 1 "niska" 2 "srednja" 3 "visoka"<br />

. label values primanja_r Primanja_r<br />

U posljednjem koraku ¢emo tabelirati vrijednosti novokreirane varijable<br />

kako bi projerili da li smo £itav postupak uradili ispravno.


POGLAVLJE 1. UVOD U STATU 26<br />

. tab primanja_r, missing<br />

Primanja<br />

(R) Freq. Percent Cum.<br />

niska 28 14.07 14.07<br />

srednja 85 42.71 56.78<br />

visoka 80 40.20 96.98<br />

. 6 3.02 100.00<br />

Total 199 100.00<br />

Output 1.9<br />

Ako novodobijene frekvencije odgovora (output 1.9) uporedimo sa prethodnim<br />

(output 1.8) vidimo da broj opservacija unutar kategorija korespondira<br />

sa onim ²to smo ºeljeli posti¢i. Samim tim zaklju£ujemo da je postupak<br />

rekodiranja uspje²no obavljen:


Dodatak A<br />

Variables Manager<br />

Dijalo²ki okvir Variables Manager moºemo pozvati tako ²to na toolbaru kliknemo<br />

na odgovaraju¢u ikonu (slika A.1).<br />

Slika A.1: Poloºaj ikone za Variables Manager na toolbaru<br />

Variables Manager (slika A.2) moºemo iskoristiti za promjenu imena varijabli<br />

(Name), dodavanje duºeg opisa varijablama (Label), dodjeljivanje opisa<br />

vrijednostima kategorijske varijable (Value Label), promjenu tipa pohrane<br />

varijable (Type) i format prikazivanja vrijednosti unutar varijable (Format).<br />

27


DODATAK A. VARIABLES MANAGER 28<br />

Slika A.2: Primarni prozor Variables Manager-a<br />

Sve opcije su direktne i dovoljno jasne same po sebi. Eventualne nejasno¢e<br />

mogu se javiti samo kod dodjeljivanja opisa vrijednostima kategorijske<br />

varijable. Zbog toga ¢emo £itav postupak objasniti u dva koraka.<br />

Korak 1: Denisanje seta sa opisom kategorija<br />

Na desnoj strani prozora Variables Manager (slika A.2), pored padaju¢eg<br />

menija Value Label nalazi se gumb Manage..., a klikom na njega dobijamo<br />

okvir Manage Value Labels (slika A.3).<br />

Slika A.3: Po£etni dijalo²ki okvir<br />

Klikom na gumb Create Label otvori¢e se prozor kao na slici A.4.


DODATAK A. VARIABLES MANAGER 29<br />

Slika A.4: Denisanje opisa za kategorije varijable spol<br />

U polje Label name upisujemo naziv opisnog seta (Spol u ovom slu£aju).<br />

U polje Value unosimo jednu po jednu broj£anu vrijednost kojoj zatim u polju<br />

Label dodjeljujemo tekstualni opis. Nakon ²to zavr²imo kliknemo na gumb<br />

Add. Po unosu svih vrijednosti i opisa kliknemo na gumb OK.<br />

Korak 2: Pridruºivanje opisa kategorija eljenoj varijabli<br />

Nakon ²to smo se vratili u prozor Variables Manager, potrebno je odabrati<br />

ºeljenu varijablu te iz padaju¢eg menija Value Label odabrati novokreirani<br />

opisni set i kliknuti na gumb Apply kako bi vrijednostima varijable pridruºili<br />

opise koji se nalaze u datom setu (slika A.5).


DODATAK A. VARIABLES MANAGER 30<br />

Slika A.5: Pridruºivanje opisnog seta Spol varijabli spol<br />

Kao ²to moºemo vidjeti sa slike A.6 za varijablu spol u koloni Value Label<br />

pojavio se naziv na²eg seta Spol.<br />

Slika A.6: Varijabli spol je pridruºen odgovaraju¢i opisni set £ime je<br />

postupak zavr²en


III<br />

Analiza validnosti mjernih skala<br />

5. ANALIZA VALIDNOSTI MJERNIH SKALA<br />

5.1. EKSPLORATIVNA I KONFIRMATIVNA FAKTORSKA ANALIZA<br />

Da bi provjerili validnost mjernih skala i konstrukata proveli smo faktorsku analizu. Pod<br />

faktorskom analizom podrazumjevamo statistički metod koji se upotrebljava da bi pronašli<br />

manji set neobserviranih varijabli (također se koristi izraz latentne varijable, faktori ili<br />

dimenzije) koje mogu „objasniti“ veze između većeg broja opserviranih varijabli (takođe<br />

se koristi izraz manifestne varijable).<br />

Faktorska analiza se primjenjuje za tri glavna zadatka. Prvi zadatak je identifikovanje<br />

dimenzija koje nisu odmah uočljive kroz proces sumiranja podataka (data summarization).<br />

Nakon što shvatimo i objasnimo ovako dobijene dimenzije, podatke možemo opisati sa<br />

mnogo manjim brojem koncepata nego da to činimo uz pomoć orginalnih individualnih<br />

varijabli. Drugi zadatak je redukcija podataka (data reduction) koji se nadovezuje na<br />

sumiranje podataka na način da se za svaku dimenziju (faktor) izračunava empirijska<br />

vrijednost (faktorski skor) koja zamjenjuje vrijednosti orginalno korištenih individualnih<br />

varijabli. Treći zadatak, za koji se može koristiti faktorska analiza, je testiranje apriornih<br />

hipoteza o strukturi i vezama između individualnih (manifestnih varijabli).<br />

U kontekstu ova tri zadatka možemo posmatrati dva potpuno različita pristupa faktorskoj<br />

analizi: eksplorativnu faktorsku analizu (EFA) i konfirmativnu faktorsku analizu (CFA).<br />

Ključne razlike između ova dva pristupa prikazane su u tabeli 22.<br />

Tabela 22 – Razlike između EFA i CFA<br />

EFA (Data-driven)<br />

CFA (Theory-driven)<br />

Restrikcije N/A Da<br />

Nestandardizirano rješenje N/A Da<br />

Standardiziranio rješenje Da Da<br />

Rotacija faktora Da N/A<br />

Faktorski skorovi Da N/A<br />

Testiranje hipoteza N/A Da<br />

Goodness-of-fit N/A Da<br />

Softverski paketi<br />

Izvor: Albright and Park (2009)<br />

Paketi opšte namjene (SPSS,<br />

STATA...)<br />

Mplus, LISREL, Amos, EQS,<br />

SAS CALIS<br />

112


III<br />

Analiza validnosti mjernih skala<br />

Eksplorativna faktorska analiza se koristi prvenstveno za identifikovanje faktora u<br />

situacijama kada istraživač nema a priori ideju o tome koji faktori postoje i koje<br />

manifestne varijable su indikatori eventualnih faktora. U tom smislu EFA ne stavlja<br />

nikakve restrikcije na podatke te se na bazi korelacija koje postoje između manifestnih<br />

varijabli matematski izvode faktori. Pri tome se pretpostavlja da svaki faktor utiče na svaku<br />

manifestnu varijablu (slika 7). Obično se kaže da je EFA pristup vođen podacima (data<br />

driven). Na slici 7 je prikazan EFA model sa dva faktora i osam manifestnih varijabli.<br />

Slika 7 – Eksplorativni faktorski model („oblique“ rotacija) sa 8 manifestnih varijabli<br />

Izvor: Brown (2006)<br />

S druge strane, konfirmativna faktorska analiza se prvenstveno koristi za testiranje a<br />

priori hipoteza o faktorskoj strukturi. Za razliku od EFA, istraživač u ovom pristupu ima<br />

predstavu o tome koji faktori postoje i koje manifestne varijable su indikatori svakog<br />

faktora. Istraživač u tom smislu stavlja značajne, ali smislene restrikcije na veze između<br />

opserviranih varijabli u faktorskom modelu (npr. ove restikcije se najčešće odnose na to da<br />

se pojedine varijable mogu učitavati na samo jedan faktor, a ne na sve faktore kao u EFA).<br />

Stoga se za CFA kaže da je to pristup vođen teorijom (theory driven). Na slici 8 je prikazan<br />

CFA model sa dva faktora gdje se prve četiri varijable učitavaju na prvi, a druge četiri na<br />

drugi faktor).<br />

113


III<br />

Analiza validnosti mjernih skala<br />

Slika 8 – Konfirmativni faktorski model sa 8 manifestnih varijabli<br />

Izvor: Brown (2006)<br />

114


UNIVERZITET U SARAJEVU<br />

EKONOMSKI FAKULTET U SARAJEVU<br />

Eksplorativna faktorska analiza 1<br />

Autor:<br />

prof. dr Emir Agić<br />

Sarajevo, 10. august 2017. godine<br />

1<br />

NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />

njegovih dijelova bez prethodnog pisanog pristanka autora.<br />

1


Sadržaj<br />

1. Uvod ................................................................................................................................ 3<br />

2. Intuitivno objašnjenje EFA .......................................................................................... 3<br />

3. Ciljevi EFA ..................................................................................................................... 5<br />

4. Koraci unutar EFA ....................................................................................................... 5<br />

4.1. Ocjena prikladnosti podataka za EFA ...................................................................... 7<br />

4.2. Odabir pristupa izdvajanja faktora i metode estimacije ......................................... 12<br />

4.2.1. Razlaganje varijanse unutar varijable ............................................................. 12<br />

4.2.2. EFA pristup..................................................................................................... 13<br />

4.2.3. PCA pristup .................................................................................................... 14<br />

4.2.4. Ključne razlike između EFA i PCA ............................................................... 15<br />

4.2.5. Koji pristup koristiti? ...................................................................................... 16<br />

4.2.6. Metode estimacije ........................................................................................... 17<br />

4.3. Određivanje broja faktora ...................................................................................... 18<br />

4.4. Rotacija faktora ...................................................................................................... 25<br />

4.4.1. Zbog čega nam je potrebna faktorska rotacija? .............................................. 25<br />

4.4.2. Pojam rotacije faktora ..................................................................................... 25<br />

4.4.3. Vrste rotacije ................................................................................................... 26<br />

4.4.4. Koji metod rotacije izabrati? .......................................................................... 27<br />

4.5. Interpretacija i imenovanje faktora ........................................................................ 28<br />

4.6. Respecifkacija faktorskog modela ......................................................................... 29<br />

4.6.1. Kada je potrebno respecificirati faktorski model? .......................................... 29<br />

4.6.2. Šta podrazumjevamo pod respecifikacijom faktorskog modela? ................... 29<br />

4.6.3. Šta ako respecifikacija ne pomogne? .............................................................. 30<br />

4.7. Provjera pouzdanosti .............................................................................................. 32<br />

4.8. Upotreba faktora u drugim analizama .................................................................... 35<br />

4.8.1. Faktorski skorovi ............................................................................................ 35<br />

4.8.2. Sumarne skale ................................................................................................. 38<br />

5. Kako napisati sažetak analize .................................................................................... 40<br />

6. Prilozi ............................................................................................................................ 43<br />

References ................................................................................................................................ 44<br />

2


1. UVOD<br />

Eksplorativna faktorska analiza (engl. Exploratory factor analysis - EFA) se odnosi na skup<br />

statističkih tehnika za sažimanje podataka kojima se veći broj opserviranih varijabli predstavlja<br />

pomoću manjeg broja neopserviranih (latentnih) varijabli koje nazivamo faktorima. Same<br />

tehnike sažimanja podataka se baziraju na analizi obrazaca korelacija koje postoje između<br />

opserviranih varijabli. Upravo ta povezanost između opserviranih varijabli je osnovna ideja na<br />

kojoj počiva faktorska analiza, jer se pretpostavlja da varijable koje međusobno jako koreliraju<br />

u stvari mjere aspekte istog latentnog konstrukta. Takav skup međusobno povezanih<br />

opserviranih varijabli nazivamo faktorom. Drugim riječima, faktor u suštini predstavlja<br />

hipotetičku latentnu varijablu (konstrukt) koja objašnjava zašto određene opservirane varijable<br />

međusobno koreliraju i šta je najmanji zajednički sadržilac koji ih povezuje (Taylor, 2004, p. 1).<br />

Samim tim, EFA omogućava da informacije iz mnoštva opserviranih varijabli predstavimo<br />

pomoću manjeg broja faktora uz minimalan gubitak informacije (Burns & Burns, 2008;<br />

Zikmund, Babin, Carr, & Griffin, 2009).<br />

2. INTUITIVNO OBJAŠNJENJE EFA<br />

Da bi smo intuitivno razumjeli suštinu eksplorativne faktorske analize, poslužimo se sljedećim<br />

primjerom.<br />

Primjer 1<br />

Pretpostavimo da smo anketirali 200 studenata smjera Marketing kako bi utvrdili motive koji<br />

su ih opredijelili za odabir navedenog smjera. Upitnik za mjerenje motivacije za upis smjera se<br />

sastojao od šest tvrdnji mjerenih na petostepenoj Likertovoj skali predstavljenih u tabeli 1.<br />

Tabela 1<br />

Item<br />

Tvrdnja<br />

01 Uz poznavanje marketinga je lakše pronaći zaposlenje.<br />

02 Sa marketingom vjerujem da mogu imati bolja primanja.<br />

03 Ovaj smjer mi može pomoći da lakše pokrenem vlastiti biznis.<br />

04 U marketingu nema mnogo matematike<br />

05 Na ovom smjeru se najlakše dolazi do diplome.<br />

06 Ovaj smjer je lakši u odnosu na druge smjerove.<br />

Zamislimo da nas interesuje da saznamo kako motivi predstavljeni u tabeli 1 utiču na ostvareni<br />

uspjeh studenata mjeren prosjekom ocjena po završetku studiranja. Odgovor bi mogli pokušati<br />

dobiti korištenjem regresione analize gdje bi šest tvrdnji regresirali na prosjek ocjena. Međutim,<br />

vrlo je vjerovatno da bi u tako kreiranom regresionom modelu došlo do narušavanja<br />

pretpostavke o nepostojanju multikolinearnosti. Naime, o ako pogledamo sadržaj stavki iz<br />

upitnika, možemo očekivati da će neke od tvrdnji međusobno jako korelirati. Na primjer, vrlo<br />

je vjerovatno da će između tvrdnji “lakoća polaganja ispita” i “lakši u odnosu na druge<br />

smjerove” postojati znatna korelacija i preklapanje.<br />

Da bi provjerili ovu pretpostavku, izračunali smo korelacije između prethodno navedenih šest<br />

tvrdnji i predstavili ih u formi korelacione matrice unutar tabele 2. Obzirom da svaka varijabla<br />

3


sama sa sobom korelira perfektno, na dijagonali su vrijednosti korelacija jednake broju jedan.<br />

Korelacije u ćelijama iznad i ispod dijagonale su istovjetne za odgovarajući par varijabli. Zbog<br />

toga su predstavljeni samo koeficijenti u donjem dijelu matrice.<br />

Tabela 2 - Korelaciona matrica<br />

Lakoća<br />

zaposlenja<br />

Očekivana<br />

primanja<br />

Započinjanje<br />

vlastitog<br />

biznisa<br />

Nema<br />

matematike<br />

Lakoća<br />

polaganja<br />

ispita<br />

Lakši u<br />

odnosu<br />

na druge<br />

smjerove<br />

Lakoća zaposlenja 1.000<br />

Očekivana primanja .773 1.000 Faktor 1<br />

Započinjanje vlastitog<br />

biznisa<br />

.599 .688 1.000<br />

Nema matematike -.236 .052 .087 1.000<br />

Faktor 2<br />

Lakoća polaganja ispita .115 -.056 .012 .711 1.000<br />

Lakši u odnosu na druge<br />

smjerove<br />

-.105 .109 -.035 .812 .552 1.000<br />

Empirijski podaci iz korelacione matrice u tabeli 2 dodatno potvrđuju utisak da postoji<br />

preklapanje između pojedinih tvrdnji. Ako bolje osmotrimo obrasce korelacija unutar<br />

korelacione matrice možemo primijetiti da šest opserviranih varijabli možemo podijeliti u dvije,<br />

međusobno odvojene, grupe. U prvoj grupi se nalaze tvrdnje: “lakoća zaposlenja”, “očekivana<br />

primanja” i “započinjanje vlastitog biznisa”. Ove tvrdnje jako koreliraju jedna sa drugom. S<br />

druge strane, tri preostale tvrdnje: “nema matematike”, “lakoća polaganja ispita” i “lakši u<br />

odnosu na druge smjerove” također međusobno jako koreliraju. Ono što je posebno bitno uočiti<br />

je da tvrdnje iz prve grupe (itemi 1-3) vrlo slabo koreliraju sa varijablama iz druge grupe (itemi<br />

4-6). Sve ovo upućuje na zaključak da tvrdnje iz upitnika ne mjere šest različitih motiva već<br />

samo dva konstrukta (faktora) vezana za motivaciju pri upisu smjera.<br />

Ostaje nam još da pokušamo identifikovati i imenovati koja su to dva konstrukta ili faktora. To<br />

ćemo uraditi tako što ćemo utvrditi šta je najmanji zajednički sadržilac koji povezuje varijable<br />

koje međusobno koreliraju unutar identifikovanih konstrukata. U konkretnom slučaju, ono što<br />

se provlači kao zajednička nit za sadržaj itema 1-3 jesu očekivanja koja studenti imaju u<br />

pogledu karijere nakon završetka smjera. Iz tog razloga ovaj konstrukt ćemo nazavati “izgledi<br />

za karijeru”. Najmanji zajednički sadržilac za iteme 4-6 jesu percepcije vezane za lakoću<br />

završavanja odabranog smjera, pa ćemo ovaj konstrukt nazvati “pragmatična motivacija”.<br />

Identifikacijom i imenovanjem konstrukata kojima se mogu objasniti uočeni obrasci korelacija<br />

dobili smo faktorsko rješenje (engl. factor solution). U suštini, faktorsko rješenje u<br />

prethodnom primjeru su dvije nove latentne varijable koje u daljoj regresionoj analizi možemo<br />

iskoristiti kao zamjenu za šest originalno opserviranih varijabli.<br />

Prethodni primjer je dovoljno jednostavan da se ilustruje suština faktorske analize. Analizirali<br />

smo vizuelno korelacionu matricu, uočili obrasce koje smo interpretirali i došli do<br />

odgovarajućih zaključaka. Postavlja se pitanje zašto nam uopšte treba faktorska analiza kada<br />

smo sve uradili ručno. Odgovor je zbog toga što se u praksi susrećemo sa mnogo kompleksnijim<br />

obrascima korelacija u odnosu na onu koja je predstavljena u tabeli 2. Naime, sa povećanjem<br />

4


oja varijabli raste veličina korelacione matrice i kompleksnost međusobnih odnosa između<br />

varijabli pa vizuelno identifikovanje obrazaca korelacija postaje ekstremno težak ili nemoguć<br />

zadatak.<br />

Dakle, iz prethodno navedenog primjera možemo vidjeti da je eksplorativna faktorska analiza<br />

jedna vrsta heuristike koja se bazira na premisi da se opservirane varijable koje međusobno<br />

koreliraju i dijele zajedničku varijansu mogu svesti na manji broj neopserviranih (latentnih)<br />

varijabli koje nazivamo faktorima i koji u suštini predstavljaju hipotetske konstrukte. Ovi<br />

konstrukti nisu mjerljivi direktno, sami po sebi, već se izvode iz ocjena koje imamo za<br />

opservirane varijable (Yong & Pearce, 2013) (Yong & Pearce, 2013, p. 80). Zbog toga u<br />

kontekstu faktorske analize opservirane varijable zovemo još i manifestnim varijablama ili<br />

varijablama indikatorima.<br />

3. CILJEVI EFA<br />

Na osnovu do sada izloženog možemo identifikovati tri primarna cilja eksplorativne faktorske<br />

analize:<br />

● Identifikacija latentnih varijabli, odnosno faktora, koji objašnjavaju korelacije i varijansu<br />

sadržanu u većem broju opserviranih varijabli (Sarstedt & Mooi, 2014). Kod eksplorativne<br />

faktorske analize istraživač često nema a priori očekivanja u pogledu broja ili prirode<br />

faktora koji će biti otkriveni tokom analize. Zato se kaže da je EFA pristup vođen podacima<br />

(engl. data-driven approach). Kao što joj ime kaže, u suštini je riječ o eksplorativnoj analizi<br />

koja nam omogućuje da istražimo i eventualno identifikujemo glavne dimenzije na bazi<br />

kojih ćemo generirati teoriju (Williams, Brown, & Onsman, 2012).<br />

● Ispitivanje psihometrijskih karakteristika mjernih skala i demonstriranje njihove<br />

(uni)dimenzionalnosti (DeCoster, 1998; Osborne, 2015, p. 1). Pojednostavljeno rečeno, ovo<br />

znači da EFA koristimo kada želimo utvrditi koja pitanja iz upitnika možemo grupisati jer<br />

mjere isti konstrukt. Imajući na umu ovaj cilj, jasno je zašto je EFA često prvi korak kada<br />

se pravi skala za mjerenje konstrukta od interesa (Yong & Pearce, 2013). Naime, istraživač<br />

koji kreira upitnik za mjerenje novog konstrukta obično počinje s velikim brojem pitanja,<br />

odnosno pojedinačnih stavki skale. Zatim se uz pomoć faktorske analize te stavke<br />

prečišćavaju i sažimaju da bi se dobio manji broj usaglašenih podskala (Pallant, 2011).<br />

● Sažimanje podatka na način da se veze i obrasci unutar njih mogu lako interpretirati i<br />

razumjeti (Yong & Pearce, 2013, p. 79). Ukoliko mnoštvo opserviranih varijabli možemo<br />

predstaviti manjim brojem faktora bez većeg gubitka informacija postigli smo određenu<br />

ekonomiju opisa. To je u skladu sa pravilom štedljivosti (engl. parsimony rule) koje kaže<br />

da je objašnjenje koje uključuje manji broj varijabli bolje od onog koje uključuje veći broj<br />

varijabli. Sažimanjem podatka se smanjuje kompleksnost i time olakšava proces donošenja<br />

odluka (Zikmund et al., 2009). Iz ovog cilja proizlazi upotreba faktorske analize za<br />

reduciranje većeg broja opserviranih varijabli na manji broj latentnih varijabli kako bi se<br />

pojednostavila dalja analiza i adresirao problem multikolinearnosti (Williams et al., 2012).<br />

4. KORACI UNUTAR EFA<br />

Sama eksplorativna faktorska analiza je iterativni proces tokom kojeg analitičar prolazi kroz<br />

nekoliko koraka.<br />

5


1. Ocjena prikladnosti podataka za faktorsku analizu. U ovom koraku se provjerava da li<br />

uopšte ima smisla raditi faktorsku analizu i da li su ispunjene odgovarajuće pretpostavke.<br />

2. Odabir pristupa i metode estimacije. Suština ovog koraka je donošenju odluke o tome<br />

koji pristup faktorskoj analizi primijeniti i koji metod estimacije odabrati. Naime, iz<br />

narednog izlaganja ćemo vidjeti da eksplorativna faktorska analiza nije jedna tehnika, već<br />

generički naziv za nekoliko različitih tehnika estimacije koje imaju isti cilj, ali koje mogu<br />

dati donekle različita faktorska rješenja.<br />

3. Određivanje broja faktora za izdvajanje. U ovom koraku je potrebno donijeti odluku o<br />

optimalnom broju faktora kojima će se objasniti uočeni obrasci korelacija bez znatnog<br />

gubitka informacija. Iako je odluka o broju faktora u krajnjoj instanci subjektivna, postoji<br />

nekoliko kriterija kojima se istraživač može voditi kako bi bio siguran da je ispravno<br />

odabrao broj faktora koje treba zadržati za dalju analizu.<br />

4. Rotacija faktora. U idealnom faktorskom rješenju, svaki faktor je jako povezan sa tačno<br />

određenim skupom opserviranih varijabli i ne korelira sa drugim faktorima. U tom slučaju<br />

se lako mogu uočiti najmanji zajednički sadržioci koji povezuje varijable indikatore i<br />

imenovati faktori. Međutim, u praksi se rijetko desi da dobijemo idealno rješenje. Kako bi<br />

se olakšala mogućnost interpretacije radi se rotacija faktora. U ovom koraku analitičar mora<br />

donijeti odluku o tehnici rotacije koju će primijeniti.<br />

5. Tumačenje i imenovanje faktrora. Dobijenim faktorima je potrebno dodijeliti smislene<br />

nazive koji će “uhvatiti” suštinu konstrukta na koji se faktor odnosi. Dobro imenovani<br />

faktori bi trebali pružiti precizan opis konstrukta.<br />

6. Respecifikacija faktorskog rješenja. Nekada će se desiti da dobijeno faktorsko rješenje<br />

nije sasvim zadovoljavajuće. Na primjer, možda se desilo da se neke varijable indikatori<br />

istovremeno učitavaju na više faktora ili ne možemo identifikovati najmanji zajednički<br />

sadržilac koji bi omogućio imenovanje faktora i sl. Tada istraživač može odlučiti da ponovi<br />

analizu uz određene modifikacije.<br />

7. Provjera pouzdanosti. Nakon što smo identifikovali faktore, poželjno je provjeriti njihovu<br />

pouzdanost i validnost. Potpuno testiranje pouzdanosti i validnosti moguće je obaviti samo<br />

unutar okvira konfirmativne faktorske analize (CFA). Kad je riječ o EFA analitičari<br />

uobičajeno koriste Kronbahov alfa koeficijent kako bi ispitali pouzdanost dobijenog<br />

faktorskog rješenja.<br />

8. Upotreba faktora u drugim analizama. Nakon što smo završili sa EFA, moguće je da<br />

dobijene faktore želimo iskoristiti u drugim analizama. U ovom koraku je potrebno donijeti<br />

odluku o tome kako ćemo kreirati nove varijable koje će u daljim analizama predstavljati<br />

dobijene faktore.<br />

Kao što možemo primjetiti, EFA je kompleksna tehnika i unutar većine koraka imamo više<br />

opcija na raspolaganju. U daljem izlaganju ćemo na konkretnom primjeru ilustrovati kako uz<br />

pomoć State uraditi eksplorativnu faktorsku analizu. Primjer je ilustracija koja ima za cilj<br />

predstaviti uobičajeni proces eksplorativne faktorske analize.<br />

Primjer 2<br />

6


Da bi planirao odgovarajuću strategiju za privlačenje novih klijenata, menadžment je pokušao<br />

identifikovati faktore koji determinišu izbor potrošača kad je riječ o odabiru tržnog centra. Na<br />

petostepenoj Likertovoj skali mjerene su percepcije važnosti za 15 stavova koji su prikazani u<br />

tabeli 3. Pored toga zabilježen je i podatak o spolu ispitanika. Prikupljeni podaci su uneseni u<br />

datoteku pod nazivom izbor_tc2.dta.<br />

Tabela 3 – Upitnik za ispitivanje stavova pri izboru tržnog centra<br />

Molimo Vas da ocjenom od 1 do 5 označite stepen<br />

slaganja sa dole navedenim stavovima.<br />

Apsolutno se ne<br />

slažem<br />

Ne slažem se<br />

Niti se slažem<br />

niti se ne slažem<br />

Slažem se<br />

Apsolutno se<br />

slažem<br />

Važno je gdje se nalazi lokacija tržnog centra. 1 2 3 4 5<br />

Važno je da tržni centar raspolaže sa dovoljno parking prostora. 1 2 3 4 5<br />

Važno je da tržni centar često organizuje prodajne promocije<br />

(besplatne probe i sl.).<br />

7<br />

1 2 3 4 5<br />

Nije mi važno da tržni centar ima najpovoljnije cijene. (R) 1 2 3 4 5<br />

Bitno je da tržni centar često organizuje nagradne igre. 1 2 3 4 5<br />

Bitno mi je da tržni centar ima kompetentno osoblje. 1 2 3 4 5<br />

Meni je važno da tržni centar ima dovoljan broj blagajni. 1 2 3 4 5<br />

Važno mi je da u tržnom centru budem ljubazno primljen. 1 2 3 4 5<br />

Bitno mi je da tržni centar ima ugodnu atmosferu. 1 2 3 4 5<br />

Meni je važan vanjski izgled tržnog centra. 1 2 3 4 5<br />

Bitno mi je radno vrijeme tržnog centra. 1 2 3 4 5<br />

Bitno mi je da tržni centar ima uslužno osoblje. 1 2 3 4 5<br />

Meni je važno da je higijena unutar tržnog centra na<br />

zadovoljavajućem nivou.<br />

1 2 3 4 5<br />

Bitan mi je stajling i dekor unutar tržnog centra. 1 2 3 4 5<br />

Bitno mi je da unutar tržnog centra mogu naći raznolik asortiman<br />

proizvoda.<br />

Napomena: (R) označava reverzno postavljeno pitanje.<br />

1 2 3 4 5<br />

Potrebno je utvrditi: a) Da li se ovi stavovi mogu „grupisati“ kako bi se bolje razumjela<br />

očekivanja potrošača, b) Da li se navedeni stavovi mogu reducirati na manji broj faktora radi<br />

njihovog lakšeg korištenja u daljim analizama.<br />

U prilogu 1 se nalazi korelaciona matrica za ovaj skup podataka. Ako je pažljivo proučimo<br />

vidjećemo da da nije jednostavno uočiti obrasce korelacija na način na koji smo to uradili ranije<br />

u primjeru 1. Zbog toga ćemo upotrijebiti EFA da bi pronašli obrasce korelacija i dobili<br />

odgovore na postavljena pitanja.<br />

4.1. OCJENA PRIKLADNOSTI PODATAKA ZA EFA<br />

Na samom početku je potrebno provjeriti da li su ispunjene osnovne pretpostavke za korištenje<br />

eksplorativne faktorske analize. Potrebno je obratiti pažnju na sljedeće:


Slučajni uzorak. Ukoliko zaključke iz analize želimo generalizirati na širu populaciju, trebalo<br />

bi da su jedinice populacije u uzorak odabrane potpuno slučajno.<br />

Veličina uzorka. Za određivanje veličine uzorka se najčešće gleda omjer potrebnog broja<br />

opservacija u odnosu na broj varijabli koje koristimo u analizi. Uobičajeno se primjenjuje<br />

pravilo 10:1 koje kaže da bi broj validnih opservacija trebao biti deset puta veći od broja<br />

varijabli koje ubacujemo u analizu (Burns & Burns, 2008; Sarstedt & Mooi, 2014, 2014, p. 240;<br />

Yong & Pearce, 2013). Drugim riječima, ako za EFA koristimo 10 varijabli indikatora,<br />

minimalna veličina uzorka nakon što oduzmemo opservacije sa nedostajućim podacima bi<br />

trebala biti 10 (opservacija) x 10 (indikatora) = 100 opservacija. Broj opservacija u odnosu na<br />

broj varijabli nikad ne bi trebao biti manji od 5:1 (Burns & Burns, 2008; Yong & Pearce, 2013),<br />

a ako želimo biti sigurni da su izdvojeni faktori stabilni i da ih možemo validirati u ponovljenim<br />

istraživanjima onda se preporučuje omjer od čak 30:1 (Yong & Pearce, 2013).<br />

Obzirom da prethodno pravilo obično pruža samo grubu indikaciju u pogledu veličine uzorka,<br />

često se koristi i indikator zajedničke varijanse (engl. communality). Ovaj pojam ćemo<br />

detaljnije objasniti kasnije, a ovdje ćemo pomenuti da su MacCallum et al. (1999) dali nekoliko<br />

preporuka u vezi sa potrebnom veličinom uzorka u zavisnosti od iznosa zajedniče varijanse.<br />

Prema njima, ako sve varijable u analizi imaju communality > 0.6 uzorak može imati manje od<br />

100 opservacija. Ako je communality blizu 0.5 poželjno je imati uzorak veličine 100-200<br />

opservacija. Kada je communality za sve ili većinu varijabli < 0.5, ili imamo mali broj faktora<br />

mjerenih sa šest ili više varijabli, dovoljna veličina uzorka je između 100-200 opservacija.<br />

Međutim, ako u istoj situaciji imamo veliki broj faktora ili ako su faktori mjereni sa tri ili manje<br />

varijabli, preporučeno je imati uzorak veličine 300 opservacija.<br />

Vrste varijabli. Faktorska analiza je pogodna za kontinuirane varijable. Međutim, u praksi se<br />

često koriste i ordinalne varijable (podaci na Likertovoj skali i sl.). Korištenje ordinalnih<br />

varijabli nije problematično pod uslovom da takve skale imaju pet ili više podioka i da su<br />

razmaci između podioka jednaki (Sarstedt & Mooi, 2014). Postoje i metode estimacije koje su<br />

razvijene za kategorijske i dihotomne varijable ali one izlaze iz okvira ove knjige 2 .<br />

Između opserviranih varijabli postoji dovoljna poveznaost. Prethodno smo objasnili da se<br />

suština faktorske analize ogleda u prepoznavanju obrazaca korelacija koje postoje između<br />

opserviranih varijabli. Zato primjena faktorske analize ima smisla jedino kada opservirane<br />

varijable međusobno koreliraju u nekom omjeru. U principu, ako korelacije između varijabli<br />

ne prelaze 0.30 onda nema svrhe koristiti faktorsku analizu (Tabachnick & Fidell, 2007). Za<br />

precizniju provjeru ove pretpostavke na raspolaganju su dva indikatora. Prvi je Kaiser–Meyer–<br />

Olkin (KMO) pokazatelj adekvatnosti uzorka 3 . Njegova vrijednost se kreće u rasponu od 0 do<br />

1, gdje vrijednosti bliže jedinici ukazuju na veću kompaktnost obrazaca korelacija, a to opet<br />

znači da bi u faktorskoj analizi trebali dobiti međusobno različite i pouzdane faktore<br />

(Tabachnick & Fidell, 2007). U tabeli 4 se nalaze preporuke u pogledu pragova vezanih za ovaj<br />

indikator.<br />

2<br />

Ukoliko je neophodno koristiti dihotomne ili ordinalne varijable faktorska analiza se može obaviti korištenjem<br />

matrice sa polihoričnim korelacijama (engl. polychoric correlation matrix) umjesto podrazumjevane matrice sa<br />

Personovim korelacijama. Za takvu analizu je prvo potrebno genrisati pomenutu matricu korištenjem paketa<br />

polychoric. Nakon toga, analizu možemo uraditi upotrebom naredbe factormat koja će pripremljenu matricu sa<br />

polihoričnim korelacijama koristiti kao input za dalju analizu. Za više detalja pogledati:<br />

https://stats.idre.ucla.edu/stata/faq/how-can-i-perform-a-factor-analysis-with-categorical-or-categorical-andcontinuous-variables/<br />

3<br />

Nekada se za ovaj pokazatelj koristi i skraćenica MSA (engl. Measure of sampling adequacy).<br />

8


Tabela 4 – Tumačenje KMO pokazatelja<br />

Vrijednost KMO<br />

pokazatelja<br />

Adekvatnost<br />

korelacija za EFA<br />

< 0.50 neprihvatljiva<br />

0.50-0.59 loša<br />

0.60-0.69 slaba<br />

0.70-0.79 prosječna<br />

0.80-0.89 vrlo dobra<br />

Izvor: Kaiser (1974)<br />

0.90 ≤ odlična<br />

Drugi indikator za provjeru prikladnosti podataka za faktorsku analizu je Bartlettov test<br />

sfericiteta kojim se testira nulta hipoteza da između opserviranih varijabli u populaciji nema<br />

korelacije. U većim uzorcima rezultat testa će gotovo uvijek biti signifikantan pa on nema istu<br />

specifičnu težinu kao prethodni indikator. Zbog toga se pri donošenju konačnog suda o tome<br />

da li su podaci prikladni za faktorsku analizu treba više osloniti na KMO pokazatelj (Sarstedt<br />

& Mooi, 2014).<br />

Ne postoji ekstremna multikolinearnost. 4 Obzirom da je neophodno da opservirane varijable<br />

u nekoj mjeri međusobno koreliraju, u EFA je postojanje umjerene multikolinearnosti čak<br />

poželjno (Hair, Black, Babin, Anderson, & Tatham, 2006). Međutim, nije poželjno da<br />

opservirane varijable koreliraju izrazito visoko (ekstremna multikolinearnost, r > 0.9) ili<br />

perfektno (singularnost r = 1.0), jer je tada teško procijeniti jedinstveni doprinos varijabli<br />

faktoru(Field, 2009). Jedan od načina na koji možemo provjeriti postojanje ekstremne<br />

multikolinearnosti je da izračunamo determinantu korelacione matrice. Ako je ona veća od<br />

0.00001, to je indikator da ne postoji ekstremna multikolinearnost (Field, 2009). U suprotnom,<br />

potrebno je provjeriti korelacionu matricu, identifikovati varijable koje međusobno jako<br />

koreliraju i eventualno razmotriti izbacivanje nekih od tih varijabli. Ekstremna<br />

multikolinearnost ne predstavlja problem ako za izdvajanje faktora koristimo pristup glavnih<br />

komponenti – PCA (Field, 2009).<br />

Opservacije su međusobno nezavisne. Eksplorativna faktorska analiza se ne može koristiti<br />

ako imamo povezane opservacije. Npr. ako smo iste ispitanike ankertirali više puta sa istim<br />

upitnikom. U takvim slučajevima u analizu bi unijeli „vještačke korelacije“ koje se ne javljaju<br />

zbog toga što u pozadini imamo latentne faktore, već zbog toga što su isti ispitanici odgovarali<br />

na ista pitanja više puta (Sarstedt & Mooi, 2014).<br />

Linearnost. Odnosi između opserviranih varijabli bi trebali biti linearni. Možemo je provjeriti<br />

ukoliko koristimo matricu dijagrama raspršenosti (engl. scatterplot matrix). Ova pretpostavka<br />

se u praksi rijetko provjerava.<br />

Ne postoje univarijantne netipične opservacije (outlieri). Ova pretpostavka se provjerava<br />

crtanjem boxplot-a za svaku indikatorsku varijablu. Obzirom da se EFA obično primjenjuje na<br />

Likertovim skalama kod njih po prirodi stvari teško možemo imati netpične vrijednosti. Na<br />

4<br />

9


primjer, odgovori na krajnjim podiocima petostepene Likertove skale se ne smatraju netipičnim<br />

vrijednostima pa se u tom slučaju pretpostavka ne provjerava.<br />

Međutim, kod Likertovih skala je potrebno obratiti pažnju na ispitanike koji nisu posvetili<br />

dovoljno vremena za popunjavanje upitnika (engl. unengaged respodents). Nezainteresovani<br />

ispitanici često će popuniti upitnik zaokružujući samo jedan podiok skale. Na primjer, na svaku<br />

stavku iz upitnika ispitanik će zaokružiti “5, 5, 5, 5…”. Mogući su i drugi obrasci jednoličnog<br />

odgovaranja. Ovakve ispitanike je moguće detektovati korištenjem reverzno postavljenih<br />

pitanja ili korištenjem tzv. zamki (engl. attention traps) 5 . Pod zamkama podrazumjevamo<br />

stavke u upitniku koje imaju za cilj da detektuju da li ispitank uopšte čita pitanja. Na primjer,<br />

ako prilikom davanja odgovora na niz tvrdnji iznenada naiđete na stavku: “Molimo Vas da ovu<br />

tvrdnju preskočite” ili “Molimo Vas za ovu stavku zaokružite broj 2”, riječ je o zamci kojom<br />

se nastoje uhvatiti nezainteresovani ispitanici koji odgovaraju mehanički.<br />

Univarijantna i multivarijantna normalnost. EFA ne postavlja stroge zahtjeve u pogledu<br />

pretpostavki o rasporedu varijabli (Leech et al., 2005). Univarijantna normalnost, koja se<br />

odnosi na normalnost rasporeda pojedinačnih varijabli indikatora, je bitna jedino ako netipične<br />

vrijednosti znatno utiču na korelacije između varijabli. To se u EFA rijetko dešava zbog prirode<br />

podataka (Likertove skale, obično veliki uzorci i sl.). Provjera univarijantne i multivarijantne<br />

normalnost je vrlo bitna jedino ako u narednom koraku odlučimo koristi maximum likelihood<br />

estimaciju.<br />

Primjer 2 - nastavak<br />

Za potrebe naše analize provjerićemo veličinu uzorka i da li su podaci pogodni za faktorsku<br />

analizu. Pretpostavke vezane za netipične vrijednosti i normalnost nećemo provjeravati<br />

obzirom da su podaci prikupljeni pomoću Likertove skale i obzirom da nećemo koristiti<br />

maximum likelihood metod estimacije. Kako je svaki ispitanik popunio upitnik samo jednom<br />

znamo i da je ispunjena pretpostavka o nezavisnosti.<br />

Da bi provjerili veličinu uzorka u našem primjeru, koristićemo naredbu summarize.<br />

. summarize<br />

Variable | Obs Mean Std. Dev. Min Max<br />

-------------+--------------------------------------------------------<br />

id | 0<br />

spol | 318 1.622642 .4854897 1 2<br />

lokacija | 332 4.376506 .9487418 1 5<br />

parking | 332 4.527108 .8875712 1 5<br />

promocije | 333 4.66967 .7315268 1 5<br />

-------------+--------------------------------------------------------<br />

cijene | 331 1.761329 1.1936 1 5<br />

nag_igre | 328 4.542683 .9276626 1 5<br />

komp_osob | 328 4.469512 .8417528 1 5<br />

br_blagajni | 327 4.489297 .7826974 1 5<br />

ljubaznost | 328 4.756098 .5432032 1 5<br />

-------------+--------------------------------------------------------<br />

atmosfera | 328 3.496951 1.094882 1 5<br />

izgled | 328 3.945122 .8761401 1 5<br />

rad_vrijeme | 327 4.143731 .8512795 1 5<br />

5<br />

Za više detalja pogledati: http://statwiki.kolobkreations.com/index.php?title=Data_screening<br />

10


usl_osob | 332 4.695783 .6077896 1 5<br />

higijena | 332 4.400602 .8366959 1 5<br />

-------------+--------------------------------------------------------<br />

dekor | 332 3.960843 .9591206 1 5<br />

asortiman | 332 4.259036 .9060436 1 5<br />

U koloni “Obs” je prikazan broj opservacija po svakoj varijabli indikatoru. Broj varira od 327<br />

do 333. Ovo znači da je ukupna veličina uzorka 333 opservacije ali da po nekim varijablama<br />

imamo nedostajuće podatke što će u konačnici smanjiti veličinu dostupnog uzorka za analizu<br />

jer će iz analize biti elimisane sve opservacije koje po bilo kojoj varijabli imaju nedostajaće<br />

vrijednosti (tzv. listwise deletion). Već na osnovu ovog outputa vidimo da je sigurno da ćemo<br />

imati više od 10 opservacija po jednoj varijabli: 10 x 15 = 150 što je potrebna veličina uzorka<br />

uz omjer 10:1.<br />

U okviru outputa je data deskriptivna statistika, a kolone “Min” i “Max” ćemo iskoristiti da<br />

obavimo logičku kontrolu unesenih podataka. Vidimo da se za sve varijable vrijednosti nalaze<br />

u rasponu od 1 do 5 što odgovara rasponu petostepene Likertove skale, a na osnovu čega<br />

zaključujemo da pri unosu podataka nije bilo slučajnih omaški.<br />

Za provjeru prikladnosti podataka za faktorsku analizu koristićemo paket factortest. Ovaj paket<br />

ne dolazi sa osnovnom verzijom State i potrebno ga je prvo instalirati sa:<br />

. findit factortest<br />

Sama naredbe ima sljedeću sintaksu:<br />

factortest varlist<br />

gdje se varlist odnosi na spisak varijabli indikatora u faktorskoj analizi. U našem primjeru<br />

imamo petnaest varijabli indikatora (lokacija - asortiman), pa će biti:<br />

. factortest lokacija-asortiman<br />

Determinant of the correlation matrix<br />

Det = 0.011<br />

Bartlett test of sphericity<br />

Chi-square = 1413.617<br />

Degrees of freedom = 105<br />

p-value = 0.000<br />

H0: variables are not intercorrelated<br />

Kaiser-Meyer-Olkin Measure of Sampling Adequacy<br />

KMO = 0.816<br />

Na osnovu outputa vidimo da Kaiser-Meyer-Olkin mjera adekvatnosi uzorka iznosi 0.816, što<br />

je vrlo dobar rezultat na osnovu kojeg zaključujemo da je korelacijska matrica pogodna za<br />

faktorsku analizu. Bartlettov test sfericiteta χ 2 (105) = 1413.62, p = 0.000 je signifikantan što<br />

znači da možemo odbaciti nultu hipoteza da između opserviranih varijabli u populaciji nema<br />

korelacije. Determinanta korelacione matrice iznosi 0.011 i veća je od 0.00001 što implicira da<br />

11


unutar podataka ne postoji ekstremna multikolinearnost. Dakle, na osnovu svega možemo<br />

zaključiti da su podaci kojima raspolažemo prikladni za eksplorativnu faktorsku analizu.<br />

4.2. ODABIR PRISTUPA IZDVAJANJA FAKTORA I METODE ESTIMACIJE<br />

Generalno postoje dva pristupa koja se koriste da bi se izdvojili faktori. Prvi pristup je<br />

uobičajena eksplorativna faktorska analiza (EFA), a drugi je analiza glavnih komponenti<br />

(PCA). Iako oba metoda imaju isti cilj između EFA i PCA postoje važne konceptualne razlike.<br />

U nastavku su objašnjene specifičnosti oba prisupa.<br />

4.2.1. Razlaganje varijanse unutar varijable<br />

EFA i PCA se razlikuju u pogledu varijanse koja se uzima u obzir tokom same analize. Kod<br />

PCA pristupa se pri ekstrakciji faktora pretpostavlja da je varijansa unutar svake varijable<br />

zajednička varijansa koja se u potpunosti može objasniti izdvajanjem faktora. 6 Ova razlika je<br />

predstavljena na slici 1.<br />

Slika 1 – Razlika između PCA i EFA pristupa u pogledu varijanse koja ulazi u analizu<br />

Izvor: (Sarstedt & Mooi, 2014)<br />

Podsjetimo se da varijable koje međusobno koreliraju dijele dio zajedničke varijanse. Kako je<br />

osnovna ideja faktorske analize da grupišemo varijable koje međusobno jako koreliraju, bitno<br />

je utvrditi koliki iznos varijanse unutar svake varijable se dijeli sa ostalim varijablama u grupi.<br />

Dakle, ukupna varijansa (engl. total variance) unutar svake opservirane varijable koja ulazi u<br />

faktorsku analizu može se podijeliti na dvije komponente:<br />

● Zajedničku varijansu (engl. communality) koja predstavlja dio ukupne varijanse unutar<br />

varijable koju ta varijabla dijeli sa ostalim varijablama. Može se reći i da je to dio ukupne<br />

varijanse objašnjen izdvojenim faktorima.<br />

● Unikatnu varijansu (engl. uniqueness) koja je dio ukupne varijanse unutar varijable koji<br />

nije objašnjen korelacijama sa drugim varijablama, odnosno ekstrahovanim faktorima.<br />

Unikatna varijansa obuhvata specifičnu varijansu (engl. specific variance) koja je<br />

6<br />

Faktori se unutar PCA nazivaju komponentama, ali ćemo zbog konzistentnosti ostaviti naziv faktori.<br />

12


svojstvena samo datoj varijabli i varijansu koja nastaje zbog greške u mjerenju (engl. error<br />

variance).<br />

Kako u faktorsku analizu ulaze standardizovane varijable ukupna varijansa unutar svake<br />

varijable je jednaka broju 1, što znači da je:<br />

ukupna varijansa = zajednička varijansa + unikatna varijansa<br />

(1) (communality) (uniqueness)<br />

Dakle, što varijabla više korelira sa drugim varijablama njena zajednička varijansa će biti veća,<br />

a unikatna varijansa manja. Varijabla koja čitavu svoju varijansu dijeli sa drugim varijablama<br />

imaće communality = 1 i uniqueness = 0. S druge strane, ako varijabla slabije korelira sa drugim<br />

varijablama njena zajedniča varijansa će biti manja, a unikatna varijansa veća. Varijabla koja<br />

ni jedan dio svoje varijanse ne dijeli sa ostalim varijablama imaće communality = 0 i uniqueness<br />

= 1.<br />

Kod PCA pristupa se ne pravi razliku između zajedničke i unikatne varijanse. Prilikom<br />

ekstrakcije komponenti (faktora) u analizu ulazi sva varijansa svojstvena opserviranim<br />

varijablama (Tabachnick & Fidell, 2007) pri čemu se pretpostavlja da je ukupna varijansa<br />

jednaka zajedničkoj varijansi i da ne postoji jedinstvena varijansa (Fabrigar, Wegener,<br />

MacCallum, & Strahan, 1999).<br />

S druge strane, EFA uvažava činjenicu da svaka varijabla ima i unikatnu varijansu. Obzirom<br />

da se pravi distinkcija između zajedničke i unikatne varijanse, prije same ekstrakcije faktora se<br />

pokušava estimirati i eliminisati unikatna varijansa tako da se u samoj analizi izdvajanje faktora<br />

bazira samo na zajedničkoj varijansi (Tabachnick & Fidell, 2007).<br />

Pored toga što se razlikuju u pogledu varijansi koje ulaze u samu analizu, EFA i PCA se<br />

razlikuju i u pogledu kauzalne strukture, odnosno prirode veza između faktora i varijabli<br />

indikatora. U nastavku je objašnjena ova razlika.<br />

4.2.2. EFA pristup<br />

Kad je riječ o kauzalnoj strukturi, EFA pristup se bazira na modelu zajedničkih faktora (engl.<br />

common factor model) koji pretpostavlja da su korelacije između opserviranih varijabli<br />

posljedica postojanja jedne ili više latentnih varijabli koje vrše kauzalni uticaj na opservirane<br />

varijable ( Fabrigar et al., 1999; O'Rourke, Hatcher, & Stepanski, 2005). Primjer jedne takve<br />

kauzalne strukture je dat na slici 2.<br />

Slika 2 – Konceptualna šema modela zajedničkih faktora sa dva faktora i šest opserviranih<br />

varijabli<br />

13


Model zajedničkih faktora matematski se može predstaviti sljedećim izrazom:<br />

Y b F b F b F U<br />

i<br />

<br />

i 1 1<br />

<br />

i 2 2<br />

... <br />

ij j<br />

<br />

i<br />

gdje je<br />

Yi = standardizovana opservirana varijabla i<br />

bij = standardizovano učitavanje varijable i na faktor j<br />

Fj = zajednički faktori<br />

Ui = jedinstrveni faktor vezan za varijablu i<br />

Dakle, svaka opservirana varijabla unutar modela je linearna funkcija jednog ili više<br />

zajedničkih faktora i jedinstvenog faktora vezanog za datu varijablu. Zajednički faktori (engl.<br />

common factors) su neopservirane latentne varijable koje objašnjavaju dijeljenu varijansu<br />

unutar opserviranih varijabli. S druge strane, unikatni faktori (engl. unique factors) su<br />

neopservirane latentne varijable koje objašnjavaju unikatnu varijansu svake pojedinačne<br />

opservirane varijable koja preostane nakon što se u obzir uzmu korelacije između opserviranih<br />

varijabli (Fabrigar et al., 1999). Unikatni faktori ne koreliraju niti sa zajedničkim faktorima niti<br />

međusobno (Malhotra, 2010).<br />

4.2.3. PCA pristup<br />

S druge strane, kod PCA pristupa nemamo pretpostavku o kauzalnoj strukturi. PCA je<br />

jednostavno tehnika za sažimanje većeg broja opserviranih varijabli na manji broj komponenti<br />

koje obuhvataju većinu ukupne varijanse (O'Rourke et al., 2005). Primjer takve kauzalne<br />

strukture je predstavljen na slici 3.<br />

14


Slika 3 – Konceptualna šema modela glavnih komponenti sa dvije komponente i šest<br />

opserviranih varijabli<br />

Osnovna ideja PCA metode je pokušaj opisa varijacije unutar skupa opserviranih varijabli uz<br />

pomoć skupa izvedenih nekoreliranih varijabli, od kojih je svaka posebna linearna kombinacija<br />

originalno opserviranih varijabli. Drugim riječima, PCA je transformacija opserviranih varijabli<br />

Yi u nove varijable (komponente) Cp koje matematski možemo predstaviti kao:<br />

C b Y b Y b Y<br />

p<br />

<br />

p1 1<br />

<br />

p 2 2<br />

... <br />

pi i<br />

gdje je<br />

Cp = komponenta p<br />

Yi = standardizovana opserivarana varijabla i<br />

bpi = ponder uticaja opservirane varijable i na komponentu p<br />

Tokom PCA pokušava se utvrditi linearna kombinacija varijabli koja će pomoći da se iz<br />

opserviranih varijabli izvuče maksimalan iznos varijanse. Nove varijable (komponente) su<br />

izvedene prema opadajućem redoslijedu važnosti. Koeficijenti za prvu komponentu se izvode<br />

tako da maksimiziraju varijansu što je više moguće (Rabe-Hesketh & Everitt, 2004). Nakon<br />

toga se traži sljedeća linearna kombinacija koja će objasniti maksimalnu proporciju preostale<br />

varijanse. Proces se nastavlja dok se ne izvuče sva varijansa (Burns & Burns, 2008).<br />

4.2.4. Ključne razlike između EFA i PCA<br />

Dakle, dvije najvažnije konceptualne razlike između ova dva metoda tiču se teoretskih<br />

pretpostavki o kauzalnoj strukturi koja stoji u pozadini ova dva pristupa (engl. underlaying<br />

casual structure) i varijanse koja se koristi pri ektrakciji faktora što je sažeto u tabeli 5.<br />

Tabela 5 - EFA vs. PCA<br />

15


EFA<br />

- Kauzalna struktura postulira da faktori<br />

utiču na opservirane varijable (slika 2).<br />

- Pokušava objasniti što veći broj<br />

obrazaca korelacija sa što manjim<br />

brojem faktora.<br />

- Ukupna varijansa se dijeli na zajedničku<br />

i unikatnu. U analizi se koristi samo<br />

zajednička varijansa (slika 1).<br />

- Prikladnija za identifikovanje latentnih<br />

konstrukata<br />

PCA<br />

- Kauzalna struktura postulira da se<br />

opservirane varijable agregiraju u<br />

komponente (slika 3).<br />

- Pokušava ukupnu varijansu predstaviti<br />

sa manjim brojem komponenti uz<br />

minimalan gubitak informacije.<br />

- Ne pravi se razlika između zajedničke i<br />

unikatne varijanse. U analizi se koristi<br />

ukupna varijansa (slika 1).<br />

- Prikladnija za sažimanje podataka.<br />

4.2.5. Koji pristup koristiti?<br />

Među statističarima ne postoji jasan stav u pogledu toga koji pristup koristiti i kada. Na jednoj<br />

strani imamo one koji naglašavaju da PCA nije pravi metod faktorske analize i da ga u<br />

potpunosti treba izbjegavati. Drugi pak naglašavaju da između PCA i EFA ne postoji veća<br />

razlika jer će oba pristupa dati sličan krajnji rezultat ili da je u određenim situacijama PCA čak<br />

superiornija u odnosu na EFA (Costello & Osborne, 2005, p. 2).<br />

Generalno govoreći, EFA pristup ima bolje teoretsko uporište jer je se zasniva na realnijoj<br />

pretpostavci da unutar svake varijable postoji unikatna varijansa koja ne može biti objašnjena<br />

izdvojenim faktorima. Međutim, ta pretpostavka je ujedno i više restriktivna što nekad može<br />

dovesti do komplikacija tokom analize (Sarstedt & Mooi, 2014). S druge strane, PCA je<br />

matematski jednostavnija, što ne iznenađuje obzirom da je razvijena u vrijeme kada se analiza<br />

obavljala bez pomoći računara. Ona zato predstavlja dobar kompromis u pogledu smanjenja<br />

kompleksnih matematskih proračuna bez znatnog narušavanja validnosti dobijenih rezultata<br />

(Osborne, 2015, p. 1).<br />

Imajući u vidu sve navedeno, u literaturi se često može naći preporuka da je PCA poželjnije<br />

koristi ako je primarni cilj empirijsko sažimanje podataka. Drugim riječima, PCA je bolji izbor<br />

kada istraživač u daljoj analizi ne želi upotrijebiti sve originalno mjerene opservirane varijable<br />

ali još uvijek želi iskoristiti informaciju koju one sadrže (DeCoster, 1998). S druge strane, EFA<br />

je bolje koristi ako želimo identifikovati latentne konstrukte koji objašnjavaju obrasce<br />

korelacija između neopserviranih varijabli (Singh, 2007), odnosno kada se traži teoretsko<br />

uporište za za dobijene faktore (Tabachnick i Fidell, 2007).<br />

Gledano sa praktičnog aspekta, vrlo rijetko će se desiti da na istim podacima ove dvije tehnike<br />

daju suštinski različite rezultate (Drennan, 2009). Zato ne iznenađuje što se u praksi rješenja<br />

dobijena na bazi PCA vrlo malo razlikuju u odnosu na rješenja dobijena korištenjem EFA. Field<br />

(2009) navodi da se značajnije razlike mogu pojaviti ako imamo nizak communality (< 0.40) i<br />

u studijama sa relativno malim brojem opserviranih varijabli (< 20).<br />

Treba imati na umu i da će u uslovima kada postoji umjerena količina dijeljene varijanse i kada<br />

nema korelacija između faktora, oba metoda rezultirati istim rješenjem ali će PCA precijeniti<br />

postotak objašnjene varijanse (Costello & Osborne, 2005, p. 2). Uprkos ovome, činjenica je da<br />

16


se PCA češće koristi. Njenoj popularnosti nesumnjivo doprinosi i to što je to podrazumjevani<br />

metod ekstrakcije u mnogim popularnim statističkim softverskim paketima, uključujući SPSS<br />

i SAS (Costello & Osborne, 2005, p. 1).<br />

U konačnici, možemo zaključiti da postoje oprečna mišljenja koliko su bitne razlika između<br />

PCA i EFA. Iako se baziraju na različitoj logici, obje tehnike imaju slične ciljeve i daju slične<br />

rezultate. Razlike u rezultatima između EFA i PCA su obično nevažne ako imamo dovoljno<br />

veliki uzorak, odnosno ako je broj opservacija bar pet puta veći od broja opserviranih varijabli.<br />

(Dancey & Reidy, 2011) Zbog toga se u većini softverskih paketa ove dvije grupe tehnika<br />

kombinuju u jedan set rutina (Drennan, 2009). Također, rezultati iz obje analize se prezentiraju<br />

i interpretiraju na potpuno identičan način. Iz navedenih razloga neki istraživači u praksi često<br />

primjenjuju pragamtični pristup koji se ogleda u tome da se na istom setu podataka primjene<br />

obje tehnike kako bi se vidjelo koja daje bolje rješenje.<br />

4.2.6. Metode estimacije<br />

Nakon što se opredijelimo za generalni pristup izdvajanju faktora, potrebno je odabrati metod<br />

estimacije kojim će se procijeniti parametri modela. Procjena pondera (engl. weights ili<br />

loadings) koji pružaju najefektivniji sažetak orginalnog varijabiliteta je od posebnog interesa<br />

(Mazzocchi, 2008). U slučaju PCA potrebno je procijeniti samo pondere uticaja varijabli na<br />

komponente (engl. componet loadings). Ovi ponderi su na slici 3 predstavljeni koeficijentima<br />

bpi. Obzirom na matematsku jednostavnost PCA modela, navedene pondere je moguće<br />

estimirati samo na jedan način. U suštini, to znači da smo odabirom PCA pristupa već odabrali<br />

jedini mogući metod estimacije.<br />

Kod EFA pristupa, pored učitavanja varijabli na faktore (engl. factor loadings) predstavljenih<br />

na slici 2 sa koeficijentima bij, potrebno je procijeniti i iznos unikatne varijanse (Ui). Postoji<br />

više metoda estimacije koje možemo koristiti u tu svrhu. Metodi koji su dostupni unutar State<br />

prikazani su u tabeli 6.<br />

Tabela 6 - Metode estimacije u Stati<br />

Metoda estimacije Naredba u Sati Napomena<br />

Principal component analysis<br />

pca varlist<br />

Principal component factoring factor varlist, pcf Podrazumijevani metod u SPSS-u<br />

Principal factoring factor varlist, pf Podrazumijevani metod u Stati<br />

Principal factoring with iterated<br />

communalities<br />

Maximum likelihood factoring<br />

factor varlist, ipf<br />

factor varlist, ml<br />

Svaki metod estimacije se zasniva na različitim početnim pretpostavkama što može dovesti do<br />

različitih rezultata (Mazzocchi, 2008). Međutim, postoji vrlo malo informacija o relativnim<br />

prednostima i manama svake od ovih metoda. Costello i Osborne (2005) navode da je u<br />

akademskim člancima često teško utvrditi koji metod estimacije je tačno korišten i zašto.<br />

17


Dodatnu konfuziju imamo u pogledu terminologije, obzirom da za iste metode postoje različiti<br />

nazivi. 7<br />

Generalno se može reći da najveća razlika postoji između maximum likelihood factoring (MLF)<br />

u odnosu na ostale metode estimacije. Najveća prednost MLF-a je što omogućava izračunavanje<br />

indikatora reprezentativnosti modela (engl. goodness of fit) i testiranje signifikantnosti<br />

estimiranih parametara. Međutim, mana MLF-a je što zahtijeva ispunjenje pretpostavke o<br />

multivarijantnoj normalnosti. Ukoliko je data pretpostavka značajno narušena, MLF može dati<br />

iskrivljenje rezultate (Fabrigar et al., 1999). Ostale metode estimacije su znatno robusnije na<br />

narušavanje pretpostavki vezanih za normalnost.<br />

Ipak, iako će se estimirani parametri donekle razlikovati u zavisnosti od odabranog metoda<br />

estimacije, u većini slučajeva dobijena rješenja će suštinski biti ista ili vrlo slična (Fabrigar et<br />

al., 1999). Samim tim, istraživač se i ovdje može voditi pragmatičnim pristupom koji<br />

podrazumjeva da se isporba više metoda estimacije i odabere ona koja po mišljenju istraživača<br />

daje najbolje rezultate.<br />

Primjer 2 - nastavak<br />

U našem slučaju odabrali smo EFA pristup i Principal component factoring (pcf) metod<br />

estimacije.<br />

4.3. ODREĐIVANJE BROJA FAKTORA<br />

Nakon što odabremo metod estimacije, potrebno je donijeti odluku o broju faktora koje ćemo<br />

zadržati. Obzirom da je EFA iterativni proces koji se nastavlja sve dok se ne ”objasni” ukupna<br />

varijansa to znači da će se na kraju procesa izdvojiti onoliko faktora koliko smo imali<br />

opserviranih varijabli u analizi.<br />

Međutim, poenta čitave analize je da izdvojimo manji broj faktora koji će objasniti većinu<br />

varijanse bez gubitka korisnih informacija. Zbog toga u ovom koraku moramo donijeti odluku<br />

o tome koliki broj faktora izdvojiti i zadržati za interpretaciju. Jasno je da će biti potrebno<br />

praviti određeni kompromis. Ako izdvojimo veći broj faktora, proporcija “objašnjene” ukupne<br />

varijanse biće veća, ali s druge strane to može ići na uštrb pravila štedljivosti i ciljeva zbog<br />

kojih radimo faktorsku analizu. Jednostavno rečeno, nije poželjno izdvojiti ni previše (engl.<br />

overextraction), ni premalo (engl. underextraction) faktora jer obje situacije mogu imati loše<br />

posljedice na konačni rezultat. Naime, ako se izdvoji premalo faktora, onda je moguće je da<br />

nismo identifikovali sve bitne konstrukte. S druge strane, ako smo zadržali prevelik broj faktora<br />

interpretacija faktora postaje teška ili nemoguća. Zbog toga je potrebno naći odgovarajući<br />

balans.<br />

S obzirom na navedeno, ne iznenađuje što pojedini autori smatraju da je određivanje<br />

optimalnog broja faktora vjerovatno važnije od odabira pristupa i metode estimacije<br />

(Tabachnick & Fidell, 2007). Problem je što je odluka o broju faktora u krajnjoj istanci<br />

subjektivna. Istraživač je taj koji ima zadnju riječ o tome koliki broj faktora je optimalan.<br />

7<br />

Na primjer, ono što se unutar State naziva Principal component factoring u statističkom paketu SPSS se naziva<br />

Principal Component Analysis. Dakle, ako isti skup podataka analiziramo u Stati koristeći pcf metod ekstrakcije,<br />

dobićemo iste rezultate kao kad u SPSS-u koristimo pca metod estimacije.<br />

18


Ipak, imajući u vidu važnost ove odluke, razvijeno je nekoliko različitih procedura koje<br />

istraživačima pomažu pri određivanju optimalnog broja faktora.<br />

Kajzerov kriterij. Poznat je i pod nazivima K1 kriterij ili kriterij latentnog korijena (engl.<br />

Latent root criterion). Prema ovom kriteriju potrebno je zadržati sve faktore koji imaju<br />

karakterističnu vrijednost veću od 1. Pod karakterističnom vrijednošću (engl. eigenvalue)<br />

podrazumijevamo ukupnu varijansu svih varijabli objašnjenu datim faktorom.<br />

Da bi razumjeli ideju koja stoji u pozadini ovog kriterija, zamislimo da smo izabrali PCA<br />

pristup za izdvajanje faktora. Kod PCA pristupa, svaka varijabla u analizu unosi jednu jedinicu<br />

varijanse. Na primjer, ako u analizi koristimo 15 varijabli, ukupna varijansa koju treba<br />

“objasniti” biće jednaka broju 15. Imajući ovo u vidu, nema pretjeranog smisla zadržavati<br />

faktore koji objašnjavaju manje varijanse nego je uneseno sa pojedinačnom varijablom pa se<br />

stoga izdvajaju samo faktori koji imaju eigenvalue > 1. Iako je u većini softverskih paketa ovo<br />

podrazumijevani kriterij, u literaturi se nerijetko naglašava da je riječ o nepreciznoj proceduri<br />

povezanoj sa brojnim problemima (Fabrigar et al., 1999)(Fabrigar et al., 1999; Costello<br />

& Osborne, 2005).<br />

Dijagram prevoja (engl. Scree plot). Ova procedura koju je razvio Catell (1966)<br />

podrazumijeva crtanje dijagrama gdje su faktori predstavljeni na x-osi, a karakteristične<br />

vrijednosti faktora na y-osi, kao što je predstavljeno na slici 4.<br />

Slika 4 – Primjer dijagrama prevoja<br />

Na slici 4 možemo vidjeti ono o čemu smo do sada govorili — svaki naredni faktor “objašnjava”<br />

manje varijanse od prethodnog — pa se eigenvalue smanjuje sa svakim narednim izdvojenim<br />

faktorom. Na dijagramu se vizuelno traži tačka preloma (engl. point of inflexion), odnosno<br />

karkateristični “lakat” koji označava faktor nakon kojeg kriva na dijagramu postaje relativno<br />

horizontalna. Horizontalni dio krive govori da svaki naredni faktor objašnjava samo marginalne<br />

iznose varijanse u odnosu na faktore koji se nalaze prije tačke preloma i da je stoga riječ o<br />

irelevantnim faktorima. U literaturi ne postoji jasan konsenzus u pogledu toga kako tumačiti<br />

tačku preloma. Neki autori navode da treba zadržati onoliko faktora koliko indicira tačka<br />

preloma (Fabrigar et al., 1999; O'Rourke et al., 2005; Sarstedt & Mooi, 2014). Drugo i nešto<br />

češće mišljenje je da tačka koja se nalazi neposredno prije tačke preloma indicira broj faktora<br />

koji treba zadržati (Costello & Osborne, 2005)Hair et al., 2006, p. 120).<br />

19


Pored oprečnih savjeta u pogledu broja faktora koje treba zadržati na bazi tačke preloma, drugi<br />

bitan nedostatak je česta dvosmislenost dobijenog dijagrama. Nisu rijetke situacije da na<br />

dijagramu nije moguće jasno uočiti tačku preloma. U takvim situacijama odluka o broju faktora<br />

je vrlo subjektivna i istraživač se ne može u potpunosti osloniti na ovu proceduru.<br />

Paralelna analiza (engl. Parallel analysis). Horn (1965) je predložio paralelnu analizu (PA)<br />

kao dopunu Kajzerovog kriterija. Ova procedura se smatra zlatnim standardom za određivanje<br />

broja faktora (Braeken i Assen, 2016). Kod PA se stvarne karakteristične vrijednosti porede sa<br />

slučajno dobijenim karakterističnim vrijednostima koje se izračunavaju na bazi slučajno<br />

generisane matrice podataka iste veličine i istog broja varijabli (Hayton, Allen i Scarpello,<br />

2004). Tabachnick and Fidell (2007) opisuju da proces ima tri koraka. Prvo se generiše slučajni<br />

set podataka sa istim brojem varijabli i opservacija. Zatim se na tako definisanim slučajnim<br />

podacima ponavlja faktorska analiza i kod svakog ponavljanja se bilježe karakteristične<br />

vrijednosti. Na kraju se slučajno dobijene karakteristične vrijednosti uprosječe za svaki faktor<br />

i porede sa karakterističnim vrijednostima iz stvarnih podataka. Zadržavaju se samo faktori čije<br />

su stvarne karakteristične vrijednosti veće od onih koje su dobijene za slučajno generisane<br />

podatke. Dakle, PA uzima u obzir varijabilitet koji je rezultat specifičnosti uzorkovanja i može<br />

se posmatrati kao korekcija Kajzerovog kriterija jer pruža egzaktnu polaznu osnovu za<br />

eliminaciju faktora čija varijansa nije veća od one koja bi se očekivala kod nasumičnih podataka<br />

gdje ne postoje nikakve latentne dimenzije (Subotić, 2013).<br />

Međutim i pored toga što je PA najprecizniji pristup za utvrđivanje broja faktora ona se znatno<br />

slabije koristi u odnosu na pretodne dva pristupa. Osnovni razlog je to što PA dugo vremena<br />

nije bila dostupna u većini široko rasprostranjenih softverskih paketa za statističku obradu<br />

podataka (Williams et al., 2012).<br />

Procenat ekstrahovane varijanse. Suština ovog pristupa je u tome da zadržimo sve faktore<br />

koji “objašnjavaju” određeni postotak varijanse (npr. 5 ili 10%). Druga varijanta ovog kriterija<br />

se bazira na zadržavanju onoliko faktora koliko je potrebno da se objasni određeni kumulativni<br />

iznos varijanse. U društvenim naukama se obično uzima da je to najmanje 50% (Sarstedt<br />

& Mooi, 2014) ili 60% ukupne varijanse (Hair et al., 2006(Malhotra, 2010). Vidimo da su<br />

procenti koji se koriste kao kriterij arbitrarni pa je ovaj pristup često kritikovan zbog prevelike<br />

subjektivnosti (O'Rourke et al., 2005).<br />

Kriterij interpretabilnosti. Ovo je vjerovatno pristup koji je najviše u duhu faktorske analize.<br />

Njegova suština je u tome da se zadrže faktori koji se mogu smisleno tumačiti i opisati.<br />

(O'Rourke et al., 2005)) predlažu nekoliko kriterija koji nam mogu pomoći da se utvrdi da li su<br />

faktori interpretabilni: a) izvedeni faktor bi trebao biti povezan bar sa tri varijable indikatora,<br />

b) varijable indikatori koje su vezane za isti faktor bi trebale međusobno dijeliti isto<br />

konceptualno značenje i c) faktorsko rješenje nakon rotacije bi trebalo imati tzv. jednostavnu<br />

strukturu, što znači da se svaka varijabla indikator primarno učitava samo na jedan faktor.<br />

A priori kriterij. Suština ovog kriterija da istraživač unaprijed odredi broj faktora koje treba<br />

izdvojiti. Obično se koristi kada želimo replicirati rezultate prethodnih istraživanja i izdvojiti<br />

isti broj faktora koji su ranije otkriveni. Na primjer, ako znamo da je u prethodnim<br />

istraživanjima na bazi istog upitnika izdvojeno pet faktora, možemo se voditi time da i mi<br />

trebamo izdvojiti pet faktora. Većina statističkih paketa omogućava korisniku da specificira<br />

20


tačan broj faktora, što omogućava laku implementaciju ovog pristupa. 8 Ipak, situacije u kojima<br />

unaprijed znamo broj i karakteristike faktora zalaze u područje konfirmativne faktorske analize<br />

koju je metodološki ispravnije koristiti ako želimo validirati nalaze iz ranijih istraživanja<br />

(Sarstedt & Mooi, 2014).<br />

Obzirom na sve navedeno, postavlja se pitanje koji je pristup najbolje koristiti. U praksi<br />

istraživači najčešće kombinuju više kriterija kako bi dobili jasniju sliku o broju faktora koje<br />

treba zadržati. Obično se za dobijanje inicijalnog rješenja koristi Kajzerov kriterij. Zatim se<br />

gleda dijagram prevoja, procenat izdvojene varijanse i šta sugeriše paralelna analiza. U<br />

narednim koracima se za svako dobijeno rješenje utvrđuje interpretabilnost. Ukoliko ne postoji<br />

konsenzus jer svaki pristup sugeriše drugačije rješenje, onda se analiza ponavlja nekoliko puta.<br />

Pri tome se svaki put izdvaja različit broj faktora sve dok se ne dođe do zadovoljavajućeg<br />

rezultata i konačne odluke.<br />

Primjer 2 - nastavak<br />

U našem primjeru krenućemo sa Kajzerovim pristupom. Naredba za izdvajanje faktora je:<br />

factor varlist, mineigen(1) pcf<br />

gdje se varlist odnosi na varijable koje ubacujemo u analizu, opcija minegen(1) Stati daje<br />

instrukciju da izdvoji sve faktore sa karakterističnom vrijednošću većom od 1. Obzirom da smo<br />

se ranije odlučili za principal-component factor metod estimacije to smo u naredbi eksplicitno<br />

naveli korištenjem opcije pcf. U konkretnom slučaju biće<br />

. factor lokacija-asortiman, mineigen(1) pcf<br />

(obs=323)<br />

Factor analysis/correlation Number of obs = 323<br />

Method: principal-component factors Retained factors = 5<br />

Rotation: (unrotated) Number of params = 65<br />

--------------------------------------------------------------------------<br />

Factor | Eigenvalue Difference Proportion Cumulative<br />

-------------+------------------------------------------------------------<br />

Factor1 | 4.63347 3.09505 0.3089 0.3089<br />

Factor2 | 1.53842 0.15158 0.1026 0.4115<br />

Factor3 | 1.38684 0.26955 0.0925 0.5039<br />

Factor4 | 1.11729 0.06808 0.0745 0.5784<br />

Factor5 | 1.04922 0.24954 0.0699 0.6483<br />

Factor6 | 0.79968 0.05187 0.0533 0.7017<br />

Factor7 | 0.74781 0.08891 0.0499 0.7515<br />

Factor8 | 0.65890 0.05443 0.0439 0.7954<br />

Factor9 | 0.60447 0.09610 0.0403 0.8357<br />

Factor10 | 0.50837 0.02220 0.0339 0.8696<br />

Factor11 | 0.48617 0.02576 0.0324 0.9020<br />

Factor12 | 0.46042 0.04562 0.0307 0.9327<br />

Factor13 | 0.41479 0.09563 0.0277 0.9604<br />

Factor14 | 0.31916 0.04418 0.0213 0.9817<br />

Factor15 | 0.27498 . 0.0183 1.0000<br />

--------------------------------------------------------------------------<br />

LR test: independent vs. saturated: chi2(105) = 1418.09 Prob>chi2 = 0.0000<br />

Factor loadings (pattern matrix) and unique variances<br />

8<br />

Na primjer, ako Stati želimo dati instrukciju da izdvoji n faktora, koristeći pricipal-component factor metod<br />

estimacije, naredba će biti: factor varlist, factor(5) pcf<br />

21


-------------------------------------------------------------------------------<br />

Variable | Factor1 Factor2 Factor3 Factor4 Factor5 | Uniqueness<br />

-------------+--------------------------------------------------+--------------<br />

lokacija | 0.5523 -0.3748 0.6044 -0.0264 -0.0447 | 0.1865<br />

parking | 0.6242 -0.3354 0.5008 -0.0305 -0.1318 | 0.2288<br />

promocije | 0.4808 -0.4021 -0.1859 -0.0381 -0.0056 | 0.5711<br />

cijene | -0.3206 0.5572 0.4896 0.1697 0.0515 | 0.3155<br />

nag_igre | 0.4764 -0.5498 -0.3676 -0.0463 -0.0049 | 0.3334<br />

komp_osob | 0.6377 0.1358 -0.0674 0.3375 -0.1855 | 0.4220<br />

br_blagajni | 0.6625 0.0227 -0.1426 -0.0575 -0.2917 | 0.4518<br />

ljubaznost | 0.6576 0.2517 -0.1647 0.3949 -0.1778 | 0.2896<br />

atmosfera | 0.4302 0.3856 -0.1394 -0.3776 -0.2886 | 0.4210<br />

izgled | 0.5854 0.3346 -0.0493 -0.2503 0.0073 | 0.4802<br />

rad_vrijeme | 0.5814 -0.0302 0.4226 0.1709 0.3546 | 0.3274<br />

usl_osob | 0.6297 0.2359 -0.1140 0.4826 -0.0718 | 0.2968<br />

higijena | 0.6377 0.2434 0.0452 -0.3340 0.2294 | 0.3680<br />

dekor | 0.5582 0.2271 0.0225 -0.4480 0.1940 | 0.3979<br />

asortiman | 0.3455 0.0245 -0.3056 0.1747 0.7560 | 0.1845<br />

-------------------------------------------------------------------------------<br />

U prvom dijelu outputa, vidimo da je prema Kajezorovom kriteriju zadržano ukupno pet faktora<br />

kod kojih je eigenvalue > 1. U koloni “Proportion” vidimo relativni ponder svakog faktora u<br />

ukupnoj varijasni. Prvi faktor objašnjava 30,9% ukupne varijanse, drugi 10,3% itd. Pet<br />

izdvojenih faktora zajedno objašnjava 64,8% ukupne variajanse. U gornjem desnom uglu<br />

možemo vidjeti da krajnja veličina uzorka, nakon što su eliminisane sve opservacije koje imaju<br />

nedostajuće podatke po jednoj ili više varijabli, iznosi 323 opservacije.<br />

Drugi dio outputa pod nazivom „Factor loadings (pattern matrix) and unique variances“<br />

predstavlja inicijalno nerotirano rješenje sa koeficijentima učitavanja varijabli indikatora na<br />

faktore. Učitavanja na faktor (engl. factor loadings) predstavljaju korelaciju između<br />

manifestne varijable i datog faktora. Veličina koeficijenta upućuje na važnost varijable pri<br />

definisanju dimenzionalnosti faktora. Negativna vrijednost indicira inverzni uticaj na faktor.<br />

Više riječi o ovom outputu će biti riječi na početku narednog koraka.<br />

Sada ćemo od State zatražiti dijagram prevoja:<br />

screeplot, yline(1)<br />

22


Slika 5 – Dijagram prevoja za podatke iz primjera 2<br />

Opcija yline(1) poslužila je da na dijagramu povućemo horizontalnu liniju kojoj odgovara<br />

eigenvalue = 1, odnosno ranije pomenuti Kajzerov kriterij. Možemo vidjeti da se posljednji<br />

veći pad, nakon kojeg krivudava linija postane ravnija, dešava na prelazu iz tačke 5 u tačku 6<br />

na x-osi. Samim tim tačka 6 bi predstavljala tačku preloma. Ako se vodimo time da treba<br />

izdvojiti onoliko faktora koliko ih ima prije tačke preloma, onda možemo zaključiti da nam<br />

dijagram prevoja sugeriše izdvajanje 5 faktora.<br />

Na kraju ćemo uraditi i paralelnu analizu (PA) za koju nam je potreban paket paran 9 . Ovaj paket<br />

se bazira na klasičnoj paralelnoj analizi (Horn 1965) i naknadno razvijenoj Monte Carlo<br />

nadogradnji (Dinno, 2009). Naredba je:<br />

. paran lokacija-asortiman, factor(pcf) iter(100) graph quietly seed(1)<br />

Opcija factor(pcf) se odnosi na metod estimacije i pristup koji koristimo 10 , iter(100) se odnosi<br />

na broj slučajno generisanih setova podataka, 11 graph je za dobijanje grafika, opcija quetly služi<br />

da “potisnemo” nepotrebni dio outputa (da Stata ne prikazuje dio rezultata koji se izračuna ali<br />

nam nije bitan za tumačenje) i na kraju seed(1) je opcija koja nam pomaže da repliciramo<br />

istovjetan output 12 .<br />

9<br />

Za više detalja pogledati: Dinno, Alexis (2009): Implementing Horn’s parallel analysis for principal component<br />

analysis and factor analysis. In The Stata Journal 9 (2), pp. 291–298.<br />

10<br />

Da nismo naveli ovu opciju, podrazumjevalo bi se da koristimo PCA.<br />

11<br />

Bez navođenja, podrazumjevani broj je 30. Veći broj rezultira većom preciznošću ali za velike skupove<br />

podataka može rezultirati dugim vremenom izračuna.<br />

12<br />

Naime, obzirom da Stata genriše slučajne setove, rezultat PA može u manjoj mjeri varirati od analize do analize.<br />

Opcija seed daje nalog Stati da uvijek koristi isti skup slučajno generisanih setova (u našem primjeru označenih<br />

sa brojem 1) kako bi se omogućila replikacija rezultata ako ponovimo komandu za PA na istom skupu podataka.<br />

23


Results of Horn's Parallel Analysis for principal components factors<br />

100 iterations, using the mean estimate<br />

--------------------------------------------------<br />

Component Adjusted Unadjusted Estimated<br />

or Factor Eigenvalue Eigenvalue Bias<br />

--------------------------------------------------<br />

1 3.3213835 4.6334689 1.3120854<br />

2 .24694682 1.538416 1.2914692<br />

3 .18858222 1.3868391 1.1982569<br />

4 -.01766087 1.1172929 1.1349537<br />

5 -.0358335 1.0492158 1.0850493<br />

6 -.25974195 .79967721 1.0594192<br />

7 -.27466194 .74781008 1.022472<br />

8 -.31743126 .65890033 .97633159<br />

9 -.35729036 .60447159 .96176195<br />

10 -.42242302 .50837348 .9307965<br />

11 -.39904981 .48617454 .88522434<br />

12 -.39549569 .46041884 .85591453<br />

13 -.40650338 .41479451 .82129788<br />

14 -.43008702 .31916459 .7492516<br />

15 -.44073359 .27498223 .71571583<br />

--------------------------------------------------<br />

Criterion: retain adjusted factors > 0<br />

Prema Hornovom kriteriju trebali bi izdvojiti faktore za koje su nekorigovane karakteristične<br />

vrijednosti (kolona „Unadjusted Eigenvalue“) veće od nekorigovanih (kolona „Estimated<br />

Bias“). Output pokazuje da je to slučaj za prva tri faktora. Vrijednosti na bazi dobijenog outputa<br />

su grafički predstavljene na slici 6.<br />

Slika 6 – Rezultati paralelne analize<br />

Isprekidana linija (observed) je identična liniji koju smo ranije imali na dijagramu prevoja.<br />

Linija sa tačkicama (random) predstavlja dijagram prevoja za prosječne karakteristične<br />

24


vrijednosti dobijene za slučano generisane podatke. Korigovane karakteristične vrijednosti<br />

(adjusted) su predstavljene punom linijom. Hornov kriterij odgovara tačci koja se nalazi prije<br />

mjesta gdje linija sa korigovanim vrijednostima siječe horizontalnu liniju koja se nalazi na y =<br />

1, što je u ovom slučaju jednako broju 3 na x-osi.<br />

Dakle, doslovno tumačenje rezultata PA indicira da bi trebali zadržati tri faktora. Međutim,<br />

obratimo pažnju da je razlika između korigovanih i nekorigovanih vrijednosti za faktore 4 i 5<br />

izuzetno mala, što se vidi i na grafiku gdje se korigovana linija za vrijednosti na x-osi od 4 do<br />

5 gotovo poklapa sa horizontalnom linijom na y = 1. To implicira da je potrebno zadržati<br />

minimalno tri faktora ali uz mogućnost da se stvarni broj faktora može nalaziti u rasponu od 3<br />

do 5.<br />

Na osnovu svega možemo zaključiti da postoji konsenzus između Kajzerovog kriterija,<br />

dijagrama prevoja i paralelne analize u pogledu toga da je u redu inicijalno zadržati 5 faktora.<br />

Obzirom da tih 5 faktora objašnjava više od 60% varijanse možemo reći da je ispunjen i kriterij<br />

koji se tiče procenta ekstrahovane varijanse. U nastavku ćemo pokušati tumačiti 5 zadržanih<br />

faktora pa ćemo vidjeti da li je broj faktora optimalan i po kriteriju interpretabilnosti.<br />

4.4. ROTACIJA FAKTORA<br />

Nakon što smo odredili broj faktora, dobijene rezultate bi trebalo interpretirati. Korištenjem<br />

naredbe za estrakciju faktora prema Kajzerovom kriteriju Stata nam je u okviru ranijeg<br />

outputa 13 već dala rezultate rješenja za pet faktora. Međutim, iako inicijalno rješenje daje<br />

naznaku o vezi između varijabli indikatora i faktora, ono rijetko rezultira faktorima koje je lako<br />

interpretirati jer nerotirani faktori istovremeno koreliraju sa mnoštvom varijabli.<br />

4.4.1. Zbog čega nam je potrebna faktorska rotacija?<br />

Obično postoji nekoliko problema sa nerotiranim rješenjem. Prvo, u takvom rješenju se dobije<br />

da je prvi faktor ujedno i generalni faktor, što znači da se većina varijabli jako učitava na njega.<br />

Najčešće je to posljedica činjenice da su se podaci prikupljali anketiranjem čime se u analizu<br />

unosi određeni stepen "vještačkih" (engl. spurious) korelacija. Pri tumačenju nas interesuju<br />

odnosi između varijabli nakon što eliminišemo ove neželjene korelacije. Drugi problem je<br />

faktorska složenost (engl. factorial complexity) koja odražava činjenicu da se neke varijable<br />

učitavaju na dva ili više faktora. Treći problem je što se većina učitavanja obično nalazi u<br />

srednjem rasponu (između 0,50 i 0,70) pa je teško razlučiti koja varijabla pripada kojem faktoru<br />

(Norman & Streiner, 2003). Sve ovo otežava interpretaciju dobijenog rezultata, pa je se za<br />

prevazilaženje navedenih problema poželjno koristiti rotaciju faktora.<br />

4.4.2. Pojam rotacije faktora<br />

Sam termin "rotacija", se koristi kako bi se opisalo pomjeranje faktorskih osa na način da se što<br />

više približe grupama varijabli kao što je prikazano na slici 7. Nakon pomjeranja osa postiže se<br />

mnogo jasniji obrazac faktorskih učitavanja. Dakle, osnovni cilj rotacije je da se pokušaju dobiti<br />

čistiji rezultati faktorske analize koje istraživač može lakše interpretirati.<br />

13<br />

Pogledati dio outputa pod nazivom „Factor loadings (pattern matrix) and unique variances“ kojeg smo dobili u<br />

ranijem koraku.<br />

25


Slika 7 - Grafičko predstavljanje rotacije faktora<br />

Izvor: Field (2000)<br />

Ako pogledamo sliku 7 možemo uočiti da se nakon rotacije grupe varijabli indikatora koje su<br />

predstavljene kružićima nalaze mnogo bliže faktorskim osama. Prva grupa varijabli, koja se<br />

prije rotacije nalazila u gornjem desnom kvadrantu, će nakon rotacije imati mnogo jača<br />

učitavanja na faktor 2. Druga grupa varijabli, koja se prije rotacije nalazila u donjem desnom<br />

kvadrantu, će nakon rotacije imati mnogo jača učitavanja na faktor 1.<br />

4.4.3. Vrste rotacije<br />

Zavisno od ugla pod kojim se održava razmak između x i y-ose postoje dvije vrste rotacija.<br />

Ortogonalne (engl. orthogonal) rotacije rezultiraju faktorima koji međusobno ne koreliraju jer<br />

se prilikom rotacije između osa održava ugao od 90°. Kose (engl. oblique) rotacije dozvoljavaju<br />

da faktori u nekoj mjeri međusobno koreliraju obzirom da prilikom rotacije ugao između osa<br />

ne mora biti 90°. Unutar ove dvije generalne vrste postoji nekoliko algoritama za provođenje<br />

same rotacije. Stata ih nudi sedam i oni su predstavljeni unutar tabele 7.<br />

Tabela 7 - Prikaz različitih algoritama za rotacije unutar statističkog paketa Stata<br />

Rotacija* Vrsta Naredba u Stati Napomena<br />

Varimax Ortogonalna rotate Podrazumjevana rotacija u Stati<br />

Varimax sa Kajzerovom<br />

normalizacijom<br />

Ortogonalna rotate, kaiser Podrazumjevana rotacija u<br />

SPSS-u<br />

Quartimax Ortogonalna rotate, quartimax<br />

Equamax Ortogonalna rotate, equamax<br />

Oblimin Kosa rotate, oblimin<br />

Promax Kosa rotate, promax<br />

* Napomena: naredba rotate se koristi isključivo nakon naredbe factor.<br />

Ortogonalne rotacije su matematski jednostavnije i daju rješenja koja se lakše interpretiraju.<br />

Unutar ove kategorije najčešće se koristi Varimax rotacija koja predstavlja podrazumjevanu<br />

rotaciju u većini statističkih paketa.<br />

Međutim, u društvenim naukama su rijetke situacije kada u stvarnosti očekujemo da su faktori<br />

međusobno potpuno nezavisni i da uopšte ne koreliraju. Iako je rešenja dobijena uz pomoć<br />

26


kosih rotacija nekada teže protumačiti i opisati, smatra se da će one dati identičan ili bolji<br />

rezultat u odnosu na ortogonalne. Nema posebno preferiranog metoda kose rotacije. Iako su<br />

matematski algoritmi na kojima se baziraju različiti, sve metode iz ove kategorije daju slične<br />

rezultate (Osborne, 2015).<br />

4.4.4. Koji metod rotacije izabrati?<br />

Istraživača ništa ne sprječava da pokuša doći do rješenja koristeći nekoliko različitih metoda<br />

rotacije i da na kraju odabere onu metodu koja je rezultirala po njegovom mišljenju najboljim,<br />

odnosno najsmislenijim rješenjem. Pri tome se smatra da je rješenje koje daje tzv. jednostavnu<br />

strukturu ujedno i najbolje rješenje. Jednostavnu strukturu (engl. simple structure) imamo<br />

kada svaka varijabla indikator ima visoko učitavanje na samo jedan faktor, dok su njena<br />

učitavanja na ostale faktore vrlo niska < |.30| (Costello & Osborne, 2005).<br />

Bitno je napomenuti da sama rotacija ne mijenja osnovne aspekte analize. Na primjer, iako će<br />

karakteristične vrijednosti (engl. eigenvalues) biti drugačije, ukupno "objašnjena" varijansa i<br />

broj izdvojenih faktora će ostati isti.<br />

Primjer 2 - Nastavak<br />

U našem primjeru ćemo iskoristiti Varimax rotaciju sa Kajzerovom normalizacijom:<br />

. rotate, kaiser blank (.30)<br />

Factor analysis/correlation Number of obs = 323<br />

Method: principal-component factors Retained factors = 5<br />

Rotation: orthogonal varimax (Kaiser on) Number of params = 65<br />

--------------------------------------------------------------------------<br />

Factor | Variance Difference Proportion Cumulative<br />

-------------+------------------------------------------------------------<br />

Factor1 | 2.31493 0.07231 0.1543 0.1543<br />

Factor2 | 2.24262 0.14515 0.1495 0.3038<br />

Factor3 | 2.09748 0.19531 0.1398 0.4437<br />

Factor4 | 1.90217 0.73414 0.1268 0.5705<br />

Factor5 | 1.16803 . 0.0779 0.6483<br />

--------------------------------------------------------------------------<br />

LR test: independent vs. saturated: chi2(105) = 1418.09 Prob>chi2 = 0.0000<br />

27


Rotated factor loadings (pattern matrix) and unique variances<br />

-------------------------------------------------------------------------------<br />

Variable | Factor1 Factor2 Factor3 Factor4 Factor5 | Uniqueness<br />

-------------+--------------------------------------------------+--------------<br />

lokacija | 0.8779 | 0.1865<br />

parking | 0.8089 | 0.2288<br />

promocije | 0.5784 | 0.5711<br />

cijene | -0.8248 | 0.3155<br />

nag_igre | 0.7851 | 0.3334<br />

komp_osob | 0.7025 | 0.4220<br />

br_blagajni | 0.4638 0.4059 0.3422 | 0.4518<br />

ljubaznost | 0.8040 | 0.2896<br />

atmosfera | 0.6743 | 0.4210<br />

izgled | 0.6523 | 0.4802<br />

rad_vrijeme | 0.6387 0.4116 | 0.3274<br />

usl_osob | 0.7998 | 0.2968<br />

higijena | 0.6972 | 0.3680<br />

dekor | 0.7248 | 0.3979<br />

asortiman | 0.8608 | 0.1845<br />

-------------------------------------------------------------------------------<br />

(blanks represent abs(loading) |0,30| (Burns & Burns,<br />

2008).<br />

Kad je riječ o imenovanju faktora bitno je napomenuti da je to subjektivni proces. Nekada je<br />

preporučljivo zamoliti više osoba da, nezavisno jedni od drugih, pokušaju imenovati faktore<br />

tako što će naći najmanje zajedničke sadržioce koji povezuju varijable indikatore. Ako su na<br />

taj način dobijeni nazivi međusobno slični onda možemo biti sigurni da su faktori pravilno<br />

imenovani (Huck, 2012).<br />

Primjer 2 -Nastavak<br />

Iz prethodno dobijenog outputa možemo vidjeti da se na faktor 1 učitavaju varijable<br />

kompetentnost osoblja, broj blagajni, ljubaznost i uslužnost osoblja. Najmanji zajednički<br />

sadržilac koji povezuje ove varijable su zaposlenici tržnog centra koji su u dodiru sa kupcima.<br />

Samim tim ovaj faktor ćemo nazvati “Osoblje”. Jedini eventualni izuzetak je varijabla broj<br />

blagajni. Ona se unakrsno učitava i na faktor 2 i nešto slabije na faktor 4. Pored toga,<br />

koeficijenti učitavanja za ovu varijablu su relativno niski. Obzirom da pomenuta varijabla ima<br />

otprilike jednako učitavanje na dva faktora, jasno je da se ona ne uklapa baš najbolje u<br />

faktorsko rješenje i da je kandidat za eliminaciju.<br />

28


Na faktor 2, pored već pomenute varijable broj blagajni, učitavaju se varijable atmosfera,<br />

vanjski izgled, higijena i dekor/stajling. Ovo su prvenstveno elementi estetskog doživljaja<br />

tržnog centra pa smo taj faktor odlučili da nazovemo “Izgled”.<br />

Faktor 3 je povezan sa tri varijable indikatora lokacija, parking i radno vrijeme. Sve tri varijable<br />

se odnose na elemente koji su vezani za pristupačnost tržnog centra kupcima pa ćemo ovaj<br />

faktor nazvati “Pogodnost pristupa”.<br />

Na faktor 4 se primarno učitavaju varijable cijene, promocije i nagradne igre. Sve tri varijable<br />

su povezane sa različitim novčanim benefitima koje kupci mogu ostvariti posjetom tržnom<br />

centru pa smo shodno tome ovaj faktor nazvali “Novčani benefiti”. Obratimo pažnju da je<br />

koeficijent učitavanja za varijablu cijene negativan. Ako se prisjetimo upitnika (tabela 3) to ne<br />

iznenađuje obzirom da je tvrdnja vezana za cijene bila negativno konotirana. Negativan<br />

predznak samo indicira da vrijednost varijable korelira u suprotnom smjeru u odnosu na ostale<br />

varijable koje se učitavaju na dati faktor.<br />

Konačno, na faktor 5 se učitava samo varijabla asortiman. Ovo implicira da je ta varijabla priča<br />

za sebe. Dakle, možemo zakljkučiti da je jedan od bitnih aspekata izbora tržnog centra<br />

vjerovatno i raznolikost asortimana, ali obzirom da je taj faktor predstavljen samo jednom<br />

varijablom, preporuka je da se ona izostavi iz faktorske analize. Ukoliko se ukaže potreba,<br />

varijablu asortiman uvijek možemo koristiti kao zasebnu varijablu u daljnim analizama.<br />

4.6. RESPECIFKACIJA FAKTORSKOG MODELA<br />

Ranije smo rekli da je optimalno rješenje ono koje ima jednostavnu strukturu, što znači da svaka<br />

varijabla ima jako učitavanje na samo jedan faktor i da varijable koje se učitavaju na isti faktor<br />

imaju isto konceptualno značenje. Također, poželjno je da svaki faktor ima najmanje tri<br />

varijable indikatora.<br />

4.6.1. Kada je potrebno respecificirati faktorski model?<br />

Međutim, nekada će se desiti da nakon rotacije imamo: a) varijable koje nemaju visoko<br />

učitavanje niti na jedan faktor, b) varijable koje imaju visok iznos unikatne varijanse 14 i c)<br />

varijable koje imaju unakrsna učitavnja (engl. cross-loading) na dva ili više faktora. Hair et al.<br />

(2006) predlažu da se u ovakvim situacijama razmotri respecifikacija modela koja može<br />

uključivati nekoliko opcija:<br />

1. Izbacivanje problematičnih varijabli iz analize.<br />

2. Korištenje alternativnog metoda rotacije.<br />

3. Smanjenje/povećanje broja zadržanih faktora.<br />

4. Odabir drugačijeg pristupa izdvajanju faktora ili metode estimacije.<br />

4.6.2. Šta podrazumjevamo pod respecifikacijom faktorskog modela?<br />

14<br />

Obično se smatra da varijabla ima visok iznos unikatne varijanse ako on prelazi 50% ukupne varijanse (Hair et<br />

al., 2006, p. 131)<br />

29


Pod pojmom respecifikacije faktorskog modela podrazumijevamo ponavljanje cjelokupne<br />

analize ali uz modifikacije. Na primjer, možemo pokušati izbaciti problematične varijable (one<br />

koje se unakrsno učitavaju, imaju nisko učitavanje ili stoje same za sebe) i ponoviti analizu da<br />

vidimo da li je problem riješen.<br />

Ponekad je potrebno uraditi više uzastopnih respecifikacija. Istraživač može koristiti<br />

pragmatični pristup, što znači da je moguće eksperimentisati sa različitim opcijama ili njihovim<br />

kombinacijama dok se ne dobije zadovoljavajući rezultat. Ukoliko istraživač smatra da je<br />

neophodno uraditi više modifikacija, najbolje je svaku obaviti zasebno. Na primjer, ako<br />

smatramo da je potrebno izbaciti više od jedne varijable preporučljivo je izbacivati ih jednu po<br />

jednu, uz ponavljanje analize nakon izbacivanja svake pojedinačne varijable. Bez obzira koje<br />

opcije koristilii i koliko respecifikacija uradili, krajnji cilj je da se dobije faktorsko rješenje koje<br />

ima empirijsko i konceptulano utemeljenje (Hair et al., 2006).<br />

4.6.3. Šta ako respecifikacija ne pomogne?<br />

Ukoliko nakon nekoliko ponovljenih respecifikacija imamo situaciju da se relativno veliki broj<br />

varijabli indikatora i dalje unakrsno učitava na više faktora, ili ako ne možemo naći najmanji<br />

zajednički sadržilac koji povezuje grupisane varijable, to implicira da vjerovatno postoji<br />

problem sa podacima. Problem se može javiti ukoliko je uzorak nedovoljne veličine i u tom<br />

slučaju je potrebno prikupiti još podataka (Costello & Osborne, 2005). Ukoliko veličina uzorka<br />

nije sporna, onda je vjerovatno da postoji problem sa sadržajnom validnošću pitanja koje<br />

ispitanici nisu razumjeli kada su odgovarali. U tom slučaju istraživač bi trebao odbaciti<br />

prikupljene podatke i istraživanje započeti od početka, tj. od ponovnog dizajniranja upitnika.<br />

Primjer 2 - Nastavak<br />

U našem slučaju smo respecificirali inicijalno faktorsko rješenje tako što smo prvo izbacili<br />

varijablu asortiman koristeći naredbe:<br />

. factor lokacija-dekor, mineigen(1) pcf<br />

(output izostavljen)<br />

. rotate, varimax kaiser blank (0.30)<br />

(output izostavljen)<br />

Korištenje Kajzerovog kriterija u ponovljenoj analizi je rezultiralo zadržavanjem četiri faktora<br />

koja su u potpunosti odgovarala prethodno dobijenim i opisanim faktorima. Obzirom da je<br />

varijabla broj blagajni i dalje imala unakrsno učitavanje, odlučili smo da je izbacimo i<br />

ponovimo analizu još jedanput. Finalno rješenje je predstavljeno u okviru sljedećeg outputa:<br />

. factor lokacija-komp_osob ljubaznost-dekor, mineigen(1) pcf<br />

(obs=324)<br />

Factor analysis/correlation Number of obs = 324<br />

Method: principal-component factors Retained factors = 4<br />

Rotation: (unrotated) Number of params = 46<br />

--------------------------------------------------------------------------<br />

Factor | Eigenvalue Difference Proportion Cumulative<br />

-------------+------------------------------------------------------------<br />

Factor1 | 4.15549 2.61630 0.3197 0.3197<br />

30


Factor2 | 1.53918 0.20694 0.1184 0.4381<br />

Factor3 | 1.33224 0.21955 0.1025 0.5405<br />

Factor4 | 1.11269 0.33763 0.0856 0.6261<br />

Factor5 | 0.77506 0.02244 0.0596 0.6857<br />

Factor6 | 0.75262 0.09563 0.0579 0.7436<br />

Factor7 | 0.65699 0.08108 0.0505 0.7942<br />

Factor8 | 0.57591 0.03126 0.0443 0.8385<br />

Factor9 | 0.54465 0.06765 0.0419 0.8804<br />

Factor10 | 0.47700 0.05994 0.0367 0.9171<br />

Factor11 | 0.41706 0.04696 0.0321 0.9491<br />

Factor12 | 0.37009 0.07909 0.0285 0.9776<br />

Factor13 | 0.29100 . 0.0224 1.0000<br />

--------------------------------------------------------------------------<br />

LR test: independent vs. saturated: chi2(78) = 1183.63 Prob>chi2 = 0.0000<br />

(dio outputa izostavljen)<br />

Zatim smo uradili rotaciju:<br />

. rotate, varimax kaiser blank (0.30)<br />

Factor analysis/correlation Number of obs = 324<br />

Method: principal-component factors Retained factors = 4<br />

Rotation: orthogonal varimax (Kaiser on) Number of params = 46<br />

--------------------------------------------------------------------------<br />

Factor | Variance Difference Proportion Cumulative<br />

-------------+------------------------------------------------------------<br />

Factor1 | 2.13787 0.01228 0.1645 0.1645<br />

Factor2 | 2.12559 0.05249 0.1635 0.3280<br />

Factor3 | 2.07310 0.27005 0.1595 0.4874<br />

Factor4 | 1.80305 . 0.1387 0.6261<br />

--------------------------------------------------------------------------<br />

LR test: independent vs. saturated: chi2(78) = 1183.63 Prob>chi2 = 0.0000<br />

Rotated factor loadings (pattern matrix) and unique variances<br />

---------------------------------------------------------------------<br />

Variable | Factor1 Factor2 Factor3 Factor4 | Uniqueness<br />

-------------+----------------------------------------+--------------<br />

lokacija | 0.8704 | 0.2077<br />

parking | 0.8030 | 0.2708<br />

promocije | 0.5979 | 0.5543<br />

cijene | -0.8344 | 0.2983<br />

nag_igre | 0.7837 | 0.3433<br />

komp_osob | 0.6818 | 0.4424<br />

ljubaznost | 0.8009 | 0.2831<br />

atmosfera | 0.6583 | 0.5303<br />

izgled | 0.6629 | 0.4715<br />

rad_vrijeme | 0.6838 | 0.4222<br />

usl_osob | 0.8344 | 0.2533<br />

higijena | 0.7144 | 0.3887<br />

dekor | 0.7431 | 0.3946<br />

---------------------------------------------------------------------<br />

(blanks represent abs(loading)


na iste faktore pa i njihovi nazivi ostaju isti. Ovako dobijeno krajnje rješenje objašnjava 62.7%<br />

ukupne varijanse što je sasvim zadovoljavajući postotak.<br />

4.7. PROVJERA POUZDANOSTI<br />

Nakon što smo identifikovali koje tvrdnje predstavljaju faktore, trebali bi provjeriti njihovu<br />

pouzdanost i validnost. Obzirom da se testiranje validnosti radi putem konfirmativne faktorske<br />

analize (CFA), u ovom koraku ćemo testirati samo pouzdanost primjenom Kronbahovog alfa<br />

koeficijenta kojim se mjeri interna konzistentnost skale. Koeficijent alfa varira u rasponu od 0<br />

do 1, gdje veće vrijednosti označavaju veću internu konzistentnost. U tabeli 8 su data ubičajena<br />

tumačenja dobijenog alfa koeficijenta.<br />

Tabela 8 – Vrijednosti i tumačenje Kronbahovog alfa koeficijenta<br />

Cronbach's<br />

Alpha<br />

≥ .9<br />

≥ .8<br />

≥ .7<br />

≥ .6<br />

≥ .5<br />

Interna<br />

konzistentnost<br />

Odlična<br />

Dobra<br />

Prihvatljiva<br />

Upitna<br />

Slaba<br />

< .5 Neprihvatljiva<br />

Izvor: George and Mallery (2003)<br />

U literaturi obično preporučuje da vrijednost ovog koeficijenta bude 0.7 ili veća. Preporuka se<br />

bazira na radu kojeg je objavio Nunnally (1978) u kojem je data sugestija da bi u ranim fazama<br />

istraživanja (npr. tokom razvoja skale) koeficijent alfa trebao biti minimalno 0.7 dok bi u<br />

primijenjenim istraživanjima trebao biti viši od 0.8 ili 0.9. Drugi istraživači smatraju da ovu<br />

generalnu preporuku treba imati u vidu ali da prihvatljiva visina koeficijenta zavisi od<br />

specifičnosti svake studije. Tako Hair et al. (2006) navode da se u eksplorativnim studijama<br />

vrjednosti veće od 0.6 mogu uzeti kao prihvatljive. Kod tumačenja i računanja Kronbahovog<br />

alfa koeficijenta kao mjere interne konzistentnosti trebamo obratiti pažnju na dvije stvari:<br />

Prvo, sa porastom broja itema unutar skale dolazi do inflacije vrijednosti izračunatog<br />

koeficijenta. Zato je za skale sa većim brojem stavki poželjno primijeniti strožije kriterije u<br />

pogledu visine dobijenog koeficijenta. Cortina (1993) je u svojoj studiji demonstrirao da skale<br />

koje imaju jako niske međukorelacije između itema (r < |.30|) mogu imati relativno visok<br />

koeficijent alfa (> 0.7) kako se broj itema približava 20.<br />

Drugo, istraživači trebaju biti oprezni ukoliko skala sadrži negativno konotirane tvrdnje jer one<br />

narušavaju internu konzistentnost. Zato ih je prije računanja Kronbah alfe koeficijenta potrebno<br />

rekodirati, odnosno “obrnuti” reverzno postavljena pitanja, tako da njihovi odgovori imaju isti<br />

smijer kao i odgovori na ostala pitanja koja čine istu skalu. 15<br />

15<br />

Stata obično zna prepoznati koja pitanja su negativno konotirana (smjer varijable na outputu je naznačen u<br />

koloni "Sign" sa + ili -). To znači da je svejedno da li koristimo rekodiranu ili originalnu varijablu kada<br />

32


Treće, alfa koeficijent nije pokazatelj unidimenzionalnosti skale. Naime, nisu rijetke situacije<br />

da se visoka alfa vrijednost interpretira kao potvrda toga da tvrdnje mjere jednu dimenziju<br />

konstrukta. Korištenje alfa koeficijenta u tu svrhu je pogrešno jer je moguće imati visoku<br />

vrijednost koeficijenta uprkos tome što skala ima više dimenzija (Cortina, 1993).<br />

Primjer 2 - Nastavak<br />

Kronbahov alfa koeficijent u Stati možemo dobiti korištenjem naredbe:<br />

. alpha varlist, item casewise asis<br />

Opcija item pokazuje dodatni output na osnovu kojeg možemo vidjeti kako se mijenja<br />

Kronbahov alfa koeficijent ako izbacimo pojedinačnu varijablu. Stata podrazumjevano koristi<br />

pairwise opciju za tretiranje nedostajućih podataka. Ukoliko želimo koristi konzervativniji<br />

casewise pristup, što je podrazumjevani pristup u SPSS-u, onda tu opciju trebamo ekspicitno<br />

zatražiti.<br />

Stata automatski prepoznaje reverzno postavljena pitanja i pravi automatsku korekciju pri<br />

računanju Cronbach alpha keficijenta. Ipak, ako to želimo izbjeći potrebno je ukucati opciju<br />

asis.<br />

U našem primjeru, prvo ćemo izračunati pouzdanost za varijable koje su učitavaju na faktor<br />

“Pogodnost pristupa”:<br />

. alpha lokacija parking rad_vrijeme, item<br />

Test scale = mean(unstandardized items)<br />

average<br />

item-test item-rest interitem<br />

Item | Obs Sign correlation correlation covariance alpha<br />

-------------+-----------------------------------------------------------------<br />

lokacija | 332 + 0.8807 0.6931 .3266258 0.6031<br />

parking | 332 + 0.8527 0.6578 .3883341 0.6465<br />

rad_vrijeme | 327 + 0.7544 0.4945 .5796668 0.8144<br />

-------------+-----------------------------------------------------------------<br />

Test scale | .4322956 0.7770<br />

-------------------------------------------------------------------------------<br />

Najvažniji dio outputa je prikazan u zadnjem redu „Test scale“, zadnje kolone „alpha“. Tu<br />

možemo pročitati da ukupni Kronbahov alfa koeficijent za tri itema koja predstavljaju faktor<br />

iznosi 0.777. Na osnovu preporuka unutar tabele 8 zaključujemo da skala kojom se mjeri taj<br />

faktor ima prihvatljivu pouzdanost.<br />

U zadnjoj koloni, iznad ukupnog alfa koeficijenta, nalaze se vrijednosti koje pokazuje koliki bi<br />

bio novi ukupni alfa koeficijent ako bi izostavili datu varijablu. Na primjer, ukoliko bi iz skale<br />

izbacili varijablu radno vrijeme ukupni alfa koeficijent za preostale varijable bi porastao sa<br />

0.777 na 0.814. Na ovaj način možemo identifikovati varijable koje znatno narušavaju<br />

pouzdanost i eliminisati ih kako bi poboljšali pouzdanost skale. Naravno, treba biti oprezan i<br />

računamo pouzdanost jer bi trebali dobiti identičan rezultat. Međutim, u nekim drugim softverskim paketima to<br />

nije slučaj pa je potrebno uraditi rekodiranje.<br />

33


eliminisati samo one varijable čijim izbacivanjem će se ukupni alfa znatno popraviti. U našem<br />

primjeru, poboljšanje koje bi dobili izbacivanjem varijable radno vrijeme nije dovoljno da<br />

opravda njenu eliminaciju iz skale.<br />

Što se tiče ostatka outputa, pomenućemo kolonu “item-test correlation” koja pokazuje koliko<br />

svaka varijabla indikator korelira sa skalom. Međutim, korisniji pokazatelj se nalazi u koloni<br />

“item-rest correlation” 16 gdje možemo vidjeti koliko varijabla korelira sa skalom koja se<br />

izračunava na bazi preostalih varijabli. Poželjno je da taj koeficijent bude što veći. Varijable<br />

koje imaju nisku korelaciju vjerovatno ne mjere isti konstrukt kao ostale varijable.<br />

U nastavku ćemo izračunati pouzdanost za varijable kojima se mjere ostali faktori. Počećemo<br />

sa faktorom „Izgled“:<br />

. alpha dekor higijena izgled atmosfera, item<br />

Test scale = mean(unstandardized items)<br />

average<br />

item-test item-rest interitem<br />

Item | Obs Sign correlation correlation covariance alpha<br />

-------------+-----------------------------------------------------------------<br />

dekor | 332 + 0.7355 0.4650 .3038058 0.6094<br />

higijena | 332 + 0.7359 0.5186 .3068702 0.5843<br />

izgled | 328 + 0.7203 0.4976 .3173451 0.6051<br />

atmosfera | 328 + 0.7003 0.3846 .3380832 0.6890<br />

-------------+-----------------------------------------------------------------<br />

Test scale | .3165488 0.6860<br />

-------------------------------------------------------------------------------<br />

Vidimo da ukupni alfa koeficijent za “Izgled” iznosi 0.686. Prema kriterijima iz tabele 8 riječ<br />

je o skali upitne pouzdanosti. Međutim, obzirom da je koeficijent blizu granice od 0.7 i da se<br />

radio o eksplorativnoj studiji, smatramo da je pouzdanost ove skale u tom kontekstu<br />

zadovoljavajuća.<br />

Pouzdanost skale kojom se mjeri faktor „Osoblje“ iznosi:<br />

. alpha komp_osob ljubaznost usl_osob, item<br />

Test scale = mean(unstandardized items)<br />

average<br />

item-test item-rest interitem<br />

Item | Obs Sign correlation correlation covariance alpha<br />

-------------+-----------------------------------------------------------------<br />

komp_osob | 328 + 0.8420 0.5206 .2036996 0.7598<br />

ljubaznost | 328 + 0.7882 0.5962 .2506154 0.6356<br />

usl_osob | 332 + 0.8271 0.6275 .2035504 0.5772<br />

-------------+-----------------------------------------------------------------<br />

Test scale | .2192884 0.7343<br />

-------------------------------------------------------------------------------<br />

Na osnovu dobijenog outputa vidimo da varijable kojima se mjeri faktor “Osoblje” imaju<br />

prihvatljivu pouzdanost obzirom da ukupni alfa iznosi 0.734.<br />

16<br />

U SPSS-u se ovaj pokazatelj naziva Corrected Item-Total Correlation.<br />

34


Konačno, urađena je pouzdanost za faktor „Finansijski benefiti“:<br />

. alpha promocije cijene nag_igre, item<br />

Test scale = mean(unstandardized items)<br />

average<br />

item-test item-rest interitem<br />

Item | Obs Sign correlation correlation covariance alpha<br />

-------------+-----------------------------------------------------------------<br />

promocije | 333 + 0.5876 0.2853 .5236112 0.6280<br />

cijene | 331 - 0.8358 0.4710 .2389983 0.5109<br />

nag_igre | 328 + 0.7937 0.5257 .2531447 0.4110<br />

-------------+-----------------------------------------------------------------<br />

Test scale | .3381371 0.6278<br />

-------------------------------------------------------------------------------<br />

Output pokazuje da ukupni alfa koeficijent za “Finansijske benefite” iznosi 0.628 pa<br />

zaključujemo da je riječ o skali upitne pouzdanosti. Ukoliko bi u daljim istraživanjima željeli<br />

mjeriti ovaj konstrukt, morali bi poboljšati način na koji ga mjerimo. Ipak, obzirom da je riječ<br />

o eksplorativnoj studiji, možemo reći da je pouzdanost u tom kontekstu zadovoljavajuća.<br />

Također, obratimo pažnju da je Stata ispravno prepoznala da je tvrdnja koja se tiče cijena bila<br />

negativno konotirana (kolona “Sign”) i da je to uzeto u obzir prilikom izračunavanja<br />

pouzdanosti.<br />

4.8. UPOTREBA FAKTORA U DRUGIM ANALI ZAMA<br />

Sjetimo se da je jedan od ciljeva faktorske analize sažimanje podataka pri čemu veći broj<br />

varijabli indikatora pokušavamo reducirati na manji broj faktora. U suštini ovo znači da<br />

moramo kreirati nove varijable koje će u daljoj analizi predstavljati faktore. Istraživaču na<br />

raspolaganju stoje dvije opcije u pogledu toga kako identifikovane faktore može iskoristiti u<br />

daljim analizama: faktorski skorovi i sumarne skale.<br />

4.8.1. Faktorski skorovi<br />

Faktorski skor (engl. factor score) je linerana kombinacija varijabli indikatora optimalno<br />

ponderisanih na bazi faktorskih učitavanja. Postoji nekoliko različitih metoda za izračunavanje<br />

faktorskih skorova. Prva je metoda ponderisanog prosjeka (engl. weighted average method)<br />

gdje se faktorski skor za svakog ispitanika računa prema sljedećoj formuli:<br />

F W X W X W X<br />

i<br />

<br />

i 1 1<br />

<br />

i 2 2<br />

... <br />

ik k<br />

gdje je<br />

Fi = faktorski skor za faktor i<br />

Wi = ponderi (koji su jednaki faktorskim učitavanjima)<br />

Xk = varijable indikatori<br />

k = broj varijabli indikatora<br />

Dakle, ako prema ovoj metodi želimo izračunati faktorski skor za prvi faktor kao pondere ćemo<br />

iskoristiti faktorska učitavanja iz finalnog rješenja nakon rotacije:<br />

35


Fpogodnost<br />

_ pristupa<br />

0.87 lokacija 0.80 parking ... 0.19 dekor<br />

Ako u gornju formulu iz skupa podataka uvrstimo odgovore za prvog ispitanika dobićemo da<br />

njegov faktorski skor za prvi faktor iznosi:<br />

F<br />

_<br />

0.87 4 0.80 5 ... 0.19 4<br />

pogodnost<br />

pristupa<br />

Na isti način možemo izračunati faktorske skorove za ostale identifikovane faktore. Nakon toga,<br />

čitav proces se ponavlja dok ne izračunamo faktorske skorove za svakog ispitanika.<br />

Metoda ponderisanog prosjeka je najjednostavniji način na koji možemo izračunati faktorske<br />

skorove. Ona nam pomaže da shvatimo osnovni princip po kojem se kreiraju faktorski skorovi,<br />

a koji se ogleda u tome da se pri njihovom izračunavanju u obzir uzima snaga učitavanja<br />

pojedinačnih varijabli na svaki faktor. Ipak, ovaj metod se u praksi rijetko upotrebljava (Field,<br />

2009) jer razlika u veličini faktorskih učitavanja može znatno varirati u zavisnosti od odabrane<br />

metode estimacije i vrste rotacije (DiStefano, Christine, Zhu, Min & Mîndrilă, & Diana, 2009).<br />

Umjesto ponderisanog prosjeka, obično se koristi jedan od tri rafiniranija metoda izračunavanja<br />

optimalnih pondera (Wi) u prethodno navedenoj formuli.<br />

Regresioni metod je obično podrazumjevani metod za izračunavnje faktorskih skorova u<br />

većini softverskih paketa uključujući i Statu. Osnovna prednost ovog metoda je što maksimizira<br />

validnost dobijenih skorova. Pojam validnosti se u ovom slučaju odnosi na obim u kojem će<br />

dobijeni faktorski skor korelirati sa faktorom kojeg predstavlja. Problem sa regresionim<br />

metodom je što korelacije mogu biti nejednoznačne (skor može korelirati sa drugim faktorima<br />

čak iako su dobijeni faktori teoretski ortogonalni), neprecizne (skorovi mogu međusobno<br />

korelirati čak iako faktori ne koreliraju) i pristrasne (dobijeni skor ne predstavljati stvarni<br />

faktorski skor) (DiStefano et al., 2009).<br />

Bartletov metod izračunava faktorske skorove uz najveću moguću nepristrasnost ali žrtvujući<br />

nešto od validnosti i preciznosti (DiStefano et al., 2009).<br />

Anderson-Rubinov metod osigurava najveću preciznost korelacija između dobijenih<br />

faktorskih skorova. Najprikladnije ga je koristiti kada dobijeni faktori teoretski međusobno ne<br />

koreliraju jer u tom slučaju ni dobijeni faktorski skorovi međusobno neće korelirati (Mazzochi,<br />

2008). Međutim, to dolazi na uštrb dodatno smanjene validnosti. Ovaj metod nije podržan u<br />

Stati.<br />

Dakle, svaki od ovih metoda ima svoje prednosti i nedostatke. 17 Bez obzira na razlike, osnovni<br />

princip kod svih metoda ostaje isti — varijable indikatori koje najviše koreliraju sa faktorom<br />

će pri izračunavanju faktorskog skora imati najveći ponder.<br />

Osnovna prednost korištenja faktorskih skorova ogleda se u tome što su usko povezani sa<br />

rezultatima same faktorske analize i preciznije predstavljaju dobijene faktore. Također,<br />

korištenje regresionih faktorskih skorova će najčešće rezultirati varijablama koje međusobno<br />

ne koreliraju, što može biti prednost ako se u daljim analizama želimo u potpunosti riješiti<br />

multikolinearnosti.<br />

17<br />

Za za više detalja pogledati: DiStefano et al. (2009)<br />

36


Osnovni nedostatak faktorskih skorova je vezan za činjenicu da njihova vrijednost može varirati<br />

u zavisnosti od toga koja metoda estimacije i rotacije je korištena. To može predstavljati<br />

problem ukoliko želimo replicirati rezultate u ponovljenim istraživanjima (DiStefano et al.,<br />

2009; Howitt & Cramer, 2011). Pored ovoga, interpretiranje faktorskih skorova nije u<br />

potpunosti intuitivno jer sve varijable iz analize kroz pondere imaju uticaj na faktorski skor<br />

(Hair et al., 2006).<br />

Primjer 2 - Nastavak<br />

Izračunavanje faktorskih skorova u Stati se obavlja korištenjem naredbe predict nakon završene<br />

faktorske analize:<br />

. predict fs_pristup fs_izgled fs_osoblje fs_benefiti<br />

(regression scoring assumed)<br />

(output izostavljen)<br />

Ovim smo Stati dali instrukciju da u skupu sa podacima kreira četiri nove varijable – fs_pristup,<br />

fs_izgled, fs_osoblje i fs_benefiti – unutar kojih će se nalazati faktorski skorovi svakog<br />

ispitanika izračunati korištenjem regresionog metoda. 18 Imena varijabli su proizvoljna, a prefiks<br />

fs smo odabrali da naznačimo da je riječ o varijablama koje sadrže faktorske skorove.<br />

Deskriprivna statistika za faktorske skorove:<br />

. tabstat fs_pristup fs_izgled fs_osoblje fs_benefiti, s(mean sd p50 count min max<br />

skew k) format(%9.3f)<br />

stats | fs_pri~p fs_izg~d fs_oso~e fs_ben~i<br />

---------+----------------------------------------<br />

mean | -0.000 0.000 0.000 -0.000<br />

sd | 1.000 1.000 1.000 1.000<br />

p50 | 0.273 0.152 0.307 0.436<br />

N | 324.000 324.000 324.000 324.000<br />

min | -4.519 -4.297 -6.136 -4.341<br />

max | 1.412 2.697 2.225 1.969<br />

skewness | -1.639 -0.841 -2.045 -1.844<br />

kurtosis | 6.424 4.668 10.745 6.827<br />

--------------------------------------------------<br />

Možemo uočiti da faktorski skorovi imaju prosjek vrlo blizu nule sa SD = 1.<br />

18<br />

Za izračunavanje faktorskih skorova korištenjem Bartletovog metoda morali bi upotrijebiti opciju barttlet:<br />

predict varlist, bartlett<br />

37


4.8.2. Sumarne skale<br />

Sumarnu skalu (engl. summated scale) ili kompozitni skor (engl. composite score) možemo<br />

definisati kao prosti prosjek varijabli indikatora koje imaju smisleno učitavanje na dati faktor: 19<br />

KS<br />

i<br />

gdje je<br />

X<br />

1<br />

X<br />

2<br />

... X<br />

k<br />

<br />

k<br />

KSi = kompozitni skor za faktor i<br />

Xk = varijable indikatori<br />

k = broj varijabli indikatora<br />

Na primjer, ako smo dobili da su varijable X1, X2, i X5 indikatori fakora 1, a ispitanik A po te tri<br />

varijable ima ocjene: 4, 5 i 3, onda će kompozitni skor za datog ispitanika A po faktoru 1 biti:<br />

(4 + 5 + 3) / 3 = 4. U nastavku se za ispitanika A izračunavaju kompozitni skorovi za ostale<br />

faktore, a onda se postupak ponavlja za ostale ispitanike. 20<br />

Osnovne prednosti korištenja sumarnih skala su jednostavnost, intuitivnost i lakoća repliciranja<br />

rezultata u ponovljenim istraživanjima. S druge strane, glavni nedostatak je što rezultirajuće<br />

varijable mogu u nekoj mjeri međusobno korelirati i što se zanemaruje činjenica da različite<br />

varijable mogu imati različite pondere sa kojima se učitavaju na faktor. Također, korištenje<br />

sumarnih skala zahtjeva detaljniju analizu aspekata pouzdanosti i validnosti (Hair et al., 2006).<br />

Ukoliko ti aspekti nisu zadovoljeni ne bi trebali formirati sumarne skale.<br />

Primjer 2 - Nastavak<br />

Iako izračunavanje kompozitnih skorova za svakog ispitanika djeluje kao naporan zadatak, u<br />

Stati možemo iskoristiti komandu egen koje će pomoći da sve izračunamo automatski. Prvo<br />

ćemo izračunati kompozitne skorove za prva tri faktora:<br />

. egen ks_pristup = rmean(lokacija parking rad_vrijeme)<br />

(2 missing values generated)<br />

. egen ks_izgled = rmean(dekor higijena izgled atmosfera)<br />

(3 missing values generated)<br />

. egen ks_osoblje = rmean(komp_osob ljubaznost usl_osob)<br />

(3 missing values generated)<br />

19<br />

Nekada se koristi i prosti zbir. Međutim, računanjem prosjeka se olakšava interpretacija obzirom da će se<br />

novo dobijene vrijednosti nalaziti u rasponu originalne skale. Pored toga dobija se validnija vrijednost za<br />

ispitanike koji su preskočili odgovor na neku od tvrdnji.<br />

20<br />

Ako neka varijabla ima negativno učitavanje na faktor, prije izračunavanja kompozitnog skora može se<br />

"obrnuti" da ima isti smjer kao i ostale varijable koje se učitavaju na taj faktor. Time se olakšava interpretacija i<br />

poređenje dobijenih skorova za različite faktore. To se radi uz pomoć naredbe recode koja je objašnjena u<br />

ranijim materijalima.<br />

38


Ovim smo Stati dali instrukciju da u skupu sa podacima kreira tri nove varijable: ks_pristup,<br />

ks_izgled i ks_osoblje – unutar kojih će se nalazati kompozitni skorovi za svakog ispitanika.<br />

Obratimo pažnju da nam je ostalo još da izračunamo kompozitni skor za faktor „Finansijski<br />

benefiti“ kod kojeg je tvrdnja cijena bila negativno konotirana. Za razliku od ostalih tvrdnji,<br />

gdje veći broj na Likertovoj skali označava veće slaganje, kod tvrdnje cijena je situacija<br />

obrnuta.<br />

Ako neki item ima negativno učitavanje na faktor, prije izračunavanja kompozitnog skora<br />

poželjno ga je "obrnuti" da ima isti smjer kao i ostali itemi koje se učitavaju na taj faktor.<br />

Drugim riječima, trebamo rekodirati varijablu cijena tako da: a) vrijednost 1 (apsolutno se ne<br />

slažem) postane vrijednost 5 (aposlutno se slažem), vrijednost 2 (ne slažem se) postane<br />

vrijednost 4 (slažem se) itd. A to postižemo uz pomoć naredbe recode:<br />

. recode cijene (1=5) (2=4) (3=3) (4=2) (5=1), gen (cijene_r)<br />

(300 differences between cijene and cijene_r)<br />

Naredbom smo generirali novu varijablu koja se zove cijene_r i koja sadrži "ispravljene" ili<br />

"obrnute" vrijednosti orginalne varijable cijene, a koje idu u istom smijeru kao i vrijednosti<br />

ostalih varijabli koje se učitavaju na dati faktor. Ostalo nam je još samo da generiramo<br />

kompozitni skor:<br />

. egen ks_benefiti = rmean(promocije cijene_r nag_igre)<br />

(2 missing values generated)<br />

Obratite pažnju da smo za izračunavanje kompozitnog skora koristili novokreiranu varijablu<br />

cijene_r. Deskriptivna statistika za kompozitne skorove biće:<br />

. tabstat ks_pristup ks_izgled ks_osoblje ks_benefiti, s(mean sd p50 count min max<br />

skew k) format(%9.3f)<br />

stats | ks_pri~p ks_izg~d ks_oso~e ks_ben~i<br />

---------+----------------------------------------<br />

mean | 4.355 3.950 4.642 4.482<br />

sd | 0.745 0.678 0.546 0.734<br />

p50 | 4.667 4.000 5.000 4.667<br />

N | 333.000 332.000 332.000 333.000<br />

min | 1.000 1.000 1.000 1.000<br />

max | 5.000 5.000 5.000 5.000<br />

skewness | -2.016 -1.223 -2.552 -1.977<br />

kurtosis | 8.074 6.140 14.087 7.525<br />

--------------------------------------------------<br />

Nakon što smo izračunali faktorske i kompozitne skorove, pogledajmo kako oni međusobno<br />

koreliraju:<br />

39


. correlate fs_pristup fs_izgled fs_osoblje fs_benefiti<br />

(obs=324)<br />

| fs_pri~p fs_izg~d fs_oso~e fs_ben~i<br />

-------------+------------------------------------<br />

fs_pristup | 1.0000<br />

fs_izgled | 0.0000 1.0000<br />

fs_osoblje | -0.0000 -0.0000 1.0000<br />

fs_benefiti | -0.0000 0.0000 0.0000 1.0000<br />

Obratimo pažnju da varijable sa faktorskim skorovima međusobno ne koreliraju jer ne dijele<br />

zajedničku varijansu.<br />

. correlate ks_pristup ks_izgled ks_osoblje ks_benefiti<br />

(obs=332)<br />

| ks_pri~p ks_izg~d ks_oso~e ks_ben~i<br />

-------------+------------------------------------<br />

ks_pristup | 1.0000<br />

ks_izgled | 0.3508 1.0000<br />

ks_osoblje | 0.3886 0.4558 1.0000<br />

ks_benefiti | 0.2697 0.2110 0.2641 1.0000<br />

S druge strane, varijable sa kompozitnim skorovima međusobno koreliraju u izvjesnoj mjeri<br />

obzirom da dijele jedan dio zajedničke varijanse.<br />

Na kraju ćemo napomenuti da smo u ovom primjeru izračunali i faktorske i kompozitne skorove<br />

kako bi ilustrovali postupak kao i njihove međusobne razlike. U stvarnoj analizi istraživač se<br />

treba odlučiti za jednu od ove dvije opcije imajući u vidu njihove prednosti, nedostatke i<br />

specifične ciljeve dalje analize.<br />

5. KAKO NAPISATI SAŽETAK ANALIZE<br />

Primjer 2 - Nastavak<br />

Petnaest tvrdnji mjerenih na Petostepenoj likertovoj skali i vezanih za percepciju važnosti<br />

razloga koje kupci razmatraju pri odabiru tržnog centra analizirano je putem eksplorativne<br />

faktorske analize. Veličina uzorka sa kompletnim podacima (n = 323) je bila zadovoljavajuća<br />

sa omjerom od preko 21 ispitanika po varijabli. Kaiser-Meyer-Olkin mjera adekvatnosi uzorka<br />

iznosila je KMO = 0.816 što je više od minimalno preporučenih 0.6. Bartlettov test sfericiteta<br />

(χ2(105) = 1413.62, p = 0.000) je bio signifikantan, dok je determinata korelacione matrice<br />

iznosila 0.011. Imajući u vidu sve navedeno zaključeno je da su prikupljeni podaci prikladni za<br />

eksplorativnu faktorsku analizu.<br />

Inicijalna analiza je provedena na svih petnaest varijabli indikatora koristeći prinicpal<br />

component factoring metod estimacije. Vodeći se Kajzerovim kriterijom zadržano je pet faktora<br />

koji su imali karakterističnu vrijednost veću od 1. Ovih pet faktora je objašnjavalo 64.83%<br />

ukupne varijanse. Dijagram prevoja i rezultati paralelne analize su dodatno potvrdili odluku o<br />

zadržavanju pet faktora.<br />

Nakon Varimax rotacije sa Kajzerovom normalizacijom utvrđeno je da se varijable broj<br />

blagajni i raznolikost asortimana ne uklapaju dobro u inicijalno faktorsko rješenje. Varijabla<br />

40


oj blagajni je imala nisko i približno jednako unakrsno učitavanje na dva faktora, dok se<br />

sadržajem nije najbolje uklapala niti na jedan faktor. S druge strane, varijabla raznolikost<br />

asortimana je bila jedina varijabla koja se učitavala na peti faktor. Utvrđeno je i da ova varijabla<br />

dijeli veoma mali iznos zajedničke varijanse (18%) sa ostalim varijablama. Imajući u vidu<br />

preporuku da bi se latentni konstrukti trebali mjeriti sa bar tri indikatorske varijable, u prvom<br />

koraku smo eliminisali varijablu raznolikost asortimana. Nakon njene eliminacije, korištenje<br />

Kajzerovog kriterija u ponovljenoj analizi je rezultiralo zadržavanjem četiri faktora. Obzirom<br />

da se varijabla broj blagajni i dalje nije dobro uklapala u dobijeno rješenje ona je eliminisana<br />

u drugom koraku čime smo dobili finalno rješenje sa četiri faktora koja objašnjavaju 62.61%<br />

ukupne varijanse što je prikazano u tabeli 9.<br />

Tabela 9 – Faktorska učitavanja nakon Varimax rotacije sa Kajezerovom normalizacijom<br />

Item<br />

41<br />

Faktorska učitavanja<br />

1 2 3 4 Komunalitet<br />

Lokacija tržnog centra .870 .792<br />

Dovoljno parking prostora .803 .729<br />

Česte prodajne promocije (besplatne probe i sl.) .598 .446<br />

Najpovoljnije cijene (R) -.834 .702<br />

Česte nagradne igre .784 .657<br />

Kompetentno osoblje .682 .558<br />

Ljubazan prijem .801 .717<br />

Ugodna atmosfera .658 .470<br />

Vanjski izgled tržnog centra .663 .529<br />

Radno vrijeme tržnog centra .684 .578<br />

Uslužno osoblje .834 .747<br />

Zadovoljavajući nivo higijene .714 .611<br />

Stajling i dekor unutar tržnog centra .743 .605<br />

Karakteristične vrijednosti (Eigenvalues) 2.138 2.126 2.073 1.803<br />

% ukupne varijanse 16.45 16.35 15.95 13.87<br />

Napomena: KMO = 0.810; Batlett χ2(78) = 1179.91, p = 0.000; prikazana su samo faktorska učitavanja > |.30|<br />

Faktor 1 je nazvan “Pogodnost pristupa” i odnosi se stvari koje kupcima olakšavaju pristup<br />

tržnom centru kao što su: lokacija, parking i dužina radnog vremena. Faktor 2 se odnosi na<br />

“Izgled” tržnog centra koji se manifestuje preko atmosfere, izgleda, higijene i unutrašnjeg<br />

dekora. Faktor 3 smo nazvali “Osoblje” obzirom da se tvrdnje koje se učitavaju na taj faktor<br />

odnose na kompetentnost, ljubaznost i uslužnost osoblja koje je u dodiru sa kupcima. Faktor 4<br />

je imenovan “Novčani benefiti” jer povezuje tvrdnje koje se odnose na finansijske koristi koje<br />

kupci mogu ostvariti u tržnom centru kroz cijene, promocije i nagradne igre.<br />

Po završetku faktorske analize, provjerena je interna konzistentnost skale izračunavanjem<br />

Kronbah alfa koeficijenta. Imajući u vidu eksplorativni karakter studije, koeficijent alfa je bio<br />

zadovoljavajući.<br />

Na kraju su kreirani kompozitni skorovi na bazi prosjeka varijabli koje se primarno učitavaju<br />

na svaki od četiri faktora, gdje veći skor označava veću važnost faktora pri donošenju odluke o


izboru tržnog centra. Prije kreiranja skorova negativno konotirana tvrdnja vezana za cijene je<br />

rekodirana tako da njene vrijednosti imaju isti smjer kao i vrijednosti ostalih varijabli.<br />

Deskriptivna statistika i rezultati analize pouzdanosti su predstavljeni u tabeli 10.<br />

Tabela 10 – Deskriptivna statistika i rezultati analize pouzdanosti za četiri faktora izbora tržnog<br />

centra (n = 332)<br />

Broj itema M (SD) Skewness Kurtosis Cronbach’s α<br />

Pogodnost pristupa 3 4.36 (.75) -2.02 8.07 .777<br />

Izgled 4 3.95 (.68) -1.22 6.14 .686<br />

Osoblje 3 4.64 (.55) -2.55 14.09 .734<br />

Novčani benefiti 3 4.48 (.73) -1.98 7.53 .628<br />

Na osnovu rezultata u tabeli 10 možemo zaključiti da je interakcija sa zaposlenim osobljem<br />

najvažniji faktor kojeg kupci razmatraju pri izboru tržnog centra, dok je izgled najmanje bitan.<br />

Ipak, pri tumačenju važnosti trebamo biti oprezni obzirom da distribucije za sva četiri faktora<br />

znatno nakrivljene prema pozitivnim ocjenama i da su razlike u prosjecima vrlo male.<br />

42


6. PRILOZI<br />

Prilog 1 – Korelaciona matrica za petnaest indikatorskih varijabli<br />

. pwcorr lokacija-asortiman<br />

| lokacija parking promoc~e cijene nag_igre komp_o~b br_bla~i<br />

-------------+---------------------------------------------------------------<br />

lokacija | 1.0000<br />

parking | 0.6868 1.0000<br />

promocije | 0.2322 0.3113 1.0000<br />

cijene | -0.1390 -0.1433 -0.2917 1.0000<br />

nag_igre | 0.2255 0.2701 0.3504 -0.4754 1.0000<br />

komp_osob | 0.2593 0.2956 0.1365 -0.1173 0.2851 1.0000<br />

br_blagajni | 0.2515 0.3448 0.2756 -0.2018 0.3177 0.4542 1.0000<br />

ljubaznost | 0.1915 0.2565 0.2614 -0.1248 0.1827 0.4452 0.4166<br />

atmosfera | 0.0692 0.1576 0.0860 -0.0706 0.0838 0.1774 0.3298<br />

izgled | 0.1838 0.2286 0.1753 -0.0727 0.1598 0.3336 0.3504<br />

rad_vrijeme | 0.4784 0.4295 0.1800 -0.0087 0.1751 0.3037 0.2537<br />

usl_osob | 0.1984 0.2808 0.2412 -0.1039 0.1701 0.4884 0.2628<br />

higijena | 0.2826 0.2976 0.2025 -0.0791 0.1817 0.2876 0.3482<br />

dekor | 0.2105 0.2479 0.1750 -0.1276 0.1374 0.2813 0.2731<br />

asortiman | 0.0146 0.0425 0.1661 -0.1399 0.2012 0.1561 0.1653<br />

| ljubaz~t atmosf~a izgled rad_vr~e usl_osob higijena dekor<br />

-------------+---------------------------------------------------------------<br />

ljubaznost | 1.0000<br />

atmosfera | 0.2764 1.0000<br />

izgled | 0.3445 0.3441 1.0000<br />

rad_vrijeme | 0.2882 0.1248 0.2940 1.0000<br />

usl_osob | 0.6152 0.2369 0.2892 0.3033 1.0000<br />

higijena | 0.3214 0.3123 0.3997 0.3186 0.3235 1.0000<br />

dekor | 0.2516 0.2582 0.3895 0.2432 0.2283 0.4940 1.0000<br />

asortiman | 0.1812 0.0423 0.1673 0.2869 0.2149 0.2333 0.1647<br />

| asorti~n<br />

-------------+---------<br />

asortiman | 1.0000<br />

43


References<br />

Burns, R., & Burns, R. (2008). Business research methods and statistics using SPSS. Los<br />

Angeles, London: SAGE.<br />

Cortina, J. M. (1993). What Is Coefficient alpha? An Examination of Theory and<br />

Applications. Journal of Applied Psychology, 78(1), 98–104.<br />

Costello, A. B., & Osborne, J. W. (2005). Best Practices in Exploratory Factor Analysis::<br />

Four Recommendations for Getting the Most From Your Analysis. Practical Assessment,<br />

Research & Evaluation, 10(7), 1–9.<br />

Dancey, C. P., & Reidy, J. (2011). Statistics Without Maths for Psychology (5th ed.): Pearson<br />

Prentice Hall.<br />

DeCoster, J. (1998). Overview of Factor Analysis. Retrieved from http://www.stathelp.com/notes.html<br />

DiStefano, Christine, Zhu, Min & Mîndrilă, & Diana. (2009). Understanding and Using<br />

Factor Scores:: Considerations for the Applied Researcher. Practical Assessment, Research<br />

& Evaluation, 14(20).<br />

Drennan, R. D. Statistics for Archaeologists: A Common Sense Approach (2nd ed.).<br />

Interdisciplinary Contributions to Archaeology: Springer.<br />

Fabrigar, L. R., Wegener, D. T., MacCallum, R. C., & Strahan, E. J. (1999). Evaluating the<br />

use of exploratory factor analysis in psychological research. Psychological Methods, 4(3),<br />

272–299. https://doi.org/10.1037/1082-989X.4.3.272<br />

Field, A. (2009). Discovering Statistics Using SPSS: Introducing Statistical Methods (3rd<br />

ed.): SAGE Publications Ltd.<br />

George, D., & Mallery, P. (2003). SPSS for Windows step by step: A simple guide and<br />

reference, 11.0 update (4th ed.). Boston: A & B.<br />

Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. D. (2006). Multivariate<br />

Data Analysis (6th ed.): Pearson Prentice Hall.<br />

Howitt, D., & Cramer, D. (2011). Introduction to Statistics in Psychology (5th ed.): Pearson<br />

Prentice Hall.<br />

Huck, S. W. (2012). Reading Statistics and Research (6th ed.): Pearson Education, Inc.<br />

Malhotra, N. K. (2010). Marketing Reseaerch: An Applied Orientation (6th ed.): Prentice<br />

Hall.<br />

Mazzocchi, M. (2008). Statistics for marketing and consumer research. London: SAGE<br />

Publications Ltd.<br />

Norman, G. R., & Streiner, D. L. (2003). PDQ statistics (3rd ed.). PDQ series. Hamilton,<br />

Ont., London: B.C. Decker.<br />

Nunnally, J. C. (1978). Psychometric theory (2nd). New York: McGraw-Hill.<br />

O'Rourke, N., Hatcher, L., & Stepanski, E. J. (2005). A step-by-step approach to using SAS®<br />

for univariate & multivariate statistics (2. ed., 1. print). Cary, NC: SAS Inst. Retrieved<br />

from http://www.loc.gov/catdir/enhancements/fy0625/2005051062-d.html<br />

Osborne, J. W. (2015). What Is Rotating in Exploratory Factor Analysis? Practical<br />

Assessment, Research & Evaluation, 20(2), 1–7.<br />

Pallant, J. (2011). SPSS Priručnik za preživljavanje: Postupni vodič kroz analizu podataka<br />

pomoću SPSS-a (4th ed.): Mikro knjiga.<br />

Rabe-Hesketh, S., & Everitt, B. (2004). A handbook of statistical analyses using Stata (3rd<br />

ed.). Boca Raton Fla.: Chapman & Hall/CRC.<br />

44


Sarstedt, M., & Mooi, E. (2014). A concise guide to market research: The process, data, and<br />

methods using IBM SPSS Statistics (2nd ed. 2014). Springer Texts in Business and<br />

Economics. Berlin, Heidelberg, s.l.: Springer Berlin Heidelberg. Retrieved from<br />

http://www.guide-market-research.com/<br />

Singh, K. (2007). Quantitative social research methods. Thousand Oaks, Calif., London: Sage<br />

Publications.<br />

Subotić, S. (2013). Pregled metoda za utvrđivanje broja faktora i komponenti (u EFA i PCA).<br />

Primenjena psihologija, 6(3), 203–229.<br />

Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics (5th ed.): Pearson<br />

Education, Inc.<br />

Taylor, A. (2004). A Brief Introduction to Factor Analysis.<br />

Williams, B., Brown, T., & Onsman, A. (2012). Exploratory factor analysis:: A five-step<br />

guide for novices. Australasian Journal of Paramedicine, 8(3), 1–13.<br />

Yong, A. G., & Pearce, S. (2013). A Beginner’s Guide to Factor Analysis:: Focusing on<br />

Exploratory Factor Analysis. Tutorials in Quantitative Methods for Psychology, 9(2), 79–<br />

94.<br />

Zikmund, W. G., Babin, B. J., Carr, J. C., & Griffin, M. (2009). Business Research Methods<br />

(8th ed.): Cengage Learning.<br />

45


UNIVERZITET U SARAJEVU<br />

EKONOMSKI FAKULTET U SARAJEVU<br />

Osnove inferencijalne statistike 1<br />

Autor:<br />

prof. dr Emir Agić<br />

Sarajevo, 04. april 2017. godine<br />

1<br />

NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />

njegovih dijelova bez prethodnog pisanog pristanka autora.<br />

1


Sadržaj<br />

I OSNOVE INFERENCIJALNE STATISTIKE ............................................................................. 3<br />

1. Teoretske distribucije ................................................................................................... 3<br />

1.1. Pojmovno određenje teoretske distribucije .............................................................. 3<br />

1.2. Uobičajene teoretske distribucije ............................................................................. 4<br />

1.3. Procjena oblika distribucije ...................................................................................... 4<br />

1.4. Opservirana nasuprot teoretskoj distribuciji ............................................................ 5<br />

1.5. Upotreba teorestksih distribucija ............................................................................. 5<br />

2. Normalna distribucija i njene karakteristike ............................................................. 5<br />

3. Standardna normalna distribucija .............................................................................. 6<br />

3.1. Standardizacija podataka ......................................................................................... 7<br />

3.2. Standardna ili z-distribucija ..................................................................................... 9<br />

3.3. Standardna normalna distribucija i vjerovatnoća ..................................................... 9<br />

3.4. Područja ispod krive normalne distribucije ............................................................. 9<br />

3.5. Tablične vrijednosti za standardnu normalnu distribuciju ..................................... 10<br />

3.6. Kritične z-vrijednosti ............................................................................................. 12<br />

4. Primjena standardne normalne distribucije ............................................................. 14<br />

5. Sampling distribucija i standardna greška ............................................................... 18<br />

5.1. Greška mjerenja i uzorkovanja .............................................................................. 18<br />

5.2. Sampling distribucija ............................................................................................. 19<br />

5.3. Procjena standardne greške .................................................................................... 20<br />

6. Centralni granični teorem .......................................................................................... 21<br />

7. Estimacija i interval povjerenja ................................................................................. 23<br />

7.1. Preciznost estimacije .............................................................................................. 23<br />

7.2. Interval povjerenja ................................................................................................. 24<br />

8. Studentova t-distribucija ............................................................................................ 26<br />

8.1. Problem malog uzorka i primjene z-distribucije .................................................... 26<br />

8.2. Rješenje problema: t-distribucija ........................................................................... 26<br />

8.3. Statističke tablice za t-distribuciju ......................................................................... 27<br />

8.4. Standardna greška i interval povjerenja za t-distribuciju ....................................... 28<br />

9. Binomna distribucija................................................................................................... 29<br />

9.1. Karakteristike binomne distribucije ....................................................................... 29<br />

9.2. Aritmetička sredina i standardna devijacija binomne distribucije ......................... 33<br />

9.3. Normalna aproksimacija binomne distribucije ...................................................... 34<br />

9.4. Provjera preciznosti aproksimacije binomne distribucije ...................................... 36<br />

9.5. Sampling distribucija proporcije i standardna greška proporcije .......................... 36<br />

2


I<br />

OSNOVE INFERENCIJALNE STATISTIKE<br />

1. TEORETSKE DISTRIBUCIJE<br />

Teoretske distribucije su temelj na kojima počiva statistička <strong>teorija</strong>. U ovom kratkom uvodu<br />

objasnićemo šta podrazumijevamo pod teoretskom distribucijom, predstaviti neke od<br />

uobičajenih teoretskih distribucija i vidjeti u kakvom se odnosu nalaze sa empirijskim<br />

(opserviranim) distribucijama.<br />

1.1. POJMOVNO ODREĐENJE TEORETSKE DISTRIBUCIJE<br />

U poglavlju X smo dali pregled mjera centralne tendencije i disperzije kao načina opisivanja<br />

podataka i upoznali se sa pojmom distribucije frekvencija i relativne distribucije frekvencija. U<br />

bliskoj vezi sa relativnom distribucijom frekvencija je pojam teoretske distribucije. Teoretska<br />

distribucija ili distribucija vjerovatnoće (engl. probability distribution) je ništa drugo do<br />

relativna distribucija frekvencija za beskonačno veliki uzorak opservacija koja je opisana<br />

matematskom formulom.<br />

Na primjer, pretpostavimo da iz populacije slučajnim odabirom selektujemo ispitanike i<br />

bilježimo vrijednost njihovih mjesečnih primanja što je predstavljeno na slici 1.<br />

Slika 1 – Teoretska distribucija i kriva gustoće za mjesečna primanja<br />

Izvor: hipotetski podaci<br />

Kako se broj ispitanika povećava, tako se vrhovi stupaca na histogramu za neprekidnu varijablu<br />

"mjesečna primanja" sve više i više približavaju glatkoj krivoj na slici 1. Ova kriva se naziva<br />

krivom gustoće (engl. density curve) i opisuje oblik relativne distribucije frekvencija koji bi se<br />

teoretski trebao javiti za opservacije iz populacije koja je predmetom studije.<br />

3


1.2. UOBIČAJENE TEORETSKE DISTRIBUCIJE<br />

Statističari su identifikovali nekoliko uobičajenih distribucija vjerovatnoće. Na slici 2 su<br />

predstavljene samo neke od tih distribucija. Možemo primjetiti da između različitih distribucija<br />

postoje poveznice. Na primjer, vidimo da se pod određenim uslovima neke prekidne distribucije<br />

(binomna, hipergeometrijska i Posaonova) mogu aproksimirati normalnom distribucijom. Iz<br />

normalne distribucije se izvode: a) Studentova t-distribucija koja u odnosu na normalnu ima<br />

nešto više raspršene vrijednostima oko sredine, b) χ 2 (hi-kvadrat) distribucija koju dobijemo<br />

ako saberemo kvadrirane vrijednosti varijabli koje slijede normalnu distribuciju i c) log<br />

normalna distribucija koja se odnosi na raspodjelu slučajne varijable čije su logaritmaske<br />

vrijednosti normalno distribuirane. 2<br />

Slika 2 – Neke od uobičajenih teoretskih distribucija<br />

Izvor: Sean Owen<br />

Najpoznatija teoretska distribucija za kontinuirane varijable je normalna distribucija, dok je za<br />

diskretne (prekidne) varijable najpoznatija binomna distribucija.<br />

Iako dolaze u raznim oblicima, svim teoretskim distribucijama zajedničko je to da zbir<br />

vjerovatnoća ispod krive gustoće uvijek mora biti jednak 1.<br />

1.3. PROCJENA OBLIKA DISTRIBUCIJE<br />

Prije bilo kakve analize podataka, poželjno je da se upoznamo sa vlastitim podacima tako što<br />

ćemo ispitati oblik njihove distribucije. Procjena oblika distribucije (engl. distribution-fitting)<br />

podrazumjeva analizu distribucije frekvencija određene opservirane varijable kako bi se<br />

donijela odluka o tome koju teoretsku distribuciju prati data varijabla. Procjena se u praksi<br />

najčešće vrši na bazi uzorka i to na način da vizualno, ili uz pomoć sepcijaliziranog softvera,<br />

pokušamo utvrditi u kojoj mjeri se empirisjka distribucija frekvencija za podatke iz uzorka<br />

poklapa sa nekom od poznatih teoretskih distribucija. Odabir odgovarajuće teoretske<br />

distribucije je bitan iz razloga što nam omogućava smanjenje greški prilikom statističke analize,<br />

a samim tim i izbjegavanje pogrešnih zaključaka i donošenje loših odluka.<br />

2<br />

Više o međusobnoj povezanosti različitih teoretskih distribucija možete pročitati na: http://tinyurl.com/gnptgqw<br />

4


1.4. OPSERVIRANA NASUPROT TEORETSKOJ DISTRIBUCIJI<br />

Nakon što se identifikuje odgovarajuća teoretska distribucija, ona se može upotrijebiti kako bi<br />

se razumjeli opservirani obrasci unutar podataka. U tom kontekstu, možemo reći da opservirana<br />

distribucija frekvencija za slučajnu varijablu X pokazuje koliko puta se neka vrijednost<br />

pojavljuje unutar skupa podataka, a teoretska distribucija pokazuje koliko puta bi se ta<br />

vrijednost trebala pojaviti ukoliko slučajna varijabla X unutar populacije slijedi jednu od<br />

uobičajenih distribucija vjerovatnoće.<br />

1.5. UPOTREBA TEORESTKSIH DISTRIBUCIJA<br />

Već smo rekli da su teoretske distribucije temelj na kojima počiva statistička <strong>teorija</strong>. Bitnost<br />

njihove uloge proizilazi iz toga što su korisne za rješavanje mnogih poslovnih i drugih problema<br />

jer nam pomažu pri utvrđivanju vjerovatnoće da će se desiti događaj od interesa, da će se<br />

opservacija naći unutar određenog intervala i sl. Pored ovoga, teoretske distribucije<br />

omogućavaju da poredimo varijanse ili stvarne i očekivane frekvencije, kako bi utvrdili<br />

vjerovatnoću na osnovu koje možemo donijeti sud o tome da li dobijene razlike predstavljaju<br />

stvarni efekat ili su rezultat slučajnih fluktuacija prilikom uzorkovanja. Sa nekim od ovih<br />

primjena upoznaćemo se detaljnije na primjeru normalne distribucije.<br />

2. NORMALNA DISTRIBUCIJA I NJENE KARAKTERISTIKE<br />

Vjerovatno najvažnija teoretska distribucija u statistici je normalna distribucija. Naime, uočeno<br />

da prirodne varijacije za mnoge fenomene u prirodnim i društvenim naukama slijede normalnu<br />

distribuciju. Na primjer, ako izaberemo slučajni uzorak 100 osoba i na histogramu prikažemo<br />

njihove visine, vjerovatno je da će taj histogram slijediti oblik normalne distribucije.<br />

Normalna distribucija ima centralnu ulogu u statističkoj teoriji jer se na nju naslanja većina<br />

parametrijskih procedura uključujući i testove signifikantnosti. Matematski izraz za normalnu<br />

distribuciju glasi:<br />

f ( x)<br />

<br />

1<br />

e<br />

2<br />

2<br />

( x )<br />

2<br />

2<br />

Ova prilično komplikovana formula opisuje krivu normalne distribucije. Obzirom da su π i e<br />

konstante, oblik krive normalne distribucije zavisi prvenstveno od aritmetička sredine (μ) i<br />

standardne devijacije (σ). Iz tog razloga normalna distribucija se često označava sa N(μ,σ), gdje<br />

N govori da se radi o normalnoj distribuciji.<br />

Primjer 2.1<br />

Pretpostavimo da smo na bazi uzorka prikupili podatke o prosječnim neto platama tokom jedne<br />

kalendarske godine u tri različite industrije. Nakon što su podaci obrađeni, ustanovljeno je da u<br />

industriji A imamo N(1000, 250), što znači da je prosječna plata 1.000 KM i da je standardna<br />

devijacija 250 KM. U industriji B je N(1000, 300), dok je u industriji C N(1000, 200). Dakle,<br />

5


prosječna primanja su identična u sve tri industrije ali je disperzija oko aritmetičke sredine<br />

drugačija. Pretpostavimo da imamo i industriju D gdje je N(1100, 200). Na slici 3 su prikazane<br />

ove četiri distribucije.<br />

Slika 3 – Distribucija plata unutar četiri industrije<br />

Ako pogledamo sliku 3 uočićemo da prethodna formula u suštini definiše porodicu krivih koje<br />

se razlikuju u pogledu disperzije (σ) i centralne tendencije (μ). U svim ostalim aspektima<br />

članovi porodice imaju iste karakteristike koje se ogledaju u sljedećem:<br />

1. Simetričnost. Proporcija vrijednosti koje se nalazi ispod aritmetičke sredine jednaka je<br />

proporciji vrijednosti koje se nalazi iznad aritmetičke sredine.<br />

2. Unimodalnost. Svaka normalna distribucija ima jedan maksimum i njegova vrijednost<br />

je identična vrijednosti aritmetičke sredine, medijane i moda.<br />

3. Oblik zvona. Vidimo da je većina vrijednosti koncentrisana oko aritmetičke sredine (μ)<br />

i primjetan je opadajući trend kako se krećemo prema krajevima distribucije.<br />

4. Normalna distribucija je asimptomska (engl. asymptotic) jer njeni krajevi nikada ne<br />

dotiču X osu.<br />

U stvarnosti se rijetko dešava da prikupljeni podaci imaju ovako savršenu distribuciju.<br />

Međutim, za praktičnu primjenu najčešće je dovoljno da opserivrana distribucija frekvencija<br />

približno slijedi teoretsku normalnu distribuciju jer će tada izračuni vjerovatnoće i rezultati<br />

testiranja hipoteza biti približno tačni.<br />

3. STANDARDNA NORMALNA DISTRIBUCIJA<br />

Normalna distribucija je detaljno izučena i bilo koja pojedinačna vrijednost ili opservacija<br />

unutar teoretske normalne distribucije ima tačno pridruženu vjerovatnoću. Međutim, prije nego<br />

predstavimo ove vjerovatnoće i njihove intervale potrebno je da se upoznamo sa konceptom<br />

standardizacije i standardne normalne distribucije.<br />

6


3.1. STANDARDIZACIJA PODATAKA<br />

Kada u obzir uzmemo da svaka varijabla čiji raspored slijedi normalnu distribuciju može imati<br />

različitu aritmetičku sredinu (μ) i standardnu devijaciju (σ), broj unikatnih normalnih<br />

distribucija postaje praktično beskonačan. Ovo može stvoriti problem ako želimo porediti<br />

vrijednosti između različitih distribucija.<br />

Primjer 3.1<br />

Pretpostavimo da su tri komercijalista, svaki na području svog kantona, tokom mjeseca<br />

ostvarila prihod od prodaje predstavljen u tabeli 1. Pored toga u tabeli je za svaki kanton data<br />

prosječna prodaja i njen varijabilitet za sve ostale komercijaliste koji rade za istu kompaniju.<br />

Tabela 1 – Usporedba prodajnog rezultata za trojicu komercijalista<br />

Komercijalista<br />

Rejon<br />

Ostvarena prodaja Prosječna prodaja Standardna<br />

komerc. u KM na rejonu u KM (μ) devijacija u KM (σ)<br />

A Kantnon Sarajevo 20.400 17.200 5.000<br />

B Posavski kanton 10.200 8.800 1.040<br />

C Tuzlanski kanton 12.700 13.300 4.000<br />

Ukoliko uporedimo ostvarenu prosječnu prodaju doći ćemo do zaključka da je u pogledu<br />

rezultata najbolji komercijalista A sa prodajnim rezultatom od 20.400 KM, dok je najlošiji<br />

komercijalista B koji je ostvario samo 10.200 KM. Međutim, ne smijemo zaboraviti da broj<br />

potencijalnih klijenata i njihova platežna sposobnost varira od kantona do kantona. Ovo se može<br />

vidjeti u tabeli 1 gdje je najveća prosječna prodaja svih komercijalista ostvarena u Kantonu<br />

Sarajevo, a najmanja u Posavskom kantonu. Obzirom na različite uslove koji karakterišu svaki<br />

kanton, nije pošteno direktno porediti prodajni rezultat i zaključiti da je komercijalista A duplo<br />

bolji od komercijaliste B.<br />

Na koji način ćemo onda napraviti usporedbu i saznati koji komercijalista je ostvario najbolji<br />

rezultat?<br />

Da bi mogli dati odgovor na postavljeno pitanje, moramo orginalne vrijednosti dobijene u<br />

različitim uslovima učniti međusobno uporedivim. Način na koji to možemo izvesti je da<br />

izvorne vrijednosti dobijene u različitim kantonima pretvorimo u vrijednosti izražene na<br />

zajedničkoj skali. Postupak kojim se dvije različite skale mogu svesti na zajedničku mjeru<br />

naziva se standardizacijom, a jedna od najčešće korištenih metoda standardizacije sastoji u<br />

tome da sve orginalne vrijednosti pretvorimo u vrijednosti izražene preko standardne devijacije:<br />

orginalna vrijednost prosjek<br />

standardna vrijednost ( z ) =<br />

standardna devijacija<br />

Ovakvom transformacijom smo dobili standardnu ili z-vrijednost (engl. z-score) koja nam<br />

govori koliko je orginalna vrijednost udaljena od prosjeka mjereno u jedinicama standardne<br />

devijacije.<br />

U slučaju primjera sa komercijalistima iskoristićemo podatke iz tabele 1 da izračunamo z-<br />

vrijednosti za svakog komercijalistu:<br />

7


z(komercijalista A) = (20.400 – 17.200)/5000 = +0,64<br />

z(komercijalista B) = (10.200 – 8.800)/1040 = +1,35<br />

z(komercijalista C) = (12.700 – 13.300)/4000 = −0,15<br />

Pozicija izračunatih vrijednosti unutar standardne normalne distribucije je prikazana na slici 4.<br />

Slika 4 – Standardizovane vrijednosti komercijalista<br />

Dakle, za komercijalistu A sa prosječnom prodajom od 20.400 KM standardizovana vrijednost<br />

iznosi z = +0,64 i to znači da se on unutar distribucije nalazi 0,64 standardnih devijacija iznad<br />

prosjeka ostalih komercijalista sa područja Kantona Sarajevo. Istovremeno, komercijalista B se<br />

nalazi 1,35 standardne devijacije iznad prosjeka ostalih komercijalista unutar Posavskog<br />

kantona. Ovo znači da je komercijalista B, kada se u obzir uzmu različiti uslovi poslovanja u<br />

ova dva knatona, u relativnom omjeru efikasniji od kolege A iz Kantona Sarajevo. Konačno,<br />

komercijalista C ima negativnu standardnu vrijednosti z = −0,15 što govori da se on nalazi nešto<br />

ispod prosjeka svojih kolega iz Tuzlanskog kantona.<br />

Primjer 3.2<br />

Pretpostavimo da su tokom istraživanja kupci zamoljeni da izraze preferencije prema marci A<br />

i da su dobijeni rezultati distribuirani sa N(5,2). U međuvremenu, proizvođač je napravio<br />

izmjene na proizvodu nakon čega je drugi tim istraživača ponovo mjerio preferencije potrošača.<br />

Igrom slučaja, oni su koristili drugačiju skalu kojom su zabilježili vrijednosti N(15,5). Da li su<br />

preferencije ispitanika koji je na prvoj skali imao ocjenu 7, a na drugoj skali ocjenu 22, veće<br />

prije ili nakon izmijena? Obzirom da dvije skale na kojima su mjerene preferencije očito imaju<br />

drugačija svojstva, teško je napraviti direktno poređenje.<br />

Zbog toga ćemo za uporedbu koristiti standardne vrijednosti. Ako orginalnu vrijednost prve<br />

skale konvertujemo u z-vrijednost dobićemo da je z = (7 − 5)/2 = +1.0. Ovo nam govori da se<br />

rezultat prvog mjerenja za odabranog ispitanika nalazi tačno jednu standardnu devijaciju iznad<br />

prosjeka uzorka. Ako je isti ispitanik u ponovljenom istraživanju na drugoj skali imao 22,<br />

standardna vrijednost će biti z = (22-15)/5 = +1.4, što upućuje na to da je modifikacija proizvoda<br />

iz njegove perspektive bila uspješna.<br />

8


Obratimo pažnju da z-vrijednosti ne govore ništa direktno o apsolutnim iznosima i da na osnovu<br />

njih možemo vršiti samo relativne uporedbe. Na primjer, možemo uporediti relativnu prodaju<br />

komercijalista na različitim područjima ili uporediti relativni iznos poreza kojeg je pojedinac<br />

platio 2001. sa onim iz 2016. godine, ali na osnovu z-vrijednosti ne možemo reći ništa o<br />

apsolutnom iznosu prodaje ili plaćenog poreza.<br />

3.2. STANDARDNA ILI Z-DISTRIBUCIJA<br />

Vrijednosti bilo koje normalno distribuirane varijable možemo pretvoriti u standardizovane<br />

vrijednosti korištenjem prethodno navedene formule. U tom slučaju, rezultirajuća distribucija<br />

se naziva se standardnom normalnom distribucijom ili z-distribucijom. Ona se označava sa<br />

N(0,1), što znači da ima prosjek 0 i standardnu devijaciju 1, kao što se može vidjeti na slici 4.<br />

Iako standardizacija omogućava kompariranje rezultata mjerenih na različitim skalama bitno je<br />

napomenuti da ona ne mijenja osnovne aspekte orginalne distribucije. Prvo, sve opservacije<br />

zadržavaju isti relativni položaj kao i u orginalnoj distribuciji. Samim tim i proporcije između<br />

njih ostaju identične. Drugo, oblik z-distibucije ostaje nepromjenjen. Ako je orginalna<br />

distribucija bila nesimetrična i z-distribucija će imati nesimetričan oblik. Ovo je bitno upamtiti<br />

jer nekada istraživači naprave grešku misleći da mogu „normalizovati" nesimetrično<br />

distribuiranu varijablu time što će je pretvoriti u z-vrijednosti, što nije tačno.<br />

Standardna normalna distribucija ima svojstva koja se mogu primjeniti na sve probleme u<br />

kojima varijabla ima normalan raspored što će biti ilustrovano u narednim sekcijama.<br />

3.3. STANDARDNA NORMALNA DISTRIBUCIJA I VJEROVATNOĆA<br />

Zašto je važna normalna distribucija? Statističari su iskoristili činjenicu da se preko prosjeka<br />

(μ) i standardne devijacije (σ) matematski može predstaviti oblik normalne distribucije kako bi<br />

izračunali vjerovatnoću pojave bilo koje numeričke vrijednosti unutar normalno distribuirane<br />

varijable. Drugim riječima, bilo koja pojedinačna vrijednost ili opservacija unutar teoretske<br />

normalne distribucije ima tačno pridruženu vjerovatnoću. Na bazi toga je izračunato koliki<br />

postotak od ukupnog broja vrijednosti ili opservacija se nalazi u određenim intervalima. Upravo<br />

ove dobro poznate vjerovatnoće su razlog zašto veliki broj statističkih testova podrazumjeva<br />

normalnu distribuciju.<br />

3.4. PODRUČJA ISPOD KRIVE NORMALNE DISTRIBUCIJE<br />

Primjer 3.2<br />

Da bi ilustrovali ove koncepte poslužimo se sa sljedećim primjerom. Pretpostavimo da je<br />

utvrđeno da iznos novca kojeg turisti potroše tokom sedmičnog boravka u jednom hotelskom<br />

kompleksu slijedi normalnu distribuciju sa prosjekom μ = 1.000 KM i standardnom devijacijom<br />

σ = 200 KM. Na slici 5 je grafički predstavljena ova distribucija. Ispod x-ose nalaze se izvorne<br />

vrijednosti u KM, standardizovane z-vrijednosti koje označavaju udaljenosti opservirane<br />

dnevne potrošnje od aritmetičke sredine izražen u broju standardnih devijacija i pridružene<br />

vjerovatnoće (p). Šta znače ove vjerovatnoće i kako ih interpretiramo?<br />

9


Slika 5 - Područja ispod krive normalne distribucije za varijablu sa μ = 1.000 KM i σ = 200<br />

KM<br />

Prvo, standardizovana vrijednost koja je jednaka aritmetičkoj sredini ima z = 0 i p = 0,50.<br />

Obzirom da je teoretska normalna distribucija unimodalna i savršeno simetrična, ovo znači da<br />

se 50% vrijednosti distribucije se nalazi ispod aritmetičke sredine, a 50% iznad aritmetičke<br />

sredine. Dakle, možemo reći da tokom boravka polovica turista potroši 1.000 KM ili manje,<br />

dok ostalih pola potroši 1.000 KM ili više.<br />

Drugo, najveći broj standardizovanih vrijednosti je koncentrisan oko aritmetičke sredine.<br />

Međutim, kako se od aritmetičke sredine krećemo prema krajevima distribucije vjerovatnoća<br />

da se pojavi vrijednost znatno različita od prosjeka opada. Tako na udaljenosti z = ±1 od<br />

prosjeka, vjerovatnoća pojave individualne vrijednosti iznosi p = 0,159. Ovo znači da će se<br />

15,9% opservacija na lijevoj strani distribucije nalaziti ispod −1 SD, dok će se 15,9%<br />

opservacija na desnoj strani distribucije nalaziti iznad +1 SD. Ukoliko zbrojimo ove dvije<br />

vrijednosti dobićemo da se 15,9% + 15,9% = 31,8% opservacija ili vrjednosti u normalnoj<br />

distribuciji nalazi izvan raspona od ±1 SD. Preostalih 100% − 31,8% = 68,2% opservacija će se<br />

nalaziti unutar površine koju čini raspon od −1 SD do +1 SD. Polovica od ovog broja, tj. 34,1%<br />

svih opservacija će se nalaziti između −1 SD i aritmetičke sredine, dok će se druga polovica<br />

nalaziti između aritmetičke sredine +1 SD.<br />

Treće, koristeći se istom računicom doći ćemo do zaključka da će se 95,6% svih vrijednosti<br />

normalne distribucije nalaziti unutar raspona od −2 SD do +2 SD, dok će ih se 99,8% nalaziti<br />

unutar raspona od −3 SD do +3 SD.<br />

3.5. TABLIČNE VRIJEDNOSTI ZA STANDARDNU NORMALNU DISTRIBUCIJU<br />

Statističari su utvrdili koliki procenat distribucije će se nalaziti između aritmetičke sredine i<br />

bilo koje z-vrijednosti. Tablice u kojima se nalaze ovakvi podaci obično se nalaze u dodatku<br />

10


svakog statističkog udžbenika. Kako je proporcija između dvije vrijednosti N(μ,σ) jednaka<br />

proporciji između korespondirajućih vrijednosti u N(0,1), možemo iskoristiti z-vrijednost da<br />

dobijemo proporciju koja se nalazi na bilo kojem položaju ispod krive normalne distribucije.<br />

Vratimo se na raniji primjer i uzmimo da je slučajno odabrani posjetilac tokom boravka u<br />

hotelskom kompleksu potrošio 1.256 KM. Njegova pozicija je unutar distribucije je prikazana<br />

na slici 6. Koliko turista je tokom boravka potrošilo više novca u odnosu na odabranog<br />

ispitanika?<br />

Slika 6 - Pozicija ispitanika sa orginalnom vrijednosti 1.256 KM i z = +1,28<br />

Kako bi dali odgovor na ovo pitanje moramo utvrditi proporciju turista koji imaju veće izdatke<br />

od 1.256 KM i koji se na slici 6 nalaze u osjenčenom području. U tu svrhu poslužićemo se<br />

statističkim tablicama za normalnu distribuciju i standardnim (z) vrijednostima.<br />

U tabeli 2 predstavljen je samo dio cjelokupne tablice za normalni raspored iz koje se čitaju z-<br />

vrijednosti i njima pridružene odgovarajuće proporcije. Tako vidimo da vrijednosti z = 0,00<br />

odgovara broj .50. Već znamo da z = 0 predstavlja prosjek standardne normalne distribucije, a<br />

proporcija .50 govori da 50% turista tokom sedmičnog boravka izdvaja manje od prosjeka koji<br />

iznosi 1.000 KM.<br />

Tabela 2 – Tablične z-vrijednosti<br />

z 0.00 0.01 0.02 ... .... 0.08 ....<br />

0.0 .5000 .4960 .4920 .4681<br />

0.1 .4602 .4562 .4522 .4286<br />

...<br />

1.2 .3849 .3869 .3888 .1003<br />

...<br />

Posjetilac koji sedmično troši 1.256 KM na usluge hotelskog kompleksa imaće standardizovanu<br />

vrijednost z = (167,7 − 119 ) / 38 = +1,28. Vrijednosti z = 1,28 u tablici odgovara broj .1003<br />

koji govori da 10% ostalih posjetilaca ima veće sedmične izdatke u odnosu na odabranog<br />

ispitanika.<br />

11


3.6. KRITIČNE Z-VRIJEDNOSTI<br />

U praksi se obično koriste nešto precizniji rasponi od prethodno navedenih "okruglih"<br />

vrijednosti kao što su ±2 ili ±3 SD. Standardizovane vrijednosti na osnovu kojih se definišu ti<br />

precizniji rasponi nazivaju se kritičnim vrijednostima (engl. critical values) i koriste se kod<br />

testova signifikantnosti. U tabeli 3 i na slici 7 su prikazane najčešće korištene kritične z-<br />

vrijednosti koje se označavaju sa zα gdje se α (alfa) odnosi na područje koje se nalazi na repu<br />

normalne distribucije (engl. tail area). Obzirom da je distribucija simetrična i da postoje dva<br />

repa, centralno područje se definiše kao 1−2α.<br />

Tabela 3 - Kritične z-vrijednosti za oba kraja distribucije<br />

α = tail area central area = 1 – 2α zα<br />

0.05 0.90 z.05 = ±1.645<br />

0.025 0.95 z.025 = ±1.96<br />

0.005 0.99 z.005 = ±2.58<br />

Sa slike 7 vidimo da će se 90% opservacija za bilo koju normalno distribuiranu varijablu<br />

nalaziti u rasponu ±1,645 standardne devijacije oko aritmetičke sredine. Zbog toga kažemo da<br />

kritična vijednost z = ±1,645 korespondira sa centralnim područjem 0,90. Ostalih 10%<br />

opservacija će se nalaziti na krajevima distribucije, i to 5% na lijevom i 5% na desnom repu. U<br />

primjeru sa izdacima turista, to bi značilo da se 90% svih zabilježenih vrijednosti kretalo u<br />

rasponu od 671 do 1.329 KM. Od preostalih vrijednosti njih 5% je bilo manje od 671 KM, dok<br />

je 5% bilo veće od 1.329 KM. Na sličan način tumačimo i ostale kritične vrijednosti.<br />

Slika 7 – Kritične z-vrijednosti za oba kraja distribucije<br />

U praksi nas često interesuju i kritične vrijednosti na samo jednom kraju standardne normalne<br />

distribucije. U tabeli 4 i na slikama 8 i 9 su date kritične vrijednosti kojima se odvaja 5%,<br />

odnosno 1% opservacija na jednom kraju distribucije. U ovom slučaju, centralno područje se<br />

definiše kao 1 − α.<br />

12


Tabela 4 - Kritične z-vrijednosti za jedan kraj distribucije<br />

α = tail area central area = 1 – α zα<br />

0.05 0.95 z.05 = ±1.645<br />

0.01 0.99 z.005 = ±2.325<br />

Ako se vratimo na prethodni primjer, vidimo da će se u normalnoj distribuciji 95% opservacija<br />

nalaziti ispred kritične vrijednosti z = +1,645, dok će se preostalih 5% opservacija nalaziti iza<br />

te kritične vrijednosti. Isto tako, 99% svih opservacija će se nalaziti ispred z = +2,325, a 1% iza<br />

te kritične vrijednosti (slika 8).<br />

Slika 8 - Kritične z-vrijednosti za desni kraj distribucije<br />

Na sličan način interpretiramo negativne kritične z-vrijednosti ako je riječ o lijevom kraju<br />

distribucije (slika 9). Na primjer, z = −1,645 je kritična vrijednost koja definiše granicu prije<br />

koje će se nalaziti 5% opservacija, dok će se preostalih 95% nalaziti iza date vrijednosti.<br />

Slika 9 - Kritične z-vrijednosti za lijevi kraj distribucije<br />

13


Obratimo pažnju da vrijednost z = ±1.645 koristimo i u situacijama kada nas istovremeno<br />

interesuju oba kraja distribucije (slika 7) ili kada nas interesuje samo jedan kraj distribucije<br />

(slike 8 i 9). U prvoj situaciji ta kritična vrijednost definiše α područje na koje otpada 10%<br />

opservacija na oba kraja distribucije, dok se u drugoj situaciji definiše α područje na koje otpada<br />

5% opservacija na jednom kraju distribucije. Ova distinkcija je bitna u kontekstu jednosmjernih<br />

i dvosmjernih testova signifikantnosti o kojima ćemo govoriti kasnije.<br />

4. PRIMJENA STANDARDNE NORMALNE DISTRIBUCIJE<br />

Standardizovane vrijednosti možemo iskoristiti i za definisanje granica unutar kojih će se<br />

slučajno odabrana opservacija nalaziti sa određenim stepenom sigurnosti.<br />

Primjer 4.1a<br />

Utvrđeno je da životni vijek određene marke automobilskih guma slijedi normalnu distribuciju<br />

sa aritmetičkom sredinom 50.000 kilometara i standardnom devijacijom od je 7.500 kilometara.<br />

Ukoliko smo kupili jednu takvu gumu kolika je vjerovatnoća da će njen životni vijek biti kraći<br />

od 35.000 kilometara?<br />

Prvo trebamo izračunati standardizovanu vrijednost za donju granicu koja nas interesuje:<br />

z = (35.000 − 50.000)/7.500 = −2<br />

Nakon što smo utvrdili da vrijednosti 35.000 km odgovara standardizovana vrijednost z = −2<br />

potrebno je unutar tablica utvrditi proporciju koja se nalazi ispod krive normalne distribucije u<br />

osjenčenom dijelu prikazanom na slici 10. Ukoliko nemamo tablice možemo iskoristiti sljedeću<br />

Stata naredbu da dobijemo traženu proporciju:<br />

. display normal(-2)<br />

.02275013<br />

Komanda nam prikazuje vrijednost kumulativne funkcije distribucije (engl. cumulative<br />

distribution function - CDF) za standardnu normalnu distribuciju procijenjenu u tačci z = −2,<br />

odnosno vjerovatnoću P[z < −2] 3 . Na slici 10 ova je vjerovatnoća predstavljena osjenčenom<br />

površinom ispod krive u rasponu od − ∞ (minus beskonačno) do z = −2.<br />

3<br />

Da smo željeli dobiti proporciju za površinu koja ispod normalne krive koja se nalazi iznad z = -2 koristili bi<br />

naredbu: display 1-normal(-2)<br />

14


Slika 10 – Proporcija automobilskih guma koje imaju životni vijek kraći od 35.000 km<br />

Dakle, vjerovatnoća da će životni vijek gume biti mani od 35.000 kilometara je manja od 2,3%.<br />

Primjer 4.1b<br />

Kolika je vjerovatnoća da će guma trajati između 35.000 i 45.000 kilometara?<br />

U ovom slučaju interesuje nas proporcija koja se nalazi između dvije tačke ispod krive normalne<br />

distribucije. Prvo je potrebno izračunati z-vrijednosti koje odgovaraju datim tačkama. Već<br />

ranije smo izračunali da vrijednosti 35.000 km odgovara z = −2, i da se 2,3% svih opservacija<br />

nalazi prije te tačke. Ostaje nam da izračunamo z-vrijednost za 45.000 km:<br />

z = (45.000 − 50.000)/7.500 = −0,67<br />

Proporcija opservacija koje se nalaze prije te tačke je:<br />

. display normal(-0.67)<br />

.2514289<br />

Vjerovatnoća da će životni vijek gume biti manji od 45.000 kilometara je 25,1%.<br />

Od ove vjerovatnoće je potrebno oduzeti vjerovatnoću da će životni vijek biti kraći od 35.000<br />

kilometara. Obzirom da od ranije imamo podatak o tome, biće: p = 0,2514289 − 0,02275013 =<br />

0,22867877<br />

15


Slika 11 – Proporcija automobilskih guma koje imaju životni vijek između 35.000 i 45.000 km<br />

Dakle, vjerovatnoća da će životni vijek gume biti između 35.000 i 45.000 kilometara iznosi<br />

22,9%. Ovoj vjerovatnoći odgovara osjenčena površina na slici 11.<br />

Primjer 4.1c<br />

Proizvođač želi odrediti garanciju za prodate gume. Za koju kilometražu treba dati garanciju<br />

ako želimo da stopa reklamacija ne bude veća od 3% (slika 12)?<br />

Slika 12 – Proporcija od 3% automobilskih guma na lijevom kraju distribucije<br />

U ovom slučaju imamo dvije nepoznanice z i x:<br />

z = (x − 50.000)/7.500<br />

Da bi odredili x moramo prvo odrediti z. Proporcija kilometraže između 50% (z = 0) i 3% (z =<br />

?) biće 0,50 − 0,03 = 0,47. Potrebnu z-vrijednost možemo potražiti unutar statističkih tablica.<br />

U tablicama bi trebali naći proporciju koja je najbliža 0,47, a zatim sa margina pročitati z-<br />

vrijednost koja odgovara toj proporciji. Drugi način je da iskoristimo naredbu unutar State:<br />

. display invnormal(0.03)<br />

-1.8807936<br />

16


Iz dobijenog outputa vidimo da je z = −1,88 i to nam govori da će samo 3% opservacija nalaziti<br />

prije ove standardne vrijednosti. Da bi standardnu pretvorili u orginalnu vrijednost (x) u<br />

prethodnu formulu ćemo ubaciti:<br />

−1,88 = (x − 50.000)/7.500<br />

x = 50.000 − 14.100 = 35.900 km<br />

Dakle, ukoliko proizvođač želi da stopa reklamacija bude ispod 3% potrebno je da garanciju za<br />

životni vijek guma postavi na 35.900 km.<br />

Primjer 4.2<br />

Pretpostavimo da je utvrđeno da prosječni mjesečni izdaci za hranu domaćinstava u populaciji<br />

slijede normalnu distribuciju N(700,100). U kojem rasponu će se nalaziti izdaci 95%<br />

domaćinstava?<br />

Da bi mogli reći koji je to raspon moramo znati granice izvan koji će se nalaziti preostalih 5%<br />

vrijednosti. Tih 5% utvrđujemo nalaženjem z-vrijednosti koja će „odsjeći" 2,5% opservacija na<br />

svakom kraju distribucije. Od ranije znamo da proporciji od 2,5% odgovara kritična vrijednost<br />

z = ±1.96. Dakle, možemo reći da će se mjesečni izdaci na hranu u 95% slučajeva nalaziti u<br />

intervalu od −1.96σ ispod prosjeka i +1.96σ iznad prosjeka, što možemo napisati kao:<br />

z = (X − μ)/σ<br />

±1.96 = (X − μ)/σ<br />

X − μ = ±1.96σ<br />

X = μ ± 1.96σ<br />

Naravno, u krajnjoj instanci interesuje nas potrošnja izražena u orginalnim jedinicama (KM) pa<br />

ćemo dobijene vrijednosti izražene u jedinicama standardne devijacije morati pretvoriti u<br />

orginalne vrijednosti. U našem primjeru, granice koje tražimo biće na:<br />

X1,2 = 700 ± 1.96 x 100 KM<br />

X1 = 700 – 196 =504 KM<br />

X2 = 70 + 196 = 896 KM<br />

Dakle, u 95% slučajeva mjesečni izdaci na hranu nalaziće se u rasponu od 504 KM do 896 KM.<br />

Ovo možemo reći i na sljedeći način: Ako bi iz populacije slučajno odabrali jedno domaćinstvo,<br />

možemo biti 95% sigurni da će se njegovi izdaci nalaziti negdje u rasponu od 504 KM do 896<br />

KM.<br />

Slika 13 – Raspon u kojem će se nalaziti 95% izdataka za hranu<br />

17


Ovdje je potrebno obratiti pažnju da smo pri izračunu raspona tačno znali koliki su prosječni<br />

izdaci na hranu unutar populacije (μ) i koliko iznosi standardna devijacija za populaciju (σ).<br />

Ono što smo pokušali utvrditi je raspon unutar kojeg će se nalaziti izdaci (X). Međutim šta se<br />

dešava ako ne znamo parametre populacije? O ovome će biti riječi u narednoj sekciji.<br />

5. SAMPLING DISTRIBUCIJA I STANDARDNA GREŠKA<br />

U dosadašnjem izlaganju oslanjali smo se na to da znamo parametre normalne distribucije.<br />

Međutim, u praksi ćemo vrlo rijetko imati situacije u kojima su nam poznate karakteristike<br />

populacije. Umjesto toga, sud o populaciji i procjenu parametara najčešće ćemo donositi na<br />

bazi uzorka.<br />

5.1. GREŠKA MJERENJA I UZORKOVANJA<br />

Primjer 5.1<br />

Pretpostavimo da želimo utvrditi prosječne mjesečne izdatke na kozmetičke proizvode u BiH i<br />

da smo prikupili podatke na bazi uzorka koji se sastojao od 25 slučajno odabranih ispitanica.<br />

Nakon što smo prikupili podatke, izračunali smo da prosječni izdaci iznose 79,2 KM. Da li<br />

možemo tvrditi da su ovo stvarni izdaci za kozmetičke proizvode u populaciji? Ne možemo, jer<br />

zbog greški mjerenja i uzorkovanja prosjek uzorka nikada u potpunosti neće odgovarati<br />

stvarnom prosjeku.<br />

Greška mjerenja (engl. measurement errors) nastaje ako ne mjerimo precizno ono što želimo.<br />

Najčešće se javlja kada mjerimo kompleksne pojave ili ako je riječ o osjetljivim pitanjima na<br />

koja ispitanik može namjerno dati pogrešan odgovor. U takvim situacijama procjenjeni<br />

parametri na bazi uzorka će se razlikovati od stvarnih parametara unutar populacije.<br />

Greška uzorkovanja (engl. sampling error) odnosi se na stepen u kojem se uzorak razlikuje<br />

od populacije koju predstavlja. Statistički gledano, greška uzorkovanja predstavlja razliku<br />

između nepoznatnog parametra u populaciji (μ) i njegove procjene (x̄ ̄) izračunate na bazi<br />

podataka u uzorku.<br />

Postoje tri potencijalna razloga zbog kojih dolazi do greške uzorkovanja:<br />

18


1. Greška okvira (engl. frame error) nastaje kada se populacija iz koje uzimamo uzorak<br />

razlikuje od stvarne populacije. Na primjer, ako smo anketiranje obavili putem online<br />

ankete moguće je da ispitanice koje koriste Internet imaju viša primanja i da zbog toga na<br />

kozmetiku izdvajaju više u odnosu na populaciju koja obuhvata i ispitanice koji ne koriste<br />

Internet. U takvom uzorku prosječni izdaci za kozmetičke preparate biće iznad stvarnog<br />

prosjeka populacije.<br />

2. Pristrasnost uzorka (engl. nonresponse error) se javlja ako tokom samog procesa odabira<br />

postoji tendencija da određeni ispitanici u uzorku budu više zastupljeni u odnosu na druge.<br />

Na primjer, ako je akentiranje obavljeno putem telefona moglo se desiti da je u uzorak ušlo<br />

više nezaposlenih žena jer su u momentu telefonskog poziva bile kod kuće. Prosječni izdaci<br />

u takvom uzorku će biti ispod stvarnog prosjeka u populaciji obzirom da nezaposlene<br />

ispitanice manje troše na kozmetiku.<br />

3. Slučajna greška (engl. random error) nastaje zbog samih fluktuacija tokom procesa<br />

uzorkovanja. Čak i kada smo primjenili adekvatan metod odabira uzorka, može se desiti da<br />

uzorak pukom slučajnošću obuhvati više ispitanica čija je potrošnja iznad ili ispod stvarnog<br />

prosjeka.<br />

Imajući u vidu postojanje grešaka vezanih za mjerenje i uzorkovanje, jasno je da na bazi uzorka<br />

nikada ne možemo potpuno precizno utvrditi vrijednost parametra u populaciji. Međutim, ono<br />

što možemo uraditi je da izračunamo raspon unutar kojeg će se parametar populacije nalaziti sa<br />

određenim stepenom sigurnosti. A da bi to mogli uraditi potrebno je da se prvo upoznamo sa<br />

konceptom sampling distribucije i standardne greške.<br />

5.2. SAMPLING DISTRIBUCIJA<br />

Kako bi ilustrovali koncept sampling distribucije, vratimo se na naš primjer vezan za izdvajanja<br />

na kozmetičke preparate i zamislimo da stvarni prosječni izdaci u populaciji iznose µ = 76 uz<br />

standardnu devijaciju σ = 15,5. Ova distribucija je prikazana u gornjem lijevom dijelu slike 14.<br />

Već znamo da smo na bazi uzorka dobili da je x̄ = 79,2 KM. Zatim pretpostavimo da smo<br />

ponovili proces uzorkovanja, slučajno odabrali novih 25 ispitanica i izračunali da njihova<br />

prosječna potrošnja iznosi x̄ = 74,1 KM. Zatim smo nastavili uzimati nove uzorke i za narednih<br />

pet uzoraka iste veličine dobili smo sljedeće rezultate: 78,1 KM, 80,2 KM, 75,5 KM, 73,9 KM<br />

i 69,4 KM. Prosjek svakog od ovih uzoraka predstavlja procjenu stvarnih izdataka u populaciji.<br />

Iako su neke od ovih procjena iznad, a neke ispod stvarnih izdataka, u većini slučajeva one su<br />

vrlo blizu stvarnog prosjeka (μ).<br />

Ako bi nastavili započeti proces uzorkovanja i dobijene prosjeke za veoma veliki broj uzoraka<br />

jednake veličine predstavili preko histograma, njihova distribucija frekvencija bi težila da<br />

obrazuje krivu. Takva kriva formirana na bazi aritmetičkih sredina uzoraka iste veličine uzetih<br />

iz iste populacije naziva se distribucijom aritmetičkih sredina uzoraka ili sampling<br />

distribucijom (engl. sampling distribution of the mean).<br />

19


Slika 14 – Distribucija aritmetičkih sredina za 1.000 uzoraka veličine n = 5, 10 i 25 ispitanika<br />

Na slici 14 su predstavljene tri sampling distribucije dobijene na bazi 1.000 uzoraka ali gdje je<br />

sama veličina pojedinačnih uzoraka bila različita. Primjećujemo da sampling distribucije imaju<br />

nekoliko svojstava:<br />

1. Sampling distribucije imaju normalan raspored. Ovo će biti tačno ukoliko distribucija<br />

populacije ima normalan raspored ili ako su uzorci koje uzimamo iz populacije dovoljno<br />

veliki. Činjenica da sa porastom veličine uzorka sampling distribucija teži da ima normalan<br />

raspored je izuzetno bitna i predstavlja osnovu na kojoj se bazira jedan od najvažnijih<br />

teorema u statistici – centralni granični teorem – o kojem će biti više riječi kasnije.<br />

2. Sampling distribucija ima svoju aritmetičku sredinu koju nazivamo opštim ili očekivanim<br />

prosjekom (engl. overall mean ili expected value of the mean). Očekivana vrijednost<br />

prosjeka biće jednaka prosjeku populacije ukoliko smo iz populacije uzeli dovoljno veliki<br />

broj uzoraka. Obzirom da u našem primjeru u sva tri slučaja (n = 5, 10, 25) uzeli veliki broj<br />

uzoraka (1.000) opšti prosjek je jednak prosjeku unutar populacije (μ = 76).<br />

3. Sampling distribucija ima svoju standardnu devijaciju koju nazivamo standardnom<br />

greškom (engl. standard error of the mean). Šta nam govori standardna greška? Kao što<br />

standardna devijacija pokazuje prosječnu razliku (devijaciju) između pojedinačne<br />

opservacije unutar distribucije i prosjeka distribucije, tako nam i standardna greška<br />

pokazuje kolika je razlika između prosjeka uzorka i opšteg prosjeka. Drugim riječima,<br />

standardna greška je mjera reprezentativnosti koja govori koliko možemo pogriješiti kada<br />

kažemo da prosjek uzorka predstavlja prosjek populacije.<br />

5.3. PROCJENA STANDARDNE GREŠKE<br />

Naravno, izdvajanje velikog broja uzoraka iste veličine iz populacije kako bi procijenili<br />

parametre populacije nije praktično. Najčešće imamo na raspolaganju samo jedan uzorak na<br />

osnovu kojeg moramo izvršiti procjenu i donijeti zaključke. A najbolja procjena koju možemo<br />

napraviti na bazi jednog uzorka je da pretpostavimo da i u populaciji prosječni izdaci iznose<br />

20


isto toliko. Međutim, koliku grešku možemo očekivati u našoj procjeni? Odnosno, kolika je<br />

standardna greška?<br />

Formula za izračunavanje standardne greške glasi:<br />

SE<br />

M<br />

SD<br />

<br />

n<br />

Iz formule uočavamo da veličina standardne greške zavisi od dvije stvari:<br />

a) Standardne devijacije. Ako vrijednosti opservacija u uzorku znatno variraju, moramo<br />

pretpostaviti da i vrijednosti unutar populacije znatno variraju. Zbog greške uzorkovanja<br />

ova pretpostavka može biti pogrešna ali se moramo osloniti na nju jer je to jedina<br />

informacija koju imamo. Dakle, što je veća standardna devijacija uzorka biće veća i<br />

standardna greška.<br />

b) Veličine uzorka. Obratimo pažnju da je varijabilitet prosječnih vrijednosti sampling<br />

distribucije manji nego varijabilitet izvornih vrijednosti unutar populacije (slika 14).<br />

Ovo je razumljivo, obzirom da u slučaju populacije imamo pojedinačne opservacije koje<br />

mogu imati znatna odstupanja od prosjeka. Međutim, pojedinačne ekstremne vrijednosti<br />

će biti "ublažene" unutar uzorka jer zajedno sa ostalim opservacijama ulaze u prosjek<br />

uzorka. Što je veći uzorak kojeg uzimamo iz populacije, ovo "ublaživanje" će biti veće<br />

i prosjek uzoraka će biti više koncentrisani oko stvarnog prosjeka populacije. Samim<br />

tim će i standardna greška biti manja. Ovo se jasno vidi na slici 14 gdje se standardna<br />

greška smanjuje (SE = 6,9, 4,9 i 3,1) sa povećanjem veličine uzorka (n = 5, 10, 25).<br />

Jednostavno rečeno, što imamo veći uzorak to će standardna greška biti manja.<br />

Obratimo pažnju i da se standardna greška ne smanjuje u direktnoj proporciji sa<br />

veličinom uzorka, nego u proporciji sa kvadratnim korijenom veličine uzorka. Ovo<br />

znači da ukoliko želimo prepoloviti standardnu grešku trebamo uzeti ne dvostruko, već<br />

četverostruko veći uzorak.<br />

6. CENTRALNI GRANIČNI TEOREM<br />

Mnogi testovi signifikantnosti počivaju na ideji normalne distribucije. Zato se često navodi<br />

pretpostavka o normalnosti distrubucije kao zahtjev koji je potrebno ispuniti ukoliko želimo da<br />

rezultati testova budu nepristrasni i validni. Ova pretpostavka je razumljiva obzirom da je iz<br />

dosadašnjeg izlaganja jasno da teoretska normalna distribucija omogućava da primjenimo<br />

dobro poznate vjerovatnoće na podatke koji slijede normalan raspored.<br />

Međutim, u praksi su česte situacije kada ne znamo ništa o tome kako je varijabla distribuirana<br />

u populaciji ili pretpostavljamo da njena distribucija znatno odstupa od normalnog rasporeda.<br />

Da li to znači da se u takvoj situaciji ne možemo osloniti na statističke testove? Srećom,<br />

odgovor je ne nužno. Naime, pretpostavka normalne distribucije ne odnosi se na normalnu<br />

distribuciju orginalnih podataka u uzorku, već na normalnu distribuciju aritmetičkih sredina<br />

uzoraka. Drugim riječima, ne traži se da orginalna varijabla ima normalan raspored već da<br />

sampling distribucija ima normalan raspored.<br />

21


Kako procijeniti da li sampling distribucija ima normalan raspored? Odgovor na to pitanje daje<br />

Centralni granični teorem (engl. Central limit theorem) koji kaže:<br />

"Za populaciju sa aritmetičkom sredinom μ i standardnom devijacijom σ, raspored<br />

aritmetičkih sredina svih prostih slučajnih uzoraka veličine n imaće približno normalan<br />

raspored pod pretpostavkom da imamo dovoljno veliki uzorak" 4 .<br />

U suštini ovo znači da će sampling distribucija slučajne varijable X uvijek imati normalnu<br />

raspodjelu ukoliko imamo dovoljno veliki uzorak, bez obzira na oblik orginalne distribucije<br />

podataka iz uzorka. Djelovanje Centralnog graničnog teorema je predstavljeno na slici 15.<br />

Slika 15 – Promjene oblika sampling distribucije sa porastm veličine uzoraka<br />

U praksi se postavlja pitanje šta se podrazumijeva pod dovoljno velikim uzorkom koji će<br />

osigurati da Centralni granični teorem rezultira sampling distribucijom sa normalnim<br />

rasporedom?<br />

Nema jednoznačnog odgovora na ovo pitanje. Ako varijabla od interesa u populaciji ima<br />

normalan raspored čak i uzorci male veličine (n < 10) će biti dovoljni da se osigura normalan<br />

raspored sampling distribucije. Ako varijabla u populaciji nema normalan raspored neki<br />

istraživači zastupaju stav da će već uzorci veličine 10 ili 12 opservacija biti dovoljni da se<br />

osigura normalnost sampling distribucije. Ipak, u literaturi se najčešće pod „dovoljno velikim<br />

uzorkom" podrazumijeva uzorak sa 30 ili više opservacija. Dakle, smatra se da će sampling<br />

distribucija uz uzorak veličine n ≥ 30 uvijek imati normalan raspored bez obzira na stvarni oblik<br />

distribucije u populaciji.<br />

Na slici 15 možemo da pratimo promjenu oblika sampling distribucije sa povećanjem veličine<br />

uzoraka. Kada varijabla u populaciji ima normalan raspored, čak i vrlo mali uzorci (n = 2) će<br />

rezultirati sampling distribucijom koja ima normalan raspored. U ostalim situacijama tako mali<br />

uzorci najčešće nisu zadovoljavajući. Ipak, sa porastom veličine uzorka ove razlike se smanjuju<br />

i već sa uzorkom veličine n = 30, imamo međusobno identične sampling distribucije koje slijede<br />

normalan raspored, bez obzira na oblik orginalne distribucije u populaciji.<br />

4<br />

Lind and Mason, Basic Statistics for Business and Economics, p. 227.<br />

22


7. ESTIMACIJA I INTERVAL POVJERENJA<br />

U velikom broju statističkih analiza, aritmetička sredina uzorka i standardna greška se koriste<br />

kao osnova na kojoj se gradi dalje statističko zaključivanje. Estimacija (engl. estimation)<br />

podrazumjeva upotrebu ovih mjera (statistike uzorka) kako bi se procijenila obilježja populacije<br />

(parametri).<br />

Primjer 7.1<br />

Zamislimo da menadžmentu kompanije koja se bavi proizvodnjom mliječnih proizvoda želimo<br />

dati preporuku o obimu proizvodnje i cijeni u narednom periodu. Kako bi izbjegli da preporuku<br />

dajemo na bazi nepotpunih informacija, prva stvar koju želimo saznati je koliko mjesečno<br />

potrošači izdvajaju na mliječne proizvode. Dakle, potrebno je da procijenimo iznos prosječne<br />

potrošnje u populaciji (μ). Obzirom da ne raspolažemo podacima za čitavu populaciju,<br />

zamislimo da smo na bazi slučajnog uzorka anketirali n = 100 ispitanika. Zatim smo na bazi<br />

podataka iz uzorka izračunali da prosječna potrošnja iznosi 98,6 KM uz standardnu devijaciju<br />

od 32,3 KM. Najbolje što sljedeće možemo uraditi je da pretpostavimo da će stvarna prosječna<br />

potrošnja u populaciji (μ) biti istovjetna procjeni koju smo dobili na bazi uzorka (x̄ ). Drugim<br />

riječima, iskoristićemo prosjek uzorka (x̄ ) za procjenu stvarne potrošnje u populaciji (μ).<br />

Pojedinačni brojevi koji smo izračunali na bazi podataka u uzorku i koje koristimo za procjenu<br />

parametara u populaciji predstavljaju tzv. tačkaste procjene (engl. point estimate).<br />

7.1. PRECIZNOST ESTIMACIJE<br />

Na osnovu izlaganja o sampling distribuciji znamo da će prosjek svakog uzorka (x̄ ) više ili<br />

manje odstupati od prosjeka populacije (μ). Samim tim, vjerovatno je i da tačkasta procjena<br />

nije u potpunosti tačna pa se postavlja pitanje koliko je ona zaista precizna? Drugim riječima,<br />

kada smo pretpostavili da je x̄ jednako μ koliko smo eventualno pogriješili?<br />

Na ovo pitanje odgovor nam daje standardna greška koja pruža informaciju o prosječnoj<br />

razlici (devijaciji) između očekivane vrijednosti (μ) i tačkaste procjene prosjeka na bazi uzorka<br />

(x̄ ). Odnosno, standardna greška nam govori o tome koliko možemo pogriještiti kada kažemo<br />

da je naša jedinična procjena jednaka stvarnoj vrijednosti u populaciji. Ako se vratimo na raniji<br />

primjer i izračunamo standardnu grešku dobićemo:<br />

SE = SD/√n = 32,3/√100 = 3,23<br />

Kako interpretiramo standardnu grešku? Zahvaljujući centralnom graničnom teoremu znamo<br />

da će u situaciji kada imamo dovoljno veliki uzorak sampling distribucija imati normalan<br />

raspored bez obzira na oblik distribucije u populaciji. Ovo saznanje smo iskoristili da sampling<br />

distribuciju za naš primjer predstavimo na slici 16. Obzirom da je standradna greška u stvari<br />

samo drugi naziv za standardnu devijaciju sampling distribucije, sve koncepte koje smo koristili<br />

ranije kada smo analizirali položaj pojedinačnih opservacija unutar normalne distribucije<br />

možemo primjeniti i ovdje. Jedina razlika je da u slučaju sampling distribucije više ne govorimo<br />

o položaju pojedinačnih opservacija već o položaju parametra populacije.<br />

23


Slika 16 – Sampling distribucija za x̄ = 98,6 i SE = 3,23<br />

Na primjer, ako se poslužimo znanjem o područjima ispod standardne normalne krive, onda<br />

znamo da će raspon od ±2 SE obuhvatiti vrijednosti između 98,6 − (2 x SE) = 92,14 i 98,6 + (2<br />

x SE) = 105,06 KM i da će se u tom rasponu nalaziti 95,6% svih opservacija. Isto tako će<br />

raspon od ±3 SE obuhvatiti vrijednosti koje se nalaze između 88,91 i 108,29 KM i u tom rasponu<br />

će se nalazit 99,8% svih opservacija.<br />

Dakle, sa 95,6%, odnosno sa 99,8% sigurnosti možemo tvrditi da će se stvarni prosjek<br />

populacije nalaziti negdje unutar tih raspona. To je ujedno i odgovor na naše pitanje o tome<br />

koliku grešku možemo očekivati kada kažemo da prosječna potrošnja iznosi 98,6 KM. Na bazi<br />

podataka iz uzorka najbolje što možemo reći je da se stvarna prosječna potrošnja u populaciji<br />

nalazi negdje između 92,14 KM i 105,06 KM (uz 4,4% mogućnost da smo pogriješili), odnosno<br />

između 88,91 i 108,29 KM (uz 0,2% mogućnost da smo pogriješili).<br />

7.2. INTERVAL POVJERENJA<br />

Granice unutar kojih sa određenim stepenom vjerovatnoće možemo očekivati da se nalazi<br />

parametar populacije nazivamo intervalom povjerenja (engl. confidence interval). Pri<br />

definisanju intervala povjerenja u praksi se najčešće koristimo uobičajenim "okruglim"<br />

rasponima kao što su 90%, 95% i 99% i odgovarajućim kritičnim z-vrijednostima.<br />

Pretpostavimo da u primjeru 7.1 vezanom za izdatke na mliječne proizvode želimo konstruisati<br />

interval povjerenja od 95%. U tom slučaju z = 1,96 siječe normalnu krivu sampling distribucije<br />

tako da površina ispod krive obuhvata 2,5% vrijednosti na lijevom i 2,5% vrijednosti na desnom<br />

kraju distribucije, dok će se u rasponu od −1,96 SE do +1,96 SE nalaziti 95% preostalih<br />

opservacija. Na osnovu toga možemo izvesti formulu za izračunavanje gornje i donje granice<br />

intervala povjerenja:<br />

z = (x̄ − μ) / SE<br />

±1,96 = (x̄ − μ) / SE<br />

±1,96 × SE = x̄ − μ<br />

μ = x̄ ± (1,96 × SE)<br />

x̄ − (1,96 × SE) ≤ μ ≤ x̄ + (1,96 × SE)<br />

24


ili<br />

98,6 − (3,23 x 1,96) ≤ μ ≤ 98,6 + (3,23 x 1,96)<br />

98,6 − 6,3 ≤ μ ≤ 98,6 + 6,3<br />

92,3 ≤ μ ≤ 104,9.<br />

Dakle, sa 95% sigurnošću možemo tvrditi da se stvarni mjesečni izdaci na mliječne proizvode<br />

nalaze u rasponu između 92,3 KM i 104,9 KM. Drugim riječima, ako bi prikupili podatke na<br />

bazi velikog broja uzoraka veličine n = 100, očekivali bi da njihov prosjek u 95% slučajeva<br />

bude između 92,3 KM i 104,9 KM.<br />

Primjer 7.2<br />

Ako želimo koristiti drugi interval povjerenja, potrebno je samo uzeti drugu kritičnu vrijednost.<br />

Na primjer, ako hoćemo biti 99% sigurni da se stvarni prosjek nalazi unutar intervala povjerenja<br />

trebamo koristiti standardnu vrijednost z = 2,58, koja siječe normalnu krivu tako da površina<br />

ispod krive obuhvata 0,5% opservacija na lijevom i 0,5% opservacija na desnom kraju<br />

distribucije pa će biti:<br />

x̄ − (2,58 × SE) ≤ μ ≤ x̄ + (2,58 × SE)<br />

98,6 − (3,23 × 2,58) ≤ μ ≤ 98,6 + (3,23 × 2,58)<br />

98,6 − 8,3 ≤ μ ≤ 98,6 + 8,3<br />

90,3 ≤ μ ≤ 106,9.<br />

Kako još možemo interpetirati interval povjerenja? U slučaju intervala povjerenja od 95%<br />

možemo reći: Ako bi iz populacije uzeli 100 uzoraka iste veličine i za svaki izračunali interval<br />

povjerenja, 95 tako dobijenih intervala bi sadržavalo stvarni prosjek populacije što je prikazano<br />

na slici 17.<br />

Slika 17 – Intervali povjerenja za 7 uzoraka iste veličine<br />

Na slici 17 vidimo 7 uzorka iste veličine uzetih iz iste populacije gdje x̄ označava aritmetičku<br />

sredinu datog uzorka a linija sa strjelicama na kraju predstavlja interval povjerenja od 95%.<br />

Stvarni prosjek u populaciji je označen vertikalnom linijom (μ). Prvo što uočavamo je da zbog<br />

fluktuacije uzorkovanja svaki uzorak ima različitu aritmetičku sredinu (x̄ ). Drugo, iako je većina<br />

intervala obuhvatila stvarni prosjek unutar populacije (crvene linije) u jednom slučaju se to nije<br />

25


desilo (zelena linija za x̄ 5). Da smo imali 100 uzoraka sa intervalom povjerenja 95%, u pet<br />

uzoraka mogli bi očekivati da se desi slična situacija kao za x̄ 5, gdje interval povjerenja ne bi<br />

obuhvatio istinski parametar populacije.<br />

8. STUDENTOVA T-DISTRIBUCIJA<br />

U dosadašnjem izlaganju smo govorili o primjeni normalne distribucije i z-vrijednosti da<br />

odredimo vjerovatnoće javljanja opservacije u određenom intervalu. Vjerovatnoće koje<br />

dobijemo na osnovu normalne distribucije su dovoljno precizne kada je poznata standardna<br />

devijacija unutar populacije ili kada imamo dvoljno veliki uzorak (n ≥ 30) koji će osigurati<br />

djelovanje Centralnog graničnog teorema.<br />

8.1. PROBLEM MALOG UZORKA I PRIMJENE Z-DISTRIBUCIJE<br />

Ukoliko ne znamo standardnu devijaciju populacije i imamo mali uzorak, ne možemo biti<br />

sigurni da će sampling distribucija u potpunosti pratiti lijepo oblikovanu normalnu krivu.<br />

Samim tim vjerovatnoće koje se baziraju na normalnoj distribuciji neće biti najpreciznije i<br />

moraju se uskladiti za velličinu uzorka iz dva razloga: Prvo, znamo da SD izračunata na bazi<br />

podataka iz uzorka predstavlja samo procjenu stvarne vrijednosti SD u populaciji. Kako formula<br />

za izračunavanje SD uzorka u denominatoru sadrži n – 1, procjena SD u populaciji će biti manje<br />

precizna kako se veličina uzorka smanjuje. Drugo, mali uzorak može uticati na preciznost SE<br />

jer njen izračun zavisi od SD. Krajnja posljedica je da će z-vrijednosti biti nedovoljno precizne<br />

za male uzorke.<br />

8.2. RJEŠENJE PROBLEMA: T-DISTRIBUCIJA<br />

Kako bi riješio ovaj problem statističar William Gosset, koji se potpisivao pod pseudonimom<br />

"Student" je kreirao tzv. t-distribuciju. Ova distribucija je po svemu slična normalnoj<br />

distribuciji osim što njen oblik zavisi i od veličine uzorka. U dovoljno velikim uzorcima t-<br />

distribucija je gotovo identična normalnoj z-distribuciji. Međutim, kako se veličina uzorka<br />

smanjuje ona postaje više spljoštena u sredini a deblja na krajevima. Ovo praktično znači da će<br />

u manjim uzorcima više opservacija biti dalje od aritmetičke sredine (slika 18).<br />

Slika 18 – Uporedba z i t distribucije<br />

26


Tačan oblik t-distribucije će zavisiti od broja stepena slobode (engl. degrees of freedom - df).<br />

Koncept stepena slobode nije jednostavan za razumjeti i njegovo objašnjavanje izlazi iz okvira<br />

ove knjige 5 . Bitno je zapamtiti da današnji softverski paketi broj stepena slobode izračunavaju<br />

automatski za većinu testova. U slučaju t-distribucije, broj stepena slobode jednak je veličini<br />

uzokra minus jedan (df = n − 1).<br />

Na slici 18 je dat prikaz t-distribucije za 2 (df = 3 −1) i 11 (df = 13 − 1) stepena slobode.<br />

Možemo primjetiti kako t-distribucija teži ka normalnoj distribuciji sa porastom veličine<br />

uzorka. Slična situacija se dešava i sa kritičnim t-vrijednostima koje sa povećanjem uzorka teže<br />

da se izjednače sa z-vrijednostima što se vidi u tabeli 5.<br />

Tabela 5 – Uobičajene kritične t-vrijednosti za oba kraja distribucije i uzroke različite veličine<br />

Studentove t-vrijednosti u<br />

zavisnosti od veličine uzorka<br />

Normalna z-<br />

vrijednost<br />

10 20 30 40<br />

Nivo povjerenja<br />

99% 3,17 2,85 2,75 2,70 2,58<br />

95% 2,23 2,09 2,04 2,02 1,96<br />

90% 1,81 1,72 1,70 1,68 1,64<br />

Dakle, osnovna prednost t-distribucije je što daje preciznije vjerovatnoće od z-distribucije kada:<br />

a) znamo da su vrijednosti varijable u populaciji normalno distribuirane ali ne znamo<br />

standardnu devijaciju i imamo mali uzorak (obično se definiše kao n < 30) i b) ne znamo ništa<br />

o populaciji, imamo mali uzorak (obično se definiše kao n < 30) ali podaci u uzorku slijede<br />

približno normalan raspored na osnovu kojeg možemo pretpostaviti da i vrijednosti u populaciji<br />

imaju normalnu distribuciju.<br />

Zbog svega navedenog se unutar softverskih paketa obično koristi t-distribucija. Svi zaključci<br />

na bazi velikih uzorka i t-distribucije će biti istovjetni onima do kojih bi došli korištenjem z-<br />

distribucije, dok će zaključci u manjim uzorcima biti precizniji u odnosu na one bazirane na z-<br />

distribuciji.<br />

8.3. STATISTIČKE TABLICE ZA T-DISTRIBUCIJU<br />

Statističke tablice za t-vrijednosti daju vjerovatnoću povezanu sa položajem pojedinačne<br />

opservacije unutar distribucije uz dati broj stepena slobode. Pored ovoga, u tablicama t-<br />

vrijednosti ćemo naći dva skupa vjerovatnoća, za jednosmjerne i dvosmjerne testove. Na<br />

primjer, ukoliko imamo uzorak veličine n = 12 i zainteresirani smo za p = 0,05, u tablici ćemo<br />

vidjeti da uz tu vjerovatnoću i dati broju stepena slobode (df = n − 1 = 11) kritična t-vrijednost<br />

za dvosmjerni test iznosi t = 2,201. Ova situacija je ilustrovana na slici 19.<br />

5<br />

Za vrlo dobro objašnjenje koncepta stepena slobode za one-sample t-test, hi-kvadrat test i regresionu analizu,<br />

pogledati blog post:<br />

http://blog.minitab.com/blog/statistics-and-quality-data-analysis/what-are-degrees-of-freedom-in-statistics<br />

27


Slika 19 – Kritične vrijednosti unutar t-distribucije za 11 stepana slobode između kojih se nalazi<br />

95% opservacija<br />

Sa slike 19 primjećujemo da t-vrijednost od ±2,201 vezana za df = 11 presijeca krivu tako da<br />

na krajevima ostaje 2,5% vrijednosti distribucije, što je u zbiru 5% koji odgovaraju vrijednosti<br />

p = 0,05.<br />

8.4. STANDARDNA GREŠKA I INTERVAL POVJERENJA ZA T-DISTRIBUCIJU<br />

Na isti način kao u slučaju z-distribucije, t-vrijednosti možemo iskoristiti da izračunamo<br />

standardnu grešku i interval povjerenja. Na primjer, pretpostavimo da smo za procjenu<br />

mjesečnih izdvajanja na mliječne proizvode umjesto uzorka veličine 100 ispitanika koristili<br />

uzorak veličine n = 12 ispitanika i da smo dobili da je aritmetička sredina 98,6 KM uz<br />

standardnu devijaciju 32,3 KM. U tom slučaju standardna greška bi bila:<br />

SE = SD/√n = 32,3/√12 = 9,32 KM<br />

Ovu vrijednost možemo iskoristiti za izračunavanje intervala povjerenja:<br />

95% CI = x̄ ± (kritična t-vrijednost × SE)<br />

Već znamo da tablična da kritična vrijednost za 95% interval povjerenja i df = 11 iznosi t =<br />

2,201. Stoga ćemo imati:<br />

95% CI = 98,6 KM ± (2,201 × 9,32 KM)<br />

= 98,6 KM ± 20,5 KM<br />

= od 78,1 KM do 119,1 KM.<br />

Dakle, sa 95% sigurnošću možemo tvrditi da će se stvarni prosjek popuacije nalaziti u rasponu<br />

između 78,1 KM i 119,1 KM.<br />

28


9. BINOMNA DISTRIBUCIJA<br />

Jedna od osnovnih teoretskih distribucija za diskontinuirane varijable je binomna distribucija<br />

(engl. binomial distribution). Njena upotreba je česta u procesima kontrole kvalitete, ispitivanju<br />

javnog mijenja, medicinskim istraživanjima, osiguranju i sl. Slučajna varijabla koja ima<br />

binomni raspored označava se sa B(n,p), gdje B govori da se radi o binomnoj distribuciji, a n i<br />

p su parametri te distribucije. Matematski izraz za binomnu distribuciju glasi:<br />

n !<br />

x !( n x )!<br />

x<br />

nx<br />

P( x ) <br />

p (1 p)<br />

Njime se opisuje vjerovatnoća dobijanja ishoda (x) iz niza nezavisnih događaja (n), ako je u<br />

svakom događaju vjerovatnoća pojedinačnog ishoda jednaka (p).<br />

9.1. KARAKTERISTIKE BINOMNE DISTRIBUCIJE<br />

Da bi smo razumjeli šta ova formula znači, u nastavku ćemo predstaviti tri primjera upotrebe<br />

binomne distribucije. Ovi primjeri međusobno dijele nekoliko zajedničkih osobina koje ujedno<br />

predstavljaju i glavne karakteristike binomne distribucije.<br />

Primjer 9.1a<br />

Ukoliko isti novčić bacimo 10 puta zaredom kolika je vjerovatnoća da ćemo 7 puta dobiti<br />

pismo?<br />

Primjer 9.1b<br />

Pretpostavimo da je poznato da se u toku proizvodnog procesa javlja 2% neispravnih proizvoda.<br />

Ako smo odabrali slučajni uzorak od 25 proizvoda, kolika je vjerovatnoća da će uzorak<br />

sadržavati 3 ili više defektna proizvoda?<br />

Primjer 9.1c<br />

Ako od ranije znamo da u populaciji svih korisnika mobilnog Interneta njih 40% koristi<br />

provajderske usluge BH Telecom-a, kolika je vjerovatnoća da od 10 slučajno odabranih<br />

korisnika za anketiranje njih 7 ili više budu korisnici BH Telecom-a?<br />

Ono što je zajedničko u sva tri slučaja je sljedeće:<br />

1. Primjeri se odnose na događaje ili procese kod kojih je moguć jedan od dva ishoda koji se<br />

međusobno isključuju. Samim tim, ishod događaja će se bilježiti na binarnoj varijabli koja<br />

može uzeti jednu od dvije vrijednosti: 0 ili 1.<br />

2. U prvom primjeru sa bacanjem novčića ishod može biti: (0) glava ili (1) pismo. U drugom<br />

primjeru događaj se odnosi na sam izbor proizvoda u uzorak, a moguć je jedan od dva<br />

ishoda: (0) izabrani proizvod je ispravan ili (1) izabrani proizvod nije ispravan. U trećem<br />

primjeru, nakon odabira ispitanika u uzorak, moguć je samo jedan od dva rezultata: (0)<br />

odabrani korisnik ne koristi usluge BH Telecom-a i (1) odabrani korisnik koristi usluge BH<br />

Telecom-a.<br />

29


3. Dobijeni podaci se sumiraju brojanjem kako bi dobili ukupan broj ishoda (x). Tako ćemo<br />

prebrojati broj puta kada je palo pismo, broj neispravnih proizvoda ili broj korisnika BH<br />

Telecom-a koji su ušli u uzorak. Rezultat brojanja će biti cijeli broj, što je razlog zbog kojeg<br />

se binomna distribucija klasifikuje kao diskretna distribucija.<br />

4. Broj događaja (n) je fiksiran i poznat. Tako, unaprijed znamo da novčić bacamo 10 puta, da<br />

ćemo imati uzorak od 25 proizvoda i uzorak od 10 korisnika.<br />

5. Događaji su nezavisni. Ovo znači da ishod prethodnog događaja ne utiče na ishod sljedećeg<br />

ili bilo kojeg narednog događaja. Na primjer, ako je prilikom prvog bacanja novčića palo<br />

pismo, to ni na koji način ne utiče na ishod u bilo kojem narednom bacanju.<br />

6. Vjerovatnoća dobijanja pojedinačnog ishoda je istovjetna u svakom događaju. Ako imamo<br />

fer novčić vjerovatnoća da padne pismo iznosi p = 0,5. U slučaju kontrole kvalitete znamo<br />

da vjerovatnoća proizvodnje jednog neispravnog proizvoda iznosi p = 0,02. U zadnjem<br />

primjeru znamo da u populaciji svih korisnika mobilnog Interneta njih 40% koristi<br />

provajderske usluge BH Telecom-a. Samim tim vjerovatnoća da ćemo u uzorak odabrati<br />

korsinika BH Telecoma iznosi p = 0,4.<br />

Ovih pet karakteristika predstavlja ujedno i glavne uslove za primjenu binomne distribucije pa<br />

se kaže da će diskretna varijabla X (karakteristika 2), koja se odnosi na na zbir ishoda (0 ili 1)<br />

unutar konačnog broja n nezavisnih događaja (karakteristike 3 i 4), slijediti binomnu<br />

distribuciju ukoliko se vjerovatnoća dobijanja ishoda ne mijenja od događaja do događaja<br />

(karakteristika 5).<br />

Prethodnu formulu možemo iskoristiti da izračunamo vjerovatnoću za različite ishode (x) u<br />

naša tri primjera i da vizuelno predstavimo oblike binomne distribucije (slike 20, 21 i 22).<br />

Primjer 9.1a - rješenje<br />

U prvom primjeru smo 10 puta zaredom bacali novčić. Broj ishoda gdje smo dobili pismo (x)<br />

slijedi binomni raspored sa n = 10 i p = 0,5. Vjerovatnoća da dobijemo pismo sedam puta (x =<br />

7) iznosi 11,7% i izračunava se na sljedeći način:<br />

10!<br />

7 107<br />

P(7) 0,5 (1 0,5) 0,1171875<br />

7 !(10 7)!<br />

ili pomoću State:<br />

. display binomialp(10, 7, 0.5)<br />

.1171875<br />

Komanda daje vjerovatnoću da ćemo dobiti tačno 7 puta pismo P[x = 7] unutar binomne<br />

distribucije gdje je n = 10 i p = 0,50.<br />

Vjerovatnoću svih ostalih ishoda bacanja novčića možemo izračunati koristeći istu formulu, a<br />

ako bi dobijene vjerovatnoće predstavili grafički dobili bi binomnu distribuciju predstavljenu<br />

na slici 20.<br />

30


Slika 20 – Binomna distribucija za B(10, 0,5)<br />

Na slici 20 možemo primjetiti da ćemo najčešće imati rezultat u kojem će 10 bacanja rezultirati<br />

sa time da dobijemo pet puta pismo. Vjerovatnoća za da će se desiti upravo ovakav rezultat (x<br />

= 5) iznosi 24,6%.<br />

Primjer 9.1b - rješenje<br />

U drugom primjeru znamo da broj neispravnih proizvoda (x) slijedi binomnu distribuciju sa n<br />

= 25 i p = 0,02. Vjerovatnoća da uzorak neće sadržavati ni jedan neispravan proizvod biće:<br />

25!<br />

0 250<br />

P(0) 0,02 (1 0,02) 0,60346<br />

0!(25 0)!<br />

Na isti način računamo vjerovatnoću za 1, 2 i 3 neispravna proizvoda:<br />

25!<br />

1 251<br />

P(1) 0,02 (1 0,02) 0,3078<br />

1!(25 1)!<br />

25!<br />

2 252<br />

P(2) 0,02 (1 0,02) 0,0754<br />

2!(25 2)!<br />

25!<br />

3 253<br />

P(3) 0,02 (1 0,02) 0,0101<br />

3!(25 3)!<br />

Rezultati ishoda formiraju binomnu distriuciju koja je predstavljena na slici 21.<br />

31


Slika 21 – Binomna distribucija za B(25, 0,02)<br />

Distribucija na slici 21 pokazuje da uzorak od 25 slučajno izabranih proizvoda u oko 60,4%<br />

slučajeva neće sadržavati ni jedan defektan proizvod, u oko 30,8% slučajeva će sadržavat jedan<br />

defektan proizvod, dok će u oko 7,5% slučajeva će sadržavati dva defektna proizvoda.<br />

Vjerovatnoća da će se u uzorku naći tri defektna proizvoda (x = 3) je manja od 1,3% i to je<br />

ujedno odgovor na ranije postavljeno pitanje.<br />

Primjer 9.1c - rješenje<br />

I konačno, vjerovatnoća izbora određenog broja korisnika BH Telecoma (x) u uzorak veličine<br />

(n = 10) iz populacije u kojoj znamo da je p = 0,4 je predstavljena na slici 22.<br />

Slika 22 – Binomna distribucija za B(10, 0,4)<br />

Na slici 22 vidimo da vjerovatnoća da od 10 slučajno odabranih korisnika mobilnog Interneta<br />

njih sedam (x = 7) budu klijenti BH Telecoma iznosi 4,25%, što možemo provjeriti uz pomoć<br />

State:<br />

. display binomialp(10, 7, 0.4)<br />

.04246733<br />

32


Na isti način možemo dobiti vjerovatnoće za 8, 9 i 10 korisnika koje iznose: 1,06%, 0,16% i<br />

0,01%. Ako zbrojimo ove vrijednosti dobićemo: P[x ≥ 7] = 4,25 + 1,06 + 0,16 + 0,01 = 5,48%<br />

što je odgovor na postavljeno pitanje.<br />

Alternativno, umjesto da izračunavamo i sabiremo vjerovatnoće pojedinačnih ishoda, mogli<br />

smo upotrijebiti naredbu:<br />

. display binomialtail(10, 7 ,0.4)<br />

.05476188<br />

Naredba prikazuje vjerovatnoću dobijanja 7 ili više pozitivnih ishoda P[x ≥ 7] u binomnoj<br />

distribuciji sa n = 10 i p = 0,40.<br />

Pretpostavimo da smo željeli izračunati vjerovatnoću da će uzorak obuhvatiti 6 ili manje<br />

korisnika BH Telecom-a. U tom slučaju upotrijebili bi naredbu:<br />

. display binomial(10, 6, 0.4)<br />

.94523812<br />

Naredba prikazuje vjerovatnoću dobijanja 6 ili manje pozitivnih ishoda P[x ≤ 6] u binomnoj<br />

distribuciji sa n = 10 i p = 0,40.<br />

Zadatak 9.1<br />

Student je izašao na test iz Marketing analitike. Test se sastoji od 10 pitanja unutar kojih su<br />

ponuđena četiri moguća odgovora (a, b, c i d). Obzirom da se nije spremao gradivo, student ne<br />

zna odgovor ni na jedno pitanje pa je odlučio da odgovore zaokruži „na sreću“. Kolika je<br />

vjerovatnoća da će odgovoriti tačno na 4 pitanja? Kolika je vjerovatnoća da će tačno odgovoriti<br />

na 5 ili više pitanja? Kolika je vjerovatnoća da će imati 3 ili manje tačnih odgovora?<br />

9.2. ARITMETIČKA SREDINA I STANDARDNA DEVIJACIJA BINOMNE<br />

DISTRIBUCIJE<br />

Aritmetička sredina (μ) i standardna devijacija (σ) binomne distribucije može se izračunati<br />

korištenjem sljedećih formula:<br />

μ = np<br />

σ = √(np(1 − p))<br />

Čime u naša tri primjera dobijamo da je:<br />

Primjer 9.1a: μ = 25 × 0,02 = 0,5 σ = √(25 × 0.02 × (1 − 0,02)) = 0,49<br />

Primjer 9.1b: μ = 10 × 0,5 = 5 σ = √(10 × 0.5 × (1 − 0,5)) = 1,58<br />

Primjer 9.1c: μ = 10 × 0,4 = 4 σ = √(10 × 0.4 × (1 − 0,4)) = 1,55<br />

Aritmetička sredina u binomnoj distribuciji predstavlja očekivanu vrijednost ishoda (x). U<br />

slučaju sa odabirom proizvoda to bi značilo da u uzorku veličine 25 proizvoda u prosjeku<br />

možemo očekivati 0,5 nesipravnih proizvoda. Kako je nemoguće imati pola nesipravnog<br />

proizvoda, ovaj broj je poželjno zaokružiti. Ako pogledamo grafik na slici 21 vidimo da je<br />

33


vjerovatnije da se u uzorku neće naći ni jedan neispravan proizvod pa aritmetičku sredinu<br />

možemo zaokružiti na cjelobrojnu vrijednost μ = 0 i reći da u uzorku od 25 slučajno odabranih<br />

proizvoda, u prosjeku možemo očekivati da nema ni jedan neispravan proizvod.<br />

9.3. NORMALNA APROKSIMACIJA BINOMNE DISTRIBUCIJE<br />

U situacijama kada je broj događaja veliki teoretske distribucije za diskontinuirane varijable<br />

možemo aproksimirati pomoću normalne distribucije. Normalna distribucija će biti dobra<br />

zamjena za binomnu distribuciju ako je ispunjen jedan od sljedećih uslova:<br />

Ako je p = 0,5 ili vrlo blizu te vrijednosti. Kako se povećava razlika u vjerovatnoći između dva<br />

moguća ishoda, binomna distribucija postaje sve više i više asimetrična. Prethodni primjeri nam<br />

pokazuju da će binomna distribucija biti simetrična ako je p = 0,5 (slika 20).<br />

Binomne vjerovatnoće imaju barem približno simetričan raspored oko aritmetičke sredine. Ovaj<br />

zahtjev će biti ispunjen ako su očekivani ishod np i njegova inverzna vrijednost n(1−p) veći od<br />

broja 5.<br />

Iz drugog uslova je jasno da će simetričnost distribucije znatno zavisiti od veličine uzorka (n).<br />

Kako n raste, binomna distribucija se sve više približava normalnoj distribuciji. Kada je broj n<br />

veliki, a verovatnoća uspeha p nije ekstremno mala, oko 95% observacija slučajne varijable<br />

X~B(n, p) će se nalaziti unutar raspona od −2 do +2 standardne devijacije.<br />

Primjer 9.3<br />

Procijenjeno je da unutar uže gradske jezgre broj porodica koje nisu pretplatnici ni jedne<br />

kablovske televizije iznosi 10%. Uzet je slučajni uzorak od 100 porodica. Kolika je<br />

vjerovatnoća da će uzorak obuhvatiti tačno 12 porodica koje nisu pretplatnici kablovske<br />

televizije?<br />

Obratimo pažnju na to da je svih pet uslova za binomnu distribuciju ispunjeno. Međutim, ručno<br />

izračunavanje vjerovatnoće prema ranijoj formuli bi bilo izuzetno zahtjevno i nepraktično.<br />

Stoga ćemo prvo provjeriti da li su ispunjeni uslovi za aproksimaciju binomne distribucije.<br />

np = 100 × 0,10 = 10<br />

n(1−p) = 100 × (1 − 0,10) = 90<br />

Obzirom da je ispunjen uslov da su np > 5 i n(1−p) > 5 binomna distribucija može biti<br />

aproksimirana normalnom distribucijom koja ima aritmetičku sredinu μ = 10 i standardnu<br />

devijaciju σ = 3 (slika 23).<br />

34


Slika 23 – Normalna aproksimacija binomne distribucije kada je n = 100 i p = 0,10<br />

Da bi smo odgovorili na pitanje i izračunali vjerovatnoću, u nastavku možemo primijeniti sve<br />

ono što smo naučili kada smo govorili o normalnoj distribuciji. Potrebno je prvo izračunati<br />

standardizovanu vrijednost za x = 12, a zatim toj standardizovanoj vrijednosti pridružiti<br />

odgovarajuću vjerovatnoću iz tablica za z-distribuciju ili je izračunati koristeći statistički<br />

softver. Vjerovatnoća koju tražimo grafički je predstavljena površinom stupca za x = 12 na slici<br />

23.<br />

Obratimo samo pažnju na jedan mali detalj. Naime, obzirom da koristimo normalnu krivu za<br />

aproksimaciju binomne distribucije, vidimo da stupac za x = 12 počinje malo ranije na x = 11,5<br />

i završava na x = 12,5. Na osnovu toga zaključujemo da površini stupca x = 12 u okviru binomne<br />

distribucije, odgovara površina u rasponu od 11,5 do 12,5 ispod krive normalne distribucije, što<br />

je u stvari vjerovatnoća koja nas interesuje kako bi mogli dati odgovor na postavljeno pitanje<br />

(slika 24).<br />

Vrijednost u iznosu od 0,5 koju, u zavisnosti od vrste problema, moramo dodati ili oduzeti od<br />

odabrane vrijednosti (x) u situaciji kada diskretnu binomnu distribuciju aproksimiramo<br />

kontinuiranom normalnom distribucijom naziva se faktorom korekcije za kontinuitet (engl.<br />

continuity correction factor). Njegovo izračunavanje je važno ukoliko kalkulacije obavljamo<br />

ručno jer većina softverskih paketa ovu korekciju radi automatski.<br />

Dakle, površina stupca koji nas interesuje se izračunava:<br />

z -vrijednost za x = 11,5 biće: (11,5 − 10)/3 = 0,50<br />

z -vrijednost za x = 12,5 biće: (12,5 − 10)/3 = 0,83<br />

Odatle slijedi da je vjerovatnoća:<br />

P(0,50 ≤ z ≤ 0,83) = P(0,83) - P(0,50)<br />

= 0,7967 6 − 0,6914 7<br />

= 0,1053<br />

6<br />

P(0,83) = 0,7967 je vrijednost koju možemo naći u tablicama za z-distribuciju i govori da se 79,67% opservacija<br />

nalazi lijevo od z = 0,83.<br />

7<br />

P(0,50) = 0,6914 je vrijednost koju možemo naći u tablicama za z-distribuciju i govori da se 69,14% opservacija<br />

nalazi lijevo od z = 0,83.<br />

35


Slika 24 – Vjerovatnoća da će uzorak obuhvatiti tačno 12 porodica<br />

Dakle, vjerovatnoća da će naš uzorak obuhvatiti tačno 12 porodica koje nisu pretplatnici<br />

kablovkse televizije iznosi 10,53% i predstavljena je na slici 24.<br />

9.4. PROVJERA PRECIZNOSTI APROKSIMACIJE BINOMNE DISTRIBUCIJE<br />

Da bi provjerili koliko je precizna procijena dobijena na bazi aproksimacije iskoristićemo<br />

naredbu:<br />

. display binomialp(100, 12, 0.1)<br />

.09878801<br />

Možemo vidjeti da se procjena koju smo dobili na bazi normalne aproksimacije (10,53%)<br />

donekle, ali ne previše, razlikuje od stvarne vjerovatnoće (9,88%).<br />

Zadatak 9.2a<br />

Koja je vjerovatnoća da u uzorku dobijemo 10 ili više porodica koje nisu pretplatnici kablovske<br />

televizije?<br />

Zadatak 9.2b<br />

Menadžer restorana je na bazi višegodišnjeg iskustva procijenio da se od ukupnog broja gostiju<br />

koji prvi put dođu u restoran, njih 70% vrati ponovo. Ako je tokom sedmice u restoranu ručalo<br />

80 gostiju, kolika je vjerovatnoća da će njih 60 ili više ponovo svratiti u restoran?<br />

9.5. SAMPLING DISTRIBUCIJA PROPORCIJE I STANDARDNA GREŠKA<br />

PROPORCIJE<br />

Vrlo često istraživači žele procijeniti procentualno učešće, odnosno proporciju, jedne kategorije<br />

u ukupnoj populaciji. Na primjer, može nas interesovati procjena proporcije ljudi koji<br />

konzumiraju određenu marku čokolade, koji posjeduju automobil i sl. Slično kao što smo kod<br />

normalne distribucije koristili sampling distribuciju aritmetičkih sredina uzorka i standardnu<br />

36


grešku i ovdje možemo upotrijebiti slične koncepte kako bi estimirali proporciju unutar<br />

populacije na bazi podataka iz uzorka.<br />

Sampling distribuciju proporcija (engl. sampling distribution of proportion) dobijamo tako<br />

što iz populacije uzimamo ponovljene slučajne uzorke iste veličine (n) i za svaki uzorak<br />

bilježimo proporciju pozitivnih ishoda (p̂ ). Generalni oblik sampling distribucije proporcija<br />

uzoraka ima oblik binomne distribucije.<br />

U slučaju da su ispunjeni odgovarajući uslovi, sampling distribuciju proporcije uzoraka<br />

možemo aproksimirati normalnom distribucijom.<br />

Primjer 9.5<br />

Pretpostavimo da proizvođač novog lijeka tvrdi da se nuspojave lijeka javljaju u 5% slučajeva.<br />

Da bi testirali ovu tvrdnju proizvođača, na bazi slučajnog uzorka prikupljeni su podaci od n =<br />

50 pacijenata koji su koristili lijek. Utvrđeno je da je 6 pacijenata imalo nuspojave što je 12%<br />

svih pacijenata u uzorku (p̂ = 0,12). Prije nego donesemo sud i zaključimo da je tvrdnja<br />

proizvođača neistinita moramo u obzir uzeti mogućnost da naša jedinična procjena posljedica<br />

nije u potpunosti tačna, obzirom da će zbog prirode uzorkovanja ona uvijek u nekoj mjeri<br />

odstupati od stvarne vrijednosti u populaciji. Dakle, potrebno je utvrditi koliko je naša procjena<br />

na bazi uzorka precizna, a to ćemo uraditi tako što ćemo konstruisati 95% interval povjerenja.<br />

Prije nego konstruišemo interval povjerenja potrebno je ispitati da li su ispunjene sljedeće<br />

pretpostavke:<br />

1. Uzorak (n) bi morao biti jednak ili manji od 5% svih ispitanika u populaciji (N). U našem<br />

slučaju, ako 50 pacijenata iz uzorka ne čini više od 5% svih pacijenata koji su uzeli lijek,<br />

uslov je ispunjen.<br />

2. Kako bi se osiguralo da sampling distribucija ima normalan raspored, uzorak (n) bi trebao<br />

biti dovoljno velik ili bi proporcija kategorije u uzroku (p̂ ) trebala biti blizu 0,5. Možemo<br />

reći da je ova pretpostavka ispunjena ako je ispunjen bilo koji od ova dva uslova: a)<br />

proizvod n x p̂ ≥ 5 ili b) proizvod n(1−p̂ ) ≥ 5. Za naše podatke proizvod je 50 × 0,12 = 6,<br />

dok je 50 × 0,88 = 44, tako da možemo smatrati da sampling distribucija ima normalan<br />

raspored.<br />

Obzirom da su obje pretpostavke ispunjene i da će sampling distribucija imati približno<br />

normalan raspored, ista logika koju smo primjenili ranije za konstruisanje intervala povjerenja<br />

oko aritmetičke sredine može se primjeniti i ovdje. Formula za određivanje granica 95%<br />

intervala povjerenja za proporciju glasi:<br />

95% CI = p̂ ± (1.96 × standardna greška)<br />

Standardna greška za proporciju se izračunava po sljedećoj formuli:<br />

SE <br />

ˆ p(1 ˆ p)<br />

n<br />

gdje se p̂ odnosi na proporciju kategorije unutar uzorka (6/50 = 0,12) , a n je veličina uzorka.<br />

37


Za uzorak od 50 slučajno odabranih pacijenata, biće:<br />

SE = √(0,12 × (1 − 0,12)/50 = √(0,12 × 0,88)/50) = 0,046 ili 4,6%<br />

Prema tome, 95% interval povjerenja za proporciju je:<br />

95% CI = p̂ ± (1.96 × SE)<br />

= 0,12 ± (1.96 × 0,046)<br />

= 0,12 ± 0,09 = od 0,03 do 0,21<br />

Sa 95% sigurnošću možemo tvrditi da će se stvarna proporcija pacijenata koji će iskusiti<br />

nuspojave od novog lijeka nalaziti negdje između 3% i 21%. Obzirom da ovaj interval<br />

povjerenja obuhvata 5%, tvrdnju proizvođača ne možemo odbaciti kao neistinitu.<br />

38


UNIVERZITET U SARAJEVU<br />

EKONOMSKI FAKULTET U SARAJEVU<br />

Testiranje hipoteza 1<br />

Autor:<br />

prof. dr Emir Agić<br />

Sarajevo, 04. april 2017. godine<br />

1<br />

NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />

njegovih dijelova bez prethodnog pisanog pristanka autora.<br />

1


Sadržaj<br />

I Testiranje hipoteza ........................................................................................................... 3<br />

1. Uvod ................................................................................................................................ 3<br />

2. Koraci ............................................................................................................................. 3<br />

2.1. Formulisanje statističke hipoteze ............................................................................. 4<br />

2.1.1. Nulta i alternativna hipoteza ............................................................................. 4<br />

2.1.2. Neusmjerene i usmjerene hipoteze ................................................................... 5<br />

2.2. Odabir statističkog testa ........................................................................................... 5<br />

2.2.1. Testovi za ispitivanje veza između varijabli ..................................................... 6<br />

2.2.2. Testovi za ispitivanje razlika između grupa ..................................................... 6<br />

2.3. Odabir kriterija odlučivanja i nivoa statističke značajnosti ..................................... 7<br />

2.4. Izračunavanje statistike testa .................................................................................... 8<br />

2.5. Donošenje odluke: kritično područje ..................................................................... 10<br />

2.6. Donošenje odluke: p-vrijednost ............................................................................. 12<br />

3. Greška prvog i drugog tipa ........................................................................................ 13<br />

3.1. Snaga testa ............................................................................................................. 13<br />

3.2. Odnos između greške tipa I, II i snage testa .......................................................... 15<br />

3.3. Odnos između snage testa, veličine uzorka i veličine efekta ................................. 16<br />

4. Najčešće pogreške vezane za testove signifikantnosti .............................................. 17<br />

4.1. Nivo značajnosti je arbitraran ................................................................................ 17<br />

4.2. Lažno pozitivni rezultati ........................................................................................ 17<br />

4.3. p-vrijednost nije isto što i rizik da napravimo grešku I tipa .................................. 18<br />

4.4. p-vrijednost nije vjerovatnoća dobijanja istog rezultata ........................................ 18<br />

4.5. p-vrijednost zavisi od veličine uzorka ................................................................... 19<br />

4.6. Statistička signifikantnost nije isto što i praktična signifikantnost ........................ 20<br />

5. Veličina efekta ............................................................................................................. 20<br />

2


I<br />

Testiranje hipoteza<br />

1. UVOD<br />

Pod testiranjem hipoteza podrazumjevamo statističke procedure kojima se testiraju različite<br />

tvrdnje koje se odnose na obilježja populacije - parametre. Uzmimo na primjer tvrdnju da 25%<br />

svih korisnika smart telefona u BiH posjeduje telefon marke Apple. Ovo je tvrdnja o parametru<br />

(proporciji) populacije (svi korisnici u BiH) za kategorijsku varijablu (marka smart telefona).<br />

S druge strane, tvrdnja da prosječna mjesečna neto plata u BiH iznosi 832 KM je isto tako<br />

tvrdnja o parametru (prosjeku) populacije (svi zaposleni u BiH) za metrijsku varijablu (neto<br />

plata). U oba slučaja tvrdimo da je parametar jednak nekoj vrijednosti.<br />

Dalje, ako kažemo da između godina školovanja i prosječne neto plate u BiH postoji uzajamna<br />

povezanost, onda imamo tvrdnju o parametru (koeficijentu korelacije) između dvije metrijske<br />

varijable (godine školovanja i prosječna neto plata) unutar jedne populacije (svi zaposleni u<br />

BiH).<br />

Kod testova koji se bave testiranjem razlika između grupa želimo testirati tvrdnje da se dvije<br />

ili više različitih populacija međusobno razlikuju u pogledu vrijednosti parametara za neku<br />

zavisnu varijablu. Na primjer, tvrdnja da se prosječna neto plata razlikuje između kantona je<br />

tvrdnja o razlici između parametara (prosjeka) unutar nekoliko populacija (kantoni) za zavisnu<br />

metrijsku varijablu (plata).<br />

2. KORACI<br />

Da bi ilustrovali sam postupak testiranja hipoteza, poslužićemo se jednostavnim primjerom.<br />

Primjer 2.1<br />

Pretpostavimo da, proizvođač tvrdi da je prosječni životni vijek baterija iznosi μ = 42 mjeseci<br />

sa σ = 9 mjeseci. Kako bi provjerili ovu tvrdnju, izdvojili smo slučajni uzorak od 30 baterija na<br />

bazi kojeg smo izračunali da prosječan životni vijek iznosi x̄ = 39 mjeseci. Da li ovaj rezultat<br />

osporava tvrdnju proizvođača? Obzirom da je prosjek dobijen na bazi uzorka, uvijek je moguće<br />

da je eventualna razlika između prosjeka uzorka i onoga što tvrdi proizvođač posljedica slučajne<br />

greške, odnosno varijacija svojstvenih uzorkovanju. Kolika je vjerovatnoća da je opservirana<br />

razlika posljedica slučajnosti ako stvarni prosječni životni vijek baterija zaista iznosi μ = 42<br />

mjeseci?<br />

Sama procedura testiranja hipoteza ima nekoliko koraka:<br />

1. Formulisanje statističke hipoteze<br />

2. Odabir statističkog testa<br />

3. Odabir nivoa značajnosti<br />

4. Izračunavanje statistike testa<br />

5. Donošenje odluke o prihvatanju ili odbacivanju hipoteze<br />

U nastavku ćemo proći kroz svaki od ovih koraka.<br />

3


2.1. FORMULISANJE STATISTIČKE HIPOTE ZE<br />

Statistička hipoteza je tvrdnja o obilježjima populacije (parametrima) u formi koja obično<br />

implicira razliku između grupa ili vezu između varijabli.<br />

Formulisanje statističke hipoteze polazi od istraživačkog problema u okviru kojeg je potrebno<br />

identifikovati tvrdnju o parametru populacije. Na primjer, u konkretnom slučaju jasno je da se<br />

tvrdnja odnosi na prosjek životnog vijeka baterije (µ) za koji proizvođač kaže da iznosi 42<br />

mjeseca. Kako bi testirali tvrdnju proizvođača moramo je uporediti sa nekom alternativom koja<br />

se u ovom slučaju odnosi na prosijek koji smo dobili na bazi uzorka i prema kojem životni vijek<br />

baterije iznosi 39 mjeseci. Dakle, u suštini testiramo postojanje razlika između prosjeka u dvije<br />

grupe: grupe koju predstavlja naš uzorak gdje je x̄ = 39 i grupe u kojoj je µ = 42, što bi prema<br />

tvrdnji proizvođača trebala biti vrijednost parametra u populaciji svih proizvedenih baterija.<br />

Iz ovog primjera uočavamo da se hipoteza uvijek odnosi na situaciju koja može biti ili istinita<br />

ili netačna. Dakle, postoje samo dvije alternative koje trebamo razmotriti kako bi provjerili datu<br />

hipotezu:<br />

H0: Prosječan životni vijek baterije iznosi 42 mjeseca (tvrdnja proizvođača)<br />

H1: Prosječan životni vijek baterije je različit od 42 mjeseca<br />

ili skraćeno napisano:<br />

H0: µ = 42 mjeseca<br />

H1: µ ≠ 42 mjeseca<br />

2.1.1. Nulta i alternativna hipoteza<br />

Ove dvije opcije oslikavaju ono što nazivamo nultom i alternativnom hipotezom. Nulta<br />

hipoteza (H0) je pretpostavka o tome da ne postoji: (a) veza između varijabli ili (b) razlika<br />

između grupa i smatramo je tačnom sve dok ne prikupimo dovoljno dokaza koji je opovrgavaju.<br />

Ona u suštini predstavlja standard ili referentnu vrijednost prema kojoj poredimo dokaze koji<br />

idu u prilog alternativnoj hipotezi. Veoma je važno napomenuti da nulta hipoteza ne može biti<br />

dokazana ili ne dokazana. Ona je ili istinita ili nije. Najviše što možemo reći jeste da li smo<br />

uspjeli naći dovoljno dokaza na osnovu kojih ćemo nultu hipotezu odbaciti ili zadržati.<br />

Alternativna hipoteza (H1) izražava postojanje veze između varijabli ili razlike između grupa<br />

i ona se prihvata ako se skupi dovoljno dokaza za odbacivanje nulte hipoteze. Alternativna<br />

hipoteza odražava ono što istraživač smatra da je istina.<br />

Pri formulisanju nulte i alternativne hipoteze treba imati na umu nekoliko stvari.<br />

Prvo, nulta i alternativna hipoteza ne smiju sadržavati nikakve informacije iz samog uzorka.<br />

Obratimo pažnju da smo pri formulaciji hipoteze koristili tvrdnju proizvođača (42 mjeseca), a<br />

ne podatke do kojih smo došli na bazi uzorka (39 mjeseci).<br />

Drugo, nulta hipoteza uvijek odražava status-quo situaciju. Drugim riječima, ukoliko se ne<br />

odbaci nulta hipoteza onda ne treba poduzimati nikakve dalje akcije. S druge strane,<br />

4


alternativna hipoteza odražava ono što istraživač smatra da je istina i na bazi čega bi mogli<br />

poduzeti odgovarajuće akcije.<br />

Treće, nulta hipoteza u sebi uvijek sadrži znak jednakosti. U slučaju kada testiramo vezu između<br />

dvije varijable nulta hipoteza pretpostavlja da je koeficijent korelacije između njih jednak nuli.<br />

Kada se radi o testiranju razlika, ova jednakost znači da između dvije grupe nema razlike.<br />

Drugim riječima, nulta hipoteza pretpostavlja da obje grupe u stvari pripadaju istoj populaciji,<br />

da stvarna razlika između njih ne postoji (jednaka je nuli) i da opservirana razlika između<br />

statistike uzorka (x̄ = 39) i parametra populacije (µ = 42) predstavlja samo rezultat slučajnosti<br />

nastao zbog greške uzorkovanja.<br />

2.1.2. Neusmjerene i usmjerene hipoteze<br />

Ako prilikom formulisanja hipoteza nismo specificirali da li očekujemo da je stvarni prosjek<br />

veći ili manji od tvrdnje proizvođača. Zbog toga smo koristili simbol "≠". U ovakvim<br />

slučajevima, kada nas jednostavno interesuje da li postoji razlika između grupa, kažemo da se<br />

radi o neusmjerenoj ili dvosmjernoj hipotezi (engl. two-tailed hypothesis).<br />

Alternativna hipoteza može sadržavati i dosta određenije predviđanje o ishodu analize koje<br />

možemo prestaviti sa simbolima "" i tada govorimo o usmjerenim hipotezama (engl.<br />

one-tailed hypothesis). Na primjer, ako unaprijed pretpostavimo da je stvarni životni vijek<br />

baterije manji od onoga što tvrdi proizvođač imali bi:<br />

H0: µ ≥ 42 mjeseca (tvrdnja proizvođača)<br />

H1: µ < 42 mjeseca<br />

Zašto je bitno razlikovati da li je riječ o dvosmjerno ili jednosmjerno formulisanoj hipotezi?<br />

Zbog toga što usmjerene hipoteze omogućavaju istraživaču da pri njihovom testiranju koristi<br />

usmjerene statističke testove (engl. one-tailed tests) koji imaju veću snagu da detektuju<br />

postojanje signifikantnih razlika između grupa ukoliko te razlike zaista postoje u odnosu na<br />

dvosmjerne statističke testove (engl. two-tailed tests).<br />

2.2. ODABIR STATISTIČKOG TESTA<br />

Testiranje hipoteza u osnovi podrazumjeva primjenu odgovarajućeg statističkog testa na bazi<br />

čijeg rezultata prihvatamo ili odbacujemo hipotezu. Statistički test je matematska procedura<br />

ili formula koju koristimo da analiziramo podatke prikupljene na bazi uzorka kako bi donijeli<br />

odluku da li je hipoteza o parametrima populacije istinita ili ne. Statistički testovi se baziraju<br />

na istim konceptualnim osnovama o kojima smo govorili u prethodnom poglavlju X i koji se<br />

odnose na teoretske distribucije, standardizovane vrijednosti, standardne greške i intervale<br />

povjerenja.<br />

Obzirom da korištenje pogrešnog testa može dovesti do potpuno pogrešnih zaključaka<br />

istraživanja, izbor adekvatnog testa za analiziranje prikupljenih podataka je od krucijalne<br />

važnosti. Generalno govoreći, statističke testove možemo podijeliti u dvije generalne grupe: a)<br />

Testovi kojima se testira veza između varijabli i b) Testovi kojima se testiraju razlike između<br />

grupa.<br />

5


2.2.1. Testovi za ispitivanje veza između varijabli<br />

Kod testova kojima se testira veza između varijabli imamo situaciju da unutar iste populacije<br />

želimo testirati tvrdnju da postoji veza između dvije ili više varijabli. Utvrđivanje<br />

signifikantnosti koeficijenta korelacije je vjerovatno najpoznatiji test kojim se testira tvrdnja o<br />

vezi između varijabli. Testovi koji se bave korelacijama će biti detaljnije obrađeni u zasebnom<br />

poglavlju X.<br />

2.2.2. Testovi za ispitivanje razlika između grupa<br />

Kod testova kojima s testira razlika želimo utvrditi da li se dvije ili više različitih populacija<br />

međusobno razlikuju prema određenom parametru. Obzirom da postoji široka lepeza dostupnih<br />

testova za ispitivanje razlika, istraživač se često suočava sa dilemom koji test koristiti u datoj<br />

situaciji. Da bi izabrali adekvatan statistički test za testiranje razlika moramo razmotriti<br />

nekoliko različitih aspekata samog istraživačkog problema. Ovi aspekti se odnose na: a) broj<br />

grupa između kojih testiramo razlike, b) vrstu povezanosti između grupa i c) tip zavisne<br />

varijable. U skladu sa navedenim aspektima kreirana je tabela 1 sa preporukama za odabir<br />

odgovarajućeg testa.<br />

Tabela 1 – Kriteriji za odabir testa<br />

Tip<br />

zavisne<br />

varijable<br />

Jedna<br />

grupa<br />

(one-sample<br />

tests)<br />

Testovi za testiranje razlika<br />

između dvije grupe<br />

(two-sample tests)<br />

Nezavisne<br />

grupe<br />

Povezane<br />

grupe<br />

Testovi za testiranje razlika<br />

između tri ili više grupa<br />

(k-sample tests)<br />

Nezavisne<br />

grupe<br />

Povezane<br />

grupe<br />

Neparametarski<br />

testovi<br />

Nominalna<br />

Ordinalna<br />

Binomni<br />

test ili χ 2 test<br />

proporcije<br />

χ 2 test<br />

proporcije<br />

χ2 test<br />

nezavisnosti<br />

Mann-<br />

Whitney U<br />

test<br />

McNemar<br />

test<br />

Wilcoxonov<br />

test<br />

χ2 test<br />

nezavisnosti<br />

Kruskal-<br />

Wallis test<br />

Cochran Q<br />

test<br />

Friedman<br />

test<br />

Parametarski<br />

testovi<br />

Kontinuira<br />

na<br />

z ili t-test na<br />

bazi jednog<br />

uzorka<br />

Nezavisni t-<br />

test<br />

Zavisni t-test<br />

Jednofaktorska<br />

ANOVA<br />

ANOVA sa<br />

ponovljenim<br />

mjerenjima<br />

Prvo trebamo utvrditi tip zavisne varijable, tj. da li je riječ o kategorijalnoj (nominalna,<br />

ordinalna) ili kontinuiranoj (intervalna, racio) zavisnoj varijabli. U kontekstu statističkih<br />

testova za testiranje razlika između grupa, nezavisna varijabla 8 je ona varijabla na osnovu koje<br />

se formiraju grupe između kojih se testiraju razlike. S druge strane, zavisna varijabla<br />

predstavlja kriterij po kojem se vrši testiranje razlika između grupa definisanih pomoću<br />

nezavisne varijable.<br />

8<br />

Često se naziva i eksperimentalna varijabla ili prediktor.<br />

6


Na primjer, ako nas interesuje razlika u prosječnoj neto plati između muškaraca i žena,<br />

nezavisna varijabla će biti spol (varijabla na osnovu koje su formirane grupe), a zavisna<br />

varijabla će biti prosječna neto plata (varijabla koja sadrži kriterij za testiranje).<br />

Iznimka po ovom pitanju su one-sample testovi koji su specifični po tome što nemamo<br />

nezavisnu varijablu na osnovu koje možemo definisati grupe već samo kriterij po kojem se vrši<br />

testiranje.<br />

U zavisnosti od toga kako je mjerene zavisna varijabla testove možemo podijeliti na<br />

parametarske i neparametarske testove. Neparametarki testovi su testovi koji se primarno<br />

primjenjuju kada je zavisna varijabla nominalnog ili ordinalnog tipa. S druge strane<br />

parametarske testove primjenjujemo kada je zavisna varijabla metrijskog tipa i kada su<br />

ispunjene određene pretpostavke o čemu ćemo govoriti kasnije.<br />

Drugo što trebamo utvrditi je broj grupa za koje testiramo razlike. U tom kontekstu govorimo<br />

o testovima na bazi jednog, dva ili više uzoraka. Ovdje pojam "uzorak" treba shvatiti uslovno.<br />

Kad kažemo test na bazi jednog uzorka (engl. one-sample test) to samo znači da u uzorku<br />

nemamo podatke za dvije ili više grupa već samo za jednu. Oni se koriste u situacijama kada<br />

želimo testirati hipotezu da se statistika našeg uzorka, za koji imamo pojedinačne opservacije<br />

unutar baze podataka, signifikantno ne razlikuje u odnosu na: a) statistiku drugog uzorka za<br />

koji nemamo pojedinačne opservacije unutar naše baze podataka ili b) stvarne ili hipotetičke<br />

parametre populacije.<br />

Treće, u slučaju kada imamo dvije ili više grupa trebamo utvrditi da li je riječ o nezavisnim ili<br />

zavisnim grupama. Nezavisne grupe javljaju se u situaciji kada mjerenje u jednoj grupi nije<br />

moglo imati nikakvog uticaja na mjerenje u drugim grupama. Na primjer, visina prosječne neto<br />

plate koja je izmjerena za žene ne zavisi od visine plate koja je izmjerena za muškarce obzirom<br />

da su ovo dvije odvojene grupe. Zavisne grupe najčešće srećemo u situacijama kada je<br />

mjerenje obavljeno dva puta na istim ispitanicima pa rezultat u ponovljenom mjerenju može<br />

zavisiti od prethodno dobijenog rezultata Na primjer, ako smo mjerili performanse prodajnih<br />

predstavnika prije treninga i nakon treninga, grupe se formiraju na bazi samog mjerenja ali su<br />

ispitanici isti.<br />

Primjer 2.1 - nastavak<br />

U našem primjeru sa prosječnim vijekom trajanja baterija, cilj nam je ispitati da li postoji razlika<br />

između pretpostavljene aritmetičke sredine populacije i aritmetičke sredine uzorka. Obzirom<br />

da u uzorku nemamo nezavisnu varijablu na osnovu koje možemo formirati grupe i da nam je<br />

cilj provjeriti da li se statistika našeg uzorka (x̄ = 39) signifikantno razlikuje od pretpostavljenog<br />

parametra populacije (µ = 45), jasno je da se radi o one-sample testu. Kriterij (životni vijek<br />

baterije) po kojem testiramo razliku je metrijskog tipa, što upućuje na zaključak da u tabeli 1<br />

trebamo odabrati one-sample z-test ili t-test. 9<br />

2.3. ODABIR KRITERIJA ODLUČIVANJA I NIVOA STATISTIČKE ZNAČAJNOSTI<br />

Tokom prethodnih izglaganja već smo nekoliko puta pominjali da se testiranje hipoteza odnosi<br />

na provjeru tvrdnji o parametrima populacije i da prilikom testiranja utvrđujemo da li je veza<br />

9<br />

Preciznije rečeno, t-test možemo koristititi bez obzira na veličinu uzorka, dok bi z-test trebali koristiti samo ako<br />

je uzorak jednak ili veći od 30.<br />

7


između varijabli, odnosno razlika između grupa, statistički signifikantna. U primjeru koji se<br />

odnosi na životni vijek baterije ispostavilo se da prosječan životni vijek baterije u uzorku iznosi<br />

39 mjeseci, što je manje od 42 mjeseca koliko iznosi životni vijek prema tvrdnji proizvođača.<br />

Da li samo na bazi ove razlike možemo reći da je tvrdnja proizvođača netačana? Ne baš.<br />

Kada smo govorili o sampling distribuciji vidjeli smo da će se aritmetička sredina uzorka u<br />

nekoj mjeri uvijek razlikovati u odnosu na stvarnu aritmetičku sredinu populacije. Obzirom da<br />

je prosjek x̄ = 39 dobijen na bazi uzorka, uvijek je moguće da je on rezultat slučajnosti. Možda<br />

se jednostavno desilo da je naš uzorak obuhvatio primjerke baterija čiji je životni vijek znatno<br />

ispod ili iznad stvarnog prosjeka.<br />

Zbog toga se postavlja pitanje kolika je vjerovatnoća da je razlika koju smo utvrdili na bazi<br />

uzorka rezultat slučajnosti zbog fluktuacija svojstvenih procesu uzorkovanja? Da li se dobijeni<br />

rezultat može očekivati relativno često ili je riječ o rezultatu koji je zaista različit i neočekivan?<br />

Drugim riječima, da li utvrđena razlika predstavlja stvarni efekt koji nezavisna varijabla ima na<br />

zavisnu varijablu ili je razlika samo dio uobičajene varijacije koja se javlja zbog greške<br />

uzorkovanja?<br />

Da bi smo dali odgovor na ova pitanja moramo unaprijed specificirati kriterij odlučivanja<br />

(engl. decision rule) koji koristimo za prihvatanje ili odbacivanje nulte hipoteze. Ovaj kriterij<br />

se u procesu testiranja hipoteza naziva nivoom statističke značajnosti (α) i definiše se kao<br />

rizik koji smo spremni prihvatiti da odbacimo nultu hipotezu ako je ona zaista istinita.<br />

U društvenim naukama se kao standard za odbacivanje nulte hipoteze uzima to da vjerovatnoća<br />

slučajnog javljanja opservirane razlike iznosi manje od 1 prema 20, pod pretpostavkom da je<br />

nulta hipoteza zaista tačna. Drugim riječima, ako utvrdimo da je vjerovatnoća dobijanja nekog<br />

rezultata manja od 5% (p < 0.05), odbacićemo nultu hipotezu i zaključiti da se opservirani<br />

rezultat na bazi uzroka zaista razlikuje od očekivane vrijednosti unutar populacije.<br />

U direktnoj vezi sa nivoom statističke značajnosti nalaze se kritične vrijednosti koje smo<br />

koristili da definišemo intervale povjerenja unutar standardne normalne distribucije 11 . Svaka<br />

od navedenih kritičnih vrijednosti ima pridruženu p-vrijednost, a njihov međusobni odnos<br />

vidjećemo u narednoj sekciji.<br />

2.4. IZRAČUNAVANJE STATISTIKE TESTA<br />

Sljedeći korak je da izračunamo stvarnu vjerovatnoću i uporedimo je sa odabranim kriterijem<br />

odlučivanja, odnosno nivoom statističke značajnosti. Drugim riječima, u kontekstu ranijeg<br />

primjera interesuje nas da utvrdimo kolika je vjerovatnoća da na bazi slučajnog uzorka<br />

dobijemo prosjek od 39 mjeseci, ako je stvarni prosjek u populaciji 42 mjeseci.<br />

Primjer 2.1 – nastavak<br />

Za dobijanje odgovora na ovo pitanje poslužićemo se karkateristikama sampling distribucije.<br />

Naime, osnovna ideja testa bazira se na tome da vidimo da li naš uzorak dolazi iste populacije<br />

u kojoj je stvarni prosjek u populaciji μ = 42. Ako je to slučaj onda bi se prosjek uzorka (39<br />

mjeseci) unutar sampling distribucije trebao nalaziti u intervalu povjerenja od 95%, što<br />

11<br />

Vidi tabele sa kritičnim z-vrijednostima u poglavlju: "Osnove inferencijalne statistike“, podnaslov „Normalna<br />

distribucija i vjerovatnoća".<br />

8


odgovara odabranom nivou statičke značajnosti od 5% (α = 0,05). Dakle, test na osnovu kojeg<br />

testiramo hipotezu svodi se na izračunanje z-vrijednosti i poređenje te vrijednosti sa kritičnom<br />

vrijednošću koja u slučaju 95% intervala povjerenja iznosi z = ± 1,96. Ovo je prikazano na slici<br />

1.<br />

Numerička vrijednost koju dobijemo na bazi statističkog testa se naziva statistikom testa (engl.<br />

test statistic). Izračunava se na bazi podataka iz uzorka i služi nam da odredimo da li treba<br />

zadržati ili odbaciti nultu hipotezu.<br />

Slika 1 – Sampling distribucija je osnova na kojoj počiva testiranje hipoteza<br />

Podsjetimo se da sampling distribuciju dobijamo tako što iz populacije nastavljamo uzimati<br />

uzorke iste veličine i mjeriti njihove prosjeke. Centralni granični teorem kaže da će u većim<br />

uzorcima (n > 30) ovi prosjeci biti simetrično distribuirani oko prosjeka populacije koji u našem<br />

primjeru iznosi 42 mjeseci. Prosječna varijacija tako izračunatih aritmetičkih sredina uzoraka<br />

bila bi jednaka standardnoj grešci. Obzirom da je nepraktično uzimati veći broj uzorka,<br />

standardnu grešku možemo procijeniti i na bazi ranije date formule pa ćemo u našem primjeru<br />

imati da je:<br />

SE = σ/√n<br />

SE = 9/√30 = 1,64317<br />

Nakon što odstupanje prosjeka uzorka od prosjeka populacije podijelimo sa standardnom<br />

greškom dobićemo:<br />

Statistika testa zα/2 = (x̄ − μ)/SE<br />

Statistika testa z.025 = (39 − 42)/1,64317 ≈ −1,83<br />

U konkretnom slučaju, dobijena z-vrijednost od −1,83 predstavlja rezultat z-testa na bazi jednog<br />

uzorka i govori koliko je dobijeni prosjek na bazi uzorka daleko od očekivanog prosjeka na<br />

standarnoj normalnoj distribuciji. Ovu vrijednost je u narednom koraku potrebno uporediti sa<br />

kritičnom z-vrijednošću koja korespondira odabranom kriteriju odlučivanja, odnosno nivou<br />

statističke signifikantnosti.<br />

9


2.5. DONOŠENJE ODLUKE: KRITIČNO PODRUČJE<br />

Ostalo nam je još da vidimo koje z-vrijednosti snažno upućuju na to da je istinita alternativna,<br />

a ne nulta hipoteza. Kritično područje (engl. critical region) se odnosi na vrijednosti statistike<br />

testa za koje ne prihvaćamo nultu hipotezu H0. Kritično područje je u direktnoj je vezi sa<br />

odabranim nivoom statističke signifiknantosti α i time da li smo formulisali usmjerenu ili<br />

neusmjerenu hipotezu.<br />

Slika 2 – Distribucija statistike testa i kritična područja<br />

Obratimo pažnju da na slici 2 postoje tri vrste kritičnog područja:<br />

1. Lijevo usmjereno, kada odbacujemo H0 ako je statistika testa manja ili jednaka kritičnoj<br />

vrijednosti koja se nalazi na lijevom kraju distribucije vjerovatnoće;<br />

2. Desno usmjereno, kada odbacujemo H0 ako je statistika testa veća ili jednaka kritičnoj<br />

vrijednosti koja se nalazi na desnom kraju distribucije vjerovatnoće;<br />

3. Dvosmjerno, kada odbacujemo H0 ako je statistika testa veća ili jednaka od kritične<br />

vrijednosti koja se nalazi na desnom kraju distribucije vjerovatnoće, odnosno ako je<br />

statistika testa manja ili jednaka od kritične vrijednosti koja se nalazi na lijevom kraju<br />

distribucije vjerovatnoće.<br />

Primjer 2.1 – nastavak<br />

Obzirom da smo u našem primjeru formulisali neusmjerenu hipotezu, ukupni alpha nivo<br />

moramo podijeliti na dva kraja teoretske distribucije, jer nivou statističke signifikantnosti od α<br />

= 0,05 odgovara dvosmjerno kritično područje i kritična vrijednost od z.025 = −1.96.<br />

Dobijena statistika testa z = −1,83 je veća od kritične vrijednosti z = −1,96 i nalazi se unutar<br />

intervala povjerenja od 95%. Dakle, pri odabranom nivou statističke značajnosti od 5%<br />

nemamo dovoljno dokaza da možemo odbaciti nultu hipotezu. Drugim riječima, tokom<br />

testiranja dobili smo rezultat koji ukazuje na to da je prosjek uzorka (39) vjerovatno dio iste<br />

populacije u kojoj je μ = 42. Rezultat je prikazan na slici 3.<br />

10


Slika 3 – Distribucija aritmetičkih sredina uzoraka za životni vijek baterije i uzorke veličine n<br />

= 30<br />

Obratimo pažnju da smo testirali neusmjerenu hipotezu. Šta bi se desilo da smo unaprijed<br />

pretpostavili da proizvođač obmanjuje potrošače i da je stvarni prosječni vijek baterije manji<br />

od onoga što proizvođač tvrdi? Drugim riječima, da smo testirali jednosmjernu hipotezu:<br />

H0: µ ≥ 42 mjeseca<br />

H1: µ < 42 mjeseca<br />

Postupak izračunavanja i vrijednost statistike testa bi bila ista kao i ranije, ali bi se promijenilo<br />

kritično područje. Obzirom da se čitavo kritično područje sada nalazi samo na jednom kraju<br />

distribucije vjerovatnoće, kod usmjerene hipoteze nivou statističke signifikantnosti od α = 0,05<br />

odgovarala bi kritična vrijednost z.05 = −1,645. Samim tim, dobijena statistika testa bi se našla<br />

u kritičnom području jer je −1,83 > −1,645 pa bi mogli odbaciti nultu i prihvatiti alternativnu<br />

hipotezu.<br />

Slika 4 – Distribucija aritmetičkih sredina uzoraka za životni vijek baterije i uzorke veličine n<br />

= 30<br />

Ako pogledamo sliku 4, vidimo da kritično područje počinje lijevo od vrijednosti 39,30 kojoj<br />

odgovara standardizovana vrijednost z = −1,645. Obzirom da se dobijeni rezultat x̄ = 39 i<br />

11


pridružena mu vrijednost z = −1,83 nalazi u kritičnom području imali bi dovoljno dokaza da<br />

odbacimo nultu i prihvatimo alternativnu hipotezu.<br />

2.6. DONOŠENJE ODLUKE: P-VRIJEDNOST<br />

Nivo statističke značajnosti koji koristimo za prihvatanje ili odbacivanje nulte hipoteze može<br />

se izraziti i preko p-vrijednosti. Naime, umjesto da izračunatu statistiku testa upoređujemo sa<br />

tabličnim vrijednostima, uz pomoć softverskih paketa možemo direktno saznati u kojem<br />

stepenu se ona slaže sa nultom hipotezom. U tehničkom smislu, softver će izračunati statistiku<br />

testa i upariti je sa odgovarajućom vjerovatnoćom za datu teoretsku distribuciju (z, t, F itd.) i<br />

ispisati p-vrijednost.<br />

U tom kontekstu, p-vrijednost nije ništa drugo nego pokazatelj koji govori kolika je<br />

vjerovatnoća da je opservirana statistika testa, izračunata na bazi uzorka, različita od one koju<br />

bi imali pod pretpostavkom da je nulta hipoteza istinita.<br />

Primjer 2.1 – nastavak<br />

Dakle, ranije izračunatoj vrijednosti testa z = −1,83 odgovara p-vrijednost od 0,067. Ovo znači<br />

da pod pretpostavkom da je nulta hipoteza tačna, vjerovatnoća da je opservirana razlika rezultat<br />

slučajnosti iznosi 6,7%. Iako je riječ o relativno maloj vjerovatnoći (p = 0,067), ona je još uvijek<br />

veća od unaprijed prihvaćenog rizika (α = 0,05) pod kojim smo spremni odbaciti nultu hipotezu<br />

ako je ona zaista istinita. Zbog toga zaključujemo da nemamo dovoljno dokaza da odbacimo<br />

nultu hipotezu.<br />

Međutim, da smo formulisali jednosmjernu hipotezu, dobijenu p-vrijednost trebali bi<br />

prepoloviti pa bi imali p = 0,034 što je manje od α = 0,05. U tom slučaju bi nultu hipotezu mogli<br />

odbaciti sa rizikom od 3,4%.<br />

Metod prikaza rezultata testa preko p-vrijednosti je postao popularan iz razloga što većina<br />

softverskih paketa rezultate testiranja hipoteza prijavljuje preko p-vrijednosti. Time se<br />

istraživaču omogućava da na jednostavan način uporedi dobijenu p-vrijednost sa unaprijed<br />

prihvaćenim nivoom rizika, te da odluku o prihvatanju hipoteze donese na bazi jednostavne<br />

uporedbe ta dva broja. U slučaju kada je p-vrijednost manja od prihvaćenog nivoa rizika koji<br />

se obično definiše kao α = 0,05 hipoteza se prihvata. U suprotnom se odbacuje.<br />

12


3. GREŠKA PRVOG I DRUGOG TIPA<br />

Obzirom da je u proces testiranja hipoteza uvijek uključena probabilistička komponenta<br />

moguće je napraviti dvije vrste greški prikazane u tabeli 2.<br />

Tabela 2 – Moguće greške pri testiranju hipoteza<br />

Priroda stvari<br />

H0 je istinita<br />

H1 je istinita<br />

Prihvatili H0<br />

Ispravna odluka<br />

Greška II tipa<br />

Vjerovatnoća = β<br />

Odluka<br />

Prihvatili H1<br />

Greška I tipa<br />

Vjerovatnoća = α<br />

Ispravna odluka<br />

Snaga P = 1 - β<br />

Greška prvog tipa (označava se sa α) označava situaciju kada smo odbacili nultu hipotezu<br />

koja je u stvarnosti istinita. Drugim riječima, grešku prvog tipa smo napravili ako dobijemo<br />

statistički signifikantan rezultat testiranja u situaciji kada stvarni efekt ne postoji. U našem<br />

primjeru to bi značilo da prosječni životni vijek baterije nije manji od očekivanog, a mi smo<br />

došli do zaključka da jeste. Vodeći se tim pogrešnim zaključkom, odlučili bi uvesti izmjene u<br />

proizvodni proces i poboljšati kontrolu kvalitete praveći nepotrebne troškove.<br />

Greška drugog tipa (označava se sa β) javlja se kada ne uspijemo odbaciti neistinitu nultu<br />

hipotezu. Drugim riječima, grešku drugog tipa smo napravili ako smo došli do zaključka da<br />

rezultat testa nije statistički signifikantan u situaciji kad on to u stvarnosti jeste. U našem<br />

primjeru, to bi značilo da je prosječan životni vijek baterije zaista različit od očekivanog ali mi<br />

to nismo uspjeli utvrditi (tj. nismo imali dovoljno dokaza da odbacimo nultu hipotezu).<br />

3.1. SNAGA TESTA<br />

Koncept koji je usko povezan sa greškom drugog tipa je snaga testa. U statističkom smislu<br />

snaga testa (engl. power) predstavlja vjerovatnoću da ćemo odbaciti nultu hipotezu ako ona<br />

zaista nije istinita, odnosno da ćemo uspjeti detektovati efekat koji postoji kao statistički<br />

značajan.<br />

Primjer 2.1 – nastavak<br />

Za ilustraciju snage testa poslužićemo se ranijim primjerom gdje smo testirali:<br />

H0: µ0 ≥ 42 mjeseca<br />

H1: µ0 < 42 mjeseca<br />

Ako kao kriterij odlučivanja koristimo nivo statističke značajnosti α = 0,05, onda je za<br />

odbacivanje nulte hipoteze potrebno da statistika testa bude z < -1.645 12 . U tom slučaju možemo<br />

napisati:<br />

12<br />

Obzirom da je hipoteza jednosmjerna čitavo kritično područje (α) locirano je na gornjem kraju H 0 distribucije.<br />

U slučaju dvosmjerne hipoteze vrijednosti u kritičnom području bi imale vjerovatnoću jednaku α/2 pod H 0.<br />

13


z <br />

x <br />

SE<br />

0<br />

−1,645 = (x − 42)/1,643<br />

x = 42 − 1,645 × 1,643<br />

x = 42 − 2,703<br />

x = 39,297<br />

Vrijednost x = 39,30 predstavlja granicu za odbacivanje H0 uz nivo rizika da smo napravili<br />

grešku prvog tipa u iznosu od α = 0,05 . Ukoliko se aritmetička sredina (x̄ ) uzorka nalazi lijevo<br />

od od ove granice rezultat jednosmjernog testa biće statistički signifikantan, što je situacija koju<br />

imamo na slici 5a gdje se prosjek (x̄ = 39) nalazi u kritičnoj zoni, lijevo od granice (x = 39,30).<br />

Sada ćemo izračunati z-statistiku pod pretpostavkom da je istinita alternativna hipoteza tj. da je<br />

µ1 = 39 mjeseci:<br />

x 1 39,297 39<br />

z 0,181<br />

SE 1,643<br />

Dakle, pod pretpostavkom da je alternativna hipoteza istinita, ranije definisana vrijednost x =<br />

39,30 će od aritmetičke sredine sampling distribucije (µ1 = 39) biti udaljena z = +0,181<br />

standardnu devijaciju. Dobijenoj z-vrijednosti odgovara p = 0,4286.<br />

Slika 5 – Greške tipa I, II i snage testa uz α = 0,05<br />

Ako pogledamo sliku 5b to znači da će se 43% opservacija unutar sampling distribucije nalaziti<br />

u neosjenčenom dijelu desno iza vrijednosti x = 39,30. Obzirom da pretpostavljamo da je<br />

alternativna hipoteza istinita, taj neosjenčeni dio slike 5b predstavlja vjerovatnoću da<br />

14


napravimo grešku drugog tipa β i zaključimo da nema razlike između µ1 = 39 i µ0 = 42 kada u<br />

stvarnosti ta razlika postoji.<br />

Shodno ovome, ostalih 57% opservacija će se nalaziti u osjenčenom dijelu lijevo od x = 39,30.<br />

Osjenčeni dio slike 5b predstavlja snagu testa (P). Kako se aritmetička sredina x̄ = 39 nalazi u<br />

osjenčenom dijelu, test je imao dovoljnu snagu da detektuje tu razliku i dobili smo signifikantan<br />

rezultat uz nivo rizika α = 0,05.<br />

3.2. ODNOS IZMEĐU GREŠKE TIPA I, II I SNAGE TESTA<br />

Vjerovatnoća da napravimo grešku prvog tipa je obrnuto proporcionalna vjerovatnoći da<br />

napravimo grešku drugog tipa za uzorak fiksne veličine. Drugim riječima, ako smanjujemo<br />

rizik da napravimo grešku prvog tipa, povećavamo rizik da napravimo grešku drugog tipa i<br />

obratno.<br />

Da bi smo ilustrovali ovaj odnos zamislimo da smo prethodnu hipotezu željeli testirati uz nivo<br />

rizika α = 0,01. U tom slučaju, kritična zrijednost za odbacivanje nulte hipoteze morala bi biti<br />

manja od z < −2.325. Granica za odbacivanje nulte hipoteze nalazi se na:<br />

x = 42 − 2,325 × 1,643 = 38,18<br />

Ova granica je predstavljena na slici 6. Za razliku od prethodnog testa, sada se aritmetička<br />

sredina uzorka x̄ = 39 nalazi desno od granice, u neosjenečenom dijelu slike 6a. Samim tim,<br />

rezultat jednosmjernog testa nije signifikantan i uz nivo rizika α = 0,01 ne možemo odbaciti<br />

nultu hipotezu da je µ ≥ 42 mjeseca.<br />

Slika 6 – Greške tipa I, II i snage testa uz α = 0,01<br />

Ako pretpostavimo da je alternativna hipoteza istinita, z-statistika će iznositi:<br />

15


X 1 38,18 39<br />

z 0,499<br />

SE 1,643<br />

Što znači da će se granica x = 38,18 na slici 6b nalaziti lijevo od µ1 = 39. Sa slike 6b vidimo da<br />

se snaga testa smanjila i da iznosi približno 31%, dok se vjerovatnoća da smo napravili grešku<br />

drugog tipa povećala i iznosi 69%. Obzirom da je snaga testa manja, osjenčeni dio na slici 6b<br />

ne obuhvata µ1 = 39 pa test nije imao dovoljnu snagu da uz nivo rizika α = 0,01 razliku između<br />

µ1 = 39 i µ0 = 42 detektuje kao signifikantnu.<br />

Dakle, u situaciji kada se veličina uzorka (n) ne mijenja pokušaj smanjenja jedne, automatski<br />

povećava rizik od da druge vrstu greške. Drugim riječima, ako smanjujemo nivo rizika da<br />

napravimo grešku prvog tipa koji je predstavljen osjenčenim područjem α, smanjuje se i snaga<br />

testa koja je predstavljena osjenčenim područjem P = 1 − β. Istovremeno se povećava rizik da<br />

napravimo grešku drugog tipa (β).<br />

3.3. ODNOS IZMEĐU SNAGE TESTA, VELIČINE UZORKA I VELIČINE EFEKTA<br />

Proces testiranja hipoteza istraživaču daje mogućnost da kontroliše rizik greške prvog tipa je se<br />

nivo rizika (α) unaprijed fiksira na neku malu vrijednost. Ukoliko smo unaprijed fiksirali rizik<br />

greške prvog tipa na α = 0,05, onda grešku drugog tipa možemo smanjiti jedino ako povećamo<br />

veličinu uzorka. Ovo proizilazi iz činjenice da je standardna greška jednaka σ/√n. Samim tim,<br />

kako raste n smanjuje se SE.<br />

Uticaj veličine uzorka na snagu testa je prikazan na slici 7a. Vidimo da sa porastom veličine<br />

uzorka (n = 1, 3 i 7) dolazi do povećanja snage testa (P = 0,26, 0,53 i 0,84) iako razlika između<br />

prosjeka uzorka i pretpostavljenog prosjeka populacije ostaje ista (d = 1). Do povećanja snage<br />

testa dolazi jer veći uzorak omogućava precizniju procjenu parametara čime se preklapanje<br />

između dvije distribucije smanjuje.<br />

Slika 7 – Uticaj uzorka (n) i veličine efekta (d) na snagu testa<br />

Na slici 7b prikazan je uticaj veličine efekta (d), kojim se mjeri razlika između prosjeka uzorka<br />

(x̄ ) i pretpostavljenog prosjeka populacije (µ), na snagu testa. Što je izmjerena razlika veća,<br />

lakše ju je detektovati pa će i snaga testa biti veća.<br />

16


4. NAJČEŠĆE POGREŠKE VEZANE ZA TESTOVE SIGNIFIKANTNOSTI<br />

U prethodnom izlaganju upoznali smo se sa osnovnim statističkim konceptima vezanim za<br />

testiranje hipoteza. Vidjeli smo da je suština logike testiranja hipoteza bazirana na tome da se<br />

utvrdi kolika je vjerovatnoća da se opservirana razlika ili efekat javio kao rezultat slučajnosti<br />

pod pretpostavkom da je nulta hipoteza istinita. Kada se ispostavi da je ta vjerovatnoća dovoljno<br />

mala, nulta hipoteza se odbacuje i zaključujemo kako je dobijena razlika statistički<br />

signifikantna. Dakle, termin "statistički signifikantan" označava prvenstveno vjerovatnoću da<br />

je neka tvrdnja istinita i u nastavku ćemo se osvrnuti na često pogrešna shvatanja značenja<br />

termina "statističke signifikantnosti" i skrenuti pažnju na loše prakse kod provođenja testova<br />

signifkantnosti.<br />

4.1. NIVO ZNAČAJNOSTI JE ARBITRARAN<br />

Već smo rekli da se kao standard za odbacivanje nulte hipoteze uzima to da vjerovatnoća<br />

slučajnog javljanja opservirane razlike iznosi p < 0,05, što znači da rizik da ćemo odbaciti<br />

istinitu nultu hipotezu iznosi manje od 5%. Međutim, ovaj nivo od 5% je u potpunosti<br />

arbitraran. Na primjer, ako test pokaže p = 0,06 to još uvijek znači da vjerovatnoća da je<br />

opservirana razlika rezultat slučajnosti iznosi 6%. Rizik da ćemo odbaciti istinitu nultu hipotezu<br />

u tom slučaju je 6%, što nije mnogo više od uobičajenih 5%. Iz tog razloga, ponekad se u praksi,<br />

posebno u istraživanjima koja nemaju akademski već poslovni karakter, prihvata odbacivanje<br />

nulte hipoteze uz nivo statističke signifikantnosti od p < 0,10.<br />

4.2. LAŽNO POZITIVNI REZULTATI<br />

Potrebno je imati na umu šta se dešava kada radimo veliki broj testova. Na primjer, ako smo uz<br />

nivo rizika α = 0,05 proveli 100 testova koji su pokazali da postoji statistički signifikantan<br />

rezultat, vjerovatnoća je da se kod njih 5 javio lažno pozitivan rezultat.<br />

U praksi nije rijedak slučaj da naiđemo na istraživanja u kojima se se razlike testirale za svako<br />

pitanje iz marketinške skale koja broji nekoliko desetina pojedinačnih item-a. Najčešće se takva<br />

testiranja odnose na razlike u odgovorima između grupa formiranih na bazi demografskih<br />

varijabli kao što su spol, visina dohodka, radni status, stručna sprema i sl. Sasvim je očekivano<br />

da će se u takvoj situaciji desiti da se kod nekih pitanja javi "lažna" statistička signifikantnost.<br />

Što skala ima više pitanja, takvih lažno pozitivnih rezultata je sve više. Problem je što istraživač<br />

ne može reći koji rezultati su lažno pozitivni, osim što treba biti svjestan da ih ima.<br />

Zbog toga je poželjno da se pri testiranju hipoteza vodimo teorijom i da testiranje unaprijed<br />

ograničimo na varijable i grupe ispitanika koje su od stvarnog interesa za ciljeve istraživanja.<br />

Također, najbolji način da utvrdimo da li je riječ o lažno pozitivnom rezultatu bio bi da<br />

ponovimo istraživanje na novom uzorku i vidimo da li ćemo dobiti isti rezultat. Ako se ispostavi<br />

da je nešto statistički signifikantno u dvije odvojene studije, onda je vjerovatno riječ o stvarnom<br />

efektu. Kako je u praksi često nepraktično ponavljati istraživanje, možemo se upotrijebiti i tzv.<br />

"split-half" tehnika gdje se ispitanici iz uzorka slučajnim odabirom podijele u dva poduzorka u<br />

kojima se zatim obave zasebna testiranja. Ukoliko se ispostavi da je test statistički signifikantan<br />

u oba poduzorka možemo biti sigurniji da smo detektovali stvarni efekat. Jedini problem javlja<br />

se u slučaju kada nemamo dovoljno veliki broj ispitanika jer se dijeljenjem ukupnog uzorka<br />

smanjuje snaga testa.<br />

17


4.3. P-VRIJEDNOST NIJE ISTO ŠTO I RIZIK DA NAPRAVIMO GREŠKU I TIPA<br />

Čest je slučaj da se p-vrijednost pogrešno interpetira kao vjerovatnoća da smo odbacili tačnu<br />

nultu hipotezu, tj. vjerovatnoća da smo napravili grešku prvog tipa. Ovakva interpretacija<br />

pogrešna iz razloga što p-vrijednost ništa ne govori o stvarnoj istinitosti nulte hipoteze jer se<br />

pri izračunavanju p-vrijednosti pretpostavlja da je ona istinita i da je svaka razlika rezultat<br />

fluktucija koje nastaju zbog same prirode uzorkovanja. U stvarnosti ne možemo znati da li je<br />

nulta hipoteza istinita ili nije. Mi samo polazimo od pretpostavke da jeste.<br />

Teško je precizno utvrditi koliko iznosi stvarna greška da smo odbacili istinitu nultu hipotezu<br />

(α). Provodeći simulacije Sellke i ostali (2001) su došli do zaključka da uz p = 0,05 vjerovatnoća<br />

da je odbačena zaista istinita nulta hipoteza (α) iznosi najmanje 23%, a uobičajeno je bliža 50%.<br />

Istovremeno uz p = 0,01 vjerovatnoća da je napravljena greška prvog tipa (α) iznosi najmanje<br />

7%, odnosno uobičajeno je bliža 15%.<br />

4.4. P-VRIJEDNOST NIJE VJEROVATNOĆA DOBIJANJA ISTOG REZULTATA<br />

Nisu rijetke situacije kada istraživači interpretiraju dobijenu p-vrijednost kao vjerovatnoću da<br />

će se dobiti isti rezultat ako ponovimo istraživanje. Da bi objasnili zašto je ovakvo tumačenje<br />

pogrešno uzmimo da imamo sljedeću hipotezu:<br />

H0: prosječna plata u BiH je ≤ 800 KM<br />

H1: prosječna plata u BiH je > 800 KM.<br />

Da bi testirali navedenu hipotezu, pretpostavimo da smo na bazi slučajnog uzorka prikupili<br />

podatke i izračunali da je prosječna plata 900 KM. Zatim smo primjenili odgovarajući statistički<br />

test kako bi provjerili da li je razlika između prosjeka uzorka (900 KM) statistički signifikantna<br />

u odnosu na pretpostavljeni prosjek populacije (800 KM). Kao rezultat testa smo dobili da je p<br />

= 0,04999. S obzirom na to, odbacujemo nultu hipotezu jer je rezultat statistički signifikantan.<br />

Ako bi ponovili istraživanje na istovjetan način (iz populacije uzeli novi slučajni uzorak iste<br />

veličine) kolika je šansa da bi ponovo odbacili nultu hipotezu jer bi rezultat bio statistički<br />

signifikantan? Odgovor nije 95%, kako bi mnogi pretpostavili, već znatno manjih 50%. Da bi<br />

vidjeli zašto je to tako, pogledajmo sliku 8.<br />

18


Slika 8 – Vjerovatnoća da ponovo dobijemo signifikantan rezultat ako je rezultat u prvoj studiji<br />

bio signifikantan<br />

Na desnoj strani slike 8 je prikazan oblik distribucije ako je prosječna plata u populaciji zaista<br />

900 KM i ako njen raspored slijedi normalnu dsitribuciju. Kad uzimamo uzorak iz takve<br />

populacije, njegov prosjek će se nalaziti ili lijevo ili desno od aritmetičke sredine (H1) koja<br />

iznosi 900 KM. U 50% slučajeva će prosjek uzorka biti lijevo u plavom području, u ostalih 50%<br />

slučajeva će biti desno u neosjenčenom dijelu.<br />

Obzirom da u ponovljenom istraživanju opet testiramo H0 koja kaže da je plata ≤ 800 KM, ako<br />

se desi da prosjek uzorka bude u plavom području onda nećemo imati dovoljno dokaza da<br />

odbacimo H0. Dakle, vjerovatnoća da se će se aritmetička sredina drugog uzorka iste veličine<br />

nalaziti u plavom području, i da nećemo uspjeti ponovo odbaciti nultu hipotezu, iznosi 50%.<br />

4.5. P-VRIJEDNOST ZAVISI OD VELIČINE UZORKA<br />

Kada smo govorili o snazi testa vidjeli smo da dobijena statistika testa, a preko nje i p-<br />

vrijednost, zavisi od tri faktora: 1) opservirane razlike između aritmetičkih sredina, 2)<br />

standardne greške i 3) veličine uzorka. Promjena bilo koje od ove tri vrijednosti može uticati<br />

na promjenu statističke signifikantnosti. Posebno je važno obratiti pažnju na uticaj koji ima<br />

veličina uzorka.<br />

Primjer 2.1 – nastavak<br />

Da bi ilustrovali uticaj veličine uzorka vratimo se na primjer u kojem smo testirali hipotezu da<br />

je:<br />

H0: µ = 42 mjeseca<br />

H1: µ ≠ 42 mjeseca<br />

U tom primjeru smo na uzorku veličine n = 30 izračunali da statistika testa iznosi z = −1.82574<br />

i da toj vrijednosti odgovara vjerovatnoća p = 0,06724 na osnovu čega smo zaključili da rezultat<br />

nije signifikantan na nivou p < 0,05.<br />

Pogledajmo šta bi se desilo da smo imali uzorak veličine n = 100:<br />

19


z = (x̄ − μ)/σ/√n<br />

z = (39 − 42)/9/√100<br />

z = −3/0,9<br />

z = −3,33333 (p = 0,00086)<br />

Iako je razlika za koju smo proveli test ostala ista (3 mjeseca) rezultat je sada visoko statistički<br />

signifikantan.<br />

4.6. STATISTIČKA SIGNIFIKANTNOST NIJE ISTO ŠTO I PRAKTIČNA<br />

SIGNIFIKANTNOST<br />

Statistička signifikantnost se odnosi na vjerovatnoću da je detektovani efekat rezultat<br />

slučajnosti, pod pretpostavkom da je nulta hipoteza tačna. Međutim, statistička signifikantnost<br />

često ne mora imati mnogo veze sa praktičnom signifikantnošću.<br />

Primjer 2.1 – nastavak<br />

Da bi smo ilustrovali šta ovo znači pretpostavimo da smo u prethodnom primjeru imali uzorak<br />

veličine n = 100.000 i da je prosjek u uzorku umjesto dobijenih 39 bio 41,9 mjeseci. Statistika<br />

testa i pripadajuća p-vrijednost bi iznosila:<br />

z = (M − μ)/σ/ √n<br />

z = (41,9 − 42)/9/√100.000<br />

z = −0,1/0,02846<br />

z = −3,51364 (p = 0,00044)<br />

Iako je razlika za koju smo proveli test znatno manja (0,1 mjeseci) rezultat je sada statistički<br />

signifikantan sa visokim nivoom statističke signifikantnosti. Jednostavno, u situacijama kada<br />

imamo veliki uzorak i trivjalne razlike koje nemaju nikakvu praktičnu vrijednost mogu biti<br />

statistički signifikantne. S druge strane, u situacijama kada imamo mali uzorak, razlike koje su<br />

sa praktičnog aspekta bitne mogu biti statistički nesignifikantne.<br />

U kontekstu primjera sa životnim vijekom baterije, moramo se upitati kakav praktični značaj<br />

ima statistički signifikantna razlika između pretpostavljne i opservirane aritmetičke sredine?<br />

Na primjer, ako smo dobili statistički signifikantan rezultat koji kaže da je očekivani životni<br />

vijek baterije kraći za 3 mjeseca da li takav nalaz osigurava opravdanost poduzimanja<br />

odgovarajućih akcija? Ukoliko je odgovor pozitivan, onda pored statističke govorimo i<br />

praktičnoj signifikantnosti.<br />

5. VELIČINA EFEKTA<br />

Obzirom na raširenost prethodno navedenih pogreški vezanih za interpretaciju rezultata testova<br />

signifikantnosti, nisu rijetke situacije da se končani zaključci testiranja hipoteza ne shvataju u<br />

pravom kontekstu.<br />

Kako bi se bar u nekoj mjeri prevazišla ova ograničenja predloženo je da se pored same<br />

statistike testa i p-vrijednosti izračunava i veličina efekta. Pojednostavljeno rečeno, pod<br />

veličinom efekta (engl. effect size) se podrazumjeva niz indikatora kojima se pokušava utvrditi<br />

20


da li je statistički signifikantna razlika ili korelacija dovoljno velika da bi imala praktično<br />

značenje.<br />

Kad je riječ o mjerenju jačine korelacije, najpoznatiji indikatori kojim se izražava veličina<br />

efekta su Pearsonov koeficijent korelacije (r) i koeficijent determinacije (R 2 ). S druge strane,<br />

kod mjerenja veličine efekta za razliku između dvije grupe često se koristi Kohenov indikator<br />

(d). U slučaju da imamo više od dvije grupe, veličinu efekata možemo izmjeriti sa parcijalnim<br />

kvadriranim eta indikatorom (η 2 ). U tabeli 3 je dat prikaz odnosa između d, r i R 2 indikatora<br />

veličine efekta.<br />

Tabela 3 – Indikatori veličine efekta<br />

Cohenov standard d Procenat<br />

r R 2<br />

preklapanja<br />

2.0 18,9 .707 .500<br />

1.9 20,6 .689 .474<br />

1.8 22,6 .669 .448<br />

1.7 24,6 .648 .419<br />

1.6 26,9 .625 .390<br />

1.5 29,3 .600 .360<br />

1.4 31,9 .573 .329<br />

1.3 34,7 .545 .297<br />

1.2 37,8 .514 .265<br />

1.1 41,1 .482 .232<br />

1.0 44,6 .447 .200<br />

0.9 48,4 .410 .168<br />

Veliki efekat 0.8 52,6 .371 .138<br />

0.7 57,0 .330 .109<br />

0.6 61,8 .287 .083<br />

Srednji efekat 0.5 67,0 .243 .059<br />

0.4 72,6 .196 .038<br />

0.3 78,7 .148 .022<br />

Mali efekat 0.2 85,3 .100 .010<br />

0.1 92,3 .050 .002<br />

0.0 100 .000 .000<br />

Iz tabele 3 možemo primjetiti nekoliko stvari:<br />

Prvo, Cohen (1988) veličinu efekta definiše kao malu ako je d = .2 ili r = |.100|, srednju ako je<br />

d = .5 ili r = |.243| i veliku ako je d = .8 ili r = |.371|.<br />

Drugo, veličina efekta se može izraziti i kao "procenat preklapanja" između dvije distribucije.<br />

Tako na primjer za veličinu efekta od d = .5 preklapanje između dvije distribucije iznosi 67%.<br />

Treće, indikator d se može pretvoriti u indikator r i obrnuto. Na primjer, ako je d = .5, onda je<br />

r = |.243|.<br />

Četvrto, koeficijent determinacije (R 2 ) pokazuje postotak varijanse zavisne varijable koji je<br />

objašnjen nezavisnom varijablom. Na primjer, ako smo testirali razliku između prosječnih<br />

primanja za muškarce i žene i dobili da je d = .5, to znači da se 5,9% varijabiliteta prosječnih<br />

primanja može objasniti spolom ispitanika.<br />

21


Veličina efekta se računa na sljedeći način:<br />

gdje je<br />

Cohenov d = (x̄ grupa1 - xḡrupa2) / SDzajednička<br />

SD<br />

zajednička<br />

<br />

( SD SD )<br />

2 2<br />

grupa 1 grupa 2<br />

2<br />

Cohenov d možemo pretvoriti u koeficijent korelacije na koristeći se formulom:<br />

r = d / √(d2 + 4)<br />

Na primjer, pretpostavimo da smo dvije grupe potrošača uporedili u pogledu toga koliko puta<br />

mjesečno kupuju proizvod A i da smo dobili da prosjek za prvu grupu iznosi 7 komada (SD =<br />

3) a da za drugu grupu iznosi 9 komada (SD = 3). U tom slučaju veličina efekta iznosi d = .667<br />

odnosno r = .316.<br />

22


UNIVERZITET U SARAJEVU<br />

EKONOMSKI FAKULTET U SARAJEVU<br />

Parametarski testovi za testiranje razlika između<br />

grupa 1<br />

Autor:<br />

prof. dr Emir Agić<br />

Sarajevo, 04. april 2017. godine<br />

1<br />

NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />

njegovih dijelova bez prethodnog pisanog pristanka autora.<br />

1


Sadržaj<br />

I Parametarski testovi za testiranje razlika ..................................................................... 4<br />

1. Uvod ................................................................................................................................ 4<br />

2. Pretpostavke za primjenu parametarskih testova ..................................................... 4<br />

2.1. Normalnost ............................................................................................................. 5<br />

2.2. Ne postoje netipične opservacije ............................................................................. 5<br />

2.3. Homogenost varijanse .............................................................................................. 5<br />

2.4. Tip zavisne varijable ................................................................................................ 6<br />

2.5. Nezavisnost .............................................................................................................. 6<br />

2.6. Slučajni uzorak ......................................................................................................... 7<br />

2.7. Aritmetička sredina je adekvatan pokazatelj centralne tendencije .......................... 7<br />

2.8. Alternative parametarskim testovima ...................................................................... 8<br />

3. Parametarski testovi za jednu grupu .......................................................................... 8<br />

3.1. t-test na bazi jednog uzorka ..................................................................................... 8<br />

3.1.1. Provjera pretpostavki ........................................................................................ 9<br />

3.1.2. Izračunavanje statistike testa uz pomoć formule ............................................ 10<br />

3.1.3. Izračunavanje statistike testa uz pomoć State ................................................. 10<br />

3.1.4. Kako napisati rezultat testa ............................................................................. 11<br />

3.1.5. Dodatni primjeri i zadaci ................................................................................ 11<br />

4. Parametarski testovi za dvije grupe .......................................................................... 13<br />

4.1. Nezavisni t-test ....................................................................................................... 13<br />

4.1.1. Provjera pretpostavki ...................................................................................... 14<br />

4.1.2. Izračunavanje statistike testa uz pomoć formule ............................................ 15<br />

4.1.3. Izračunavanje statistike testa uz pomoć State ................................................. 15<br />

4.1.4. Kako napisati rezultat testa ............................................................................. 16<br />

4.1.5. Dodatni primjeri i zadaci ................................................................................ 17<br />

4.2. Zavisni t-test ........................................................................................................... 17<br />

4.2.1. Provjera pretpostavki ...................................................................................... 18<br />

4.2.2. Izračunavanje statistike testa pomoću formule ............................................... 19<br />

4.2.3. Izračunavanje statistike testa pomoću State ................................................... 19<br />

4.2.4. Kako napisati rezultat testa ............................................................................. 20<br />

4.2.5. Dodatni primjeri i zadaci ................................................................................ 20<br />

5. Parametarski testovi za tri ili više grupa .................................................................. 20<br />

5.1. Analiza varijanse (ANOVA).................................................................................. 20<br />

5.1.1. Zašto nam treba analiza varijanse? ................................................................. 20<br />

5.1.2. ANOVA bez State .......................................................................................... 21<br />

5.1.3. ANOVA uz pomoć State ................................................................................ 25<br />

5.1.4. Provjera pretpostavki ...................................................................................... 25<br />

5.1.5. Izračunavanje statistike testa uz pomoć State ................................................. 26<br />

5.1.6. Post Hoc testovi .............................................................................................. 26<br />

2


5.1.7. Kako napisati rezultat testa ............................................................................. 27<br />

5.1.8. Dodatni primjeri i zadaci ................................................................................ 27<br />

5.2. Analiza varijanse sa ponovljenim mjerenjima (RM ANOVA) .............................. 28<br />

5.2.1. RM ANOVA bez State ................................................................................... 29<br />

5.2.2. RM ANOVA uz pomoć State ......................................................................... 31<br />

5.2.3. Kako napisati rezultat testa ............................................................................. 34<br />

3


I<br />

Parametarski testovi za testiranje razlika<br />

1. UVOD<br />

Parametarskim testovima se procjenjuju vrijednosti nepoznatih parametara populacije kao što<br />

su aritmetička sredina, varijansa i kovarijansa. Samim tim, ovi testovi su vezani za zavisne<br />

varijable kontinuiranog tipa. Selekcija odgovarajućeg parametarskog testa zavisi od broja grupa<br />

između kojih se vrši testiranje razlika kao i od toga da li je riječ o međusobno nezavisnim ili<br />

zavisnim grupama, što je obrađeno u poglavlju „Testiranje hipoteza“ (vidjeti tabelu „Kriteriji<br />

za odabir testa“).<br />

2. PRETPOSTAVKE ZA PRIMJENU PARAMETARSKIH TESTOVA<br />

Bitno je imati na umu da se parametarski testovi baziraju na odgovarajućim pretpostavkama<br />

vezanim za populaciju iz koje je dobijen uzorak na kojem se vrši testiranje. Pod<br />

pretpostavkama (engl. assumptions) podrazumjevamo određene uslove koji moraju biti<br />

ispunjeni da bi se mogli osloniti na rezultate dobijene na bazi testova. U nekim slučajevima<br />

neispunjavanje pretpostavki ne mora nužno dovesti do pogrešnog zaključka. U drugim<br />

slučajevima narušavanje pretpostavki može u potpunosti obezvrijediti smisao analize. Iz tog<br />

razloga je vrlo bitno da osiguramo ispunjenje pretpostavki koje određena statististička<br />

procedura zahtjeva. U svakom istraživačkom radu uobičajeno je da se navede da li je ispitana<br />

ispunjenost pretpostavki koje su svojstvene analizama koje su korištene i do kakvih je<br />

zaključaka došlo u vezi toga. Ukoliko neka pretpostavka nije ispunjena potrebno je navesti šta<br />

je urađeno u vezi sa tim. Na primjer, kada nisu ispunjene neke od pretpostavki za primjenu<br />

parametarskih testova moguće je koristiti neparametarske testove koji se baziraju na manjem<br />

broju pretpostavki.<br />

U tabeli 1 je data usporedba osnovnih pretpostavki koje je potrebno ispuniti da bi zaključci do<br />

kojih dođemo na bazi parametarskih testova signifikantnosti bili validni. U nastavku je<br />

objašnjeno značenje navedenih pretpostavki.<br />

Tabela 1 – Pretpostavke koje moraju biti ispunjene da bi se primijenio odgovarajući<br />

parametarski test<br />

Zavisna<br />

varijabla<br />

Netipične<br />

vrijednosti<br />

Normalnost<br />

Homogenost<br />

varijanse<br />

Nezavisnost<br />

Sfernost<br />

Slučajni<br />

uzorak<br />

One-sample t-test kontin. da* da** da* da da<br />

Nezavisni t-test kontin. da* da*** da* da da<br />

Zavisni t-test kontin. da* da* da<br />

ANOVA kontin. da* da da* da da<br />

ANOVA sa ponav. kontin. da* da* da*** da<br />

Napomena: * Samo ako je veličina uzorka manja od n < 30; ** Samo ukoliko je poznata varijansa uzorka ili<br />

populacije u odnosu na koju se vrši usporedba; *** Samo ako softverski paket ne pruža mogućnost korekcije.<br />

4


2.1. NORMALNOST<br />

Ova pretpostavka znači da bi distribucija aritmetičkih sredina uzoraka (sampling distribucija)<br />

trebala imati normalnu raspodjelu. Narušavanje ove pretpostavke posebno je problematično<br />

kada imamo mali uzorak unutar kojeg orginalni podaci znatno odstupaju od normalne<br />

distribucije. U takvoj situaciji je vrlo vjerovatno da podaci ne slijedi normalnu raspodjelu ni u<br />

populaciji, a kako se zbog veličine uzorka se ne možemo osloniti na djelovanje Centralnog<br />

graničnog teorema onda je bolje je primjeniti neparametarski test.<br />

Obratimo pažnju da se normalnost ne odnosi na distribuciju zavisne varijable u uzorku, već na<br />

sampling distribuciju. Sjetimo se da Centralni granični teorem kaže da će sampling distribucija<br />

imati normalnu raspodjelu ukoliko imamo dovoljno veliki uzorak, bez obzira na oblik orginalne<br />

distribucije podataka iz uzorka. Dakle, parametarske testove možemo primjeniti čak i ako<br />

orginalni podaci nemaju normalnu distribuciju sve dok imamo dovoljno veliki uzorak. Šta se u<br />

datom slučaju podrazumijeva pod dovoljno velikim uzorkom možemo vidjeti u tabeli 2.<br />

Tabela 2 – Potrebna veličina uzorka ukoliko orginalni podaci u uzorku nemaju normalnu<br />

raspodjelu<br />

Parametarski test<br />

Veličina uzorka<br />

t-test na bazi jednog uzorka > 20<br />

t-test sa dva uzorka<br />

> 15 u svakoj grupi<br />

Jednofaktorska ANOVA > 15 ako imamo do 9 grupa ili > 20 ako imamo 10-12 grupa<br />

Izvor: Minitab<br />

Šta ako imamo manji uzorak? Ukoliko smo sigurni da podaci u populaciji za datu zavisnu<br />

varijablu slijede normalnu distribuciju i distribucija aritmetičkih sredina uzorka će biti<br />

normlana za uzorak bilo koje veličine. Ako pak ne znamo kako je varijabla od interesa<br />

distribuirana u populaciji onda je bolje primjeniti neki od alternativnih neparametarskih testova.<br />

Pretpostavku normalnosti provjeravamo putem histograma frekvencija i pomoću Shapiro-Wilk<br />

testa. Pogledati primjer 3.1 u narednoj sekciji kao ilustraciju postupka provjere ove<br />

pretpostavke.<br />

2.2. NE POSTOJE NETIPIČNE OPSERVACIJE<br />

Pod netipičnim opservacijama (engl. outliers) podrazumijevamo opservacije kod kojih se<br />

vrijednosti zavisne varijable znatno različitu od ostalih opservacija u uzorku. Ispunjenost ove<br />

pretpostavke je posebno bitna ukoliko raspolažemo sa uzorkom manje veličine. Netpipične<br />

vrijednosti možemo detektovati uz pomoć boxplot-a.<br />

2.3. HOMOGENOST VARIJANSE<br />

Ova pretpostavka se odnosi na to da bi grupe trebale imati jednaku varijansu. Drugim riječima,<br />

raspršenost opservacija bi trebala biti jednaka u svim grupama (slika 1).<br />

5


Slika 1 – Različita varijansa<br />

Izvor: Hipotetski podaci<br />

Nekada je neispunjavanje ove pretpostavke značilo potrebu primjene neparametarskih testova.<br />

Međutim, većina današnjih softverskih statističkih paketa automatski vrši korekciju dobijene<br />

statistike testa na način da ona bude validna čak i u situaciji kada je pretpostavka o homogenosti<br />

varijanse narušena.<br />

2.4. TIP ZAVISNE VARIJABLE<br />

Za sve parametarske tehnike podrazumjeva se da je zavisna varijabla kontinuiranog tipa i da je<br />

mjerena na intervalnoj ili proporcionalnoj skali.<br />

2.5. NEZAVISNOST<br />

Neki testovi podrazumijevaju da su opservacije ili grupe nezavisne jedna od druge. Na primjer,<br />

ako smo na bazi slučajnog uzorka mjerili ostvareni profit preduzeća u dvije države, sasvim je<br />

izvjesno da izmjerena visina profita u zemlji A ne zavisi od toga kako su poslovala preduzeća<br />

u zemlji B.<br />

Međutim, šta se dešava ako smo unutar iste grupe preduzeća mjerili profit na kraju dvije<br />

poslovne godine i želimo testirati da li je razlika u prosijeku signifikantna? Dio ovako<br />

prikupljenih podataka može izgledati kako je prikazanu u tabeli 3.<br />

Tabela 3 – Podaci o visini ostvarenog profita za četiri kompanije<br />

Naziv 2015 2016<br />

Firma A 10.234 KM 11.489 KM<br />

Firma B 86.908 KM 95.324 KM<br />

Firma C 23.006 KM 18.358 KM<br />

Firma D 47.056 KM 46.963 KM<br />

Vidimo da su u posmatranom periodu neke kompanije ostvarile više, a neke manje profita. Ono<br />

što je bitno uočiti jeste da imamo dva ponovljena mjerenja na istim subjektima i da zbog toga<br />

6


možemo očekivati korelaciju između 2015. i 2016. godine. Drugim riječima, ukoliko je firma<br />

ostvarila veći profit u 2015. možemo očekivati da će i u 2016. godini profit u toj firmi biti visok.<br />

Samim tim, ostvareni rezultat u 2016. godini zavisi od rezultata u 2015. godini i kažemo da<br />

opservacije nisu nezavisne.<br />

2.6. SLUČAJNI UZORAK<br />

Svi parametarski i neparametarski testovi značajnosti se baziraju na pretpostavci da su jedinice<br />

populacije u uzorak izabrane potpuno slučajno.<br />

2.7. ARITMETIČKA SREDINA JE ADEKVATAN POKAZATELJ CENTRALNE<br />

TENDENCIJE<br />

Činjenica da centralni granični teorem omogućava da primjenimo parametarski test u situaciji<br />

kada imamo veliki uzorak, ne znači nužno da to trebamo uvijek i uraditi. Naime, u situacijama<br />

kada medijana sa ekonomskog aspekta bolje reprezentuje centar distribucije poželjnije je<br />

primjeniti neki od neparametarskih testova.<br />

Na primjer, pretpostavimo da želimo testirati hipotezu da se prosječni dohodak domaćinstava<br />

u 2016. nije promijenio u odnosu na 2015. godinu. Obzirom da dohodak ima jako nakrivljenu<br />

distribuciju većina podataka je koncentrisana na lijevoj strani distribucije sa dugačkim repom<br />

koji se pruža prema desnom kraju (slika 2). Ovaj rep oslikava činjenicu da postoje domaćinstva<br />

čiji dohodak znatno odskače od prosjeka populacije. Ako se broj takvih domaćinstava povećao<br />

u 2016. godini, to će pomjeriti aritmetičku sredinu udesno i parametarski test može pokazati da<br />

postoji statistički signifikantna razlika. Na osnovu toga ćemo zaključiti da je došlo do promjene<br />

dohotka, što je tačno ako prihvatimo da je aritmetička sredina najbolji pokazatelj centralne<br />

tendencije i da oslikava realnu sliku.<br />

Slika 2 – Histogram dohotka domaćinstava u 2015 i 2106 godini<br />

Izvor: Hipotetski podaci<br />

Međutim, uvećanje bogatstva nekolicine milionera ne znači nužno da je i ostatak populacije<br />

iskusio povećanje dohotka. Ako pogledamo sliku 2, vidimo da obični građani ne žive bolje i da<br />

se medijana nije promijenila.<br />

7


Dakle, u situaciji kada aritmetička sredina nije najbolji opis realne situacije, nekada je bolje<br />

primjeniti neparametarski test. Posebno ako imamo nesimetričnu distribuciju čiji je lijevi kraj<br />

ograničen nulom ili kada dobijeni rezultat može znatno zavisiti od nekoliko ekstremnih<br />

vrijednosti unutar uzorka.<br />

2.8. ALTERNATIVE PARAMETARSKIM TESTOVIMA<br />

Ukoliko raspolažemo metrijskim podacima ali je narušena jedna ili više pretpostavki za<br />

primjenu parametarskih testova, neophodno je koristiti neku od neparametarskih alternativa za<br />

ordinalne varijable prikazanih u tabeli 4.<br />

Tabela 4 – Neparametarske alternative parametarskim testovima<br />

Parametarski test<br />

Nezavisni t-test<br />

Zavisni t-test<br />

Jednofaktorska ANOVA<br />

Jednofaktorska ANOVA sa<br />

ponovljenim mjerenjima<br />

Alternativni neparametarski test<br />

Mann-Whitney U test<br />

Wilcoxon test<br />

Kruskal-Wallis test<br />

Friedman test<br />

Neparametarski testovi se uglavnom baziraju na proceduri rangiranja opserviranih vrijednosti<br />

zavisne varijable po veličini, a zatim na poređenju novodobijenih rangova. Na taj način se<br />

neutrališe problem uticaja netipičnih vrijednosti, a sama raspodjela distribucije i homogenost<br />

varijanse prestaju imati bitnu ulogu. Ovi testovi su obrađeni u narednom poglavlju.<br />

3. PARAMETARSKI TESTOVI ZA JEDNU GRUPU<br />

3.1. T-TEST NA BAZI JEDNOG U ZORKA<br />

T-test na bazi jednog uzorka (engl. One sample t-test) se koristi u situaciji kada želimo testirati<br />

hipotezu o razlici između aritmetičke sredine jednog uzorka (x̄ 1) i aritmetičke sredine populacije<br />

(µ) ili drugog uzorka za koji nemamo podatke (x̄ 2). Statistika testa sa (n − 1) stepena slobode<br />

se izračunava po formuli:<br />

x <br />

t 0<br />

gdje je SE SD<br />

SE<br />

n<br />

U principu, t-test na bazi jednog uzorka je gotovo identičan z-testu na bazi jednog uzorka kojeg<br />

smo ranije detaljno obradili kroz primjer sa životnim vijekom baterija. Jedina razlika ogleda se<br />

u tome što t-test daje validniji rezultat ako imamo uzorak sa manje od 30 ispitanika. Iz tog<br />

razloga je u većini softverskih paketa implementiran samo t-test.<br />

Primjer 3.1<br />

Procijenjeno je da mjesečna potrošnja vode po stanaru u kantonu Sarajevo iznosi 3,46 m 3 .<br />

Prilikom mjerenja uobičajeno je da se potrošnja vode za cijelu zgradu očitava na jednom brojilu<br />

8


a zatim dijeli prema broju stanara. Istraživačka pretpostavka je da domaćinstva sa individualnim<br />

vodomjerima više štede kako bi platila samo onoliko koliko zaista potroše. Kako bi se provjerila<br />

ova pretpostavka, na bazi slučajnog uzorka odabrano je 25 stanova sa ugrađenim individualnim<br />

vodomjerima i mjerena je njihova mjesečna potrošnja vode. Utvrđeno je da potrošnja iznosi<br />

2,80 m 3 uz standardnu devijaciju 1,03 m 3 . Podaci su spremljeni u datoteku vodomjeri_ks.dta<br />

(varijabla potrosnja). Da li možemo zaključiti da uvođenje individualnih vodomjera smanjuje<br />

mjesečnu potrošnju vode?<br />

Dakle, interesuje nas da li je prosječna mjesečna potrošnja vode za 25 slučajno odabranih<br />

stanova sa individualnim vodomjerom manja u odnosu na prosječnu mjesečna potrošnja vode<br />

u populaciji. S obzirom na to, testiramo sljedeću usmjerenu hipotezu:<br />

H0: µ ≥ 3,46 m 3<br />

H1: µ < 3,46 m 3<br />

3.1.1. Provjera pretpostavki<br />

Međutim, prije nego provedemo test, obzirom da imamo manji uzorak (n < 30) potrebno je<br />

ispitati da li zavisna varijabla ima približno normalan raspored. Ovo možemo uraditi preko<br />

histograma frekvencija i provođenjem formalnog Shapiro-Wilk testa za ispitivanje normalnosti<br />

distribucije.<br />

. histogram potrosnja, normal<br />

Histogram pokazuje raspored zavisne varijable (potrosnja) koji slijedi približno normalnu<br />

distribuciju.<br />

. swilk potrosnja<br />

Shapiro-Wilk W test for normal data<br />

Variable | Obs W V z Prob>z<br />

-------------+--------------------------------------------------<br />

potrosnja | 25 0.98230 0.492 -1.451 0.92659<br />

9


Opservaciju o ispunjenju pretpostavke o normalnosti je potvrdio i Shapiro-Wilk test koji je<br />

nesignifikantan (p > 0,05),što znači da ne možemo tvrditi da raspored zavisne varijable odstupa<br />

znatno od normalne distribucije.<br />

Pretpostavku o nepostojanju netipičnih vrijednosti ćemo provjeriti tako što ćemo nacrtati<br />

boxplot:<br />

. graph box potrosnja<br />

Boxplot ne prikazuje postojanje netipičnih opservacija pa zaključujemo da je pretpostavka<br />

ispunjena.<br />

T-test na bazi jednog uzorka zahtjeva da je varijansa u uzorku otprilike jednaka varijansi u<br />

populaciji ukoliko imamo taj podatak. Ukoliko varijansa populacije nije poznata, možemo je<br />

procijeniti jedino na bazi uzorka pa ovu pretpostavku nije moguće testirati u našem primjeru.<br />

3.1.2. Izračunavanje statistike testa uz pomoć formule<br />

Statistiku testa možemo izračunati ručno korištenjem formule:<br />

x 0 2,80 3,46 0,66<br />

t 3,20<br />

SE 1,03 0,206<br />

25<br />

Ako bi konsultovali statističke tablice vidjeli bi da je dobijena statistika testa t = −3,20 za dati<br />

broj stepena slobode (25 − 1 = 24) signifikantna uz p < 0,05 na osnovu čega možemo odbaciti<br />

nultu hipotezu.<br />

3.1.3. Izračunavanje statistike testa uz pomoć State<br />

Testiranje hipoteze možemo uraditi i uz pomoć State. Naredba za provođenje t-testa na bazi<br />

jednog uzorka glasi:<br />

ttest zavisna_varijabla == vrijednost aritmetičke sredine populacije<br />

10


U našem primjeru zavisna varijabla je mjesečna potrošnja vode (potrosnja), a vrijednost<br />

aritmetičke sredine u populaciji iznosi µ = 3,46 pa će biti:<br />

. ttest potrosnja == 3.46<br />

Output testa je prikazan u tabeli 5.<br />

Tabela 5 – Rezultati one-sample t-testa za primjer 3.1<br />

One-sample t test<br />

------------------------------------------------------------------------------<br />

Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]<br />

---------+--------------------------------------------------------------------<br />

potros~a | 25 2.8024 .2068963 1.034482 2.375387 3.229413<br />

------------------------------------------------------------------------------<br />

mean = mean(potrosnja) t = -3.1784<br />

Ho: mean = 3.46 degrees of freedom = 24<br />

Ha: mean < 3.46 Ha: mean != 3.46 Ha: mean > 3.46<br />

Pr(T < t) = 0.0020 Pr(|T| > |t|) = 0.0040 Pr(T > t) = 0.9980<br />

Output testa sadrži informacije o broju opservacija (Obs), prosjeku unutar uzorka (Mean),<br />

standardnoj grešci (Std. Err.), standardnoj devijaciji (St. Dev.), 95% intervalu povjerenja (Conf.<br />

Interval) i rezultate samog testa (t) sa stepenima slobode (degrees of freedom). Obzirom da smo<br />

postavili usmjerenu hipotezu (µ < 3,46 m 3 ) p-vrijednost čitamo iz prve kolone (Ha: mean <<br />

3.46). Dobili smo da je p = 0,002 i kako je to manje od potrebnih p < 0,05 možemo zaključiti<br />

da postoji statistički signifikantna razlika između potrošnje vode u domaćinstvima sa i bez<br />

vodomjera.<br />

3.1.4. Kako napisati rezultat testa<br />

Prosječna mjesečna potrošnja vode u domaćinstvima u Kantonu Sarajevo sa ugrađenim<br />

vodomjerima (M = 2,80, SD = 1,03) je manja u odnosu na prosječnu mjesečnu potrošnju vode<br />

ostalih domaćinstva u Kantonu Sarajevo koja iznosi 3,46 m 3 . Jednosmjerni t-test na bazi jednog<br />

uzorka je potvrdio da je razlika statistički signifikantna, t(24) = −3,18, p < 0,001.<br />

3.1.5. Dodatni primjeri i zadaci<br />

Primjer 3.2<br />

Obzirom da se zbog dotrajale infrastrukture jedan dio vode gubi tokom samog transporta,<br />

zainteresovani smo da utvrdimo da li je ugradnja vodomjera pomogla da se smanji prosječna<br />

potrošnja vode u starijim gradskim naseljima. Ako je od ranije poznato da prosječna potrošnja<br />

vode u takvim naseljima iznosi 3,61 m 3 po stanaru, da li na osnovu našeg uzorka u kojem je od<br />

ukupno 25 stanova njih 10 bilo locirano u starijim zgradama možemo ustvrditi da su vodomjeri<br />

doprinijeli smanjenju potrošnje u zgradama starogradnje? Podatak o tome da li je riječ o starijoj<br />

ili novijoj zgradi nalazi se unutar varijable novogradnja (novgrad), gdje je 0 = starogradnja, a 1<br />

= novogradnja.<br />

Testiramo sljedeću usmjerenu hipotezu:<br />

11


H0: µ ≥ 3,61 m 3<br />

H1: µ < 3,61 m 3<br />

Obzirom da nas interesuje uporedba samo za novogradnju, komanda ima sljedeću sintaksu:<br />

. ttest potrosnja == 3.61 if novgrad == 0<br />

Rezultati su dati u okviru tabele 6.<br />

Tabela 6 – Rezultati one-sample t-testa za primjer 3.2<br />

One-sample t test<br />

------------------------------------------------------------------------------<br />

Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]<br />

---------+--------------------------------------------------------------------<br />

potros~a | 10 3.221 .3004088 .949976 2.541428 3.900572<br />

------------------------------------------------------------------------------<br />

mean = mean(potrosnja) t = -1.2949<br />

Ho: mean = 3.61 degrees of freedom = 9<br />

Ha: mean < 3.61 Ha: mean != 3.61 Ha: mean > 3.61<br />

Pr(T < t) = 0.1138 Pr(|T| > |t|) = 0.2276 Pr(T > t) = 0.8862<br />

Prosječna mjesečna potrošnja vode u domaćinstvima sa ugrađenim vodomjerima lociranim<br />

starim gradskim naseljima unutar Kantona Sarajevo (M = 3,22, SD = 0,95) je manja u odnosu<br />

na prosječnu mjesečnu potrošnju vode ostalih domaćinstva u starim naseljima koja iznosi 3,61<br />

m 3 . Jednosmjerni t-test na bazi jednog uzorka nije potvrdio da je uočena razlika statistički<br />

signifikantna, t(9) = −1,30, p = 0,11.<br />

Primjer 3.3<br />

U sličnom istraživanju provedenom na bazi slučajnog uzorka u Zeničko-dobojskom kantonu<br />

utvrđeno je da prosječna potrošnja vode u domaćinstvima sa ugrađenim vodomjerima iznosi<br />

2,44 m 3 po stanaru. Da li između dobijenog rezultata u Kantonu Sarajevo i Zeničko-dobojskog<br />

kantona postoji statistički signifikantna razlika?<br />

Obzirom da nismo pretpostavili u kojem Kantonu očekujemo veću ili manju potrošnju vode jer<br />

nas prvenstveno interesuje utvrđivanje signifikantnosti uočene razlike, testiraćemo dvosmjernu<br />

hipotezu:<br />

H0: µ = 2,44 m 3<br />

H1: µ ≠ 2,44 m 3<br />

Kako vrijednost aritmetičke sredine u populaciji iznosi µ = 2,44 komanda je:<br />

. ttest potrosnja == 2.44<br />

Output testa je prikazan u tabeli 7.<br />

Tabela 7 – Rezultati one-sample t-testa za primjer 3.3<br />

12


One-sample t test<br />

------------------------------------------------------------------------------<br />

Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]<br />

---------+--------------------------------------------------------------------<br />

potros~a | 25 2.8024 .2068963 1.034482 2.375387 3.229413<br />

------------------------------------------------------------------------------<br />

mean = mean(potrosnja) t = 1.7516<br />

Ho: mean = 2.44 degrees of freedom = 24<br />

Ha: mean < 2.44 Ha: mean != 2.44 Ha: mean > 2.44<br />

Pr(T < t) = 0.9537 Pr(|T| > |t|) = 0.0926 Pr(T > t) = 0.0463<br />

Prosječna mjesečna potrošnja vode u domaćinstvima sa ugrađenim vodomjerima u Kantonu<br />

Sarajevo (M = 2,80, SD = 1,03) je veća u odnosu na prosječnu mjesečnu potrošnju vode u<br />

domaćinstvima sa ugrađenim vodomjerima u Zeničko-dobojskom kantonu koja iznosi 2,44 m 3 .<br />

Dvosmjerni t-test na bazi jednog uzorka nije potvrdio da je uočena razlika statistički<br />

signifikantna, t(24) = −1,75, p = 0,09.<br />

Zadatak 3.1<br />

U Tuzlanskom kantonu je provedeno slično istraživanje. Podaci su spremljeni u datoteku<br />

vodomjeri_tk.dta (varijabla potrosnja). Ukoliko je poznato da prosječna potrošnja vode po<br />

stanaru u Tuzlanskom kantonu iznosi 3,56 m 3 testirajte da li je uvođenje individualnih<br />

vodomjera u domaćinstvima rezultiralo smanjenjem mjesečne potrošnje vode u tom kantonu.<br />

4. PARAMETARSKI TESTOVI ZA DVIJE GRUPE<br />

4.1. NEZAVISNI T-TEST<br />

Nezavisni t-test (engl. independent samples t-test) se koristi da ispitamo da li postoji statistički<br />

signifikantna razlika između aritmetičkih sredina dvije nezavisne grupe. Dakle, u okviru ovog<br />

testa imamo nezavisnu varijablu dihotomnog tipa kojom se identifikuju grupe i zavisnu<br />

varijablu metrijskog tipa.<br />

Teorija na kojoj se zasniva nezavisni t-test u principu nije mnogo drugačija od onoga sa čim<br />

smo se upoznali kod z i t-testova na bazi jednog uzorka. Razlika je u tome što sada imamo<br />

podatke o aritmetičkoj sredini iz dvije grupe (x̄ 1 i x̄ 2) za koje pretpostavljamo da dolaze iz dvije<br />

različite populacije i gdje testiramo nultu hipotezu da između aritmetičkih sredina te dvije<br />

populacije nema razlike: µ1 = µ2. Ukoliko nemamo dovoljno dokaza da odbacimo nultu<br />

hipotezu, onda ne možemo tvrditi da postoji razlika između grupa. Drugim riječima, smatra se<br />

da su grupe dio iste populacije.<br />

Statistika testa sa (n − 2) stepena slobode se izračunava po formuli:<br />

x<br />

2<br />

x<br />

1<br />

t gdje je SE D SE 2 SE<br />

2<br />

1<br />

<br />

2<br />

SE<br />

D<br />

13


SED označava standardnu grešku razlike između aritmetičkih sredina dvije grupe (engl.<br />

standard error of difference of means), a SE1 i SE2 su standardne greške unutar prve i druge<br />

grupe.<br />

Primjer 4.1<br />

Distributer razmišlja o tome da li je prilikom uvođenja nove marke kafe na tržište potrošačima<br />

na mjestu prodaje potrebno ponuditi na probu besplatne uzorke kafe (varijabla uzorci). Kako bi<br />

se riješila dilema, slučajno je odabrano dvadeset prodavnica. U njih 10 je nova kafa ponuđena<br />

uz besplatne uzorke (uzorci = 0) dok u ostalih 10 nisu korištena nikakva sredstva unapređenja<br />

prodaje (uzorci = 1). Zabilježena je broj prodatih pakovanja nove kafe na kraju mjeseca<br />

(prodaja). Podaci su spremljeni u datoteku kafa.dta, a deskriptivna statistika je predstavljena u<br />

okviru tabele 8.<br />

Tabela 8 – Mjesečna prodaja pakovanja kafe (u kom) u prodavnicama sa i bez probnih uzoraka<br />

. tabstat prodaja, s(n mean, median, sd, semean, skew) by(uzorci) format(%9.2f)<br />

Summary for variables: prodaja<br />

by categories of: uzorci<br />

uzorci | N mean p50 sd se(mean) skewness<br />

------------+------------------------------------------------------------<br />

bez uzoraka | 10.00 69.20 72.50 36.94 11.68 -0.10<br />

sa uzorcima | 10.00 79.40 84.00 33.45 10.58 -0.25<br />

------------+------------------------------------------------------------<br />

Total | 20.00 74.30 78.00 34.70 7.76 -0.20<br />

-------------------------------------------------------------------------<br />

Testiramo nultu hipotezu da ne postoji razlika između prosječne prodaje nove marke kafe<br />

unutar prodavnice u kojima su korišteni besplatni uzorci kafe i onih u kojima nije bilo<br />

besplatnih uzoraka:<br />

H0: µ1 - µ2 = 0<br />

H1: µ1 - µ2 ≠ 0<br />

4.1.1. Provjera pretpostavki<br />

Prije nego testiramo navedenu hipotezu potrebno je provjeriti da li su ispunjene pretpostavke<br />

nezavisnog t-testa. Obzirom da prodaja kafe u jednoj prodavnici ne zavisi od viisine prodaje u<br />

drugoj prodavnici znamo da je ispunjena pretpostavka o nezavisnosti opservacija. Međutim,<br />

obzirom da ne raspolažemo uzorkom sa n ≥ 30 prodavnica, potrebno je ispitati pretpostavku<br />

normalnosti, provjeriti da li postoje netipične vrijednosti i da li su varijanse unutar grupa<br />

međusobno jednake.<br />

Pretpostavku normalnosti provjerili smo primjenom Saphiro-Wilk testa 2 . Rezultat testa je bio<br />

nesignifikantan (p > 0,05) što znači da je pretpostavka ispunjena i da dsitribucija zavisne<br />

varijable ne odstupa znatno od normalne distribucije.<br />

2<br />

Naredba: swilk prodaja<br />

14


Kao i ranije, pretpostavku o netipičnim vrijednostima provjerili smo pomoću boxplot-a 3 . Na<br />

osnovu dobijenog grafika zaključili da je pretpostavka ispunjena i da nisu detektovane netipične<br />

opservacije.<br />

Konačno, pretpostavku o homogenosti varijanse provjeravamo korištenjem tzv. variance-ratio<br />

testa:<br />

. sdtest prodaja, by(uzorci)<br />

Rezultati su prikazani u tabeli 9.<br />

Tabela 9 – Rezultati variance-ratio testa za primjer 4.1<br />

Variance ratio test<br />

------------------------------------------------------------------------------<br />

Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]<br />

---------+--------------------------------------------------------------------<br />

bez uzor | 10 69.2 11.68266 36.9438 42.772 95.628<br />

sa uzorc | 10 79.4 10.57901 33.45378 55.46861 103.3314<br />

---------+--------------------------------------------------------------------<br />

combined | 20 74.3 7.7589 34.69885 58.06044 90.53956<br />

------------------------------------------------------------------------------<br />

ratio = sd(bez uzor) / sd(sa uzorc) f = 1.2195<br />

Ho: ratio = 1 degrees of freedom = 9, 9<br />

Ha: ratio < 1 Ha: ratio != 1 Ha: ratio > 1<br />

Pr(F < f) = 0.6138 2*Pr(F > f) = 0.7723 Pr(F > f) = 0.3862<br />

Ispod tabele 9 gledamo srednju kolonu (Ha: ratio != 1) u kojoj je prikazana vjerovatnoća da<br />

dvije grupe (prodavnice sa uzorkom i bez uzorka) imaju različite varijanse. Obzirom da je p =<br />

0,772 zaključujemo da je test nesignifikantan i da je ispunjena pretpostavka o homogenosti<br />

varijanse.<br />

4.1.2. Izračunavanje statistike testa uz pomoć formule<br />

Statistiku testa možemo izračunati ručno korištenjem formule:<br />

x<br />

2<br />

x<br />

1<br />

79,4 69,2 10,2<br />

t 0,65<br />

SED<br />

2 2<br />

11,68 10,58 248,36<br />

Ukoliko bi provjerili u tablicama vidjeli bi da dobijena statistika testa t = −3,20 za dati broj<br />

stepena slobode (20 − 2 = 18) nije signifikantna uz p < 0,05 na osnovu čega možemo odbaciti<br />

nultu hipotezu.<br />

4.1.3. Izračunavanje statistike testa uz pomoć State<br />

Testiranje hipoteze možemo uraditi i uz pomoć State. Naredba za provođenje nezavisnog t-testa<br />

glasi:<br />

ttest zavisna_varijabla, by(nezavisna_varijabla) unequal<br />

3<br />

Naredba: graph box prodaja, by(uzorci)<br />

15


gdje se opcija unequal koristi u slučaju kada nije ispunjena pretpostavka o homogenosti<br />

varijanse i govori Stati da koriguje broj stepena slobode kako bi se očuvala validnost testa.<br />

U našem primjeru smo konstatovali da je pretpostavka o homogenosti varijanse ispunjena tako<br />

da će biti:<br />

. ttest prodaja, by(uzorci)<br />

Rezultati testa su predstavljeni u tabeli 10.<br />

Tabela 10 – Rezultati nezavisnog t-testa za primjer 4.1<br />

Two-sample t test with equal variances<br />

------------------------------------------------------------------------------<br />

Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]<br />

---------+--------------------------------------------------------------------<br />

bez uzor | 10 69.2 11.68266 36.9438 42.772 95.628<br />

sa uzorc | 10 79.4 10.57901 33.45378 55.46861 103.3314<br />

---------+--------------------------------------------------------------------<br />

combined | 20 74.3 7.7589 34.69885 58.06044 90.53956<br />

---------+--------------------------------------------------------------------<br />

diff | -10.2 15.76071 -43.31202 22.91202<br />

------------------------------------------------------------------------------<br />

diff = mean(bez uzor) - mean(sa uzorc) t = -0.6472<br />

Ho: diff = 0 degrees of freedom = 18<br />

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0<br />

Pr(T < t) = 0.2628 Pr(|T| > |t|) = 0.5257 Pr(T > t) = 0.7372<br />

Output sadrži deskriptivnu statistiku i rezultate testa. Vidimo podatak o broju opservacija (Obs),<br />

prosječnoj prodaji u prodavnicama sa i bez uzoraka (Mean), prosječnoj razlici između te dvije<br />

grupe (diff = −10,2), standardnoj devijaciji (Std. Dev.), standardnoj grešci (Std. Err.) i 95%<br />

intervalu povjerenja za prodaju unutar grupa i zabilježenu razliku. U donjem dijelu tabele<br />

predstavljeni su rezultati testa. Obzirom da smo postavili neusmjerenu hipotezu p-vrijednost<br />

čitamo iz srednje kolone (Ha: mean(diff) != 0). Obzirom da je p = 0,53 i da je to manje od<br />

potrebnih p < 0,05 možemo zaključiti da ne postoji statistički signifikantna razlika između<br />

prodaje ostvarene u prodavnicama sa i bez uzoraka. Drugim riječima, ne možemo tvrditi da<br />

razlika nije jednaka nuli.<br />

4.1.4. Kako napisati rezultat testa<br />

Istraživanje je pokazalo da je u prodavnicama u kojima nije bilo besplatnih uzoraka zabilježena<br />

manja prosječna prodaja tokom mjeseca (M = 69,2, SD = 36,94) u odnosu na prodavnice u<br />

kojima je nova kafa nuđena uz besplatne uzorke (M = 79,40, SD = 33,45). Navedena razlika<br />

nije statistički signifikantna, t(18) = −0,65, p = 0,53.<br />

16


4.1.5. Dodatni primjeri i zadaci<br />

Zadatak 4.1<br />

Proizvođač konditorskih proizvoda želi saznati da li postoji razlika u preferencijama između<br />

muškaraca i žena (varijabla spol) u pogledu nove marke čokolade. Na bazi slučajnog uzorka<br />

odabrano je 30 ispitanika koji su zamoljeni da na skali od 1 do 10 izraze svoje preferencije<br />

prema novoj čokoladi. Na skali ocjena 1 označava potpunu averziju a ocjena 10 potpuno<br />

preferiranje. Podaci su spremljeni u datoteku pod nazivom cokolada.dta.<br />

4.2. ZAVISNI T-TEST<br />

Zavisni ili upareni t-test (engl. paired samples t-test) se koristi da ispitamo da li postoji<br />

statistički signifikantna razlika između aritmetičkih sredina dvije direktno povezane grupe.<br />

Direktna povezanost se najčešće javlja ako prikupljanje podataka vršimo u dva navrata pa<br />

imamo ponovljena mjerenja na istoj grupi ispitanika. Također, povezanost se javlja i kada u<br />

okviru ekperimentalnog dizajna imamo uparene opservacije gdje je svaki ispitanik iz<br />

eksperimentalne grupe je uparen sa drugim ispitanikom sličnih karkateristika iz kontrolne<br />

grupe.<br />

Primjena nezavisnog t-testa u takvim situacijama ne bi bila prikladna jer bi narušili<br />

pretpostavku o nezavisnosti opservacija. Problem se rješava tako da izračunamo razliku između<br />

svakog para opservacija (d1, d2 ... dn). Ovako dobijene razlike su međusobno nezavisne što<br />

omogućava primijenu statitstike koja je ekvivalentna t-testu na bazi jednog uzorka sa (n − 1)<br />

stepena slobode:<br />

d<br />

s<br />

t gdje je SE <br />

d<br />

SE<br />

n<br />

Primjer 4.2<br />

Marketing odjeljenje vjeruje da novi POS displej (engl. point-of-sale display) ima opipljiv<br />

efekat na povećanje prodaje kod onih kupaca koji inicijalno nisu imali namjeru kupiti određeni<br />

tip proizvoda izložen na samom displeju. Prije donošenja konačne odluke o uvođenju novog<br />

displeja u sve prodavnice, napravljen je eksperiment kako bi se utvrdilo da li postoji ekonomska<br />

opravdanost za donošenje takve odluke. Slučajno je odabrano 10 prodavnica koje pripadaju<br />

istom distributerskom lancu i mjeren je ostvareni mjesečni prihod od prodaje proizvoda<br />

izloženih na starom (april) i novom POS displeju (maj). Ostali uslovi unutar prodavnica se nisu<br />

promijenili. Na bazi ranijeg iskustva poznato je da prodaja unutar prodavnica nije podložna<br />

sezonskim oscilacijama tokom dva izabrana mjeseca. Podaci su spremljeni u datoteku pos.dta.<br />

Prvo smo izračunali razliku u prodaji unutar istih prodavnica (d), zatim smo dobijene podatke<br />

predstavili u tabeli 11. Na kraju smo izračunali prosjek i standaradnu devijaciju za dobijenu<br />

razliku.<br />

17


Tabela 11 – Prodaja (u KM) prije i nakon uvođenja novog POS displeja<br />

. gen d = maj - april<br />

. list, abbreviate(11) separator (10)<br />

+---------------------------------+<br />

| prodavnica maj april d |<br />

|---------------------------------|<br />

1. | 1 198 235 -37 |<br />

2. | 2 632 445 187 |<br />

3. | 3 769 701 68 |<br />

4. | 4 930 1025 -95 |<br />

5. | 5 766 651 115 |<br />

6. | 6 888 805 83 |<br />

7. | 7 566 455 111 |<br />

8. | 8 314 254 60 |<br />

9. | 9 1310 1224 86 |<br />

10. | 10 1479 1452 27 |<br />

+---------------------------------+<br />

. summarize d<br />

Variable | Obs Mean Std. Dev. Min Max<br />

-------------+--------------------------------------------------------<br />

d | 10 60.5 79.96145 -95 187<br />

Iako na prvi pogleda djeluje neuobičajeno da u tabeli mjesec maj ide prije aprila, ovakav<br />

redoslijed ima svoje opravdanje u slučaju kada radimo zavisni test unutar State. Naime, da bi<br />

dobili ispravne rezultate testa neophodno je da se vrijednosti prvog mjerenja oduzmu od<br />

vrijednosti drugog mjerenja, pa se zbog toga opservacije vezane za mjesec maj nalaze u koloni<br />

prije opservacija za mjesec april.<br />

Nulta hipoteza glasi da ne postoji razlika između prosječne prodaje prodavnica prije i nakon<br />

postavljanja novog POS displeja, odnosno:<br />

H0: µd = 0<br />

H1: µd ≠ 0<br />

4.2.1. Provjera pretpostavki<br />

Obzirom da je zavisna varijabla metrijskog tipa, prije izračunavanja statistike testa potrebno je<br />

još provjeriti pretpostavke o normalnosti i nepostojanju netipičnih opservacija. Pretpostavku o<br />

homogenosti varijanse nije potrebno provjeravati jer distribucija individualnih vrijednosti po<br />

grupama (maj i april) nije relevantna, jer je sam test jedino bitno kako izgleda distribucija razlika<br />

(d).<br />

Pretpostavka normalnosti u slučaju zavisnog testa odnosi se na to da distribucija razlika između<br />

dvije grupe (d) treba imati normalan raspored. U slučaju kada raspolažemo sa uzorkom veličine<br />

n ≥ 30, možemo se osloniti na Centralni granični teorem i smatrati da je pretpostavka ispunjena.<br />

U konkretnom primjeru, imamo manji uzorak (n = 10) pa je pretpostavku bilo potrebno testirati<br />

18


primjenom Saphiro-Wilk testa 4 . Statistika testa W = 0,948 je bila nesignifiknantna sa p = 0,647<br />

na osnovu čega smo zaključili da je pretpostavka ispunjena.<br />

Pretpostavku o nepostojanju netipičnih vrijednosti smo provjerili tako što smo nacrtali boxplot 5<br />

na bazi kojeg smo konstatovali da nisu detektovane netipične opservacije i da je pretpostavka<br />

ispunjena.<br />

4.2.2. Izračunavanje statistike testa pomoću formule<br />

Statistiku testa možemo izračunati ručno korištenjem formule:<br />

Ukoliko bi provjerili u tablicama vidjeli bi da dobijena statistika testa t = 2,39 za dati broj<br />

stepena slobode (10 − 1 = 9) statistički signifikantna uz p < 0,05 na osnovu čega možemo<br />

odbaciti nultu hipotezu.<br />

4.2.3. Izračunavanje statistike testa pomoću State<br />

Testiranje hipoteze možemo uraditi i uz pomoć State. Naredba za provođenje zavisnog t-testa<br />

glasi:<br />

ttest druga_varijabla == prva_varijabla<br />

U našem primjeru drugo mjerenje je obavljeno u maju a prvo u aprilu, pa ćemo imati:<br />

. ttest maj == april<br />

Rezultati testa su prikazani u tabeli 12.<br />

Tabela 12 – Rezultati zavisnog t-testa za primjer 4.2<br />

Paired t test<br />

------------------------------------------------------------------------------<br />

Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]<br />

---------+--------------------------------------------------------------------<br />

maj | 10 785.2 125.9317 398.231 500.3227 1070.077<br />

april | 10 724.7 128.8074 407.3249 433.3173 1016.083<br />

---------+--------------------------------------------------------------------<br />

diff | 10 60.5 25.28603 79.96145 3.299025 117.701<br />

------------------------------------------------------------------------------<br />

mean(diff) = mean(maj - april) t = 2.3926<br />

Ho: mean(diff) = 0 degrees of freedom = 9<br />

Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0<br />

Pr(T < t) = 0.9798 Pr(|T| > |t|) = 0.0404 Pr(T > t) = 0.0202<br />

4<br />

Naredba: swilk d<br />

5<br />

Naredba: graph box d<br />

19


Output sadrži deskriptivnu statistiku i rezultate testa. Vidimo podatak o broju opservacija (Obs),<br />

prosječnoj prodaji u 10 prodavnica u maju i aprilu (Mean), prosječnoj razlici između ta dva<br />

mjeseca (d̄ = 60,5 KM), standardnoj devijaciji SD = 79,96, standardnoj grešci SE = 25,29 i 95%<br />

intervalu povjerenja. U donjem dijelu tabele predstavljeni su rezultati testa. Obzirom da smo<br />

postavili neusmjerenu hipotezu čitamo srednju kolonu (Ha: mean(diff) != 0) u kojoj je<br />

prikazana statistička značajnost testa. Obzirom da je p = 0,04 i da je to manje od potrebnih p <<br />

0,05 možemo zaključiti da postoji statistički signifikantna razlika između prodaje ostvarene u<br />

maju i aprilu.<br />

4.2.4. Kako napisati rezultat testa<br />

Eksperiment je pokazao da je tokom mjeseca aprila, kada je u prodavnicama bio postavljen stari<br />

POS displej, zabilježen manji prihod od prodaje (M = 724,7, SD = 407,3) u odnosu na mjesec<br />

maj, kada je u prodavnicama bio postavljen novi POS displej (M = 785,2, SD = 398,2).<br />

Navedena razlika je statistički signifikantna, t(9) = 2,39, p = 0,04.<br />

4.2.5. Dodatni primjeri i zadaci<br />

Zadatak 4.2<br />

Pretpostavimo da marketing odjeljenje vjeruje da novo pakovanje proizvoda ima opipljiv efekat<br />

na povećanje prodaje (prodaja) kod onih kupaca koji inicijalno nisu imali namjeru kupiti<br />

određeni tip proizvoda. Trideset slučajno odabranih ispitanika je zamoljeno da na skali od 1 do<br />

10 izrazi svoje preferencije prema starom pakovanju (staro) i novom pakovanju (novo). Na skali<br />

ocjena 1 označava potpunu averziju a ocjena 10 potpuno prefereiranje. Podaci su spremljeni u<br />

datoteku pakovanje.dta. Da li treba uvesti novo pakovanje proizvoda?<br />

5. PARAMETARSKI TESTOVI ZA TRI ILI VIŠE GRUPA<br />

5.1. ANALIZA VARIJANSE (ANOVA)<br />

Jednofaktorska analiza varijanse (engl. One way ANOVA) je parametarska statistička tehnika<br />

koja se upotrebljava kada želimo provjeriti da li postoji statistički signifikantna razlika između<br />

aritmetičkih sredina tri ili više nezavisnih grupa za koje se pretpostavlja da dolaze iz različitih<br />

populacija.<br />

ANOVA je logična ekstenzija nezavisnog t-testa i omogućava nam da testiramo nultu hipotezu<br />

da između aritmetičkih sredina grupa koje dolaze iz više različitih populacija nema razlike: µ1<br />

= µ2 = µ3 = ... = µn. Ukoliko nemamo dovoljno dokaza da odbacimo nultu hipotezu, onda ne<br />

možemo tvrditi da postoji razlika između grupa. Drugim riječima, smatra se da su grupe dio<br />

iste populacije.<br />

5.1.1. Zašto nam treba analiza varijanse?<br />

Postavlja se pitanje zbog čega nam treba novi test za situacije kada imamo 3 ili više grupa.<br />

Zašto jednostavno ne bi koristili nezavisni t-test nekoliko puta, na način da prvo poredimo grupe<br />

1 i 2, zatim grupe 2 i 3, i na kraju grupe 1 i 3?<br />

20


Sjetimo se da prije samog testiranja hipoteza postavljamo nivo rizika α koji smo spremni<br />

prihvatiti da napravimo grešku prvog tipa (odbacimo nultu hipotezu ako je ona zaista istinita).<br />

Ako radimo jedan t-test za koji smo odredili da je α = 0,05 u tom slučaju navedeni rizik iznosi<br />

5%. Međutim, šta se dešava ako za istu zavisnu varijablu radimo seriju t-testova? Tada dolazi<br />

do inflacije rizika i vjerovatnoća da počinimo grešku prvog tipa više neće biti 5% nego veća.<br />

Vjerovatnoća da napravimo bar jednu grešku prvog tipa u situaciji kada provodimo više testova<br />

na istim podacima naziva se tzv. "familywise" greškom (oznaka: αFW). Ukoliko su opservacije<br />

međusobno nezavisne i ako u svakom ponovljenom testu na istim podacima koristimo isti nivo<br />

statističke značajnosti, onda se αFW može izračunati kao:<br />

αFW = 1 − (1 − α) k<br />

gdje se k odnosi na broj ponovljenih testova.<br />

Na primjer, ako ćemo na istim podacima uraditi tri testa kako bi komparirali tri grupe uz α =<br />

0,05 onda familywise greška iznosi:<br />

αFW = 1 − (1 − 0,5) 3 = 1 − (0,95) 3 = 0,14<br />

Što znači da je vjerovatnoća da napravimo bar jednu grešku prvog tipa više nije 5% nego 14%.<br />

Upravo zbog toga što dolazi do inflacije greške prvog tipa nije primjereno koristiti t-test kada<br />

imamo više od dvije grupe.<br />

5.1.2. ANOVA bez State<br />

Tehnika izračunavanja statistike testa kod ANOVE donekle se razlikuje od onoga što smo imali<br />

do sada. Kao i kod t-testa, nezavisna varijabla ima ulogu kontrolisanog faktora i njeni nivoi se<br />

koriste da bi se definisale grupe između kojih se vrši usporedba. Međutim, kao što možemo<br />

vidjeti na slici 3, sama analiza se zasniva na razlaganju ukupne varijanse na sastavne<br />

komponente:<br />

a) varijansu između grupa objašnjenu modelom, odnosno uticajem kontrolisanog faktora<br />

(engl. between-group variance - SSB)<br />

b) neobjašnjenu varijansu unutar grupa koja nastaje pod uticajem nekontrolisanih faktora i<br />

slučajne greške (within-group variance - SSW).<br />

21


Slika 3 – Analiza varijanse<br />

Primjer 5.1<br />

Da bi ilustrovali čitav koncept zamislimo da su turisti ocjenjivali kvalitet hrane u tri različita<br />

hotela na istoj destinaciji. Na bazi slučajnog izbora anketirana su četiri posjetioca iz svakog<br />

hotela i njihove ocjene su predstavljene u tabeli 13. Da li je razlika između prosječnih ocjena<br />

statistički signifikantna?<br />

Tabela 13 – Ocjene kvaliteta hrane za tri različita hotela po završetku posjete<br />

hotel A hotel B hotel C<br />

6 8 1<br />

4 10 2<br />

3 4 1<br />

3 5 1<br />

x̄ 1 = 4 x̄ 2 = 6,75 x̄ 3 = 1,25 Opšti prosjek (x̿ G)<br />

SD 1 = 1,414 SD 2 = 2,754 SD 3 = 0,5 x̿ G = (x̄ 1 + x̄ 1 + x̄ 1)/3<br />

Varijansa 1 = SD 1<br />

2<br />

= 2 Varijansa 2 = SD 2<br />

2<br />

= 7,583 Varijansa3 = SD 3<br />

2<br />

= 0,25 x̿ G = 4<br />

Testiramo nultu hipotezu da ne postoji razlika između prosječne ocjene tri hotela:<br />

H0: µ1 − µ2 − µ3 = 0<br />

H1: µ1 − µ2 − µ3 ≠ 0<br />

Podaci iz tabele 13 su vizuelno predstavljeni na slici 4.<br />

22


Slika 4 – Analiza varijanse<br />

Na slici 4 brojevi 1 do 12 predstavljaju ispitanike. Opšti prosjek (engl. grand mean) je<br />

predstavljen horizontalnom isprekidanom linijom. Prosjeci svake od grupa su predstavljeni<br />

punom crvenom horizontalnom linijom. Vertikalna pozicija svakog ispitanika je detrminisana<br />

ocjenom koju je dao odgovarajućem hotelu. Varijansa unutar grupa predstavljena je punom<br />

plavom linijom, dok je razlika između prosjeka grupe i opšteg prosjeka predstavljena<br />

isprekidanom crvenom vertikalnom linijom.<br />

Prvo ćemo izračunati ukupnu varijansu (SST). Ona predstavlja ukupni varijabilitet, odnosno<br />

odstupanje pojedinih opservacija (ocjena) od opšteg prosjeka. Izračunava se tako što<br />

kvadriramo i saberemo odstupanje svake pojedinačne ocjene od opšteg prosjeka (x̿ G):<br />

SS ( x x ) 2 (6 4) 2 ... (1 4) 2 90<br />

T ij G<br />

Zatim ćemo izračunati varijansu između grupa (SSB) kojom se mjeri međusobna različitost<br />

grupa. Ova varijansa predstavlja dio ukupnog varijabiliteta objašnjenog nezavisnom<br />

varijablom. Često se naziva i varijansom objašnjenom modelom (SSM). Računa se tako da<br />

razliku između prosjeka svake grupe (x̄ j) i opšteg prosjeka (x̿ G) kvadriramo i pomnožimo sa<br />

brojem opservacija (n) unutar grupe:<br />

SS n ( x x ) 2 4 (4 4) 2 ... 4 (1,25 4) 2 60,5<br />

B j G<br />

Pojedinačna varijansa unutar grupe (SSgrupa) mjeri različitost unutar grupa i računa se tako<br />

što razlike između svake pojedine opservacije (ocjene) i prosjeka grupe kvadriramo i saberemo:<br />

2 2<br />

SS hotel 1<br />

(6 4) ... (3 4) 6<br />

2 2<br />

SS hotel<br />

SS hotel<br />

2<br />

(8 6,75) ... (5 6,75) 22,75<br />

2 2<br />

3<br />

(1 1,25) ... (1 1,25) 0,75<br />

23


Konačno, varijansa unutar grupa (SSW) predstavlja dio ukupne varijanse koji se ne može<br />

objasniti nezavisnom varijablom ili modelom. Izračunava se tako što saberemo prethodno<br />

izračunate varijanse unutar grupa:<br />

SS ( x x ) 6 22,75 0,75 29,5<br />

W ij j<br />

Ili tako što od ukupne varijanse (SST) oduzmemo varijansu između grupa (SSB):<br />

SSW SST SS<br />

B<br />

90 60,5 29,5<br />

Varijansa unutar grupa se naziva još i rezidulanom varijansom (SS R ili SS error ) jer se pretpostavlja da<br />

se javlja kao posljedica slučajne greške, odnosno varijacija svojstvenih samom uzorkovanju.<br />

Sve dobijene vrijednosti možemo sumarno predstaviti u tabeli 14.<br />

Tabela 14 – Sumarna tabela za prikaz rezultata analize varijanse<br />

Izvor<br />

varijanse<br />

Suma<br />

kvadrata<br />

broj<br />

stepena<br />

slobode*<br />

Između grupa SSB k − 1<br />

Unutar grupa SSW n − k<br />

Ukupno SST = SSB + SSW n − 1<br />

Procijenjena varijansa<br />

(srednje kvadratno<br />

odstupanje)<br />

SS<br />

B<br />

MSB =<br />

k 1<br />

SSW<br />

MSW =<br />

n k<br />

* gdje je k = broj grupa (kategorija nezavisne varijable) i n = broj opservacija (veličina uzorka)<br />

F odnos<br />

F =<br />

MS<br />

MS<br />

Sama statistika testa se izračunava kao količnik procijenjene varijanse između grupa (MSB –<br />

objašnjene varijanse) i procijenjene varijanse unutar grupa (MSW – neobjašnjene varijanse).<br />

Dobijeni rezultat slijedi F distribuciju sa (k -1, n - k) stepena slobode koja se koristi da bi se<br />

provjerilo da li postoji statistički signifikantna razlika između grupa.<br />

U konkretnom primjeru vezanom za ocjenjivanje kvaliteta hrane u hotelima, izračunate<br />

vrijednosti su predstavljene u tabeli 15.<br />

Tabela 15 – Statistika testa za primjer sa hotelima<br />

Izvor<br />

varijanse<br />

Suma<br />

kvadrata<br />

broj<br />

stepena<br />

slobode<br />

Procjenjena vrijansa<br />

(srednje kvadratno<br />

odstupanje)<br />

F odnos<br />

Između grupa SSB = 60,5 3 − 1 = 2 MSB = 30,25 9,22<br />

Unutar grupa SSW = 29,5 12 − 3 = 9 MSW = 3,28<br />

Ukupno SST = 90 12 − 1 = 11<br />

Ukoliko bi provjerili u statističkim tablicama vidjeli bi da je statistika testa F = 9,22 za dati broj<br />

stepena slobode signifikantna uz p < 0,05 na osnovu čega možemo odbaciti nultu hipotezu i<br />

zaključiti da se prosječne ocjene kvaliteta hrane u tri posmatrana hotela međusobno razlikuju.<br />

B<br />

W<br />

24


Ovaj jednostavni primjer smo koristili da ilustrujemo logiku koja stoji u pozadini analize<br />

varijanse i da pokažemo kako se ANOVA može izračunati ručno. Primjer je jednostavan jer<br />

smo imali mali broj opservacija i nismo obraćali mnogo pažnje na pretpostavke. U nastavku<br />

ćemo na drugom primjeru vidjeti kako analizu varijanse možemo uraditi pomoću State.<br />

5.1.3. ANOVA uz pomoć State<br />

Primjer 5.2<br />

Zamislimo da proizvođač keksa marke A želi ispitati kako pozicija proizvoda na polici (pozicija)<br />

utiče na ostvareni obim prodaje (prodaja). Sa menadžerom supermarketa dogovoreno je da se<br />

provede eksperiment koji uključuje stavljanje keksa marke A na tri različite pozicije: nivo<br />

koljena (70 cm), nivo ruke (120 cm) i nivo očiju (170 cm). Eksperiment je podrazumijevao da<br />

se pozicija proizvoda mijenja svakih 8 dana kako bi se kontrolisale oscilacije u prodaji<br />

svojstvene različitim danima u sedmici. Tokom cjelokupnog posmatranog perioda nije bilo<br />

promijene cijena konkurentskih proizvoda, posebnih promotivnih aktivnosti i sl. Prikupljeni<br />

podaci su spremljeni u datoteku keks.dta, deskriptivna statistika je dobijena uz pomoć<br />

odgovarajuće naredbe i predstavljena u tabeli 16.<br />

. tabstat prodaja, s(n mean, median, sd) by(pozicija) format(%9.3g)<br />

Tabela 16 – Prodaja pakovanja keksa marke A (u kom) tokom osam dana i u zavisnosti od<br />

pozicije na polici<br />

Summary for variables: prodaja<br />

by categories of: pozicija<br />

pozicija | N mean p50 sd<br />

---------+----------------------------------------<br />

koljena | 8 81 81 3.63<br />

ruka | 8 90.9 90.5 2.64<br />

oči | 8 84.6 85 4.6<br />

---------+----------------------------------------<br />

Total | 24 85.5 86 5.47<br />

--------------------------------------------------<br />

Iz tabele 9 vidimo da je najveća prosječna prodaja zabilježena u intervalu kada je proizvod na<br />

polici bio u visini ruke a najmanja u intervalu kada je proizvod bio postavljen u visini koljena.<br />

Testiramo nultu hipotezu da su uočene razlike statistički nesignifikantne i da su rezultat<br />

slučajnih varijacija, odnosno da je:<br />

H0: µ1 − µ2 − µ3 = 0<br />

H1: µ1 − µ2 − µ3 ≠ 0<br />

5.1.4. Provjera pretpostavki<br />

Jednofaktorska analiza varijanse zahtijeva ispunjenost opštih pretpostavki koje se odnose na<br />

parametarske statističke testove. Ako uzmemo da na bazi prethodnog iskustva menadžer zna da<br />

prodaja keksa marke A u populaciji slijedi normalnu distribuciji (što je potvrđeno<br />

nesignifikantnim rezultatom Shapiro-Wilk testa), ostaje nam da ispitamo pretpostavke o<br />

nepostojanju netipičnih vrijednosti i pretpostavku o homogenosti varijanse. Pretpostavku o<br />

25


netipičnim vrijednostima smo provjerili uz pomoć boxplota-a i na kojem nisu detektovane<br />

netipične opservacije. Test o homogenosti varijanse će biti provjeren tokom same analize.<br />

5.1.5. Izračunavanje statistike testa uz pomoć State<br />

Statistika za ANOVA test se računa uz pomoć naredbe:<br />

oneway zavisna_varijabla nezavisna_varijabla, sidak bonferroni scheffe<br />

gdje se opcije opcije bonferroni, scheffe i sidak, odnose na Post Hoc testove o čemu će biti riječi<br />

kasnije.<br />

Dakle, u našem primjeru konkretna naredba će biti:<br />

. oneway prodaja pozicija<br />

U tabeli 17 se nalaze rezultati testa.<br />

Tabela 17 – Rezultati ANOVA testa za primjer 5.2<br />

Analysis of Variance<br />

Source SS df MS F Prob > F<br />

------------------------------------------------------------------------<br />

Between groups 399.25 2 199.625 14.52 0.0001<br />

Within groups 288.75 21 13.75<br />

------------------------------------------------------------------------<br />

Total 688 23 29.9130435<br />

Bartlett's test for equal variances: chi2(2) = 1.9313 Prob>chi2 = 0.381<br />

Ispod ANOVA tabele nalazi se red sa rezultatima Bartletovog testa koji pokazuje da je<br />

ispunjena pretpostavka o homogenosti varijanse jer je test nesignifikantan, χ2 = 1,931 uz p =<br />

0,381. Ostatak dobijenog outputa sadrži identične elemente koji su predstavljeni u tabelama 7<br />

i 8 kada smo ANOVA test računali ručno. Na osnovu F statistike testa i pridružene p-vrijednosti<br />

zaključujemo da je analiza varijanse potvrdila da postoje značajne razlike između grupa (F =<br />

14,52, p < 0,001).<br />

5.1.6. Post Hoc testovi<br />

Ovdje je potrebno napomenuti da je ANOVA tzv. omnibus test jer pruža samo podatak o tome<br />

da li je eksperimentalna maninpulacija imala efekta, odnosno da li postoje statistički značajne<br />

razlike između grupa ili ne. U slučaju otkrivanja postojanja signifikantnog efekta ANOVA nam<br />

ne govori o tome koje se grupe međusobno razlikuju. U takvim slučajevima provode se tzv.<br />

Post Hoc testovi koji za cilj imaju da ispitaju sve kombinacije između različitih nivoa<br />

eksperimentalne varijable (u našem slučaju je to pozicija proizvoda na polici).<br />

U suštini Post Hoc testovi se oslanjaju na provođenje niza t-testova kako bi se utvrdilo između<br />

kojih grupa postoji statistički značajna razlika, s tim da se različitim metodama pokušava<br />

kontrolisati infalacija greški prvog tipa. Stata nudi sljedeće Post Hoc testove:<br />

26


Bonferronijev test se često upotrebljava jer je jednostavan za izračunati i fleksibilan u smislu<br />

da ne zahtijeva ispunjavanje dodatnih pretpostavki. S druge strane test je vrlo konzervativan,<br />

što znači da ima dobru kontrolu nad greškom I tipa ali i manju snagu da detektuje razlike između<br />

grupa kao statistički signikantne, čime se povećava rizik od greške II tipa.<br />

Scheffe test je isto vrlo popularan i fleksibilan. Posebno je koristan kada se prave kompleksne<br />

komparacije između više grupa istovremeno. Međutim, važi za jedan od najkonzervativinih<br />

testova sa vrlo visokim rzikom greške II tipa. Pogodan je za situacije kada su grupe nejednake<br />

veličine.<br />

Sidakov test se zasniva na jednostavnoj korekciji Bonferronijeve formule kojom se pokušava<br />

povećati snaga testa uz istovremeno zadržavanje fleksibilnosti.<br />

U nastavku je prikazan output za našu analizu gdje je odabran Bonferronijev post hoc test:<br />

. oneway prodaja pozicija, bonferroni<br />

Tabela 18 – Rezultati Bonferronijevog post-hoc testa za primjer 4.2<br />

Comparison of prodaja by pozicija<br />

(Bonferroni)<br />

Row Mean-|<br />

Col Mean | koljena ruka<br />

---------+----------------------<br />

ruka | 9.875<br />

| 0.000<br />

|<br />

oči | 3.625 -6.25<br />

| 0.192 0.009<br />

Output testa pokazuje da statistički signifikantna razlika postoji između pozicije keksa u visini<br />

ruke i visini koljena (p < 0,001), kao i između pozicije u visini očiju i visini ruke (p = 0,009).<br />

Međutim, signifikantna razlika nije detektovana između pozicija u visini očiju i visine ruke (p<br />

= 0,192).<br />

5.1.7. Kako napisati rezultat testa<br />

Jednofaktorska analiza varijanse (ANOVA) je potvrdila da se prosječan obim prodaje statistički<br />

signifikantno razlikuje u zavisnosti od pozicije proizvoda na polici, F(2, 21) = 14,52, p < 0,001.<br />

Bonferronijev post hoc test je pokazao da je prosječan obim prodaje proizvoda postavljenog u<br />

visini ruke (M = 90,9, SD = 2,64) statistički signifikantno veći u odnosu na obim prodaje<br />

proizvoda postavljenog u visini očiju (M = 84,6, SD = 4,60, p = 0,009) i visini koljena (M =<br />

81, SD = 3,63, p < 0,001). Statistički signifikantna razlika nije detektovana između pozicija u<br />

visini očiju i visini ruke (p = 0,192).<br />

5.1.8. Dodatni primjeri i zadaci<br />

Zadatak 5.1<br />

Oglašavačka agencija želi testirati tri različita dizajna billboard oglasa za novi smart phone<br />

(dizajn): svjedočanstvo poznate osobe (dizajn = 1), informativni oglas baziran na tehničkim<br />

27


specifikacijama (dizajn = 2) i emocionalni oglas sa apelom na ponos (dizajn = 3). Svaki od<br />

oglasa je prikazan zasebnoj grupi slučajno odabranih ispitanika koji su zamoljeni da ocijene<br />

privlačnost oglasa (atrakt) na skali od 1 do 10. Na skali ocjena 1 označava najnižu privlačnost<br />

dok ocjena 10 označava izrazito visoku privlačnost. Podaci su srpemljeni u datoteku<br />

billboard.dta.<br />

5.2. ANALIZA VARIJANSE SA PONOVLJENIM MJERENJIMA (RM ANOVA)<br />

Jednofaktorska analiza varijanse sa ponovljenim mjerenjima (engl. One-way ANOVA with<br />

repeated measures ili skraćeno RM ANOVA) se koristi za ispitivanje postojanja razlika između<br />

aritmetičkih sredina dobijenih u tri ili više ponovljenih mjerenja. Sama mjerenja obavljaju se:<br />

a) sukcesivno na istim subjektima ali u različitim uslovima kao što su vremenski periodi,<br />

geografske lokacije, ekperimentalne intervencije i sl. ili b) u situaciji kada je svaki ispitanik iz<br />

jedne grupe uparen sa drugim ispitanikom sličnih karakteristika u drugoj grupi (tzv. matched<br />

pairs design). RM ANOVA je omnibus test i govori da li postoji opšta razlika između grupa,<br />

ali ne i između kojih konkretno grupa se ta razlika javlja.<br />

RM ANOVA se zasniva na razlaganju ukupne varijanse (engl. total variance – SST) na sljedeće<br />

komponente:<br />

1. varijansu između subjekata (engl. between-subject variance – SSB)<br />

2. varijansu unutar subjekata (engl. within-subject variance – SSW) koja se sastoji od:<br />

a) varijanse objašnjene modelom, odnosno uticajem kontrolisanog faktora (engl.<br />

between treatment variance – SSM)<br />

b) neobjašnjene varijanse koja nastaje pod uticajem nekontrolisanih faktora (engl.<br />

error variance – SSR).<br />

Obzirom da se RM ANOVA test primjenjuje u situacijama kada se na istim subjektima<br />

obavljaju višestruka mjerenja, nije nužno da su opservacije nezavisne jedne od drugih.<br />

Međutim, RM ANOVA zahtjeva ispunjavanje dodatne pretpostavke o sfernosti (engl.<br />

sphericity). Ova pretpostavka se odnosi na to da varijansa razlika između svih kombinacija<br />

povezanih grupa mora biti jednaka. Narušavanje sfernosti ima za posljedicu dobijanje<br />

precijenjene F statistike čime se povećava rizik da smo napravili grešku prvog tipa (tj. da smo<br />

detektovali signifikantan rezultat iako on u stvarnosti ne postoji). Uobičajeno se za testiranje<br />

ove pretpostavke koristi Mauchleyev test koji nažalost nije implementiran u Statu.<br />

Primjer 5.3<br />

Marketing agencija želi testirati tri različita dizajna bilbord oglasa za novi smart phone:<br />

svjedočanstvo poznate osobe, informativni oglas baziran na tehničkim specifikacijama i<br />

emocionalni oglas sa apelom na ponos. Grupi od 30 slučano odabranih ispitanika je prvo<br />

prikazan oglas sa svjedočanstvom poznate osobe (oglas1) i zamoljeni su da ocijene privlačnost<br />

oglasa na skali od 1 do 10, gdje ocjena 1 označava najnižu privlačnost dok ocjena 10 označava<br />

najvišu privlačnost. Nakon što su ocijenili prvi oglas ispitanici su zamoljeni da na isti način<br />

ocijene drugi (oglas2), a zatim i treći oglas (oglas3). Podaci su spremljeni u datoteku<br />

billboard_rm_wide.dta i prestavljeni u tabeli 19.<br />

28


Tabela 19 – Podaci organizovani u tzv. širokom formatu<br />

. list, separator (10)<br />

+-------------------------------+<br />

| id oglas1 oglas2 oglas3 |<br />

|-------------------------------|<br />

1. | 1 7 3 7 |<br />

2. | 2 8 3 7 |<br />

3. | 3 8 1 5 |<br />

4. | 4 5 3 7 |<br />

5. | 5 5 3 3 |<br />

6. | 6 6 3 4 |<br />

7. | 7 7 2 6 |<br />

8. | 8 5 3 6 |<br />

9. | 9 7 2 8 |<br />

10. | 10 8 4 5 |<br />

+-------------------------------+<br />

Ovakav način organizacije podataka gdje se svaki ispitanik (id) pojavljuje jednom i gdje su<br />

vrijednosti mjerenja spremljene kao zasebne varijable (oglas1, oglas2 i oglas3) naziva se tzv.<br />

širokim formatom podataka (engl. wide data format).<br />

Deskriptivna statistika je prikazana u tabeli 20.<br />

Tabela 20 – Deskriptivna statistika za primjer sa bilbordima<br />

. tabstat oglas1 oglas2 oglas3, s(mean median sd) format(%9.2f)<br />

stats | oglas1 oglas2 oglas3<br />

---------+------------------------------<br />

mean | 6.60 2.70 5.80<br />

p50 | 7.00 3.00 6.00<br />

sd | 1.26 0.82 1.55<br />

----------------------------------------<br />

Vidimo da je najbolje ocijenjen prvi a najlošije drugi oglas. Testiramo hipotezu da su uočene<br />

razlike rezultat slučajnih varijacija, odnosno da je:<br />

H0: µD1 − µD2 − µD3 = 0<br />

H1: µD1 − µD2 − µD3 ≠ 0<br />

5.2.1. RM ANOVA bez State<br />

Prvo smo izračunali opšti prosijek koji iznosi:<br />

x̿G = (6,6 + 2,7 + 5,8)/3 = 5,03.<br />

Ukupnu varijansu (SST) izračunavamo na isti način kao kod jednofaktorske analize varijanse,<br />

tako što kvadriramo i saberemo odstupanje svake pojedinačne ocjene od opšteg prosjeka (x̿G):<br />

SS ( x x ) 2 (7 4,2) 2 ... (5 4) 2 127<br />

T i G<br />

29


Varijansa unutar subjekata (SSW) predstavlja dio ukupne varijanse koji je svojstven samim<br />

ispitanicima. Ovo je i ključna razlika u odnosu na jednofaktorski ANOVA test. Naime kod<br />

ponovljenih mjerenja ne baratamo više varijansom unutar grupa već varijansom unutar<br />

subjekata, obzirom da kategorije nezavisne varijable predstavljaju opetovana mjerenja vezana<br />

za istog ispitanika. Ova varijansa se izračunava tako što razlike između ponovljenih ocjena<br />

datog subjekta i njegovog prosjeka kvadriramo i saberemo.<br />

Na primjer, prosječna ocjena prvog ispitanika iz našeg uzorka iznosi:<br />

x̄ subjekt1 = (oglas1 + oglas2 + oglas3)/3 = (7 + 3 + 7)/3 = 5,67<br />

Varijansa unutar prvog ispitanika će biti:<br />

SSsubjekt1 = (oglas1 − 5,67) 2 + (oglas2 - 5,67) 2 + (oglas3 − 5,67) 2<br />

= (7 − 5,67) 2 + (3 − 5,67) 2 + (7 − 5,67) 2<br />

= 10,67<br />

Na isti način se računa varijansa unutar ostalih ispitanika.<br />

Nakon što sve pojedinačne varijanse saberemo dobićemo da je:<br />

SSW = SSsubjekt1 + SSsubjekt2 + ... + SSsubjekt10 = 112,67<br />

Varijansa objašnjena modelom (SSM) predstavlja dio varijanse koji je objašnjen razlikama<br />

između nivoa nezavisne varijable (različitim dizajnima oglasa). Računa se slično kao i kod<br />

jednofaktorske analize varijanse, na način da razlike između prosjeka u svakom mjerenju (x̄ j) i<br />

opšteg prosijeka (x̿G) kvadriramo i pomnožimo sa brojem opservacija (n) unutar svakog<br />

mjerenja:<br />

SS n ( x x ) 2 10 (6,6 5) 2 ... 10 (5,8 5) 2 84,9<br />

M j G<br />

Varijansa koja nije objašnjena modelom (SSR) odnosi se na varijabilitet unutar subjekata<br />

koji je izazvan eksternim faktorima a ne samim eksperimentom. Do sada smo izračunali da<br />

ukupni varijabilitet unutar subjekata iznosi 112,7 i da se 84,9 jedinica tog varibaliteta može<br />

objasniti eksperimentom. Najlakši način da dobijemo rezidualni varijabilitet koji nije objašnjen<br />

eksperimentom je da izračunamo razliku između ta dva varijabliteta:<br />

SSR = SSW − SSM = 112,7 − 84,9 = 27,8<br />

Ako od ukupne varijanse oduzmemo varijansu unutar subjekata, ono što preostane je varijansa<br />

vezana za individualne razlike između subjekata (SSB):<br />

SSB = SST − SSW = 127 − 112,67 = 14,33<br />

U kontekstu našeg primjera ovo bi se odnosilo na činjenicu da neki ispitanici generalno imaju<br />

tendenciju da daju niže ili više ocjene. Na primjer, ako pogledamo output 1 možemo uočiti da<br />

je ispitanik pod rednim brojem 5 sva tri oglasa ocijenio sa nešto nižim ocjenama pa će i prosijek<br />

njegovih ocjena biti niži u odnosu na ostale ispitanike. U skladu s tim, 14,33 predstavlja iznos<br />

ukupne varijanse koji možemo objasniti ovakvim individualnim razlikama između ispitanika.<br />

30


Sve dobijene vrijednosti možemo sumarno predstavitina način prikazan u tabeli 21.<br />

Tabela 21 – Sumarna tabela za prikaz rezultata analize varijanse sa ponovljenim mjerenjima<br />

Izvor<br />

varijanse<br />

Između<br />

subjekata<br />

Eksperimentalna<br />

varijabla<br />

Suma<br />

kvadrata<br />

broj<br />

stepena<br />

slobode*<br />

SS B n − 1 MS B =<br />

SS M k − 1 MS M =<br />

Procijenjena varijansa<br />

(srednje kvadratno<br />

odstupanje)<br />

SS B<br />

n 1<br />

SS M<br />

k 1<br />

SS<br />

R<br />

Rezidual SS R (k − 1)(n − 1) MS R =<br />

( k 1) ( n 1)<br />

Ukupno SS T = SS B + SS M + SS R n − 1<br />

* gdje je k = broj kategorija nezavisne varijable i n = broj subjekata (veličina uzorka)<br />

F odnos<br />

MS<br />

F =<br />

MS<br />

MS<br />

F =<br />

MS<br />

B<br />

R<br />

M<br />

R<br />

Sama statistika testa se izračunava kao količnik procijenjene varijanse između grupa (MSB –<br />

objašnjena varijansa) i procijenjene varijanse unutar grupa (MSW – neobjašnjena varijansa).<br />

Dobijeni rezultat slijedi F distribuciju sa (k -1, n - k) stepena slobode koja se koristi da bi se<br />

provjerilo da li postoji statistički signifikantna razlika između grupa.<br />

U konkretnom primjeru vezanom za ocjenjivanje dizajna oglasa, izračunate vrijednosti su<br />

predstavljene u tabeli 22.<br />

Tabela 22 – Statistika testa za primjer sa bilbordima<br />

Izvor varijanse Suma kvadrata<br />

broj stepena<br />

slobode<br />

Procjenjena vrijansa<br />

(srednje kvadratno<br />

odstupanje)<br />

F odnos<br />

Između grupa SS B = 14,3 10 − 1 = 9 MS B = 1,59 F = 1,03<br />

eksperiment SS M = 84,9 3 − 1 = 2 MS M = 42,45 F = 27,5<br />

rezidual SS R = 27,8 9 × 2 = 18 MS R = 1,54<br />

Ukupno SS T = 127 30 − 1 = 29<br />

Ukoliko bi provjerili u statističkim tablicama vidjeli bi da je statistika testa F = 27,5 za dati broj<br />

stepena slobode signifikantna uz p < 0,05 na osnovu čega možemo odbaciti nultu hipotezu i<br />

zaključiti da se prosječne ocjene kvaliteta hrane u tri posmatrana hotela međusobno razlikuju.<br />

5.2.2. RM ANOVA uz pomoć State<br />

Da bi unutar State mogli provesti analizu varijanse sa ponovljenim mjerenjima podaci moraju<br />

biti organizovani na poseban način koji je prikazan u tabeli 23. Ovakav način organizacije<br />

podataka gdje se ispitanik pojavljuje više puta i gdje su vrijednosti mjerenja spremljene unutar<br />

jedne varijable (oglas) naziva se tzv. dugačkim formatom podataka (engl. long data format).<br />

U slučaju da imamo podatke u širokom formatu a želimo ih prebaciti u dugački format,<br />

iskoristićemo naredbu reshape:<br />

31


. reshape long oglas, i(id) j(dizajn)<br />

Naziv varijable u koju će biti pohranjene vrijednosti ponovljenih mjerenja u dugačkom formatu<br />

(u gornjoj naredbi to je varijabla oglas) mora biti identičan nazivima varijabli u širokom formatu<br />

samo bez numeričke oznake (u našem primjeru to su varijable oglas1-3). Opcija<br />

i(naziv_varijable) služi da se označi varijabla kojom se identifikuju ispitanici. U konkretnom<br />

slučaju to je varijabla id. Opcija j(naziv_varijable) kreira novu varijablu kojom se identifikuju<br />

ponovljena mjerenja ili vremenski periodi kada su ta mjerenja obavljena. U našem primjeru<br />

novokreirana varijabla se naziva dizajn i odnosi se na sukcesivno prikazivanje tri različita<br />

dizajna oglasa.<br />

Tabela 23 – Podaci organizovani u tzv. dugačkom formatu<br />

. list, separator(3)<br />

+---------------------+<br />

| id dizajn oglas |<br />

|---------------------|<br />

1. | 1 1 7 |<br />

2. | 1 2 3 |<br />

3. | 1 3 7 |<br />

|---------------------|<br />

4. | 2 1 8 |<br />

5. | 2 2 3 |<br />

6. | 2 3 7 |<br />

|---------------------|<br />

7. | 3 1 8 |<br />

8. | 3 2 1 |<br />

9. | 3 3 5 |<br />

|---------------------|<br />

10. | 4 1 5 |<br />

11. | 4 2 3 |<br />

12. | 4 3 7 |<br />

|---------------------|<br />

13. | 5 1 5 |<br />

14. | 5 2 3 |<br />

15. | 5 3 3 |<br />

|---------------------|<br />

16. | 6 1 6 |<br />

17. | 6 2 3 |<br />

18. | 6 3 4 |<br />

|---------------------|<br />

19. | 7 1 7 |<br />

20. | 7 2 2 |<br />

21. | 7 3 6 |<br />

|---------------------|<br />

22. | 8 1 5 |<br />

23. | 8 2 3 |<br />

24. | 8 3 6 |<br />

|---------------------|<br />

25. | 9 1 7 |<br />

26. | 9 2 2 |<br />

27. | 9 3 8 |<br />

|---------------------|<br />

28. | 10 1 8 |<br />

29. | 10 2 4 |<br />

30. | 10 3 5 |<br />

+---------------------+<br />

32


Nakon što smo podatke pripremili u odgovarajući format, sam test ima sljedeću sintaksu:<br />

. anova oglas id dizajn, repeated(dizajn)<br />

Dobijeni rezultat je organizovan u dva odvojena outputa. Prvi dio odnosi se na rezultat testa i<br />

predstavljen je u tabeli 24, dok se drugi odnosi na korekciju statistike testa ukoliko pretpostavka<br />

o sfernosti nije ispunjena i predstavljen je u tabeli 25.<br />

Tabela 24 – Rezultat RM ANOVA testa koji tumačimo ukoliko je pretpostavka o sfernosti<br />

ispunjena<br />

Number of obs = 30 R-squared = 0.7810<br />

Root MSE = 1.24276 Adj R-squared = 0.6472<br />

Source | Partial SS df MS F Prob > F<br />

-----------+----------------------------------------------------<br />

Model | 99.1666667 11 9.01515152 5.84 0.0005<br />

|<br />

id | 14.3 9 1.58888889 1.03 0.4550<br />

dizajn | 84.8666667 2 42.4333333 27.47 0.0000<br />

|<br />

Residual | 27.8 18 1.54444444<br />

-----------+----------------------------------------------------<br />

Total | 126.966667 29 4.37816092<br />

Tabela 24 prikazuje rezultat za situacije kada je pretpostavka o sfernosti ispunjena. Ukupna<br />

varijansa je razložena na iste komponente do kojih smo došli kada smo računali test ručno.<br />

Varijansa u redu označenim sa "id" odnosi se na iznos ukupne varijanse objašnjen razlikama<br />

između samih subjekata (SSB), "dizajn" se odnosi na iznos ukupne varijanse objašnjene<br />

modelom, odnosno faktorom "dizajn oglasa" (SSM) i "Residual" se odnosi na neobjašnjenu<br />

varijansu (SSR). Kada saberemo ove tri komponete dobijamo iznos ukupne varijanse. Stata daje<br />

još jedan red "Model" koji odnosi na ukupnu objašnjenu varijansu koju dobijamo ako saberemo<br />

komponete SSM i SSB. Rezultat testa je signifikantan što možemo vidjeti na osnovu vrijednosti<br />

testa koji se nalazi na presjeku reda "dizajn" i kolone "Prob > F" koji iznosi 0,0000 što je manje<br />

od p < 0,001.<br />

Tabela 25 – Output RM testa koji tumačimo ukoliko pretpostavka o sfernosti nije ispunjena<br />

Between-subjects error term: id<br />

Levels: 10<br />

Lowest b.s.e. variable: id<br />

Repeated variable: dizajn<br />

(9 df)<br />

Huynh-Feldt epsilon = 1.2583<br />

*Huynh-Feldt epsilon reset to 1.0000<br />

Greenhouse-Geisser epsilon = 0.9847<br />

Box's conservative epsilon = 0.5000<br />

------------ Prob > F ------------<br />

Source | df F Regular H-F G-G Box<br />

-----------+----------------------------------------------------<br />

dizajn | 2 27.47 0.0000 0.0000 0.0000 0.0005<br />

Residual | 18<br />

----------------------------------------------------------------<br />

33


Unutar tabele 25 nalaze se korekcioni faktori koje možemo upotrijebiti ukoliko je pretpostavka<br />

o sfernosti narušena kako bi dobili validan rezultat testa. Korekcioni faktori se upotrebljavaju<br />

kako bi se korigovao broj stepena slobode koji se koristi za izračunavanje F statistike. U<br />

gornjem desnom dijelu tabele navedeni su faktori korekcije izračunati prema tri različite<br />

metode, dok se u donjem dijelu tabele nalaze korigovane vrijednosti F statistike koje dobijamo<br />

nakon primjene korekcionih faktora. Od navedenih korekcionih faktora najkonzervativniji je<br />

Boxov epsilon i ukoliko je "Prob > F" za taj korekcioni faktor signifikantan nema potrebe da<br />

razmatramo ostale korekcione faktore.<br />

U konkretnom primjeru vidimo da je rezultat testa i nakon primjene Boxovog korekcionog<br />

faktora signifikantan. Ovo se poklapa sa rezultatom testa kojeg smo dobili unutar outputa 4, pa<br />

na osnovu F statistike testa i pridružene p-vrijednosti zaključujemo da je analiza varijanse<br />

potvrdila da postoje značajne razlike između grupa (F = 27,47, p < 0,001).<br />

5.2.3. Kako napisati rezultat testa<br />

Rezultati jednofaktorskog ANOVA testa sa ponovljenim mjerenjima provedenog na uzorku od<br />

10 slučajno odabranih ispitanika pokazuju da postoji statistički signifikantna razlika između<br />

prosječne ocjene privlačnosti billboard-a zavisno od vrste dizajna samog oglasa, F(2, 18), p <<br />

0,001.<br />

34


UNIVERZITET U SARAJEVU<br />

EKONOMSKI FAKULTET U SARAJEVU<br />

Neparametarski testovi za testiranje razlika<br />

između grupa 1<br />

Autor:<br />

prof. dr Emir Agić<br />

Sarajevo, 04. april 2017. godine<br />

1<br />

NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />

njegovih dijelova bez prethodnog pisanog pristanka autora.<br />

1


Sadržaj<br />

I Neparametarski testovi za testiranje razlika ................................................................. 4<br />

1. Uvod ................................................................................................................................ 4<br />

2. Pretpostavke za primjenu neparametarskih testova ................................................. 4<br />

3. Neparametarski testovi za jednu grupu ...................................................................... 5<br />

3.1. Binomni test ............................................................................................................. 5<br />

3.1.1. Izračunavanje statistike testa pomoću formule ................................................. 5<br />

3.1.2. Izračunavanje statistike testa pomoću State ..................................................... 6<br />

3.1.3. Kako napisati rezultat testa ............................................................................... 7<br />

4. Hi-kvadrat test proporcije ............................................................................................ 7<br />

4.1.1. Izračunavanje statistike testa pomoću formule ................................................. 8<br />

4.1.2. Izračunavanje statistike testa pomoću State ..................................................... 8<br />

4.1.3. Kako napisati rezultat testa ............................................................................. 10<br />

5. Neparametarski testovi za dvije grupe ...................................................................... 10<br />

5.1. Hi-kvadrat test nezavisnosti ................................................................................... 10<br />

5.1.1. Izračunavanje statistike testa pomoću formule ............................................... 11<br />

5.1.2. Izračunavanje statistike testa pomoću State ................................................... 12<br />

5.1.3. Kako napisati rezultat testa ............................................................................. 13<br />

5.2. Mann-Whitney U test ............................................................................................. 13<br />

5.2.1. Izračunavanje statistike testa pomoću formule kada je n < 20 ....................... 14<br />

5.2.2. Izračunavanje statistike testa pomoću formule kada je n > 20 ....................... 14<br />

5.2.3. Izračunavanje statistike testa pomoću State ................................................... 15<br />

5.2.4. Kako napisati rezultat testa ............................................................................. 16<br />

5.2.5. Dodatni primjeri i zadaci ................................................................................ 16<br />

5.3. McNemar test ......................................................................................................... 16<br />

5.3.1. Izračunavanje statistike testa pomoću formule ............................................... 17<br />

5.3.2. Izračunavanje statistike testa pomoću State ................................................... 17<br />

5.3.3. Kako napisati rezultat testa ............................................................................. 18<br />

5.4. Wilcoxonov test rangiranih predznaka .................................................................. 18<br />

5.4.1. Izračunavanje statistike testa pomoću State ................................................... 19<br />

5.4.2. Kako napisati rezultat testa ............................................................................. 20<br />

6. Neparametarski testovi za tri ili više grupa .............................................................. 20<br />

6.1. Kruskal-Wallis test ................................................................................................. 20<br />

6.1.1. Izračunavanje statistike testa pomoću State ................................................... 21<br />

6.1.2. Dunnov post-hoc test ...................................................................................... 22<br />

6.1.3. Kako napisati rezultat testa ............................................................................. 22<br />

6.2. Cochranov Q test .................................................................................................... 22<br />

6.2.1. Izračunavanje statistike testa pomoću State ................................................... 23<br />

6.2.2. Post-hoc testovi............................................................................................... 24<br />

6.2.3. Kako napisati rezultat testa ............................................................................. 24<br />

2


6.3. Friedman test .......................................................................................................... 24<br />

6.3.1. Izračunavanje statistike testa pomoću State ................................................... 25<br />

6.3.2. Post-hoc testovi............................................................................................... 26<br />

6.3.3. Kako napisati rezultat testa ............................................................................. 26<br />

3


I<br />

Neparametarski testovi za testiranje razlika<br />

1. UVOD<br />

Osnovna karakteristika neparametarskih testova je da oni ne zahtevaju ispunjenost pretpostavki<br />

vezanih za homogenost varijanse, normalnost ili poznavanje oblika distribucije unutar<br />

populacije. Obzirom na to neparametarski testovi se često zovu i testovima bez raspodjele (engl.<br />

distribution-free tests). Selekcija odgovarajućeg neparametarskog testa zavisi od broja grupa<br />

između kojih se vrši testiranje razlika kao i od toga da li je riječ o međusobno nezavisnim ili<br />

zavisnim grupama, što je obrađeno u poglavlju „Testiranje hipoteza“ (vidjeti tabelu „Kriteriji<br />

za odabir testa“).<br />

2. PRETPOSTAVKE ZA PRIMJENU NEPARAMETARSKIH TESTOVA<br />

U tabeli 1 je data usporedba osnovnih pretpostavki koje je potrebno ispuniti da bi zaključci do<br />

kojih dođemo na bazi testova signifikantnosti bili validni.<br />

Tabela 1 – Pretpostavke koje moraju biti ispunjene da bi se primijenio odgovarajući test<br />

Tip zavisne varijable Nezavisnost Slučajni uzorak<br />

Binomni test dihotomna - da<br />

Hi-kvadrat propor. dihotomna/nominalna - da<br />

Hi-kvadrat test nez. nominalna/ordinalna da da<br />

Mann-Whitney U ordinalna/kontinuirana da da<br />

McNemar test dihotomna ne da<br />

Wilcoxon test ordinalna/kontinuirana ne da<br />

Kruskal-Wallis ordinalna/kontinuirana da da<br />

Cochran Q dihotomna ne da<br />

Friedman ordinalna/kontinuirana ne da<br />

Od svih ranije pomenutih pretpostavki vezanih za parametarske testove, jedino pretpostavka o<br />

tome da su ispitanici izabrani na bazi slučajnog uzorka jednako važi za neparametarske testove.<br />

Ukoliko je ova pretpostavka narušena, postoji mogućnost da će dobijeni rezultati testiranja biti<br />

pristrasni i da doneseni zaključci neće biti validni. Također, neki testovi zahtjevaju ispunjenje<br />

pretpostavke o nezavisnosti opservacija.<br />

Obzirom da neparametarski testovi postavljaju manje zahtjeva u pogledu pretpostavki,<br />

postavlja se pitanje zašto ih uvijek ne koristimo, pa čak i onda kada imamo metrijske podatke?<br />

Prvi bitan nedostatak neparametarskih testova je u tome što oni imaju manju snagu da detektuju<br />

signifikantne razlike između grupa ukoliko one zaista postoje. Samim tim češće će se desiti da<br />

napravimo grešku drugog tipa i ne odbacimo nultu hipotezu kada je ona pogrešna. Drugo,<br />

neparametarski testovi primjenjeni na metrijske podatke često zahtjevaju da modifikujemo<br />

hipoteze jer se pri testiranju tvrdnji o prosjeku ne oslanjaju na aritmetičku sredinu već na<br />

medijanu i rangove. Samim tim neparametarski testovi ne daju odgovore na ista pitanja kao<br />

parametarski testovi.<br />

4


Zbog svega navedenog, uvijek je bolje primijeniti parametarski u odnosu na naparametarski<br />

statistički test ako je zavisna varijabla metrijskog tipa, imamo dovoljno velik uzorak i smatramo<br />

da je aritmetička sredina zadovoljavajući pokazatelj centralne tendencije.<br />

3. NEPARAMETARSKI TESTOVI ZA JEDNU GRUPU<br />

3.1. BINOMNI TEST<br />

Binomni test se koristi za testiranje razlike između proporcije jedne kategorije dihotomne<br />

varijable u uzorku i pretpostavljene ili prethodno poznate proporcije drugog uzorka ili<br />

populacije (π). Posebno je pogodan u slučaju kada raspolažemo sa uzorcima male veličine.<br />

Statistika testa se izračunava korištenjem formule za binomnu distribuciju kako bi izračunali<br />

vjerovatnoću dobijanja proporcije u uzroku. Zatim se testira nulta hipoteza da se dobijena<br />

proporcija ne razlikuje od očekivane proporcije.<br />

Primjer 3.1<br />

Istraživanje preferencija prema mineralnim vodama obavljeno je na prigodnom uzoraku kojeg<br />

čini 199 ispitanika iz BiH. Pretpostavimo da je u sličnom istraživanju u Hrvatskoj u uzorku bilo<br />

60% žena. Da li se postotak žena iz BiH uzorka (mv.dta) statistički značajno razlikuje u odnosu<br />

na Hrvatski uzorak?<br />

Pogledajmo prvo proporciju žena u uzorku iz BiH:<br />

. tab spol, missing<br />

Tabela 1 – Proporcija ispitanika prema spolu<br />

Spol | Freq. Percent Cum.<br />

------------+-----------------------------------<br />

Muški | 62 31.16 31.16<br />

Ženski | 134 67.34 98.49<br />

. | 3 1.51 100.00<br />

------------+-----------------------------------<br />

Total | 199 100.00<br />

Vidimo da je u BiH uzorku procenat žena veći (67,34 %) u odnosu na očekivanih 60%. Kako<br />

bi utvrdili da li je ova razlika statistički značajna provešćemo binomni test.<br />

H0: πženski ≤ 0,60<br />

H1: πženski > 0,60<br />

3.1.1. Izračunavanje statistike testa pomoću formule<br />

Statistiku testa možemo izračunamo ručno koristeći isti postupak koji smo opisali kada smo se<br />

bavili sa vjerovatnoćom odabira pretplatnika kablovske televizije u uzorak (pogledati raniji<br />

primjer vezan za normalnu aproksimaciju binomne distribucije u poglavlju Osnovi<br />

inferencijalne statistike).<br />

5


3.1.2. Izračunavanje statistike testa pomoću State<br />

Postoje dva načina da izračunamo statistiku testa pomoću State.<br />

Prvo, možemo se poslužiti ranijom formulom za binomnu distribuciju (za više detalja pogledati<br />

poglavlje „Osnovi inferencijalne statistike“). Broj žena (x) u uzorku slijedi binomnu distribuciju<br />

sa n = 196 (veličina uzorka umanjena za tri ispitanika koja nisu navela spol) i p = 0,60<br />

(vjerovatnoća odabira žene na bazi podataka iz Hrvatskog uzorka). Koristeći se ranijom<br />

naredbom, možemo dobiti vjerovatnoću da u uzorak uđe 134 ili više žena ako je p = 0,60:<br />

. display binomialtail(196, 134, 0.60)<br />

.00951517<br />

Dakle, vjerovatnoća je P[x ≥ 134] = 0,0095 što je manje od potrebnih p < 0,05, na osnovu čega<br />

možemo odbaciti nultu hipotezu da je razlika u proporcijama rezultat slučajnih fluktuacija<br />

svojstvenih uzorkovanju.<br />

Drugi način je da unutar State iskoristimo naredbu za binomni test. U tom slučaju, varijabla od<br />

interesa mora biti spremljena u formi 0/1, a test se uvijek odnosi na proporciju za kategoriju sa<br />

oznakom 1. Provjerimo kako je kodirana varijabla spol unutar skupa sa podacima:<br />

. codebook spol<br />

type: numeric (byte)<br />

label: Spol<br />

range: [1,2] units: 1<br />

unique values: 2 missing .: 3/199<br />

tabulation: Freq. Numeric Label<br />

62 1 Muški<br />

134 2 Ženski<br />

3 .<br />

Uočavamo da je varijabla spol kodirana tako da se oznaka 1 odnosi na muškarce, dok se 2<br />

odnosi na žene. Varijablu je dakle potrebno prvo rekodirati na sljedeći način:<br />

. recode spol (1=0) (2=1)<br />

(spol: 196 changes made)<br />

Zatim smo dodijelili nove opise kategorijama unutar varijable spol:<br />

. label define Spol 0 "Muški" 1 "Ženski", replace<br />

Sam test smo uradili koristeći naredbu:<br />

. bitest spol=.60<br />

gdje je .60 pretpostavljna proporcija u odnosu na koju testiramo opserviranu proporciju za<br />

kategoriju sa oznakom 1 (žene) unutar varijable spol.<br />

Rezultat testa je prikazan u tabeli 2.<br />

6


Tabela 2 – Output binomnog testa za primjer 3.1<br />

Variable | N Observed k Expected k Assumed p Observed p<br />

-------------+------------------------------------------------------------<br />

spol | 196 134 117.6 0.60000 0.68367<br />

Pr(k >= 134)<br />

= 0.009515 (one-sided test)<br />

Pr(k = 134). Nivo statističke značajnosti za ovaj primjer iznosi p = 0,0095 što je<br />

manje od uobičajenog kriterija p < 0,05, pa možemo odbaciti nultu hipotezu. Drugim riječima,<br />

proporcija žena u BiH uzorku se značajno razlikuje od proporcije žena u Hrvatskom uzorku.<br />

3.1.3. Kako napisati rezultat testa<br />

Tokom istraživanja utvrđeno je da je proporcija žena u BiH uzorku (67,3%) veća od one u<br />

Hrvatskom uzorku (60,0%). Jednosmjerni binomni test je pokazao da je ova razlika statistički<br />

signifikantna sa p < 0,01.<br />

4. HI-KVADRAT TEST PROPORCIJE<br />

Hi-kvadrat test (χ 2 ) proporcije (engl. Chi-square test) se koristi kada želimo testirati razlike<br />

između proporcija kategorija u uzorku i pretpostavljenih ili prethodno poznatih proporcija<br />

drugog uzorka ili populacije. Za razliku od binomnog testa kojeg možemo korisiti samo sa<br />

dihotomnim varijablama (dvije kategorije), χ 2 test možemo koristiti i kada raspolažemo sa<br />

nominalnim varijablama (dvije ili više više kategorija). Pored uobičajenih pretpostavki<br />

neparametarskih testova (nezavisnost opservacija i slučajni uzorak), χ 2 test proporcije zahtjeva<br />

da u svakoj kategoriji nominalne varijable imamo bar 5 opservacija.<br />

χ 2 test proporcije se često označava i kao test kvaliteta podudaranja (engl. goodnessof-fit<br />

test), obzirom da se pomoću njega testira podudaranje opserviranih i teoretski pretpostavljenih<br />

vrijednosti. Drugim riječima, testira se u kojoj mjeri opservirana distribucija prati<br />

pretpostavljenu distribuciju populacije. Statistika testa sa (k − 1) stepena slobode se izračunava<br />

prema formuli:<br />

2 ( Oi<br />

E )<br />

<br />

E<br />

i<br />

2<br />

i<br />

gdje se k unutar stepena slobode odnosi na broj kategorija varijable od interesa, O označava<br />

opservirane frekvencije, a E očekivane frekvencije.<br />

7


Primjer 4.1<br />

U istraživanju koje se ticalo posjeta novootvorenom butiku utvrđeno je da prema starosnoj<br />

strukturi imamo 33 % ispitanika u dobi 18-30 godina, 29% ispitanika u dobi 31-45 godina i 39<br />

% ispitanika u dobi 46-60 godina, što je predstavljeno na outputu 1. Da li možemo reći da su<br />

ove tri starosne grupe ravnomjerno zastupljene u uzorku? Podaci su spremljeni unutar varijable<br />

dob u datoteci butik.dta, a opservirane frekvencije su prikazane u tabeli 3.<br />

. tab dob<br />

Tabela 3 – Proporcija ispitanika prema starosnoj dobi<br />

dob | Freq. Percent Cum.<br />

------------+-----------------------------------<br />

18-30 god. | 7 33.33 33.33<br />

31-45 god. | 6 28.57 61.90<br />

46-60 god. | 8 38.10 100.00<br />

------------+-----------------------------------<br />

Total | 21 100.00<br />

Ako pogledamo opservirane vrijednosti jasno je da one međusobno nisu identične. Međutim,<br />

kao i uvijek kada je riječ o uzorcima, ono što nas interesuje jeste da li su te opservirane razlike<br />

posljedica varijacije svojstvene uzorkovanju ili predstavljaju stvarni efekat. Dakle testiramo<br />

hipotezu:<br />

H0: π1 = π2 = π3<br />

H1: π1 ≠ π2 ≠ π3<br />

4.1.1. Izračunavanje statistike testa pomoću formule<br />

Iz ranijeg outputa možemo videti da su opservirane frekvencije (O): 7, 6 i 8. Ukoliko je nulta<br />

hipoteza tačna i ako su ispitanici u populaciji zaista ravnomjerno distribuirani onda će<br />

očekivane frekvencije (E) biti: 7, 7 i 7.<br />

Obzirom da je pretpostavka da u svakoj kategoriji imamo bar 5 opservacija ispunjena (što se<br />

vidi unutar kolone Freq.), statistiku testa ćemo izrčaunati kao:<br />

2 2 2 2<br />

2 ( O E ) (7 7) (6 7) (8 7)<br />

0,29<br />

E 7 7 7<br />

Ako bi provjerili u statističkim tablicama vidjeli bi da je statistika testa χ 2 = 0,29 za dati broj<br />

stepena slobode (3 − 1 = 2) nesignifikantna uz p > 0,05 na osnovu čega zaključujemo da ne<br />

možemo odbaciti nultu hipotezu.<br />

4.1.2. Izračunavanje statistike testa pomoću State<br />

Da bi uz pomoć State izračunali χ 2 test proporcije, prvo moramo pronaći i instalirati paket csgof:<br />

. findit csgof<br />

8


Zatim ćemo za provođenje testa ukucati sljedeću naredbu:<br />

. csgof dob<br />

Rezultati su predstavljeni u tabeli 4.<br />

Tabela 4 – Rezultat hi-kvadrat testa proporcije za primjer 4.1<br />

+-------------------------------------------+<br />

| dob expperc expfreq obsfreq |<br />

|-------------------------------------------|<br />

| 18-30 god. 33.33333 7 7 |<br />

| 31-45 god. 33.33333 7 6 |<br />

| 46-60 god. 33.33333 7 8 |<br />

+-------------------------------------------+<br />

chisq(2) is .29, p = .8669<br />

Vidimo da smo dobili identičan rezultat kao i kada smo test računali putem formule χ 2 (2) = 0,29<br />

i da je statistika testa nesignifikantna uz p = 0,867 na osnovu čega zaključujemo da ne možemo<br />

odbaciti nultu hipotezu.<br />

Primjer 4.2<br />

Ako u ukupnoj populaciji (18-60 godina) ima otprilike 4 miliona ljudi, od čega 1,04 miliona<br />

otpada na osobe u dobi 18-30 godina (26%), 1,4 miliona na osobe u dobi od 31-45 godina (35%)<br />

i 1,56 miliona na osobe u dobi 46-60 godina (39%), da li možemo tvrditi da je naš uzorak<br />

reprezentativan u pogledu starosne strukture?<br />

Da bi dali odgovor na ovo pitanje, koristićemo opciju expperc pomoću koje ćemo specificirati<br />

očekivane proporcije:<br />

. csgof dob, expperc(26 35 39)<br />

Output sa rezultatima ovog testa se nalazi u tabeli 5.<br />

Tabela 5 – Rezultat hi-kvadrat testa proporcije za primjer 4.2<br />

+------------------------------------------+<br />

| dob expperc expfreq obsfreq |<br />

|------------------------------------------|<br />

| 18-30 god. 26 5.46 7 |<br />

| 31-45 god. 35 7.35 6 |<br />

| 46-60 god. 39 8.19 8 |<br />

+------------------------------------------+<br />

chisq(2) is .69, p = .7094<br />

Dobijeni output pokazuje očekivanu proporciju (expperc), očekivanu frekvenciju (expfreq) i<br />

opserviranu frekvenciju (obsfreq). Ispod tabele je prikazana statistika testa koja je<br />

nesignifikantna jer je p > 0,05.<br />

9


4.1.3. Kako napisati rezultat testa<br />

Analiza je pokazala da između opserviranih proporcija starosnih grupa unutar uzorka i<br />

očekivanih proporcija starosnih grupa u populaciji nema statistički značajne razlike χ 2 (2) =<br />

0,69, p = 0,71. Na osnovu toga zaključujemo da se proporcije unutar uzorka ne razlikuju<br />

statistički značajno od očekivanih proporcija u populaciji i da je stoga naš uzorak<br />

reprezentativan u pogledu starosne strukture.<br />

5. NEPARAMETARSKI TESTOVI ZA DVIJE GRUPE<br />

5.1. HI-KVADRAT TEST NEZAVISNOSTI<br />

Hi-kvadrat (χ 2 ) test nezavisnosti (engl. Chi-square test of independence) se koristi u<br />

slučajevima kada želimo utvrditi da li su dvije kategorijalne varijable međusobno povezane.<br />

Iako se prvenstveno koristi za nominalne, moguće ga je primijeniti i za ordinalne varijable.<br />

Bazira se na analizi opserviranih i očekivanih frekvencija unutar tabele kontigencije koja se<br />

dobije kada se kategorije jedne varijable ukrste sa kategorijama druge varijable. Konvencija je<br />

da unutar tabele kontigencije redovi predstavljaju kategorije nezavisne varijable, dok se u<br />

kolonama nalaze kategorije zavisne varijable.<br />

Statistika testa uz (R − 1) × (C − 1) stepena slobode se izračunava po formuli:<br />

<br />

2<br />

( Oi<br />

E<br />

2 ij<br />

)<br />

<br />

i<br />

E<br />

ij<br />

gdje se Oij odnosi na broj opservacija koje se unutar tabele kontigencije nalaze u ij ćeliji, Eij se<br />

odnosi na očekivani broj opservacija koje bi se trebale nalaziti u ij ćeliji ukoliko je nulta<br />

hipoteza tačna i računa se kao:<br />

Ri<br />

C<br />

j<br />

Eij<br />

<br />

N<br />

gdje je R = zbir za i-ti red, C = zbir za j-tu kolonu kolona i N = ukupni zbir.<br />

Konačan rezultat χ 2 testa obuhvata i dodatnu ,,korekciju neprekidnosti prema Yatesu" (engl.<br />

Yates' Correction for Continuity), koja se sastoji u tome da se za 0,5 smanji svaka opažena<br />

frekvencija koja je veća od očekivane, a za 0,5 poveća svaka opažena frekvencija koja je manja<br />

od očekivane. Drugim riječima, između očekivane i opažene frekvencije razlika se smanjuje<br />

za 0,5.<br />

Pored uobičajenih pretpostavki neparametarskih testova (nezavisnost opservacija i slučajni<br />

uzorak), ovaj test zahtjeva da u svakoj ćeliji tabele kontigencije imamo bar 5 opservacija.<br />

Primjer 5.1<br />

Ispitanicima je postavljeno pitanje da li će posjetiti novootvoreni butik dizajnerske odjeće<br />

(posjeta). Pored toga zabilježen je i pol ispitanika (spol). Da li pol ispitanika ima uticaj na<br />

odluku o posjeti butiku? Podaci su spremljeni u datoteku butik2.dta.<br />

10


Obzirom da je u ovom slučaju sasvim jasno da varijabla spol igra ulogu nezavisne varijable,<br />

tabela kontigencije će imati sljedeću strukturu:<br />

. tab spol posjeta<br />

Tabela 6 – Tabela kontigencije sa opserviranim frekvencijama za primjer 5.1<br />

| posjeta<br />

spol | posjetiće neće posj | Total<br />

-----------+----------------------+----------<br />

muško | 9 13 | 22<br />

žensko | 15 5 | 20<br />

-----------+----------------------+----------<br />

Total | 24 18 | 42<br />

Testiramo sljedeću hipotezu:<br />

H0: Između spola ispitanika i namjeravane posjete ne postoji povezanost<br />

H1: Između spola ispitanika i namjeravane posjete postoji povezanost<br />

5.1.1. Izračunavanje statistike testa pomoću formule<br />

Iz ranijeg outputa možemo videti da su opservirane frekvencije (O): 9, 13, 15 i 5. Prvo ćemo<br />

izračunati očekivane frekvencije (Eij):<br />

E<br />

E<br />

E<br />

E<br />

11<br />

12<br />

21<br />

22<br />

R1 C<br />

1<br />

22 24<br />

12,57<br />

N 42<br />

R1 C<br />

2<br />

22 18<br />

9,43<br />

N 42<br />

R2 C<br />

1<br />

20 24<br />

11,43<br />

N 42<br />

R2 C<br />

2<br />

20 18<br />

8,57<br />

N 42<br />

Izračunato možemo provjeriti tako da uz pomoć opcije expected zatražimo da Stata izlista<br />

podatak o očekivanim frekvencijama:<br />

. tab spol posjeta, expected<br />

11


Tabela 7 – Tabela kontigencije sa očekivanim frekvencijama za primjer 5.1<br />

+--------------------+<br />

| Key |<br />

|--------------------|<br />

| frequency |<br />

| expected frequency |<br />

+--------------------+<br />

| posjeta<br />

spol | posjetiće neće posj | Total<br />

-----------+----------------------+----------<br />

muško | 9 13 | 22<br />

| 12.6 9.4 | 22.0<br />

-----------+----------------------+----------<br />

žensko | 15 5 | 20<br />

| 11.4 8.6 | 20.0<br />

-----------+----------------------+----------<br />

Total | 24 18 | 42<br />

| 24.0 18.0 | 42.0<br />

Na osnovu dobijenog output-a možemo potvrditi da su očekivane frekvencije koje smo<br />

izračunali ručno istovjetne onima koje je izračunala Stata.<br />

Nakon što imamo očekivane frekvencije, uz pomoć prethodno navede formule možemo ručno<br />

izračunati statistiku testa sa jednim stepenom slobode:<br />

2 ( O E ) (9 12,57) (13 9,43) (15 11,43) (5 8,57)<br />

<br />

E 12,57 9,43 11,43 8,57<br />

2 2 2 2 2<br />

i i<br />

<br />

i<br />

i<br />

4,97<br />

5.1.2. Izračunavanje statistike testa pomoću State<br />

Statistiku testa možemo izračunati i pomoću State korištenjem naredbe:<br />

. tab spol posjeta, column nofreq chi2<br />

Output sa rezultatima prikazan je u tabeli 8.<br />

Tabela 8 – Rezultat nezavisnog hi-kvadrat testa za primjer 5.1<br />

| posjeta<br />

spol | posjetiće neće posj | Total<br />

-----------+----------------------+----------<br />

muško | 37.50 72.22 | 52.38<br />

žensko | 62.50 27.78 | 47.62<br />

-----------+----------------------+----------<br />

Total | 100.00 100.00 | 100.00<br />

Pearson chi2(1) = 4.9716 Pr = 0.026<br />

Iza naredbe tab smo naveli prvo nezavisnu varijablu (spol) zatim zavisnu varijablu (posjeta).<br />

Pored toga koristili smo opcije column (da bi dobili proporcije po kolonama), nofreq (da bi<br />

izbjegli prikazivanje opserviranih frekvencija) i chi2 (kako bi tražili da Stata izračuna statistiku<br />

testa). Iz dobijenog outputa vidimo da je 37,5% muškaraca, odnosno 62,5% žena reklo da<br />

12


namjerava posjetiti novi butik. Rezultati testa pokazuju da je ova razlika statistički signifikantna<br />

(p < 0,05).<br />

5.1.3. Kako napisati rezultat testa<br />

Dobijeni rezultati sugerišu da žene u većem postotku (62,5%) izražavaju namjeru da posjete<br />

novi butik dizajnerske odjeće u odnosu na muškarce (37,5%). Rezultati testa potvrđuju da je<br />

uočena povezanost između pola i namjere statistički signifikantna, χ 2 (1) = 4,97, p = 0,026.<br />

5.2. MANN-WHITNEY U TEST<br />

Mann-Whitney U test (takođe poznat i kao Wilcoxon test sume rangova) služi za testiranje<br />

razilika između dvije nezavisne grupe i primjenjuje se u situaciji kada je zavisna varijabla<br />

mjerena na ordinalnom nivou. Može se koristiti i kao neparametarska alternativa nezavisnom<br />

t-testu kako bi se testirala razlika između prosjeka dvije grupe u situaciji kada nisu ispunjene<br />

pretpostavke za primjenu parametarskog testa. U tom slučaju vrijednosti metrijske zavisne<br />

varijable se pretvaraju u rangove. Nakon što se orginalni podaci pretvore u rangove oblik<br />

distribucije zavisne varijable više nije bitan. Analiza se zatim nastavlja na samim rangovima, a<br />

ne na orginalnim podacima.<br />

U literaturi se često navodi da se test može koristiti i za poređenje medijane dvaju grupa.<br />

Međutim, u tom slučaju distribucije u obje grupe moraju imati isti oblik. Za provjeru oblika<br />

distribucije možemo koristiti histogram frekvencija. Ako se potvrdi da distribucija vrijednosti<br />

zavisne varijable ima isti oblik u obje grupe test možemo iskoristiti da kompariramo medijane<br />

i testiramo hipotezu H0: MdnA = MdnB. U protivnom, test možemo korsititi samo za poređenje<br />

sredine rangova (engl. mean ranks).<br />

Mann-Whitney U test zahtijeva ispunjenost uobičajenih pretpostavki koje se odnose na<br />

neparametarske testove, obrazloženih na početku poglavlja.<br />

Primjer 5.2<br />

Pretpostavimo da je putem specijalno dizajniranog upitnika mjerena popularnost dvije marke<br />

satova (sat). Ukupno deset ispitanika (id) je učestvovalo u istraživanju i njihove zbirne ocjene<br />

su predstavljene u tabeli 8 (varijabla ocjena). Podaci su spremljeni u datoteku satovi.dta. Da li<br />

postoji razlika u popularnosti između satova marke A i B?<br />

Tabela 8 – Ocjene ispitanika za dvije marke satova<br />

Marka A (n1 = 5 opservacija)<br />

Marka B (n2 = 5 opservacija)<br />

Ispitanik (id) Ocjena Rang Ispitanik (id) Ocjena Rang<br />

1 32 3,5 6 56 7<br />

2 44 5 7 47 6<br />

3 32 3,5 8 75 8<br />

4 18 1 9 88 9<br />

5 99 10 10 25 2<br />

Zbir R1= 23 Zbir R2 = 32<br />

13


Hipoteza koju testiramo je:<br />

H0: Nema razlike u popularnosti između satova marke A i B (rangovi u jednoj grupi neće<br />

biti sistematski viši ili manji nego u drugoj grupi).<br />

H1: Postoji razlika u popularnosti između satova marke A i B (rangovi u jednoj grupi će<br />

biti sistematski viši ili niži nego u drugoj grupi).<br />

5.2.1. Izračunavanje statistike testa pomoću formule kada je n < 20<br />

Prvi korak koji trebamo uraditi je da dobijene ocjene posmatramo zajedno i poredamo od<br />

najmanje ka najvećoj bez obzira da li pripadaju grupi A ili B.<br />

U datoj situaciji ocjeni sa najnižom vrijednošću (18) je dodijeljen rang 1, dok je ocjeni sa<br />

najvećom vrijednošću (99) dodijeljen rang 5. Po istom principu su dodijeljeni ostali rangovi<br />

unutar tog raspona. Kada imamo dva ili više istovjetnih rangova za njih kažemo da su povezani<br />

(engl. tied rank). Na primjer, u tabeli 8 imamo dvije iste ocjene (32) i njima su pridruženi<br />

povezani rangovi koji su prosjek treće i četvrte pozicije (3 + 4)/2 = 3,5.<br />

Predstavljanjem orginalnih podatka putem rangova zaobilazi se problem upotrebe podataka koji<br />

narušavaju parametarske pretpostavke. Na primjer, u gornjem primjeru vidimo da je jedna<br />

posljedica rangiranja to što se izbjegava uticaj ekstremnih vrijednosti. Čak i da je smo umjesto<br />

vrijednosti 99 imali orginalnu vrijednost koja je znatno iznad tog broja, njen rang se ne bi<br />

promijenio.<br />

U drugom koraku, dobijene rangove treba sabrati kako bi se dobio njihov zbir. Ako grupe imaju<br />

jednake distribucije i njihove sume rangova bi trebale biti slične. U našem primjeru, jedna grupa<br />

ima nižu sumu rangova pa postoji razlog za sumnju da su distribucije različite.<br />

Konačno, sama statistika testa se izračunava po formuli:<br />

n1( n1<br />

1) 5 (5 1)<br />

U<br />

1<br />

n1n2 R1<br />

5 5 23 12<br />

2 2<br />

n2( n2<br />

1) 5 (5 1)<br />

U<br />

2<br />

n1n2 R2<br />

5 5 32 3<br />

2 2<br />

gdje je n1 i n2 = broj opservacija u grupi 1 i 2, R1 i R2 = zbir rangova u grupi 1 i 2<br />

Za testiranje hipoteze uzimamo manje U, koje je u ovom slučaju U = 3. Ako bi u statističkim<br />

tablicama za U distribuciju potražili vrijednost za n1 = n2 = 5 vidjeli bi da za dvosmjerni test i<br />

α = 0,05 kritična U vrijednost iznosi 2. Obzirom da je naše izračunato U = 3 i da je veće od<br />

kritične vrijednosti, zaključak bi bio da ne možemo odbaciti nultu hipotezu.<br />

5.2.2. Izračunavanje statistike testa pomoću formule kada je n > 20<br />

Ovdje je potrebno napomenuti da u statističkim tablicama za U distribuciju uobičajeno postoje<br />

kritične vrijednosti za situacije u kojima veličina grupa nije veća od n > 20. Šta uraditi ako<br />

statistiku testa računamo ručno, a u jednoj ili obje grupe imamo n > 20 opservacija? U tom<br />

14


slučaju sampling distribucija za U se približava normalnoj distribuciji sa aritmetičkom<br />

sredinom i standardnom devijacijom:<br />

<br />

<br />

U<br />

U<br />

n1n2<br />

<br />

2<br />

<br />

( n1)( n2)( n1 n2<br />

1)<br />

12<br />

Statistiku testa zatim možemo izračunati prema formuli:<br />

U <br />

z <br />

<br />

U<br />

U<br />

5.2.3. Izračunavanje statistike testa pomoću State<br />

Statistika testa unutar State se računa uz pomoć naredbe:<br />

rankusm zavisna_varijabla, by(nezavisna_varijabla)<br />

U našem primjeru će biti:<br />

. ranksum ocjena, by(sat)<br />

Output sa rezultatom je prikazan u tabeli 9.<br />

Tabela 9 – Rezultat Mann-Whitney U testa za primjer 5.2<br />

Two-sample Wilcoxon rank-sum (Mann-Whitney) test<br />

sat | obs rank sum expected<br />

-------------+---------------------------------<br />

A | 5 23 27.5<br />

B | 5 32 27.5<br />

-------------+---------------------------------<br />

combined | 10 55 55<br />

unadjusted variance 22.92<br />

adjustment for ties -0.14<br />

----------<br />

adjusted variance 22.78<br />

Ho: ocjena(sat==A) = ocjena(sat==B)<br />

z = -0.943<br />

Prob > |z| = 0.3457<br />

Output sadrži rezultate testa iz kojih vidimo da je p = 0,346. Samim tim nemamo dovoljno<br />

dokaza da odbacimo nultu hipotezu i ustvrdimo da između ocjena popularnosti za satove marke<br />

A i B postoji statistički signifikantna razlika.<br />

15


5.2.4. Kako napisati rezultat testa<br />

Mann-Whitney test pokazuje da između ocjena popularnosti satova marke A i marke B ne<br />

postoji statistički signifikantna razlika, z = −0,94, p = 0,35.<br />

5.2.5. Dodatni primjeri i zadaci<br />

Zadatak 5.1<br />

Ispitanicima je pružena mogućnost da iz istog cjenovnog razreda isprobaju 3 različite marke<br />

tableta (A, B i C) i rangiraju ih prema svojim preferencijama. Tablet kojeg najviše preferiaju<br />

označen je sa 1, a onaj kojeg najmanje preferiraju sa 5. Varijabla rangA1 sadrži rang (1 do 5)<br />

koji je svaki ispitanik dodijelio tabletu marke A. Pored toga zabilježen je pol ispitanika (spol).<br />

Podaci su spremljeni u datoteku tableti.dta. Da li postoji razlika između muškaraca i žena u<br />

pogledu rangiranja tableta marke A?<br />

5.3. MCNEMAR TEST<br />

McNemmar test se koristi za poređenje proporcija između dvije međusobno povezane<br />

dihotomne varijable. Bazira se na analizi proporcija unutar tabele kontigencije koja sadrži<br />

dihotomnu varijablu mjerenu u dva vremenska presjeka.<br />

Primjer 5.3<br />

Na sajmu automobila organizovan je eksperiment. Slučajno je odabrano 30 posjetilaca sajma<br />

koji su obilazili izložbene štandove i koji ranije nisu probali automobil marke A. Svakom od<br />

odabranih ispitanika prvo je postavljeno pitanje da li bi kupio automobil marke A, bez da ga<br />

proba? Dakle, samo na bazi izgleda (dizajn, tehničke specifikacije i sl.). Odogovor ispitanika je<br />

zabilježen (varijabla prije). Zatim je svakom ispitaniku ponuđena testna vožnja automobilom<br />

A, nakon čega mu je postavljeno pitanje da li je nakon probe promjenio mišljenje i da li bi kupio<br />

automobil marke A. Ponovo je zabilježen odogovor ispitanika (varijabla poslije). Podaci su<br />

spremljeni u datoteku automobil.dta. Koliko ispitanika je nakon probe promijenilo mišljenje?<br />

Da li je rezultat testne vožnje statistički signifikantan?<br />

Prvo ćemo napraviti krostabelaciju odgovora prije i nakon probne vožnje.<br />

. tab prije poslije<br />

Tabela 10 – Krostabelacija namjere o kupovini prije i poslije probne vožnje<br />

| poslije<br />

prije | ne bih ku kupio bih | Total<br />

-------------+----------------------+----------<br />

ne bih kupio | 13 8 | 21<br />

kupio bih | 3 6 | 9<br />

-------------+----------------------+----------<br />

Total | 16 14 | 30<br />

16


Prije probe 21 ispitanik je rekao da ne bi kupio dati automobil. Međutim, vidimo da je nakon<br />

probe taj broj pao na 16 ispitanika što znači da je 5 ispitanika promijenilo mišljenje. Da li je<br />

ova razlika statistički signifikantna?<br />

Testiramo sljedeću hipotezu:<br />

H0: Nema razlike u kupovnoj namjeri potrošača prije i nakon testne vožnje.<br />

H1: Postoji razlika u kupovnoj namjeri potrošača prije i nakon testne vožnje.<br />

5.3.1. Izračunavanje statistike testa pomoću formule<br />

Statistika testa sa jednim stepenom slobode se izračunava prema formuli:<br />

2 2<br />

2 ( B C<br />

) (8 3) 25<br />

2,27<br />

B C 8 3 11<br />

gdje se B i C odnosi na broj neusklađenih parova, koji se unutar tabele kontigencije nalaze u<br />

drugoj i trećoj ćeliji (kada redoslijed ćelija posmatramo s lijeva na desno).<br />

5.3.2. Izračunavanje statistike testa pomoću State<br />

Da bi statistiku testa izračunali pomoću State korsitimo naredbu:<br />

. mcci A B C D<br />

gdje A, B, C i D predstavljaju brojeve u ćelijama tabele kontigencije, kada redoslijed ćelija<br />

posmatramo s lijeva na desno.<br />

U našem primjeru naredba će glasiti:<br />

. mcci 13 8 3 6<br />

Output testa je prikazan u tabeli 11.<br />

Tabela 11 – Rezultat McNemmar testa za primjer 5.3<br />

| Controls |<br />

Cases | Exposed Unexposed | Total<br />

-----------------+------------------------+------------<br />

Exposed | 13 8 | 21<br />

Unexposed | 3 6 | 9<br />

-----------------+------------------------+------------<br />

Total | 16 14 | 30<br />

McNemar's chi2(1) = 2.27 Prob > chi2 = 0.1317<br />

Exact McNemar significance probability = 0.2266<br />

Vidimo da je statistika testa istovjetna rezultatu kojeg smo dobili kada smo test računali ručno.<br />

Rezultat nije statistički signifikantan jer je p = 0,13. Pored toga, Stata je izračunala i vrijednost<br />

tzv. Exact testa koji nema pridruženu statistiku testa već je direktno prikazana samo p-<br />

vrijednost. Za testiranje hipoteze je preporučeno koristiti navedenu p-vrijednost ako je ukupan<br />

17


oj neusklađenih parova < 20. U našem slučaju taj broj iznosi 8 + 3 = 11 i manji je od 20 pa<br />

ćemo u izvještaju napisati da dobijena razlika nije signifikantna uz p = 0,23.<br />

5.3.3. Kako napisati rezultat testa<br />

Na bazi slučajnog uzorka odabrano je 30 ispitanika koji su učestvovali u ekperimentu s ciljem<br />

da se ispitaju kupovne namjere potrošača prema automobilu marke A. Na osnovu provedenog<br />

dvosmjernog McNemar testa nije utvrđeno postojanje statistički signifikantne razlike između<br />

kupovnih namjera prije i nakon testne vožnje, χ 2 (1) = 2.27, p = 0,23.<br />

5.4. WILCOXONOV TEST RANGIRANIH PREDZN AKA<br />

Wilcoxonov test rangiranih predznaka (engl. Wilcoxon Signed Ranks Test) se koristi kako bi<br />

se uporedile vrijednosti zavisne varijable dobijene u dva ponovljena mjerenja na istoj grupi<br />

ispitanika. Koristi se ako je zavisna varijabla mjerena na ordinalnom nivou ili ako imamo<br />

zavisnu varijablu metrijskog tipa a nisu ispunjene pretpostavke za primjenu zavisnog t-testa.<br />

Test ne zahtjeva ispunjenost pretpostavke o nezavisnosti ali ima dodatnu pretpostavku koja<br />

zahtjeva da distribucija uparenih razlika ima simetričan oblik. Ova pretpostavka je obično<br />

ispunjena ako distribucije u oba mjerenja imaju sličan oblik. Na primjer, ako imamo dvije jako<br />

nakrivljene distribucije koje se razlikuju prvenstveno u pogledu lokacije aritmetičke sredine,<br />

distribucija uparenih razlika će biti simetrično raspoređena oko 0 i pogodna za primjenu ovog<br />

testa. Također, pretpostavka je najčešće ispunjena u situaciji kada imamo ponovljeno mjerenje<br />

na istoj grupi ispitanika. U slučaju da ova pretpostavka nije ispunjena bolje je primijeniti manje<br />

efikasni ali u tom slučaju prikladniji Test predznaka (engl. Sign test).<br />

Primjer 5.4<br />

Ispitanicima je pružena mogućnost da iz istog cjenovnog razreda isprobaju 3 različite marke<br />

tableta (A, B i C) i rangiraju ih prema svojim preferencijama. Tablet kojeg najviše preferiraju<br />

označen je sa 1, a onaj kojeg najmanje preferiraju sa 5. Varijabla rangA1 sadrži rang (1 do 5)<br />

koji je svaki ispitanik dodijelio tabletu marke A.<br />

Zamislimo da je nakon probe ispitanicima rečeno da na tablet marke A kupac dobija dužu<br />

garanciju u odnosu na ostala dva modela. Nakon ovoga ispitanici su zamoljeni da ponovo<br />

rangiraju sva tri tableta. Varijabla [rangA2] sadrži rang (1 do 5) koji je svaki ispitanik dodijelio<br />

tabletu A u ponovljenom rangiranju. Podaci su spremljeni u datoteku tableti.dta. Da li je<br />

pružanje dodatne informacije značajno uticalo na preferencije ispitanika?<br />

Prvo ćemo vidjeti kako su ispitanici rangirali tablet A prije, a kako nakon dobijanja informacije<br />

o trajanju garancije.<br />

. tab rangA1<br />

18


Tabela 12 – Rangiranje tableta marke A prije davanja informacije o dužini garancije<br />

rangA1 | Freq. Percent Cum.<br />

-----------------+-----------------------------------<br />

prvi izbor | 7 14.00 14.00<br />

drugi izbor | 12 24.00 38.00<br />

treći izbor | 16 32.00 70.00<br />

četvrti izbor | 11 22.00 92.00<br />

posljednji izbor | 4 8.00 100.00<br />

-----------------+-----------------------------------<br />

Total | 50 100.00<br />

. tab rangA2<br />

Tabela 13 – Rangiranje tableta marke A poslije davanja informacije o dužini garancije<br />

rangA2 | Freq. Percent Cum.<br />

-----------------+-----------------------------------<br />

prvi izbor | 9 18.00 18.00<br />

drugi izbor | 14 28.00 46.00<br />

treći izbor | 18 36.00 82.00<br />

četvrti izbor | 7 14.00 96.00<br />

posljednji izbor | 2 4.00 100.00<br />

-----------------+-----------------------------------<br />

Total | 50 100.00<br />

Vidimo da je došlo do promjene preferencija ispitanika jer je tablet A prije pružanja informacije<br />

o garanciji bio u prva tri izbora kod 70% ispitanika, dok je nakon toga tablet A bio u prva tri<br />

izbora kod 82% ispitanika. Da li je ova promjena statistički signifikantna?<br />

Hipoteza koju testiramo je:<br />

H0: Nema razlike u prefrencijama prije i nakon pružanja dodatne informacije (rangovi<br />

razlika između dvije grupe neće imati tendenciju da budu pozitivni ili negativni).<br />

H1: Postoji razlika u prefrencijama prije i nakon pružanja dodatne informacije (rangovi<br />

razlika između dvije grupe će sistematski biti pozitivni ili negativni).<br />

5.4.1. Izračunavanje statistike testa pomoću State<br />

Wilcoxonov test rangiranih predznaka ima sljedeću sintaksu:<br />

signrank prvo_mjerenje = drugo_mjerenje<br />

U konkretnom primjeru to znači da je naredba:<br />

. signrank rangA1 = rangA2<br />

Output sa rezultatom je dat u tabeli 14.<br />

19


Tabela 14 – Rezultat Wilcoxonovog testa rangiranih predznaka za primjer 5.4<br />

Wilcoxon signed-rank test<br />

sign | obs sum ranks expected<br />

-------------+---------------------------------<br />

positive | 18 691 487.5<br />

negative | 8 284 487.5<br />

zero | 24 300 300<br />

-------------+---------------------------------<br />

all | 50 1275 1275<br />

unadjusted variance 10731.25<br />

adjustment for ties -222.63<br />

adjustment for zeros -1225.00<br />

----------<br />

adjusted variance 9283.63<br />

Ho: rangA1 = rangA2<br />

z = 2.112<br />

Prob > |z| = 0.0347<br />

Output testa je organizovan u dva dijela. U tabeli je dat prikaz pozitivnih rangova (broj<br />

ispitanika koji su izrazili veće preferencije u drugom mjerenju), negativnih rangova (broj<br />

ispitanika koji su izrazili manje preferencije u drugom mjerenju) i neutralnih rangova (broj<br />

ispitanika koji su izrazili iste preferencije u drugom mjerenju). Možemo primijetiti da je 18<br />

ispitanika izrazilo veće preferencije nakon što su dobili informaciju o garanciji, 8 ih je izrazilo<br />

manje preferencije, dok se kod 24 ispitanika preferencije nisu promijenile. Tabela daje i podatak<br />

o opseriviranom zbiru pozitivnih i negativnih rangova (sum ranks), kao i o očekivanom zbiru<br />

(expected) ako je nulta hipoteza istinita.<br />

Ispod tabele se nalaze rezultati testiranja hipoteze iz kojih vidimo da je rezultat statistički<br />

signifikantan sa p = 0,035.<br />

5.4.2. Kako napisati rezultat testa<br />

Wilcoxonov test rangiranih predznaka pokazuje da produženje garancije rezultira statistički<br />

signifikantnim pozitivnim promjenama u preferencijama potrošača, z = 2,11, p = 0,035.<br />

6. NEPARAMETARSKI TESTOVI ZA TRI ILI VIŠE GRUPA<br />

6.1. KRUSKAL-WALLIS TEST<br />

Kruskal-Wallis test je generalizirana verzija Mann-Whitney testa koja se koristi ako imamo tri<br />

ili više nezavisnih grupa i kada je zavisna varijabla mjerena na ordinalnoj skali. Može se<br />

koristiti i kao neparametarska alternativa za jednofaktorsku analizu varijanse (ANOVA).<br />

Ako je ispunjena pretpostavka da distribucije u svim grupama imaju približno isti oblik, test se<br />

može iskoristiti za poređenje medijane unutar tri ili više grupa i testiranje hipoteze da je H0:<br />

MdnA = MdnB = ... = MdnN. U protivnom, test možemo koristiti samo za poređenje sredine<br />

rangova (engl. mean ranks) između grupa.<br />

20


Primjer 6.1<br />

Ispitanicima je pružena mogućnost da iz istog cjenovnog razreda isprobaju 3 različite marke<br />

tableta (A, B i C) i rangiraju ih prema svojim preferencijama. Tablet kojeg najviše preferiraju<br />

označen je sa 1, a onaj kojeg najmanje preferiraju sa 5. Podaci su spremljeni u datoteku<br />

tableti.dta. Varijabla rangA1 sadrži rang (1 do 5) koji je svaki ispitanik dodijelio tabletu marke<br />

A. Da li postoji razlika između tri dobne skupine (dob) u pogledu rangiranja tableta A?<br />

Hipoteza koju testiramo je:<br />

H0: Nema razlike u preferencijama između tri dobne skupine (rangovi u jednoj grupi neće<br />

biti sistematski viši ili manji nego u drugim grupama).<br />

H1: Postoji razlika u u preferencijama između tri dobne skupine (rangovi će u bar jednoj<br />

grupi biti sistematski viši ili manji nego u drugim grupama).<br />

6.1.1. Izračunavanje statistike testa pomoću State<br />

Statistika testa se izračunava pomoću naredbe:<br />

. dunntest zavisna_varijabla, by(nezavisna_varijabla)<br />

U našem primjeru će biti:<br />

. dunntest rangA1, by(dob)<br />

Output sa rezultatom je dat u tabeli 15.<br />

Tabela 15 – Rezultat Kruskal-Wallis testa za primjer 6.1<br />

Kruskal-Wallis equality-of-populations rank test<br />

+-----------------------------------+<br />

| dob | Obs | Rank Sum |<br />

|------------------+-----+----------|<br />

| do 25 godina | 18 | 348.00 |<br />

| 26-50 godina | 19 | 480.50 |<br />

| 50 godina i više | 13 | 446.50 |<br />

+-----------------------------------+<br />

chi-squared = 8.012 with 2 d.f.<br />

probability = 0.0182<br />

chi-squared with ties =<br />

probability = 0.0141<br />

8.525 with 2 d.f.<br />

Output prikazuje zbir rangova unutar svake dobne skupine. Ispod tabele su data dva različita<br />

rezultata. Prvi rezultat se interpretira ukoliko unutar zavisne varijable nemamo povezane<br />

rangove (engl. tied ranks). 14 Obzirom da u našim podacima imamo više situacija gdje se javljaju<br />

14<br />

Sa ovim terminom smo se susreli kada smo računali Mann-Whitney test. Podsjetimo se da su rangovi povezani<br />

ukoliko dvije ili više opservacija unutar zavisne varijable imaju identične rangove. Npr. ako su dva ispitanika rekla<br />

da im je tablet marke A prvi izbor kažemo da unutar zavisne varijable imamo povezane rangove.<br />

21


povezani rangovi, čitamo drugi red sa rezultatima iz kojeg vidimo da je test signifikantan sa p<br />

= 0,014.<br />

6.1.2. Dunnov post-hoc test<br />

Kruskal-Wallis test je omnibus test koji govori da li postoje statistički značajne razlike ali ne<br />

govori između kojih konkretno grupa se te razlike javljaju. Da bi smo to utvrdili možemo<br />

iskoristiti Dunnov post-hoc test kojeg je prvo potrebno pronaći i instalirati sa naredbom:<br />

. findit dunntest<br />

Zatim ćemo ukucati:<br />

. dunntest rangA1, by(dob)<br />

Output sa rezultatom je dat u tabeli 16.<br />

Tabela 16 – Rezultat Kruskal-Wallis za primjer 6.1<br />

Dunn's Pairwise Comparison of rangA1 by dob<br />

(No adjustment)<br />

Col Mean-|<br />

Row Mean | do 25 go 26-50 go<br />

---------+----------------------<br />

26-50 go | -1.281331<br />

| 0.1000<br />

|<br />

50 godin | -2.918594 -1.780438<br />

| 0.0018 0.0375<br />

Na osnovu testa možemo zaključiti da statistički značajna razlika postoji između najstarije<br />

dobne skupine (50 godina i više) u odnosu na ostale dvije starosne skupine. Razlika između<br />

prve (do 25 godina) i druge skupine (26-50 godina) nije statistički signifikantna jer je p = 0,10.<br />

6.1.3. Kako napisati rezultat testa<br />

Za 50 slučajno odabranih ispitanika prikupljeni su podaci o preferencijama prema tabletu marke<br />

A. Kruskal-Wallis test je potvrdio da između tri dobne skupine (n = 18, 19 i 13) postoje<br />

statistički značajne razlike u preferencijama prema tabletu marke A, χ 2 (2) = 8,53, p = 0,014.<br />

Dunnetov post hoc test pokazuje da su preferencije unutar skupine starosti do 25 godina<br />

statistički signifikantno manje u odnosu na grupe 26-50 godina (D = −1,28, p = 0,10) i 50+<br />

godina (D = −2,92, p = 0,002). Istovremeno, preferencije unutar srednje grupe starosti 26-50<br />

godina su statistički signifikantno manje od preferencija unutar najstarije 50+ grupe (D = −1,78,<br />

p = 0,038).<br />

6.2. COCHRANOV Q TEST<br />

Cochranov Q test se koristi za poređenje proporcija dihotomne varijable unutar tri ili više<br />

povezanih mjerenja. Sama mjerenja obavljaju se: a) sukcesivno na istim subjektima ali u<br />

različitim uslovima ili b) u situaciji kada je svaki ispitanik iz jedne grupe uparen sa drugim<br />

22


ispitanicima sličnih karakteristika u ostalim grupama, što je slučaj kod tzv. matched pairs<br />

design-a.<br />

Može se posmatrati kao alternativa za RM ANOVA test u situaciji kada je zavisna varijabla<br />

dihotomnog tipa i kao svojevrsna ekstenzija McNemar testa za testiranje zavisnih uzoraka.<br />

Pored uobičajene pretpostavke koja se tiče slučajnog odabira ispitanika, sam uzorak bi trebao<br />

biti odgovarajuće veličine. Uobičajeno pravilo je da bi proizvod broja ispitanika (n)<br />

pomnoženog sa brojem ponovljenih mjerenja (k) trebao biti veći ili jednak od 24 kako bi mogli<br />

tvrditi da imamo dovoljno velik uzorak.<br />

Primjer 6.2<br />

Kako bi ispitao adekvatnost ogašavačkih plakata, istraživač marketinga je proveo eksperiment.<br />

Slučajnim odabirom izdvojeno je 30 ispitanika. Svakom ispitaniku pokazana su tri različita<br />

oglašavačka plakata (poster 1-3) koje su ispitanici ocjenjivali kao dobre (=0) ili kao loše (=1).<br />

Podaci su premljeni unutar datoteke poster.dta 15 . Da li postoji statistički značajna razlika<br />

između broja ispitanika koji su svaki od ova tri oglašavačka plakata ocjenili kao loš (=1)?<br />

Testiramo hipotezu:<br />

H0: Proporcija loših ocjena je jednaka u svim grupama.<br />

H1: Proporcija loših ocjena se razlikuje između grupa.<br />

6.2.1. Izračunavanje statistike testa pomoću State<br />

Prvo ćemo provjeriti adekvatnost veličine uzorka i da li je n x k ≥ 24. Obzirom da imamo 30 ×<br />

3 = 90 ≥ 24 zaključujemo da je uzorak adekvatne veličine.<br />

Da bi unutar State proveli analizu potrebno je instalirati paket cochran:<br />

. ssc install cochran<br />

Sama naredba za izračunavanje statistike testa glasi:<br />

. cochran poster1-poster3, detail<br />

Output sa rezultatom je dat u tabeli 17.<br />

Tabela 17 – Rezultat Cochran Q testa za primjer 6.2<br />

Test for equality of proportions of nonzero<br />

outcomes in matched samples (Cochran's Q):<br />

Variable | Proportion Count<br />

-------------+----------------------<br />

poster1 | .6666667 20<br />

poster2 | .3666667 11<br />

poster3 | .6333333 19<br />

------------------------------------<br />

15<br />

Iz knjige Marketing Research with SPSS<br />

23


Number of obs = 30<br />

Cochran's chi2(2) = 6.636364<br />

Prob > chi2 = 0.0362<br />

Prvi dio outputa osnosi se na broj loših ocjena (=1) unutar svakog ponovljenog mjerenja.<br />

Vidimo da najviše loših ocjena ima prvi plakat (count = 20), zatim treći plakat (count = 19),<br />

dok najmanje loših ocjena ima drugi plakat (count = 11).<br />

Drugi dio otuputa prikazuje da je p = 0,036 na osnovu čega zaključujemo da postoji statistički<br />

značajna razlika u proporciji loših ocjena koje su dobila tri različita oglašivačka plakata.<br />

6.2.2. Post-hoc testovi<br />

Cochranov Q je omnibus test koji govori da li generalno postoje statistički značajne razlike ali<br />

ne i između kojih konkretno grupa se te razlike javljaju. Nažalost, Stata ne nudi post-hoc testove<br />

na bazi kojih bi se to utvrdilo. Na bazi prethodnog outputa možemo pretpostaviti da je drugi<br />

plakat (poster2) različit u odnosu na druga dva postera jer je dobio znatno manje negativnih<br />

ocjena u odnosu na ostala dva plakata.<br />

6.2.3. Kako napisati rezultat testa<br />

Trideset slučajno odabranih ispitanika učestvovalo je u ocjenjivanju oglašavačkih plakata.<br />

Rezultati Cochranovog Q testa su potvrdili da postoji statistički značajna razlika između<br />

proporcija pozitivnih ocjena koje su dobila tri različita plakata, Cochranov χ 2 (2) = 6,63, p =<br />

0,036.<br />

6.3. FRIEDMAN TEST<br />

Friedmanov test je neparametarski ekvivalent ANOVA testa sa ponovljenim mjerenjima i<br />

koristi se za ispitivanje postojanja razlika između rangova dobijenih u tri ili više ponovljenih<br />

mjerenja. Mjerenja se obavljaju na istim subjektima ali u različitim uslovima. Dobijeni rezultati<br />

mjerenja se rangiraju, a izračunavanje statistike testa se temelji na tako dobijenim rangovima.<br />

Friedman test je omnibus test jer indicira da li postoji opšta razlika između grupa, ali ne i između<br />

kojih konkretno grupa se ta razlika javlja.<br />

Primjer 6.3<br />

Marketing analitičar želi uporediti relativnu efektivnost oglašavanja putem direktne pošte<br />

(dposta), časopisa (casopis) i novina (novine). Slučajno je odabrano 12 naseljenih mjesta koja<br />

su tokom godine kroz tri kampanje bila izložene navedenim vrstama oglašavanja. Zabilježen je<br />

procenat naruđbi tokom svake od tri kampanje oglašavanja. Podaci su spremljeni u datoteku<br />

oglas.dta i prikazani u okviru tabele 18. Da li postoji statistički značajna razlika između ova tri<br />

tipa oglašavanja?<br />

. list, noobs separator (12)<br />

24


Tabela 18 – Procent realizovanih naruđbi tokom trajanja tri različite oglašavačke kampanje<br />

+--------------------------------+<br />

| id dposta casopis novine |<br />

|--------------------------------|<br />

| 1 7.2 10.1 15.7 |<br />

| 2 9.4 8.2 18.3 |<br />

| 3 4.3 5.1 11.2 |<br />

| 4 11.3 6.5 19 |<br />

| 5 3.3 8.7 9.2 |<br />

| 6 4.2 6 10.5 |<br />

| 7 5.9 12.3 8.7 |<br />

| 8 6.2 11.1 14.3 |<br />

| 9 4.3 6 3.1 |<br />

| 10 10 12.1 18.8 |<br />

| 11 2.2 6.3 5.7 |<br />

| 12 6.3 4.3 20.2 |<br />

+--------------------------------+<br />

Deskriptivna statistika prikazana je u okviru tabele 19:<br />

. tabstat dposta casopis novine, s(p50, mean, sd)<br />

Tabela 19 – Prosječan procent realizovanih naruđbi tokom tri oglašavačke kampanje<br />

stats | dposta casopis novine<br />

---------+------------------------------<br />

p50 | 6.05 7.35 12.75<br />

mean | 6.216667 8.058333 12.89167<br />

sd | 2.819037 2.780601 5.657892<br />

----------------------------------------<br />

Iako je zavisna varijabla metrijskog tipa, nedovoljno veliki uzorak (n = 12) i standardna<br />

devijacija koja je znatno veća u slučaju novina, upućuju na to da trebamo korisititi Friedmanov<br />

test a ne RM ANOVU. Testiramo hipotezu:<br />

H0: Nema razlike u reakcijama potrošača na tri različite vrste oglašavanja (rangovi u jednoj<br />

kampanji neće biti sistematski viši ili manji nego u drugim kampanjama).<br />

H1: Postoji razlika u reakcijama potrošača na tri različite vrste oglašavanja (rangovi će u<br />

bar jednoj kampanji biti sistematski viši ili manji nego u drugim kampanjama).<br />

6.3.1. Izračunavanje statistike testa pomoću State<br />

Friedmanov test ne dolazi u osnovnoj verziji State pa ga je potrebno naći sa naredbom findit<br />

friedman (nakon što se pojave rezultati pretrage klinuti na paket snb2 i zatim na opciju install).<br />

Nakon toga je potrebno pripremiti podatke za analizu.<br />

Prvo, u slučaju da imamo opservacije sa nedostajućim vrijednostima, potrebno ih je izbaciti<br />

prije same analize. U protivnom će Stata izbaciti poruku o grešci. To možemo uraditi tako što<br />

ćemo ukucati:<br />

. drop if dposta ==. |casopis ==. | novine ==.<br />

(0 observations deleted)<br />

25


U našem slučaju nismo imali nedostajuće podatke pa je Stata javila da nije obrisana ni jedna<br />

opservacija.<br />

Drugo, prije provedbe samog testa u Stati je potrebno podatke prebaciti u tzv. transponovani<br />

oblik. Transponovanje ćemo uraditi upotrebom komande xpose. Međutim, prije toga je u<br />

memoriji potrebno zadržati samo varijable koje sadrže rezultate mjerenja (u ovom primjeru:<br />

dposta, casopis i novine) i izbaciti sve ostale varijable (u ovom primjeru je to samo varijabla:<br />

id). Dakle, kucamo:<br />

. drop id<br />

. xpose, clear<br />

. list<br />

Tabela 20 – Transponovani podaci<br />

+--------------------------------------------------------------------------------+<br />

| v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 |<br />

|--------------------------------------------------------------------------------|<br />

1. | 7.2 9.4 4.3 11.3 3.3 4.2 5.9 6.2 4.3 10 2.2 6.3 |<br />

2. | 10.1 8.2 5.1 6.5 8.7 6 12.3 11.1 6 12.1 6.3 4.3 |<br />

3. | 15.7 18.3 11.2 19 9.2 10.5 8.7 14.3 3.1 18.8 5.7 20.2 |<br />

+--------------------------------------------------------------------------------+<br />

Nakon što smo izvršili naredbu xpose primjetimo da je Stata podatke pretvorila u transponovani<br />

oblik i da imamo onoliko varijabli (v1-v12) koliko smo imali ispitanika. Nakon toga sam test<br />

ćemo provesti sa naredbom:<br />

. friedman v1-v12<br />

Friedman = 10.6667<br />

Kendall = 0.4444<br />

P-value = 0.0048<br />

Friedmanova hi-kvadrat statistika testa ima vrijednost 10,67 i statistički je signifikantna uz p <<br />

0,01. Na osnovu toga možemo odbaciti nultu hipotezu da je srednja vrijednost rangova u tri<br />

oglašavačke kampanje bila jednaka. Kendallov koeficijent pokazuje koliko su ocjene date od<br />

strane različitih ispitanika međusobno saglasne. Vrijednost ovog koeficijenta se kreće u rasponu<br />

od 0 (nema saglasnosti) do 1 (potpuna saglasnost).<br />

6.3.2. Post-hoc testovi<br />

Friedmanov test je omnibus test koji govori da li generalno postoje statistički značajne razlike<br />

u ponovljenim ili uparenim mjerenjima ali ne i između kojih mjerenja se te razlike javljaju.<br />

Nažalost, Stata ne nudi post-hoc testove na bazi kojih bi se to utvrdilo. Na bazi tabele 19<br />

možemo pretpostaviti da je oglašavačka kampanja koja se provela putem novina dala bolje<br />

rezultate jer je tu prosječan procent naruđbi prilično veći u odnosu na rezultate ostvarene tokom<br />

trajanja druge dvije kampanje.<br />

6.3.3. Kako napisati rezultat testa<br />

Rezultati Freidmanovog testa provedenog na uzorku od 12 slučajno odabranih naseljenih mjesta<br />

pokazuju da postoji statistički signifikantna razlika između zabilježenih reakcija ispitanika u<br />

zavisnosti od vrste korištenog oglašavanja, χ 2 (2) = 44,26, p < 0,001.<br />

26


Marketing <strong>analitika</strong>: Regresiona analiza 1<br />

autor: doc. dr Emir Agi¢<br />

15. 04. 2015. (ver. 1.11)<br />

1 NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnoºavanje<br />

ovog materijala ili nekih njegovih dijelova bez prethodnog pisanog pristanka<br />

autora.


Sadrºaj<br />

1 Regresiona analiza 2<br />

1.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2<br />

1.2 Osnovni statisti£ki koncepti prostog regresionog modela . . . 2<br />

1.2.1 Procjena regresionih parametara . . . . . . . . . . . . 7<br />

1.2.2 Testiranje signikantnosti regresionih koecijenata . . 13<br />

1.3 Kori²tenje regresionog modela za predvižanje vrijednosti zavisne<br />

varijable . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

1.4 Intervali procjene unutar regresionog modela . . . . . . . . . . 16<br />

1.5 Reprezentativnost regresionog modela . . . . . . . . . . . . . 17<br />

1.6 Vi²estruki regresioni model . . . . . . . . . . . . . . . . . . . 20<br />

1.6.1 Procjena parametara vi²estrukog regresionog modela . 23<br />

1.6.2 Testiranje signikantnosti regresionih koecijenata . . 25<br />

1.6.3 Standardizovani regresioni koecijenti . . . . . . . . . 25<br />

1


Poglavlje 1<br />

Regresiona analiza<br />

1.1 Uvod<br />

Regresiona analiza je statisti£ka tehnika kojom se modelira veza izmežu zavisne<br />

varijable i jedne ili vi²e nezavisnih varijabli. Ukoliko modeliramo vezu<br />

izmežu zavisne varijable y i jedne nezavisne varijable x, govorimo o prostoj<br />

linearnoj regresiji. U slu£ajevima kada imamo vi²e nezavisnih varijabli<br />

koje uti£u na zavisnu varijablu y govorimo o vi²estrukoj linearnoj regresiji.<br />

Regresiona analiza je vjerovatno naj£e²¢e kori²tena tehnika u ekonomskim i<br />

poslovnim istraºivanjima i moºe se koristiti za :<br />

1. Predvižanje ishoda tj. procijenu vrijednosti zavisne varijable na bazi<br />

izabranih vrijednosti nezavisnih varijabli.<br />

2. Utvrživanje postojanja i snage veze izmežu zavisne varijable i nezavisnih<br />

varijabli.<br />

3. Obja²njenje varijabiliteta zavisne varijable pomo¢u nezavisnih varijabli.<br />

1.2 Osnovni statisti£ki koncepti prostog regresionog<br />

modela<br />

Da bi stekli ispravnu predstavu o su²tini regresione analize požimo od jednostavnog<br />

primjera. Pretpostavimo da ºelimo utvrditi koliko iskustvo ko-<br />

2


POGLAVLJE 1. REGRESIONA ANALIZA 3<br />

mericajliste uti£e na ostvareni obim prodaje. Metodom slu£ajnog uzorka<br />

odabrano je 50 komercijalista koji putem aktivnosti li£ne prodaje na terenu<br />

distribuiraju proizvode kompanije. Prikupljeni podaci su spremljeni u datoteku<br />

sales50 alt.dta. Deskriptivna statistika predstavljena je na outputu<br />

1.1.<br />

. summarize prod gisk<br />

Variable Obs Mean Std. Dev. Min Max<br />

Output 1.1<br />

prod 50 16.88394 4.206842 7.913408 25.03742<br />

gisk 50 14.4 5.996598 1 25<br />

Varijabla prod (prodaja) se odnosi na iznos realizovane prodaje tokom<br />

zadnjeg mjeseca izraºen u 000 KM, dok se varijabla gisk (godine iskustva)<br />

odnosi na iskustvo koje pojedina£ni komercijalista ima na poslovima prodaje.<br />

Prosjek mjese£ne prodaje za svih 50 komercijalista iz uzorka iznosi 16.883,94<br />

KM (obzirom da je vrijednost prodaje izraºena u 000 KM, iznos u tabeli<br />

trebamo pomnoºiti sa 1.000 da bi dobili stvarnu vrijednost). Minimalno<br />

ostvarena prodaja je 7.913,41 KM, dok je iznos najvi²e ostvarene prodaje<br />

bio 25.037,42 KM. Raspon godina iskustva kre¢e se od 1 do 25 godina sa<br />

prosjekom od 14,4 godine.<br />

Opservirane vrijednosti za prvih i zadnjih pet prodajnih predstavnika<br />

moºemo dobiti sa:<br />

. list prod gisk if id45, separator(5)<br />

prod<br />

gisk<br />

1. 14.71799 12<br />

2. 14.47563 15<br />

3. 13.13771 19<br />

4. 17.58048 23<br />

5. 16.74326 19<br />

46. 14.73048 15<br />

47. 18.95334 11<br />

48. 12.71036 10<br />

49. 18.86257 17<br />

50. 18.23663 18<br />

Output 1.2


POGLAVLJE 1. REGRESIONA ANALIZA 4<br />

Iz outputa 1.2 vidimo da prvi komercijalista ima dvanaestogodi²nje iskustvo<br />

i da je ostvario prodaju u vrijednosti od 14.717,99 KM, drugi komercijalista<br />

ima petnaestogi²nje iskustvo i prodaju od 14.475,53 KM, itd. Kako<br />

u uzorku imamo 50 opservacija, parovi (x 1 , y 1 ), (x 2 , y 2 ), ... (x 50 , y 50 ) £ine<br />

emprijske ta£ke koje gra£ki moºemo predstaviti na histogramu rasipanja.<br />

. scatter prod gisk<br />

Slika 1.1<br />

Ako detaljnije osmotrimo sliku 1.1 moºemo uo£iti da se sa rastom iskustva<br />

pove¢ava i tendencija da je komercijalista ostvario ve¢u prodaju. Ako bi<br />

na dijagramu ºeljeli gra£ki sumirati uo£enu povezanost izmežu prodaje i<br />

iskustva, bilo bi dovoljno da povu£emo pravu liniju koja ¢e oslikati uo£eni<br />

pozitivni trend. Prava kojom opisujemo vezu izmežu dvije varijable naziva<br />

se linijom regresije i matematski se predstavlja sa:<br />

y = β 0 + β 1 x (1.1)


POGLAVLJE 1. REGRESIONA ANALIZA 5<br />

Formula 1.1 se naziva regresionom jedna£inom i predstavlja prosti regresioni<br />

model 1 gdje y ozna£ava zavisnu slu£ajnu 2 varijablu koju ºelimo<br />

procijeniti ili objasniti, x je nezavisna varijabla ili prediktor, β 0 se odnosi na<br />

presjek ili konstantu, dok β 1 predstavlja nagib regresione linije. Presjek je<br />

ta£ka u kojoj regresiona linija sije£e y-osu kada je x = 0. Nagib regresione<br />

linije govori koliko ¢e se promijeniti vrijednost zavisne varijable y kada se<br />

vrijednost nezavisne varijable x promijeni za jednu jedinicu. Ako je nagib<br />

linije pozitivan (β 1 > 0), tada sa porastom vrijednosti nezavine varijable<br />

x, u populaciji raste prosje£na vrijednost zavisne varijable y. Ako je nagib<br />

negativan (β 1 < 0), tada sa porastom vrijednosti nezavisne varijable x, u<br />

populaciji opada prosje£na vrijednost zavisne varijable y. U slu£aju kada je<br />

β 1 = 0, promjena unutar x ne uti£e na promjenu y, pa se kaºe da ne postoji<br />

linearna veza izmežu zavisne i nezavisne varijable.<br />

U na²em primjeru, prod (obim prodaje) je zavisna slu£ajna varijabla y,<br />

dok je gisk (godine iskustva) nezavisna varijabla x, pa regresioni model matematski<br />

moºemo iskazati kao:<br />

prod = β 0 + β 1 gisk (1.2)<br />

Prisjetimo se da smo ranije rekli da je statisti£ki model poku²aj opisivanja<br />

odnosa koji postoje izmežu varijabli u formi matematskih jedna£ina. U<br />

datom slu£aju, uz pomo¢ regresione jedna£ine poku²avamo modelirati odnos<br />

izmežu prodaje i godina iskustva. Pri tome polazimo od pretpostavke da su<br />

godine iskustva bitan faktor koji uti£e na obim prodaje. Da bi utvrdili u kojoj<br />

mjeri se ispoljava taj uticaj, potrebno je procijenti vrijednosti parametara<br />

β 0 i β 1 . Ipak, prije nego prežemo na samu procjenu, moramo skrenuti paºnju<br />

na jo² ne²to. Naime, ukoliko bi vrijednost zavisne varijable y bila odrežena<br />

isklju£ivo vrijedno²¢u nezavisne varijable x, te ukoliko bi obje varijable bili u<br />

mogu¢nosti izmjeriti bez ikakve gre²ke, onda bi vrijednosti predvižene modelom<br />

bile identi£ne empirijskim vrijednostima. Gra£ki gledano, obzirom<br />

da bi ostvarena prodaja zavisila isklju£ivo od iskustva prodava£a, sve empirijske<br />

ta£ake na dijagramu rasipanja nalazile bi se na regresionoj liniji. Tada<br />

bi izmežu y i x postojala funkcionalna veza. 3<br />

1 U ekonomiji se umjesto statisti£ki model £esto kaºe ekonometrijski model. Iako je terminologija<br />

razli£ita, misli se na istu stvar.<br />

2 Kaºemo da je zavisna varijabla slu£ajna zato ²to su njenje vrijednosti nepoznate prije<br />

odabira jedinica u uzorak i utvrživanja iznosa prodaje za svaku jedinicu koja je u²la u<br />

uzorak.<br />

3 Funkcionalna veza je strogo deterministi£ka veza ²to zna£i da ako znamo vrijednost neza-


POGLAVLJE 1. REGRESIONA ANALIZA 6<br />

Mežutim, ovakve situacije u dru²tvenim naukama gotovo da ne postoje.<br />

Obzirom da je stvarnost kompleksnija od regresionog modela, pored iskustva<br />

prodava£a na obim prodaje ¢e uticati i mnogi drugi faktori koje nismo<br />

uklju£ili u model. Zato ne¢emo imati funkcionalnu, ve¢ stohasti£ku vezu.<br />

Zbog prirode stohasti£ke veze jasno je da se sve opservacije ne¢e nalaziti na<br />

zami²ljenoj regresionoj liniji ve¢ se javiti raspr²enost, odnosno ve¢a ili manja<br />

odstupanja empirijskih ta£aka od regresione linije. 4<br />

Od £ega ¢e zavistiti varijacije vrijednosti zavisne varijable y oko regresione<br />

linije? Varijacije ¢e zavisiti prvenstveno od slu£ajne gre²ke. Slu£ajna<br />

gre²ka ε, se odnosi na sve ostale faktore koje djeluju na vrijednost zavisne<br />

varijable, a koji nisu uklju£eni u regresioni model. 5 Iz tog razloga, prosti<br />

regresioni model za populaciju izraºen jedna£inom 1.1 moramo pro²iriti tako<br />

da bude:<br />

y = β 0 + β 1 x + ε (1.3)<br />

Regresioni model predstavljen jedna£inom 1.3 se sastoji od dva dijela:<br />

same regresione linije (engl. non-random part) i slu£ajne gre²ke ε (engl.<br />

random part). Slu£ajna gre²ka predstavlja jedinu slu£ajnu komponentu u<br />

modelu, a samim tim je i jedini izvor slu£ajnih odstupanja vrijednosti zavisne<br />

varijable y. Zbog postojanja slu£ajne gre²ke, stvarna vrijednost y unutar populacije<br />

za datu vrijednost x bi¢e jednaka prosje£noj vrijednosti y uve¢anoj<br />

za vrijednosti slu£ajne gre²ke ε.<br />

Posljedica slu£ajnih varijacija svojstvenih zavisnoj varijabli ogleda se u<br />

tome da ¢e regresioni model biti istinit samo u prosjeku. Na primjer, ako<br />

znamo koliko godina iskustva dati komercijalista ima u prodaji, mogli bi upovisne<br />

varijable, onda vrlo precizno moºemo izra£unati ta£nu vrijednost zavisne varijable.<br />

Na primjer, veza izmežu mase i zapremine vode je deterministi£kog tipa.<br />

4 Obzirom da pojedina£ne opservacije y variraju oko op²teg prosjeka y za dato x, onda<br />

govorimo o uslovnoj varijansi σ 2 kojom se mjeri raspr²enost stvarnih vrijednosti zavisne<br />

varijable y oko njihovog prosjeka µ y|x .<br />

5 U na²em primjeru, neki od faktora koji pored iskustva prodava£a mogu uticati na obim<br />

prodaje, a koje nismo uklju£ili u model su: cijene, karaktersitike proizvoda, prodajni<br />

region i sl. Slu£ajna gre²ka obuhvata i bilo koji nepredvidivi elemenat ljudskog pona²anja.<br />

ƒak i ako bi znali sve varijable koje uti£u na prodaju nekog proizvoda to ne bi bilo<br />

dovoljno da perfektno precizno predvidimo obim prodaje jer u pona²anju pojedinaca<br />

uvijek postoji odrežena doza slu£ajnosti koja se ne moºe racionalno objasniti. Takožer,<br />

slu£ajna gre²ka obuhvata gre²ku aproksimacije koja se javlja zbog toga ²to je linerana<br />

veza samo aproksimacija stvarnosti.


POGLAVLJE 1. REGRESIONA ANALIZA 7<br />

trijebiti na² model da predvidimo njegov o£ekivani obim prodaje. Mežutim,<br />

predvižanje uz pomo¢ modela je korisno samo za opis onoga ²to se de²ava<br />

u populaciji, kada u obzir uzmemo sve prodajne predstavnike koji imaju isti<br />

broj godina iskustva kao i prodava£ koji nas interesuje. Stvarna vrijednost<br />

prodaje za konkretnog prodava£a naj£e²¢e ¢e odstupiti od prosje£ne vrijednosti<br />

predvižene modelom za populaciju kao cjelinu.<br />

1.2.1 Procjena regresionih parametara<br />

Vratimo se sada na procjenu parametara. Prosti regresioni model predstavljen<br />

jedna£inom 1.3 je teoretski model koji opisuje pretpostavljenu linearnu<br />

vezu izmežu y i x unutar populacije. Vrijednosti parametara β 0 , β 1 i ε su<br />

nepoznate i potrebno ih procijeniti pomo¢u podataka koje imamo u uzorku.<br />

Cilj je prona¢i vrijednosti parametara koji najbolje opisuju vezu izmežu varijabli<br />

y i x. Gra£ki gledano, na dijagramu rasipanja je potrebno povu¢i<br />

regresionu liniju koja bi bila najbliºe empirijskim ta£kama. Mežutim, kako<br />

se zbog prisustva slu£ajne gre²ke javlja raspr²enost, regresionu liniju koja<br />

opisuje linearnu vezu izmežu dvije varijable moºemo povu¢i na razli£ite na-<br />

£ine. Na slici 1.2 su predstavljene samo tri od velikog broja mogu¢ih linija<br />

kojima moºemo opisati uo£eni trend. Svaka od ovih linija ima razli£ite presjeke<br />

i nagibe, a samim tim i razli£ite parametre. Postavlja se pitanje kako<br />

na¢i parametre linije koja ¢e najbolje opisati uo£eni trend?


POGLAVLJE 1. REGRESIONA ANALIZA 8<br />

Slika 1.2<br />

Kako bi se izbjegla subjektivnost pri povla£enju linije, odnosno da bi od<br />

vi²e mogu¢ih linija izabrali onu koja najbolje reprezentuje podatke, statisti£ari<br />

se koriste estimatorima. Estimator je matematska metoda, pravilo<br />

ili formula, koje nam govori kako da upotrijebimo podatke iz uzorka da bi<br />

dobili procjenu parametara. Estimatori se vrjednuju po tri karakteristike:<br />

Nepristarsnosti, konzistentnosti i ekasnosti.<br />

Za estimator kaºemo da je nepristrasan procjenitelj parametra populacije<br />

ako je njegova o£ekivana vrijednost jednaka tom parametru. O£ekivana<br />

vrijednost ne zna£i da ¢e procjenjeni parametar uvijek biti jednak onom u<br />

populaciji. Ako zamislimo da iz populacije izvla£imo vi²e uzoraka, u nekim<br />

uzorcima procijenjeni parametar ¢e biti precijenjen, u drugima potcijenjen<br />

u odnosu na stvarnu vrijednost u populaciji. Mežutim, u prosjeku, kada<br />

se uzmu u obzir sve dobijene procjene parametara u nizu od n uzorka uzetih<br />

iz populacije, procijenjena vrijednost parametra u slu£aju nepristrasnog<br />

estimatora bi¢e jednaka onom u populaciji.<br />

Druga poºeljna karakteristika estimatora je konzistentnost. Estimator


POGLAVLJE 1. REGRESIONA ANALIZA 9<br />

je konzistentan procjenitelj parametra populacije ako sa rastom veli£ine<br />

uzorka pristrasnost procjene postaje manja. Vaºno je napomenuti da su<br />

konzistentni estimatori uvijek nepristrasni.<br />

Kona£no, estimator je ekasan ako je to nepristrasni procjenitelj sa najmanjom<br />

varijansom. Naime, mogu¢e je da postoji vi²e estimatora koji su<br />

nepristrasni procjenitelji za dati parametar. U tom slu£aju daje se prednost<br />

onom estimatoru £ija je distribucija u najve¢oj mjeri koncentrisana oko<br />

parametra populacije koji se procjenjuje. Za vi²e detalja pogledati [3, pp.<br />

275-280].<br />

Estimator koji se naj£e²¢e koristi kad je u pitanju procjena parametara<br />

regresionog modela je metoda najmanjih kvadrata (engl. ordinary least<br />

square principle - OLS). Su²tina ove metode sastoji se u procjeni parametara<br />

regresione jedna£ine putem minimiziranja sume kvadrata vertikalnih odstupanja<br />

izmežu empirijske vrijednosti zavisne varijable i njene predvižene<br />

vrijednosti. Ovdje ne¢emo ulaziti u matematske detalje samog postupka<br />

jer ¢emo kalkulacije prepustiti softverskom paketu. Pomenu¢emo samo da<br />

¢e OLS metod estimacije dati najbolje linearne nepristrasne procjenitelje regresionih<br />

parametara β 0 i β 1 (engl. best linear unbiased estimators - BLUE).<br />

Regresiona jedna£ina sa procjenjenim parametrima se pi²e kao:<br />

y = b 0 + b 1 x + e (1.4)<br />

gdje je b 0 procijenjena vrijednost za β 0 , b 1 je procijenjena vrijednost za β 1 ,<br />

a e su reziduali.<br />

Sa stanovi²ta samih podataka u uzorku, jedna£inu 1.4 moºemo napisati i<br />

uz kori²tenje subskripta, kako bi ozna£ili svaku pojedina£nu opservaciju:<br />

y i = b 0 + b 1 x i + e i (1.5)<br />

gdje je i = 1, 2, ..., n. Samim tim, y 1 je empirijska vrijednost zavisne varijable<br />

za prvu opservaciju, x 1 je vrijednost nezavisne varijable za prvu opservaciju,<br />

e 1 je prvi rezidual, tj. odstupanje empirijske od procijenjene vrijednosti za<br />

prvu opservaciju, i tako dalje sve do posljednje opservacije n.<br />

Jedna£ina za samu regresionu liniju se ozna£ava sa:<br />

ŷ i = b 0 + b 1 x i (1.6)<br />

gdje ŷ i (izgovara se y hat) predstavlja vrijednost zavisne varijable koja leºi<br />

na procijenjenoj regresionoj liniji za datu vrijednost nezavisne varijable x i . 6<br />

6 Procijenjenja vrijednost ŷ i ne sadrºi rezidual e i


POGLAVLJE 1. REGRESIONA ANALIZA 10<br />

Za ŷ i se £esto kaºe i da je to predvižena ili o£ekivana vrijednost za y, a koju<br />

¢emo uz pomo¢ regresione jedna£ine izra£unati za dato x i .<br />

Reziduali se odnose na odstupanje pojedina£nih opservacija od procjenjene<br />

regresione linije na bazi uzorka i moºemo ih denisati kao:<br />

e = y − E(y|x) = y − E(y)<br />

e = y − ŷ = y − (b 0 + b 1 x 1 ) (1.7)<br />

Dakle, rezidual e je vektor sa nizom brojeva koji predstavljaju vertikalno<br />

odstupanje izmežu opserviranih vrijednosti y i predviženih vrijednosti ŷ duº<br />

odgovaraju¢e regresione linije. Ve¢ smo ranije rekli da je y slu£ajna varijabla<br />

jer su njene vrijednosti dobijene na bazi slu£ajnog uzorka. Obzirom da je<br />

y slu£ajna varijabla i komponeta e koja se odnosi na reziduale ima slu£ajni<br />

karakter. Dakle, y i e su slu£ajne varijable i karakteristike jedne se mogu<br />

izvesti na osnovu karakteristika druge. Jedina bitna razlika je u tome ²to je<br />

y opservirana, dok je e neopservirana varijabla.<br />

Odnos izmežu regresione linije procjenjene na bazi uzorka i regresione<br />

linije unutar populacije moºemo vidjeti na slici 1.3 gdje je dat prikaz hipoteti£ke<br />

situacije u kojoj postoji znatno odstupanje izmežu ove dvije linije.


POGLAVLJE 1. REGRESIONA ANALIZA 11<br />

Slika 1.3<br />

Prikazani odnos izmežu regresione linije za populaciju (puna linija) i uzorak<br />

(isprekidana linija) je striktno teoretske prirode jer ºelimo ukazati na<br />

razliku koja postoji izmežu slu£ajne gre²ke i reziduala. Obratimo paºnju da<br />

je na slici 1.3 za opservaciju x i rezidual e i znatno manji od slu£ajne gre²ke<br />

ε i . Takožer, ovaj prikaz £itaocu daje bolji uvid u to ²ta procjenjeni regresioni<br />

model predstavlja. Obzirom da ¢e se procjena parametara vr²iti na<br />

osnovu uzorka koji je podloºan slu£ajnim varijacijama, dobijeni koecijenti<br />

¢e se razlikovati od stvarnih parametara u populaciji. U praksi, regresionu<br />

liniju koja je istinita za populaciju ne¢emo znati. Da je znamo, onda nam<br />

ne bi ni trebao uzorak i procjena parametara. Stoga, iz prakti£nih razloga,<br />

u daljem tekstu moºemo ignosrisati razliku izmežu e i ε. 7<br />

Da bi uz pomo¢ State dobili OLS procjenu traºenih parametara za model<br />

1.2 koji opisuje uticaj iskustva prodava£a (gisk) na ostvareni prodajni<br />

rezultat (prod), iskoristi¢emo naredbu regress:<br />

7 U ekonometriji distinkcija izmežu slu£ajnih gre²ki i reziduala postaje bitna.


POGLAVLJE 1. REGRESIONA ANALIZA 12<br />

. reg prod gisk<br />

Source SS df MS Number of obs = 50<br />

F( 1, 48) = 29.29<br />

Model 328.598902 1 328.598902 Prob > F = 0.0000<br />

Residual 538.579374 48 11.2204036 R-squared = 0.3789<br />

Adj R-squared = 0.3660<br />

Total 867.178276 49 17.6975158 Root MSE = 3.3497<br />

prod Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

gisk .4318472 .0797997 5.41 0.000 .2713991 .5922953<br />

_cons 10.66534 1.24293 8.58 0.000 8.166265 13.16442<br />

Output 1.3<br />

Najzna£ajniji rezultat regresione analize su dva koecijenta: b 0 konstanta<br />

(10,66) i b 1 nagib linije (0,43). Konstanta b 0 je ta£ka u kojoj regresiona<br />

linija sije£e y-osu i predstavlja vrijednost zavisne varijable kada je nezavisna<br />

varijabla x = 0. U konkretnom slu£aju to zna£i da na² prosti regresioni<br />

model predviža da ¢e komercijalista bez iskustva (gisk = 0) u periodu od<br />

mjesec dana ostvariti prodaju u vrijednosti od 10.665,34 KM. Nagib linije<br />

b 1 pokazuje za koliko ¢e se promijeniti vrijednost zavisne varijable ako se<br />

vrijednost nezavisne varijable promijeni za 1. U konkretnom primjeru to<br />

zna£i da svaka dodatna godina iskustva pove¢ava o£ekivanu prodaju za 431,8<br />

KM. 8<br />

Estimirani model moºemo predstaviti i gra£ki.<br />

. twoway (scatter prod gisk) (lfit prod gisk)<br />

8 Obzirom da su vrijednosti prodaje unutar skupa podataka izraºene u 000 KM, dobijene<br />

koecijente b 0 i b 1 smo pomnoºili sa 1.000.


POGLAVLJE 1. REGRESIONA ANALIZA 13<br />

Slika 1.4<br />

Na slici 1.4 vidimo regresionu liniju dobijenu uz pomo¢ OLS estimatora.<br />

To je linija koja najbolje opisuje linearni trend koji postoji izmežu iskustva<br />

i prodajnog rezultata. Ni jedna druga linija koju bi povukli slobodnom<br />

procjenom ne bi bolje minimizirala odstupanja pojedina£nih opservacija od<br />

uo£enog linearnog pravca. Obratimo paºnju da je koecijent b 1 jednak koli£niku<br />

promjene y u odnosu na promjenu x. Radi jednostavnosti interpretacije,<br />

uzima se promjena y kada se x promjeni za jednu jednicu pa imamo da je<br />

b 1 = ∆y<br />

∆x = +0,43<br />

1<br />

= +0, 43. Ukoliko bi regresionu liniju na slici produºili<br />

nalijevo, ona bi u ta£ci x = 0 sjekla vertikalnu y-osu ta£no na 10,66 ²to<br />

predstavlja vrijednost konstante b 0 .<br />

1.2.2 Testiranje signikantnosti regresionih koecijenata<br />

Nakon ²to smo procijenili parametre regresionog modela potrebno je utvrditi<br />

da li su dobijeni koecijenti statisti£ki signikantni. Za²to je to bitno?<br />

Prisjetimo se da koecijent b 1 predstavlja promjenu zavisne varijable koja se<br />

javlja kao posljedica jedini£ne promjene nezavisne varijable. Ako nezavisna


POGLAVLJE 1. REGRESIONA ANALIZA 14<br />

varijabla nema efekta na zavisnu varijablu onda bi koecijent b 1 trebao biti<br />

nula. U tom slu£aju x i y nisu linearno povezani. Mežutim, potrebno je<br />

imati na umu £injenicu da je koecijent b 1 samo procjena stvarnog parametra<br />

β 1 koji je istinit za populaciju. Obzirom da se procjena vr²i na bazi<br />

uzorka, pretpostavka je da ¢e se b 1 u ve¢oj ili manjoj mjeri razlikovati od<br />

stvarnog parametra β 1 . Zbog toga je potrebno testirati hipotezu da se b 1<br />

zaista razlikuje od nule, a samim tim i da prediktor ima stvarni efekat na<br />

zavisnu varijablu.<br />

Hipoteza kojom testiramo postojanje linearne veze izmežu y i x ima sljede¢u<br />

formu:<br />

H 0 : b 1 = 0<br />

H 1 : b 1 ≠ 0<br />

Ovu hipotezu testiramo primjenom t-testa. Naime, ukoliko je pretpostavka<br />

o normalno distribuiranim rezidualima ta£na, statistika testa ¢e imati<br />

t distribuciju sa N − p − 1 stepena slobode 9 :<br />

t = b 1<br />

SE b1<br />

(1.8)<br />

gdje je b 1 procjenjeni koecijent, a SE b1 je standardna gre²ka za b 1 koja<br />

ukazuje do koje mjere ¢e b 1 varirati mežu razli£itim uzorcima.<br />

Nakon ²to izra£unamo opserviranu t-vrijednost, ona se poredi sa vrijedno²¢u<br />

koju bi o£ekivali ako nema efekta (tj. ako je b 1 = 0). Da bi odbacili<br />

H 0 uz 0,95 pouzdanost, opservirana t-vrijednost treba biti ve¢a od 1,96. U<br />

tom slu£aju prihvatamo alternativnu hipotezu H 1 da je b 1 razli£it od nule<br />

i da nezavisna varijabla doprinosi predvižanju vrijednosti zavisne varijable.<br />

’to je ve¢a opservirana t-vrijednost, to ¢e i efekat prediktora biti ve¢i.<br />

Unutar Stata outputa 1.3 dobijeni regresioni koecijent b 1 = 0, 4318 ima<br />

pridruºenu standardnu gre²ku SE b1 = 0, 0797. Prema formuli 1.8 moºemo<br />

izra£unati da je:<br />

t = b 1 0, 4318<br />

= = 5, 41<br />

SE b1 0, 0797<br />

9 N se odnosi na veli£inu uzorka a p na broj prediktora u modelu. Za prosti regresioni<br />

model ima¢emo N − 1 − 1, odnosno N − 2 stepena slobode.


POGLAVLJE 1. REGRESIONA ANALIZA 15<br />

Obzirom da je opservirana t-vrijednost ve¢a od 1,96 zaklju£ujemo da<br />

godine iskustva (gisk) imaju efekat i da zna£ajno doprinose predvižanju<br />

ostvarene prodaje (prod).<br />

Obi£no se navodi i ta£an nivo signikantnosti koecijenta izraºen preko<br />

p-vrijednosti. 10 Uobi£ajeni nivo signikantnosi koji se uzima za odbacivanje<br />

nulte hipoteze je 0,05 ili manje. Stata daje ta£nu p-vrijednost za svaki koecijent<br />

u regresionoj jedna£ni. Iz outputa 1.3 u koloni P>|t| moºemo vidjeti<br />

da je varijabla gisk (godine iskustva) signikantna uz p = 0, 00 ²to je manje<br />

od potrebnih 0,05.<br />

1.3 Kori²tenje regresionog modela za predvižanje<br />

vrijednosti zavisne varijable<br />

Nakon ²to smo ustanovili parametre regresione linije i vidjeli da nezavisna<br />

varijabla ima efekat na zavisnu varijablu, dobijeni model moºemo iskoristiti<br />

za predvižanje vrijednosti zavisne varijable. Prvo ¢emo oznake y i x unutar<br />

jedna£ine 1.6 zamijeniti sa nazivima varijabli iz seta sa podacima:<br />

ˆ prod = b 0 + b 1 gisk<br />

U drugom koraku, uvrsti¢emo vrijednosti procjenjenih parametara tako<br />

da dobijemo:<br />

ˆ prod = 10, 66 + 0, 432 × gisk<br />

Sada je mogu¢e predvidjeti obim prodaje tako ²to ¢emo u jedna£inu unijeti<br />

broj godina iskustva koji nas interesuje. Na primjer, zamislimo da ºelimo<br />

saznati koliki obim prodaje ¢e ostvariti komercijalista koji ima 22 godine iskustva.<br />

U gornju jedna£inu unije¢emo sljede¢e:<br />

ˆ prod = 10, 66 + 0, 432 × 22 = 20.164<br />

10 Nivo zna£ajnosti koecijenta je vjerovatno¢a dobijanja tako velikog ili ve¢eg koecijenta<br />

(u apsolutnom iznosu) ako prediktor zaista nema nikakvog efekta na zavisnu varijablu<br />

(pa je samim tim i bilo kakav opservirani efekat u uzorku samo rezultat slu£ajnosti).


POGLAVLJE 1. REGRESIONA ANALIZA 16<br />

Dakle, zaklju£ujemo da o£ekivani obim prodaje za komercijalistu sa 22<br />

godine iskustva u prosjeku iznosi 20.164 KM.<br />

1.4 Intervali procjene unutar regresionog modela<br />

U prethodonom odjeljku smo demonstrirali kako regresioni model moºemo<br />

iskoristiti za predvižanje o£ekivane prodaje. Mežutim, dobijenu procjenu<br />

trebamo uzeti sa oprezom. Prvo, ako bi ponovo uzeli uzorak, dobijeni koecijenti<br />

bi se bar donekle razlikovali u odnosu na one dobijene na bazi prvog<br />

uzorka. Drugo, svi komercijalisti sa istim brojem godina iskustva ne¢e imati<br />

isti obim prodaje jer ¢e na njihove performanse djelovati i drugi faktori koje<br />

nismo uklju£ili u model. Da bi predvižanje u£inili korisnijim, potrebno je<br />

vidjeti u kojem o£ekivanom rasponu se nalazi procijenjena vrijednost. U tu<br />

svrhu koriste se intervali pouzdanosti. Unutar regresionog modela postoji<br />

nekoliko razli£itih intervalnih procjena uz podrazumjevni 95% nivo pouzdanosti:<br />

• Interval pozdanosti za regresione koecijente odnosi se na vjerovatno¢u<br />

obuhvata nepoznatih parametara unutar populacije. Za formiranje<br />

ovog intervala koristi se standardna gre²ka vezana uz procijenjene<br />

koecijente. Procjenjeni interval dat je unutar outputa 1.3 i u na²em<br />

primjer za β 1 iznosi 0,271≤ β 1 ≤0,592. Dakle, uz 95% pouzdanost<br />

zaklju£ujemo da ¢e porast iskustva komericijaliste za jednu godinu rezultirati<br />

sa pove¢anjem ostvarene prodaje za neku vrijednost izmežu<br />

271 i 592 KM. Ovaj interval pouzdanosti povezan je sa ranije pomenutim<br />

testiranjem hipoteza. Ukoliko 95% interval pouzdanosti obuhvata<br />

nulu, onda nemamo dovoljno dokaza da zaklju£imo da je nagib regresione<br />

linije razli£it od nule, a samim tim ne postoji ni dovoljno dokaza<br />

za linearnu vezu izmežu y i x. 11<br />

• Interval ocjene o£ekivane prosje£ne vrijednosti zavisne varijable E(y|x),<br />

odnosi se na predvižanje prosje£ne vrijednosti ŷ i za izabrane vrijednosti<br />

nezavisne varijable x i . Raspon ovog intervala je predstavljen isprekidanom<br />

linijom na slici 1.5.<br />

• Interval predvižanja pojedina£nih vrijednosti zavisne varijabe y i za<br />

11 Formiranje intervala pouzdanosti i testiranje hipoteze za konstantu β 0 se obavlja na<br />

potpuno isti na£in. Mežutim, testiranje signikantnosti za β 0 £esto nema prakti£nu<br />

vrijednost za rje²avanje problema pa se tuma£enje moºe izostaviti.


POGLAVLJE 1. REGRESIONA ANALIZA 17<br />

izabrane vrijednost nezavisne varijable x i . Raspon ovog intervala je<br />

predstavljen punom sivom linijom na slici 1.5.<br />

Razlika izmežu intervala ocjene i intervala predvižanja je u tome ²to se<br />

interval ocjene odnosi na raspon u kojem ¢e nalaziti o£ekivani prosjek varijable<br />

y, dok se interval predvižanja odnosi na raspon u kojem ¢e se nalaziti<br />

pojedina£ne opservacije varijable y. Obzirom da pozicija pojedina£nih vrijednosti<br />

zavisi od veli£ine reziduala e, interval predvižanja ¢e uvijek biti ²iri<br />

od intervala ocjene ²to je predstavljeno na slici 1.5.<br />

. twoway (scatter prod gisk) (lfitci prod gisk, ciplot(rline))<br />

(lfitci prod gisk, stdf ciplot(rline))<br />

Slika 1.5<br />

1.5 Reprezentativnost regresionog modela<br />

Kad smo odredili jedna£inu regresione linije vaºno je utvrditi kako dobro ta<br />

linija reprezentuje na²e podatke (engl. Goodnes of Fit). Koefcijent determinacije<br />

(R 2 ), kao relativna mjera reprezentativnosti regresionog modela,<br />

pokazuje procenat obja²njenog varijabiliteta zavisne varijable, odnosno koliko<br />

su varijacije unutar zavisne varijable y obja²njene nezavisnom varijablom<br />

x. Vrijednost koecijenta se kre¢e u rasponu od 0 do 1, gdje ve¢a vrijednost<br />

zna£i bolju reprezentativnost.


POGLAVLJE 1. REGRESIONA ANALIZA 18<br />

Kako dolazimo do R 2 ? U su²tini, regresiona linija se poredi sa bazi£nim<br />

modelom kojeg predstavlja aritmeti£ka sredina. Ukoliko regresiona linija ne<br />

obja²njava varijacije unutar zavisne varijable ni²ta bolje u odnosu na aritmeti£ku<br />

sredinu, onda ¢e koecijent determinacije biti R 2 = 0. Tada kaºemo<br />

da nema linearne veze izmežu varijabli. Gra£ki predstavljeno, procjenjena<br />

regresiona linija bi bila horizontalna i odgovarala bi aritmeti£koj sredini.<br />

Mežutim, ako regresioni model obja²njava vi²e varijacija unutar zavisne varijable<br />

u odnosu na aritmeti£ku sredinu, koecijent determinacije ¢e rasti.<br />

U idealnom slu£aju, ako bi regresioni model uspio objasniti sve varijacije<br />

unutar zavisne varijable, koecijent determinacije bi iznosio R 2 = 1 i tada bi<br />

postojala perfektna linearna veza izmežu varijabli. U tom slu£aju, sve empirijske<br />

vrijednosti y i nalazile bi se na liniji regresije i ne bi bilo raspre²nosti,<br />

tj. obja²njeni varijabilitet bi bio jednak ukupnom varijabilitetu.<br />

Na slici 1.6 smo dali presjek varijabilitea za jednu opseraciju (komercijalistu<br />

broj 26).<br />

Slika 1.6<br />

Vertikalna isprekidana linija predstavlja aritmeti£ku sredinu nezavisne


POGLAVLJE 1. REGRESIONA ANALIZA 19<br />

varijable (¯x), dok je horizontalnom isprekidanom linijom predstavljena aritmeti£ka<br />

sredina zavisne varijable (ȳ). Regresiona linija sije£e presjek ove<br />

dvije linije. Empirijska ta£ka za komercijalistu broj 26 nalazi se u gornjem<br />

desnom uglu dijagrama. Na osnovu poloºaja ta£ke na dijagramu vidimo da<br />

taj komercijalista ima x 26 = 22 godine iskustva i da je ostvario mjese£ni<br />

iznos prodaje u iznosu od y 26 = 24.603 KM. Mežutim, na² regresioni model<br />

predviža da ¢e komercijalista koji ima 22 godine iskustva u prosjeku<br />

ostvariti prodaju u iznosu ŷ 26 = 20.164 KM. Razlika izmežu predvižene i<br />

stvarne vrijednosti se odnosi na rezidual: e 26 = y 26 −ŷ 26 = 24.603−20.164 =<br />

4.439 KM. Razlika izmežu aritmeti£ke sredine i stvarne vrijednosti za datu<br />

opservaciju predstavlja ukupni varijabilitet i u konkretnom slu£aju iznosi:<br />

y 26 − ȳ = 24.603 − 16.880 = 7.723 KM. Razlika izmežu aritmeti£ke sredine<br />

i vrijednosti predvižene modelom za datu opservaciju predstavlja obja²njeni<br />

varijabilitet: ŷ 26 − ȳ = 20.164 − 16.880 = 3.284 KM.<br />

Pretpostavimo da za svaku varijablu izra£unamo obja²njeni, neobja²njeni<br />

i ukupni varijabilitet i da dobijene vrijednosti kvadriramo. Stata navedene<br />

kalkulacije obavlja automatski. U prvoj tabeli, koja se nalazi na lijevoj strani<br />

outputa 1.3, predstavljeni su nalni rezultati tih kalkulacija. Suma kvadrata<br />

obja²njenog varijabiliteta SS M = ∑ (ŷ i −ȳ) 2 odnosi se na pobolj²anje u predvižanju<br />

zbog upotrebe regresione linije umjesto aritmeti£ke sredine. Suma<br />

kvadrata neobja²njenog varijabiliteta SS R = ∑ (y i − ȳ) 2 predstavlja ukupno<br />

odstupanje izmežu vrijednosti predviženih modelom i stvarnih vrijednosti.<br />

Stoga je suma kvadrata ukupnog varijabiliteta zavisne promjenljive jednaka<br />

zbiru SS T = SS M + SS R . Oznaka df se odnosi na broj stepeni slobode. U<br />

slu£aju SS M broj stepeni slobode jednak je broju nezavisnih varijabli (df = 1<br />

za prosti regresioni model). Za SS R broj stepeni slobode predstavlja broj<br />

opservacija umanjen za broj koecijenata regresionog modela. U konkretnom<br />

slu£aju imamo 50 opservacija, a model ima dva koecijenta, jedan za<br />

konstantu (b 0 ) i jedan za nagib (b 1 ), pa ¢e biti df = 50 − 2 = 48. Na osnovu<br />

ovoga izra£unava se prosje£na suma kvadrata za svaki od ovih pojmova dijeljenjem<br />

sume kvadrata sa brojem stepeni slobode. Tako dobijamo prosje£ni<br />

kvadrat modela (MS M ) i prosje£ni kvadrat gre²ke (MS R ).<br />

U drugoj tabeli outputa 1.3 nalazi se rezultat analize varijanse (ANOVA)<br />

kojom se testira da li je model zna£ajno bolji u predvižanju vrijednosti zavisne<br />

varijable u odnosu na slu£aj kada za predvižanje koristimo samo aritmeti£ku<br />

sredinu. Dijeljenjem MS M sa MS R dobijamo F statistiku koja pokazuje<br />

postotak pobolj²anja u predvižanju vrijednosti zavisne varijable koji<br />

se javlja kao posljedica upotrebe modela u odnosu na neobja²njenu varijansu<br />

koja postoji u modelu. Ukoliko je regresioni model bolji od aritmeti£ke sre-


POGLAVLJE 1. REGRESIONA ANALIZA 20<br />

dine za o£ekivati je da razlika izmežu vrijednosti predviženih modelom i<br />

opserviranih vrijednosti bude mala. Ukratko, dobar model bi trebao da ima<br />

veliku F statistiku (bar ve¢u od 1). Signikantnost F statistike moºe se procijeniti<br />

pronalaºenjem kriti£nih vrijednosti za korespondiraju¢i broj stepeni<br />

slobode unutar statisti£kih tablica. Nije problem ukoliko pri ruci nemamo<br />

statisti£ke tablice jer Stata izra£unava ta£nu vjerovatno¢u dobijanja date F<br />

vrijednosti kao posljedice slu£ajnosti. Za na² model F iznosi 29,29 ²to je<br />

malo vjerovatno da se desilo kao posljedica slu£ajnosti (p


POGLAVLJE 1. REGRESIONA ANALIZA 21<br />

y i = b 0 + b 1 x 1i + b 2 x 2i + . . . + b k x ki + e i (1.9)<br />

gdje je y zavisna varijabla, e je rezidual, b 0 je konstanta, b 1 x 1 je prvi prediktor<br />

sa pripadaju¢im koecijentom, b 2 x 2 je drugi prediktor sa pripadaju¢im<br />

koecijentom i tako dalje sve do zadnjeg prediktora b k x k . Oznaka i se odnosi<br />

na opservacije unutar uzorka: i = 1, 2, . . . , N.<br />

Sve ²to je ranije re£eno za prosti regresioni model vrijedi i ovdje. Iako se<br />

izra£un znatno usloºnjava kako broj prediktora u modelu raste, procjena parametara<br />

se i u slu£aju vi²estruke regresije moºe dobiti metodom najmanjih<br />

kvadrata.<br />

Prisjetimo se da smo prosti regresioni model mogli gra£ki predstaviti<br />

linijom na dvodimenzionalnom dijagramu rasipanja (slika 1.4). Vi²estruki<br />

regresioni model sa dva prediktora moºemo vizualizirati kao liniju koja minimizira<br />

odstupanja pojedina£nih opservacija od uo£enog linearnog pravca<br />

unutar trodimenzionalnog prostora. Model sa tri ili vi²e prediktora nije<br />

mogu¢e vizuelno predstaviti jer ulazimo u domen apstraktnog vi²edimenzionalnog<br />

prostora. Sre¢om, sloºene matematske kalkulacije za minimiziranje<br />

odstupanja opservacija u takvim situacijama ¢e obaviti softverski paket pa<br />

o tome ne trebamo brinuti.<br />

Kroz prethodni primjer smo utvrdili da postoji signikantan uticaj godina<br />

iskustva prodava£a (gisk) na ostvareni prodajni rezultat (prod). Mežutim,<br />

znatan dio varijabiliteta zavisne varijable je ostao neobja²njen. Pretpostavimo<br />

da je istraºiva£ ºelio prosti regresioni model pro²iriti sa dodatnim<br />

prediktorima kako bi dobio preciznije predvižanje o£ekivane prodaje. U tu<br />

svrhu, pored iskustva prodava£a, mjereni su i dodatni faktori koji mogu uticati<br />

na rezultat prodava£a: budºet za unapreženje prodaje i broj terenskih<br />

posjeta.<br />

Budºet za unapreženje prodaje (varijabla prom) je mjese£ni iznos u 000<br />

KM koji je komercijalista imao na raspolaganju kako bi lak²e sklopio posao<br />

sa distributerom. Sredstva iz ovog budºeta prodajni predstavnik je mogao<br />

iskoristiti za smanjenje prodajne cijene kroz pogodbe i popuste, a sve kako<br />

bi se pove¢ala efektivnosti li£ne prodaje kroz izgradnju dobrih odnosa sa<br />

distributerima.<br />

Broj terenskih posjeta (varijabla posj) se odnosi na dnevni prosjek u£estalosti<br />

posjeta potencijalnim klijentima koje je komercijalista obavio tokom<br />

mjeseca. Naime, radno vrijeme komercijalista je podijeljeno na terenski rad<br />

i kancelarijske poslove. Obzirom da nije specicirano koliko ta£no radnog


POGLAVLJE 1. REGRESIONA ANALIZA 22<br />

vremena se odnosi na ove dvije aktivnosti, neki komercijalisti preferiraju da<br />

jedan dio posla sa potencijalnim klijentima zavr²e putem telefona.<br />

Deskriptivna statistika za varijable od interesa je data u okviru outputa<br />

1.4:<br />

. summarize prod gisk prom posj<br />

Variable Obs Mean Std. Dev. Min Max<br />

Output 1.4<br />

prod 50 16.88394 4.206842 7.913408 25.03742<br />

gisk 50 14.4 5.996598 1 25<br />

prom 50 2.9 .9583148 .5 5<br />

posj 50 4.86 .8573809 3 6<br />

Aritmeti£ka sredina, standardna devijacija i raspon za varijable prod i<br />

gisk su isti kao i u outputu 1.1. Kad je rije£ o budºetu za unapreženje<br />

prodaje (prom), moºemo vidjeti da se kretao u rasponu od 500 do 5.000 KM<br />

sa prosjekom od 2.900 KM. Komercijalisti su tokom dana u prosjeku obavljali<br />

oko pet posjeta ( posj ¯ = 4, 86). Mežutim, ovaj broj znatno varira i kre¢e se<br />

od minimalne 3 posjete dnevno pa do maksimalnih 6 posjeta dnevno.<br />

Podaci za pet prvih i pet posljednjih komercijalista unutar seta podataka<br />

su dati u okviru outputa 1.5:<br />

. list prod gisk prom posj if id45<br />

prod gisk prom posj<br />

1. 14.71799 12 1 5<br />

2. 14.47563 15 2.5 4<br />

3. 13.13771 19 2 5<br />

4. 17.58048 23 3.5 4<br />

5. 16.74326 19 3 4<br />

46. 14.73048 15 2.5 5<br />

47. 18.95334 11 3 6<br />

48. 12.71036 10 .5 4<br />

49. 18.86257 17 3 4<br />

50. 18.23663 18 3.5 4<br />

Output 1.5


POGLAVLJE 1. REGRESIONA ANALIZA 23<br />

Vrijednosti prodaje (prod) i godine iskustva (gisk) su identi£ne kao i unutar<br />

outputa 1.2. Pored toga uo£avamo da je prvi komercijalista na raspolaganju<br />

imao promotivni budºet u iznosu od 1.000 KM i da je u prosjeku<br />

obavio pet posjeta tokom dana. Drugi komercijalista je na raspolaganju imao<br />

promotivni budºet od 2.500 KM, a u prosjeku je obavijao 4 posjete dnevno<br />

itd.<br />

Ukoliko generi£ke odrednice za varijable unutar jedna£ine 1.9 zamjenimo<br />

imenima varijabli iz outputa 1.5, vi²estruki regresioni model ¢e imati sljede¢i<br />

oblik:<br />

prod i = b 0 + b 1 gisk i + b 2 prom i + b 3 posj i + e i (1.10)<br />

Vi²estruki regresioni model sada sadrºi konstantu i tri koecijenta (b 1 do<br />

b 3 ) po jedan za svaku nezavisnu varijablu. Ovi koecijenti se nazivaju<br />

parcijalnim regresionim kecijentima.<br />

1.6.1 Procjena parametara vi²estrukog regresionog modela<br />

Kao i ranije, procjenu ¢emo obaviti koriste¢i naredbu regress. Rezultat je<br />

predstavljen na outputu 1.3.<br />

. reg prod gisk prom posj<br />

Source SS df MS Number of obs = 50<br />

F( 3, 46) = 28.62<br />

Model 564.685207 3 188.228402 Prob > F = 0.0000<br />

Residual 302.493069 46 6.57593629 R-squared = 0.6512<br />

Adj R-squared = 0.6284<br />

Total 867.178276 49 17.6975158 Root MSE = 2.5644<br />

prod Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

gisk .3519726 .0732154 4.81 0.000 .2045976 .4993477<br />

prom 2.234714 .4293445 5.20 0.000 1.370488 3.098939<br />

posj 1.450143 .4658765 3.11 0.003 .5123825 2.387904<br />

_cons -1.712828 2.942173 -0.58 0.563 -7.635115 4.20946<br />

Output 1.6<br />

Primje¢ujemo da model koji uklju£uje dodatne prediktore obja²njava<br />

znatno vi²e varijabiliteta unutar zavisne varijable u odnosu na prosti regresioni<br />

model (output 1.3). Korigovani koecijent detrminacije iznosi R 2 =


POGLAVLJE 1. REGRESIONA ANALIZA 24<br />

0, 6284, ²to govori da je 62,84% varijanse za varijablu prod (prodaja) obja²njeno<br />

uklju£enim prediktorima. Ipak, odreženi dio varijabiliteta (37,16%)<br />

unutar ostvarene prodaje i dalje ostaje neobja²njen.<br />

Unutar outputa 1.6 nalazi se procjena parametara modela i vrijednosti<br />

koecijenata koje indiciraju individualni doprinos svake nezavisne varijable<br />

modelu. Ako procijenjene parametre uklju£imo u prethodni matematski izraz<br />

dobi¢emo:<br />

prod i = −1, 71 + 0, 351 × gisk i + 2, 234 × prom i + 1, 450 × posj i + e i<br />

Vrijednost svih regresionih koecijenta je pozitivana pa moºemo re¢i da<br />

postoji pozitivna veza izmežu zavisne varijable i nezavisnih varijabli (ili prediktora).<br />

Pored ovog, koecijenti nam kazuju kako svaki prediktor djeluje na<br />

zavisnu varijablu ako se uticaj svih ostalih prediktora ne mijenja. Dobijene<br />

koecijente tuma£imo na sljede¢i na£in:<br />

• Godine iskustva prodava£a (b 1 = 0, 351): Ako se iskustvo prodava£a<br />

pove¢a za 1 godinu, obim prodaje ¢e se pove¢ati za 0,351 jedinicu,<br />

uz uslov da ostale nezavisne varijable ostanu nepromijenjene. Kako<br />

je obim prodaje izraºen u 000 KM, ovo zna£i da svaka dodatna godina<br />

iskustva prodava£a u prosjeku pove¢ava ostvareni obim prodaje<br />

za 351 KM, ²to je ta£no samo ako vrijednosti ostalih prediktora drºimo<br />

konstantnim.<br />

• Budºet za unapreženje prodaje (b 2 = 2, 234): Ako se budºet za unapreženje<br />

prodaje koji komercijalista ima na raspolaganju pove¢a za<br />

jednu jedinicu, vrijednost zavisne varijable ¢e se pove¢ati za 2,234 jedinicu,<br />

uz uslov da ostale nezavisne varijable ostanu nepromijenjene.<br />

Obje varijable su izraºene u 000 KM, a to zna£i da ¢e se za svakih dodatnih<br />

1.000 KM uloºenih u budºet za unapreženje prodaje, ostvareni<br />

obim prodaje u prosjeku pove¢ati za 2.234 KM, ²to je ta£no samo ako<br />

vrijednosti ostalih prediktora drºimo konstantnim.<br />

• Broj terenskih posjeta (b 3 = 1, 450): Ako broj dnevnih terenskih posjeta<br />

poraste za jedan, obim prodaje ¢e se pove¢ati za 1,45 jedinica, uz<br />

uslov da ostale nezavisne varijable ostanu nepromijenjene.Obim prodaje<br />

je izraºen u 000 KM pa kaºemo da ¢e dodatna dnevna posjeta klijentima<br />

u prosjeku pove¢ati ostvareni mjese£ni obim prodaje za 1.450<br />

KM, ²to je ta£no samo ako vrijednosti ostalih prediktora drºimo konstantnim.


POGLAVLJE 1. REGRESIONA ANALIZA 25<br />

• Konstanta (b 0 = −1, 712): Ako bi vrijednost svih ostalih nezavisnih varijabli<br />

bila jednaka nuli, konstanta nam govori da bi ostvarena prodaja<br />

(izraºena u 000 KM) u prosjeku bila negativna i iznosila −1, 712 KM.<br />

Obzirom da u stvarnosti ostvarena prodaja ne moºe biti negativna, jer<br />

bi to bilo protivno logici, dobijena konstanta se u konkretnom slu£aju<br />

ne tuma£i posebno.<br />

1.6.2 Testiranje signikantnosti regresionih koecijenata<br />

Dobijeni koecijenti imaju pridruºenu standardnu gre²ku koja ukazuje do<br />

koje mjere bi njihove vrijednosti varirale mežu razli£itim uzorcima. Kao i<br />

u slu£aju proste regresije, ove standarde gre²ke se upotrebljavaju da bi se<br />

utvrdilo da li se procjenjeni regresioni koecijenti zna£ajno razlikuju od nule.<br />

Ako je vrijednost t-testa pridruºenog koecijentu signikantna (tj. ako je<br />

vrijednost u koloni P>|t| manja od 0,05) onda prediktor zna£ajno doprinosi<br />

predvižanju vrijednosti zavisne varijable. ’to je ve¢a vrijednost t-statistike<br />

to je doprinos datog prediktora ve¢i.<br />

U na²em modelu sva tri prediktora: godine iskustva (t(50) = 4,81, p


POGLAVLJE 1. REGRESIONA ANALIZA 26<br />

. reg prod gisk prom posj<br />

Source SS df MS Number of obs = 50<br />

F( 3, 46) = 28.62<br />

Model 564685205 3 188228402 Prob > F = 0.0000<br />

Residual 302493056 46 6575936 R-squared = 0.6512<br />

Adj R-squared = 0.6284<br />

Total 867178261 49 17697515.5 Root MSE = 2564.4<br />

prod Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

gisk 351.9726 73.21545 4.81 0.000 204.5976 499.3477<br />

prom 2.234713 .4293445 5.20 0.000 1.370488 3.098939<br />

posj 1450.143 465.8764 3.11 0.003 512.3826 2387.904<br />

_cons -1712.828 2942.173 -0.58 0.563 -7635.115 4209.459<br />

Output 1.7<br />

Za razliku od situacije koju smo imali unutar prethodnog outputa 1.6,<br />

vidimo da je na novom outputu 1.7 koecijent za unapreženje prodaje (varijabla<br />

prom) daleko manji od koecijenta vezanog za godine iskustva (gisk).<br />

Obratimo paºnju da promjena na£ina na koji su izraºene vrijednosti varijabli<br />

nije uticala na koecijent determinacije, t-statistike i njima pridruºene<br />

p-vrijednosti. Dakle, mijenjanje na£ina iskazivanja vrijednosti varijabli uti£e<br />

samo na veli£inu dobijenih regresionih koecijenata.<br />

Druga stvar koju trebamo imati na umu je da su vrijednosti razli£ith varijabli<br />

£esto mjerene mežusobno neuporedivim jedinicama mjere. Na primjer,<br />

u na²em regresionom modelu iskustvo prodava£a (gisk) je mjereno godinama<br />

rada na terenu, a budºet za unapreženje prodaje (prom) je izraºen u novcu.<br />

Zbog toga veli£inu dobijenih koecijenata ne moºemo direktno komparirati<br />

kako bi dobili uvid u relativnu vaºnost koju pojedina nezavisna varijabla ima<br />

u modelu.<br />

Jedan od na£ina na koji, bar u odreženoj mjeri, moºemo direktno uporediti<br />

uticaj razli£itih varijabli u modelu je preko standardizovanih regresionih<br />

koecijenata 12 . To su regresioni koecijenti koje dobijemo kada sve nezavisne<br />

varijable standardizujemo i iskaºemo preko z-skora. Ovi se koecijenti mogu<br />

dobiti i ako se obi£ni regresioni koecijenti pomnoºe koli£nikom standardne<br />

devijacije odgovaraju¢e nezavisne varijable i zavisne varijable:<br />

Beta i = b i × s i<br />

s y<br />

(1.11)<br />

12 Ovi koecijenti se £esto nazivaju i beta koecijentima (engl. beta weights)


POGLAVLJE 1. REGRESIONA ANALIZA 27<br />

gdje se i odnosi na odgovaraju¢u nezavisnu varijablu.<br />

Da bi unutar State dobili standardizovane koecijente moramo ih izri£ito<br />

zatraºiti preko opcije beta, koja se koristi uz naredbu regress:<br />

. reg prod gisk prom posj, beta<br />

Source SS df MS Number of obs = 50<br />

F( 3, 46) = 28.62<br />

Model 564.685207 3 188.228402 Prob > F = 0.0000<br />

Residual 302.493069 46 6.57593629 R-squared = 0.6512<br />

Adj R-squared = 0.6284<br />

Total 867.178276 49 17.6975158 Root MSE = 2.5644<br />

prod Coef. Std. Err. t P>|t| Beta<br />

gisk .3519726 .0732154 4.81 0.000 .5017156<br />

prom 2.234714 .4293445 5.20 0.000 .5090658<br />

posj 1.450143 .4658765 3.11 0.003 .2955483<br />

_cons -1.712828 2.942173 -0.58 0.563 .<br />

Output 1.8<br />

Standardizovani regresioni koecijenti su prikazani u koloni Beta unutar<br />

outputa 1.8. Njihove vrijednosti govore o broju standardnih devijacija za<br />

koje ¢e se promijeniti vrijednost zavisne varijable ako se vrijednost nezavisne<br />

varijable promijeni za jednu standardnu devijaciju. Budu¢i da ne zavise od<br />

jedinica mjere kojima su mjerene pojedine varijable, ovi koecijenti nam<br />

daju bolji uvid u vaºnost svakog prediktora unutar modela, omogu¢uju¢i<br />

da uporedimo relativni efekt prediktora mjerenih na razli£itim skalama. 13<br />

Dobijene standardizovane koecijente iz outputa 1.8 tuma£imo na sljede¢i<br />

na£in:<br />

• Godine iskustva prodava£a (standardizovani b 1 = 0, 502): Prodava£<br />

koji ima iskustvo ve¢e za 1 standardnu devijaciju, moºe o£ekivati prodaju<br />

ve¢u za 0,502 standardne devijacije uz uslov da ostale nezavisne<br />

varijable ostanu nepromijenjene. Standardna devijacija za varijablu<br />

13 Vaºnost ovdje treba shvatiti uslovno jer vrijednost standardizovanih koecijenata jo²<br />

uvijek zavisi od drugih nezavisnih varijabli koje su uklju£ene u model. Takožer, odogovor<br />

na pitanje koja je varijabla najvaºnija zavisi od konteksta u kojem se postavlja pitanje.<br />

Naime, vrijednosti nekih prediktora se u prkasi mogu mnogo teºe mijenjati. Analiti£ar<br />

treba uzeti u obzir kakve promjene su izvodljive, koliko ko²taju i sli£no. U na²em<br />

primjeru, kompanija relativno lako moºe promijeniti budºet za unapreženje prodaje. S<br />

druge strane, iskustvo prodava£a je teºe unaprijediti u kratkom roku.


POGLAVLJE 1. REGRESIONA ANALIZA 28<br />

je gisk SD = 5, 99 a za prod SD = 4, 206. Dakle, za komercijalistu sa<br />

dodatnih 5,99 godina iskustva moºemo o£ekivati obim ostvarene prodaje<br />

ve¢i za dodatnih 2.111 KM (0,502×4,206), ²to je ta£no samo ako<br />

vrijednosti ostalih prediktora drºimo konstantnim.<br />

• Budºet za unapreženje prodaje (standardizovani b 2 = 0, 509): Ako se<br />

budºet za unapreženje prodaje koji komercijalista ima na raspolaganju<br />

pove¢a za jednu 1 standardnu devijaciju, vrijednost zavisne varijable<br />

¢e se pove¢ati za 0,509 standardne devijacije uz uslov da ostale nezavisne<br />

varijable ostanu nepromijenjene. Dakle, za svakih dodatnih<br />

958 KM (prom SD = 0, 958) uloºenih u budºet za unapreženje prodaje,<br />

ostvareni obim prodaje u prosjeku ¢e se pove¢ati za 2.141 KM<br />

(0,509×4,206), ²to je ta£no samo ako vrijednosti ostalih prediktora dr-<br />

ºimo konstantnim.<br />

• Broj terenskih posjeta (standardizovani b 3 = 0, 295): Koecient nam<br />

govori da za komercijalistu koji u odnosu na kolegu ima broj posjeta<br />

ve¢i za 1 standardnu devijaciju, moºemo o£ekivati prodaju ve¢u za<br />

0,295 standardne devijacije uz uslov da ostale nezavisne varijable ostanu<br />

nepromijenjene. Drugim rije£ima, za komercijalistu sa brojem<br />

posjeta koji je ve¢i za 0,857 (posj SD = 0, 857) u odnosu na drugog<br />

komercijalistu, moºemo o£ekivati ostvarenu prodaju u prosjeku ve¢u<br />

za 1.240 KM (0,295×4,206), ²to je ta£no samo ako vrijednosti ostalih<br />

prediktora drºimo konstantnim.<br />

Uporedbom standardizovanih koecijenata zaklju£ujemo da budºet za unapreženje<br />

prodaje (prom) i iskustvo prodava£a (gisk) imaju gotovo identi£nu<br />

relativnu vaºnost unutar modela. Efekat ove dvije varijable je znatno ve¢i<br />

od efekta varijable broj posjeta (posj). Ovakav zaklju£ak je u skladu i sa<br />

dobijenom t-statistikom.<br />

Iako se za sagledavanje vaºnosti varijabli unutar regresionog modela naj-<br />

£e²¢e koriste stadardizovane beta vrijednosti, postoje i drugi pokazatelji.<br />

Svaki od tih pokazatelja vaºnost varijabli prediktora posmatra iz drugog aspekata.<br />

Za detaljnu diksuiju i pregled alternativnih pokazatelja pogledati<br />

[2].


Bibliograja<br />

[1] Mileva šiºi¢, Miodrag Lovri¢, and Dubravka Pavli£i¢. Metodi statisti£ke<br />

analize. Ekonomski fakultet Beograd, Beograd, 11 edition, 2001.<br />

[2] Laura L. Nathans, Frederick L. Oswald, and Kim Nimon. Interpreting<br />

multiple linear regression: A guidebook of variable importance. Practical<br />

Assessment, Research & Evaluation, 17(9), 2012.<br />

[3] Paul Newbold, William L. Carlson, and Betty M. Throne. Statistika za<br />

poslovanje i ekonomiju. Mate d.o.o., Zagreb, Zagreb, 2010.<br />

29


Marketing <strong>analitika</strong>: Pretpostavke OLS<br />

regresionog modela 1<br />

autor: doc. dr Emir Agi¢<br />

13. 04. 2015. (ver. 1.1)<br />

1 NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnoºavanje<br />

ovog materijala ili nekih njegovih dijelova bez prethodnog pisanog pristanka<br />

autora.


Sadrºaj<br />

1 Pretpostavke OLS regresionog modela 3<br />

1.1 Pretpostavke koje se ti£u podataka i uzorka . . . . . . . . . . 3<br />

1.1.1 Tipovi varijabli . . . . . . . . . . . . . . . . . . . . . . 4<br />

1.1.2 Preciznost mjerenja varijabli . . . . . . . . . . . . . . 5<br />

1.1.3 Veli£ina i karakteristike uzorka . . . . . . . . . . . . . 5<br />

1.1.4 Nedostaju¢i podaci . . . . . . . . . . . . . . . . . . . . 6<br />

1.1.4.1 Obrasci nedostaju¢ih podataka . . . . . . . . 6<br />

1.1.4.2 Rje²avanje problema nedostaju¢ih podataka . 8<br />

1.1.5 Netipi£ne opservacije . . . . . . . . . . . . . . . . . . . 8<br />

1.1.5.1 Efekti netipi£nih opservacija . . . . . . . . . 9<br />

1.1.5.2 Vrste netipi£nih opservacija . . . . . . . . . . 11<br />

1.1.5.3 Detektovanje netipi£nih opservacija . . . . . 12<br />

1.1.5.4 Analiza veli£ine uticaja netipi£nih opservacija<br />

na model . . . . . . . . . . . . . . . . . . 18<br />

1.1.5.5 Strategija detekcije netipi£nih opservacija . . 20<br />

1.1.5.6 Rje²avanje problema netipi£nih opservacija . 21<br />

1.1.6 Vrijednosti nezavisne varijable x su ksne . . . . . . . 23<br />

1.2 Pretpostavke koje se odnose na pravilnu specikaciju modela 23<br />

1.2.1 Nepostojanje endogenosti . . . . . . . . . . . . . . . . 24<br />

1.2.1.1 Efekti endogenosti . . . . . . . . . . . . . . . 24<br />

1.2.1.2 Rje²avanje problema endogenosti . . . . . . . 25<br />

1.2.2 Linearnost . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

1.2.2.1 Ispitivanje pretpostavke o linearnosti . . . . . 25<br />

1.2.2.2 Efekti naru²avanja linearnosti . . . . . . . . . 28<br />

1.2.2.3 Modeliranje nelinearne funkcionalne veze . . 28<br />

1.2.3 Nepostojanje multikolinearnosti . . . . . . . . . . . . . 28<br />

1.2.3.1 Detektovanje multikolinearnosti . . . . . . . 29<br />

1.2.3.2 Efekti multikolinearnosti . . . . . . . . . . . 31<br />

1


SADRšAJ 2<br />

1.2.3.3 Rje²avanje problema multikolinearnosti? . . . 32<br />

1.2.3.4 Multikolinearnost i efekat suzbijanja . . . . . 33<br />

1.3 Pretpostavke koje se odnose na svojstva distribucije reziduala 36<br />

1.3.1 Nepostojanje heteroskedasti£nosti . . . . . . . . . . . . 37<br />

1.3.1.1 Uzroci heteroskedasti£nosti . . . . . . . . . . 39<br />

1.3.1.2 Detektovanje heteroskedasti£nosti . . . . . . 40<br />

1.3.1.3 Efekti heteroskedasti£nosti . . . . . . . . . . 43<br />

1.3.1.4 Rje²avanje problema heteroskedasti£nosti . . 43<br />

1.3.2 Nezavisnost i nepostojanje autokorelacije . . . . . . . 44<br />

1.3.2.1 Detektovanje autokorelacije . . . . . . . . . . 46<br />

1.3.2.2 Efekti autokorelacije . . . . . . . . . . . . . . 48<br />

1.3.2.3 Rje²avanje problema autokorelacije . . . . . . 49<br />

1.3.3 Normalnost . . . . . . . . . . . . . . . . . . . . . . . . 49<br />

1.3.3.1 Ispitivanje pretpostavke o normalnosti . . . . 50<br />

1.3.3.2 Efekti naru²avanja pretpostavke o normalnosti 53<br />

1.3.3.3 Rje²avanje problema naru²ene pretpostavke<br />

o normalnosti . . . . . . . . . . . . . . . . . . 53


Poglavlje 1<br />

Pretpostavke OLS regresionog<br />

modela<br />

Da bi kompletirali regresioni model, moramo razmotriti i njegove osnovne<br />

pretpostavke. Pretpostavke se odnose na odrežene uslove koji trebaju biti<br />

ispunjeni kako bi zaklju£ci koje ¢emo izvesti na osnovu modela bili ta£ni.<br />

Kada su pretpostavke zadovoljene, kaºemo da je OLS metod estimacije nepristrasan,<br />

konzistentan i ekasan. Ukoliko je neka od pretpostavki naru²ena,<br />

postoji opasnost da ¢e izra£unati koecijenti biti pristrasni, testovi signikantnosti<br />

nepouzdani a samim tim i zaklju£ci koje ¢emo donijeti na bazi<br />

modela mogu biti pogre²ni. Takožer, pretpostavke su bitne ako rezultate<br />

analize do kojih smo do²li na bazi uzorka ºelimo generalizirati na cjelokupnu<br />

populaciju. Ako su zadovoljene sve pretpostavke onda dati model moºemo<br />

prili£no precizno iskoristiti za predvižanje i dono²enje zaklju£aka o populaciji.<br />

Pretpostavke moºemo podijeliti u tri generalne skupine:<br />

1.1 Pretpostavke koje se ti£u podataka i uzorka<br />

Pretpostavke iz ove grupe se odnose na speci£nosti vezane za same podatke<br />

i uzorak: a) vrste varijabli koje mogu biti kori²tene u regresionoj analizi, b)<br />

preciznost mjerenja varijabli, c) veli£inu i karakteristike uzorka, d) nedostaju¢e<br />

podatke i netpi£ne vrijednosti unutar uzorka i e) prirodu prediktora.<br />

3


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 4<br />

1.1.1 Tipovi varijabli<br />

Ova pretpostavka se odnosi na vrste varijabli koje moºemo koristiti u regresionoj<br />

analzi. Zavisna varijabla mora biti mora biti metrijska (engl. continous)<br />

i neograni£ena (engl. unbounded). Metrijske varijable predstavljaju<br />

podatke mjerene na intervalnim i proporcionalnim skalama. Osnovna razlika<br />

izmežu ova dva tipa skala je ²to proporcionalne skale imaju prirodnu nulu<br />

kao svoj po£etak, dok intervalne skale za po£etnu vrijednost uzimaju arbitrarnu<br />

vrijednost. Metrijske varijable omogu¢avaju mjerenje veli£ine razlike<br />

izmežu vrijednosti na kojima se skala kre¢e. U softverskim paketima kao<br />

²to su SPSS, Stata i sl. ne pravi se posebna razlika izmežu intervalnih i<br />

proporcionalnih skala i one se u analizama tretiraju jednako.<br />

U praksi se £esto moºe na¢i na primjere gdje je zavisna varijabla bila<br />

ordinalnog tipa [8, p. 93]. Ovo se posebno odnosi na situacije kada su za<br />

mjerenje kori²tene Likertove skale. Nije neuobi£ajeno da istraºiva£i raspone<br />

na Likertovoj skali posmatraju kao intervalne a ne kao ordinalne. Takožer,<br />

£esta je praksa da se prilikom izrade upitnika broj stepeni Likertove skale<br />

pove¢ava kako bi ona vjernije opona²ala karakteristike metrijskih varijabli.<br />

U skladu sa tim, pored uobi£ajenih petostepenih, u praksi se koriste ²estostepene,<br />

sedmostepene, pa £ak i desetostepene Likertove skale. Ipak, pokazalo<br />

se da nema posebno bitnih razlika izmežu petostepene i skala sa vi²e opcija<br />

za odgovore (sedmosetepenih i desetostepenih) u pogledu kvalitete dobijnih<br />

podataka za kori²tenje u regresionoj analizi [4].<br />

Neograni£ena varijabla je ona koja obuhvata vrijednosti iz cjelokupnog<br />

o£ekivanog raspona. Na primjer, pretpostavimo da se o£ekivana vrijednost<br />

neke varijable kre¢e u rasponu 1 10. Ako prikupljeni podaci na bazi uzorka<br />

za tu variablu variraju u rasponu 3 7 onda se javlja ograni£enost. Ova<br />

pretpostavka je vaºna kada radimo predvižanje vrijednosti zavisne varijable.<br />

Dobijena OLS linija se moºe ekstrapolirati u oba smjera ali je smislena samo<br />

unutar prirodnog raspona zavisne varijable [8].<br />

Nezavisne varijable mogu biti metrijske, ordinalne i kategorijske. Kad<br />

je rije£ o kategorijskim varijablama, naj£e²¢e se upotrebljavaju binarne varijable<br />

(engl. dummy variables).


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 5<br />

1.1.2 Preciznost mjerenja varijabli<br />

Ova pretpostavka se odnosi na to da ne smije postojati gre²ka pri mjerenju<br />

varijabli (engl. measurement error) koje se koriste unutar regresionog<br />

modela. Neke pojave, posebno ako je rije£ o latentnim konstruktima, ne mo-<br />

ºemo uvijek precizno izmjeriti. U takvim situacijama se potrebno potruditi<br />

da gre²ka mjerenja bude svedena na minimum. Zbog toga se velika paºnja<br />

posve¢uje odabiru validnog i pouzdanog instrumenta mjerenja (to su naj-<br />

£e²¢e razli£ite vrste upitnika), te selekciji i treningu osoblja koje ¢e obavljati<br />

mjerenje (odnosno anketiranje).<br />

1.1.3 Veli£ina i karakteristike uzorka<br />

U literaturi se mogu na¢i razli£ite preporuke u pogledu veli£ine uzorka neophodnog<br />

za regresionu analizu. Uobi£ajna su jednostavna pravila gdje se<br />

veli£ina uzorka odrežuje prema broju nezavisnih varijabli unutar regresionog<br />

modela. Tako se uzima da je pet opservacija za svaku nezavisnu varijablu<br />

(5:1) minimum ispod kojeg se ne bi smjelo i¢i ni u kom slu£aju [10]. Dakle,<br />

ukoliko imamo 3 nezavisne varijable, minimalna veli£ina uzorka bi iznosila:<br />

5 × 3 = 15 opservacija. Ipak, mnogo su £e²¢e preporuke da je poºeljno imati<br />

10:1 ili 15:1 opservacija za svaku nezavisnu varijablu. Manji broj opservacija<br />

u uzorku moºe rezultirati sa ve¢im standardnim gre²kama pri procjeni parametara.<br />

Takav model nema dovoljno snage (engl. statistical power) kako<br />

bi se detektovala veza izmežu nezavisne i zavisne varijable. Drugim rije-<br />

£ima, moºe se desiti da u uzorku regresioni koecijenti ne budu statisti£ki<br />

signikantni iako u stvarnosti jesu. Ipak, potrebno je imati na umu da u veoma<br />

velikim uzorcima, koji obuhvataju stotine ili hiljade opservacija, testovi<br />

signikantnosti mogu biti vrlo osjetljivi. U takvim situacijama nije neuobi-<br />

£ajeno da £ak i vrlo slabe veze budu statist£ki signikantne. Iz tog razloga je<br />

pored statisti£ke signikantnosti potrebno sagledati i prakti£nu vaºnost date<br />

varijable.<br />

Kad je rije£ o karakteristikama uzorka podaci bi trebali biti prikupljeni<br />

na bazi slu£ajnog uzorka i reprezentativni za populaciju na koju se odnose.<br />

Na primjer, kada se rade telefonska anketiranja, uobi£ajeno je da uzorak<br />

obuhvati vi²e osoba ºenskog pola i vi²e starijih ispitanika. Ovo ne iznenažuje,<br />

obzirom da su ºene i stariji vi²e prisutni u doma¢instvu kada se radi<br />

intervju. O ovakvim stvarima je potrebno voditi ra£una jer ¢e nereprezentativan<br />

uzorak dovesti i do pogre²no estimiranih parametara modela koji se ne


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 6<br />

mogu generalizirati za populaciju u cjelini. U takvim situacijama je mogu¢e<br />

kreirati odgovaraju¢e pondere za demografske varijable kako bi se korigovali<br />

rezultati analize za pristranosti uzorka.<br />

1.1.4 Nedostaju¢i podaci<br />

Pod nedostaju¢im podakom podrazumjeva se situacija u kojoj validna vrijednost<br />

za neku varijablu nije dostupna. Na primjer, ispitanik je presko£io<br />

pitanje u anketi jer nije znao odgovor, nije ºelio da odgovori, pitanje nije<br />

smatrao relevantnim i sli£no.<br />

Problem nedostaju¢ih podataka je naj£e²¢i problem u analizi podataka<br />

[10, 17]. Izbjegavanje rje²avanja problema nedostaju¢ih podataka moºe imati<br />

dvojak uticaj na kasniju analizu: a) prakti£ni uticaj koji se ogleda u smanjenju<br />

veli£ine uzorka koji je dostupan za analizu i b) uticaj na pristrasnost<br />

dobijenih rezultata. Ozbiljnost problema zavisi od obrasca po kojem se javljaju<br />

nedostaju¢i podaci, njihovog obima i razloga zbog kojeg se javljaju.<br />

1.1.4.1 Obrasci nedostaju¢ih podataka<br />

Obrazac po kojem se javljaju nedostaju¢i podaci je mnogo vaºniji od njihovog<br />

obima [17]. Zato, klju£no pitanje na koje istraºiva£ treba da odgovori<br />

odnosi se na to da li se moºe identikovati odreženi sistematski proces koji<br />

je doveo do pojave nedostaju¢ih podataka ili se nedostaju¢i podaci javljaju<br />

po slu£ajnom obrascu. Razumjevanje procesa koji je doveo do toga da podaci<br />

nedostaju je bitno jer od toga zavisi izbor korektivne akcije [10]. Npr.<br />

zamislimo situaciju u kojoj znamo vlasni£ku strukturu rme (x varijabla)<br />

i postavili smo pitanje vezano za njen prot (y varijabla). Mogu¢e su tri<br />

situacije:<br />

1. Nedostaju¢e vrijednosti se javljaju prema potpuno slu£ajnom obrascu<br />

u jednakom omjeru za javne i privatne rme. U ovakvoj situaciji ka-<br />

ºemo da se nedostaju¢i podaci javljaju prema potpuno slu£ajnom<br />

obrascu (engl. Missing Completly at Random MCAR) ²to zna£i da<br />

nedostaju¢i podaci za varijblu y ne zavise od vrijednosti varijable x,<br />

niti od same vrijednosti varijable y.<br />

2. Nedostaju¢e vrijednosti se javljaju prema slu£ajnom obrascu, ali u nejednakom<br />

omjeru za javne i privatne rme. Npr. moºemo uo£iti da su


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 7<br />

menadºeri privatnih rmi £e²¢e izostavili podatak o protu. U ovakvoj<br />

situaciji kaºemo da se podaci javljaju prema slu£ajnom obrascu<br />

(engl. Missing at Random MAR). Nedostaju¢i podaci za varijblu y<br />

zavise od vrijednosti varijable x, ali ne i od varijable y, ako x drºimo<br />

konstantnom. Drugim rije£ima, u okviru obje grupe imamo slu£ajni<br />

proces, ali u jednoj grupi se javlja vi²e nedostaju¢ih podataka nego u<br />

drugoj.<br />

3. U tre¢oj situaciji moºemo imati nejednake omjere nedostaju¢ih podataka<br />

za privatne i javne rme, ali za razliku od prethodne situacije, nedostaju¢i<br />

podaci u okviru grupa ne javljaju se po slu£ajnom obrascu.<br />

Npr. moºemo uo£iti da su menadºeri privatnih rmi £e²¢e izostavili<br />

podatak o protu, ali u okviru ove grupe moºemo zapaziti i ve¢u vjerovatno¢u<br />

da je podatak o protu izostavljen upravo za one rme za<br />

koje pretpostavljamo da imaju ve¢i prot. U ovakvoj situaciji kaºemo<br />

da se nedostaju¢i podaci ne javljaju po slu£ajnom obrascu (engl.<br />

Not Missing at Random NMAR), jer nedostaju¢i podaci za varijablu<br />

y (prot) zavise od vrijednosti varijable x (vlasni£ka struktura), ali i<br />

od vrijednosti same varijable y (o£ekivane visine prota za privatne<br />

rme).<br />

MCAR i MAR se ponekad nazivaju i ignorabilnim nedostaju¢im podacima,<br />

dok se NMAR nazivaju neignorabilnim nedostaju¢im podacima. Sam naziv<br />

ignorabilni dolazi od toga ²to za MCAR i MAR nedostaju¢e podatke postoje<br />

razli£ite tehnike kojima se ovi podaci mogu tretirati. S druge strane,<br />

NMAR nedostaju¢i podaci predstavljaju mnogo ve¢i problem jer ne postoji<br />

jasan mehanizam po kojem bi se ispravila pristrasnost i obezbjedila eksterna<br />

validnost studije.<br />

Iako termini MCAR, MAR i NMAR omogu¢avaju teorijsku distinkciju<br />

izmežu procesa koji su doveli do nastanka nedostaju¢ih podataka, u praksi<br />

je nekada te²ko odrediti o kojem se od ova tri mehanizma radi u konkretnom<br />

slu£aju. Situacija se usloºnjava sa kompleksno²¢u studije i brojem varijabli<br />

koje se koriste. Iako postoje empirijski testovi da se ustanovi da li podaci<br />

nedostaju po MCAR obrascu, mnogo je teºe utvrditi da li su podaci MAR<br />

i NMAR. Za utvrživanje ove razlike ne postoje empirijski testovi i prvenstveno<br />

se gleda da li se radi o ignorabilnom mehanizmu koji je doveo do<br />

nastanka istih. Mehanizam se smatra ignorabilnim ukoliko je isti vezan za<br />

informaciju koja je poznata istraºiva£u (npr. znamo da je ispitanik presko-<br />

£io neka pitanja jer nisu primjenjiva na njegovu situaciju). S obzirom da ne<br />

postoji dijagnosti£ka procedura da se ovo provjeri istraºiva£ se mora osloniti


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 8<br />

prvenstveno na logiku i dobro poznavanje domena koje istraºivanje obuhvata<br />

[12].<br />

1.1.4.2 Rje²avanje problema nedostaju¢ih podataka<br />

Tehnike koje se koriste za treiranje nedostaju¢ih podataka moºemo podijeliti<br />

u tri grupe.<br />

1. Tradicionalne tehnike: a) izbacivanje iz uzorka opservacija koje imaju<br />

nedostaju¢i podatak po bilo kojoj varijabli (engl. casewise delition),<br />

b) izbacivanje iz uzorka samo onih opservacija koje nemaju kompletne<br />

podatke za parove varijabli koje se koriste kako bi se izra£unali korelacioni<br />

koecijenti na kojima se zasniva regresiona analiza (engl. pairwise<br />

delition) i c) zamjena nedostaju¢ih vrijednosti jedinstvenim brojem,<br />

naj£e²£e aritmeti£kom sredina varijable (engl. single imputation methods).<br />

2. Sosticirani metodi koji nedostaju¢e podatke tretiraju tokom same<br />

analize: a) ne²to stariji EM algoritam (engl. expectationmaximization)<br />

i b) noviji FIML pristupi (engl. full information maximum likelihood).<br />

3. Tehnike vi²estruke imputacije (engl. multiple imputation).<br />

Koju tehniku ¢emo koristi zavisi prvenstveno od obima nedostaju¢ih podataka,<br />

kao i da li su podaci MCAR (u kojem slu£aju je pogodna bilo koja od<br />

navedenih tehnika) ili MAR (gdje tradicionalne tehnike nisu podesne budu¢i<br />

da vode pristrasnosti dobijenih rezultata). Kada se nedostaju¢i podaci javljaju<br />

u relativno malom obimu (


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 9<br />

Univarijantna netipi£na opservacija (engl. univariate outlier) ima<br />

netipi£nu vrijednost unutar jedne varijable. Na primjer, ukoliko smo mjerili<br />

visinu li£nog dodhotka, osoba sa mjese£nim dohodkom znatno ve¢im od<br />

prosjeka bi predstavljala netipi£nu univarijantnu opservaciju.<br />

Regresiona netipi£na opservacija (engl. regression outlier) ima netipi£nu<br />

vrijednost zavisne varijable y za datu vrijednost nezavisne varijable x.<br />

Samim tim, unutar regresionog modela ni jedna opservacija sa netipi£nom<br />

univarijantnom vrijedno²¢u za x ili y nije nuºno netipi£na sama po sebi, ve¢<br />

samo ako se posmatra u paru sa vrijednostima druge varijable.<br />

1.1.5.1 Efekti netipi£nih opservacija<br />

Netipi£ne regresione opservacije mogu imati veliki uticaj na regresioni model,<br />

posebno kada imamo mali uzorak. U nekim slu£ajevima, uklju£ivanje ili<br />

izbacivanje netipi£ne vrijednosti moºe u potpunosti promijeniti regresione<br />

koecijente, a samim tim i prirodu regresione veze. Na slici 1.1 imamo<br />

primjer jedne takve drasti£ne promjene.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 10<br />

Slika 1.1<br />

Opservacija ozna£ena punim krugom u gornjem lijevom uglu slike 1.1<br />

ima netipi£nu vrijednost jer se znatno razlikuje od svih ostalih vrijednosti u<br />

uzorku. U slu£aju da ova opservacija ostane u uzorku, regresioni koecijent<br />

b 1 ¢e biti negativan (isprekidana linija). Mežutim, ukoliko ovu opservaciju<br />

isklju£imo iz uzorka, regresioni koecijent b 1 ¢e postati pozitivan a regresiona<br />

linija ¢e imati druga£iji smijer (puna linija). Samim tim, zaklju£ci koje<br />

budemo donosili na osnovu regresionog modela sa netipi£nom opservacijom<br />

¢e biti druga£iji, a u ovom ekstremnom slu£aju £ak i suprotni, u odnosu na<br />

model iz kojeg smo tu opservaciju isklju£ili. Naravno, ovo nije zadovoljavaju¢e<br />

jer ºelimo kreirati regresioni model koji ne¢e biti pod velikim uticajem<br />

jedne ili nekoliko netipi£nih opservacija. Poºeljan model je onaj u kojem sve<br />

opservacije manje-vi²e jednako doprinose modelu.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 11<br />

1.1.5.2 Vrste netipi£nih opservacija<br />

Prije nego prežemo na samu identikaciju i procjenu veli£ine uticaja koji ¢e<br />

netipi£na opservacija imati na model, moramo znati da je taj uticaj funkcija<br />

dva faktora: (1) razlike izmežu predvižene vrijednosti za datu opservaciju<br />

i njene stvarne vrijednosti (engl. distance) i (2) razlike izmežu vrijednosti<br />

opservacije i vrijednosti aritmeti£ke sredine prediktora (engl. leverage). U<br />

tom smislu, razlikujemo dvije vrste netipi£nih vrijednosti: outliere i leverage<br />

ta£ke.<br />

U okviru regresionog modela outlier je opservacija koja ima netipi£nu<br />

vrijednost zavisne varijable y za datu vrijednost nezavisne varijable x. Kod<br />

takve opservacije, njena stvarna vrijednost y odstupa znatno od njene vrijednosti<br />

predvižene modelom ŷ. Zato takve opservacije imaju netipi£no veliku<br />

vrijednost reziduala (e i = y i − ŷ i ). S druge strane, leverage ta£ka je opservacija<br />

koja ima netipi£nu vrijednost nezavisne varijable x u odnosu na<br />

ostale opservacije iz uzorka. Generalno govore¢i, outlieri smanjuju reprezentativnost<br />

modela, ali svaki outlier ne mora nuºno imati uticaj na regresione<br />

koecijente. Takožer, svaka opservacija koja ima visok leverage ne mora<br />

nuºno predstavljati problem. Primjeri ovakvih opservacija su predstavljeni<br />

na slici 1.2.<br />

Generalno govore¢i, outlieri smanjuju reprezentativnost modela, ali svaki<br />

outlier ne mora nuºno imati uticaj na regresione koecijente. Takožer, svaka<br />

opservacija koja ima visok leverage ne mora nuºno predstavljati problem.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 12<br />

Slika 1.2<br />

Opservacija I je outlier jer ima netipi£no veliku vrijednost reziduala. Ipak,<br />

uticaj ove opservacije na na nagib regresione linije (b 1 ) je izuzetno mali obzirom<br />

da je njena pozicija vrlo blizu prosjeka nezavisne varijable (x ¯ = 4, 77).<br />

Prvenstveni uticaj outlier I ima na konstantu b 0 jer cijelu regresionu liniju<br />

povla£i vertikalno prema sebi.<br />

Opservacije G i H su leverage ta£ke zato ²to imaju vrijednosti koje su<br />

znatno udaljene od prosijeka nezavisne varijable (x ¯ = 4, 77). Opservacija G<br />

ne uti£e mnogo na koecijente b 0 i b 1 obzirom da je njena pozicija vrlo blizu<br />

regresionoj liniji. S druge strane, opservacija H je problemati£na jer pored<br />

toga ²to je leverage ta£ka (ima netipi£nu vrijednost za x), ona je i outlier<br />

(ima netipi£nu vrijednost y za dato x). Zbog toga opservacija H uti£e na<br />

konstantu b 0 i koecijent b 1 i obara regresionu liniju prema sebi.<br />

1.1.5.3 Detektovanje netipi£nih opservacija<br />

Postavlja se pitanje koliko neka opservacije mora biti druga£ija u odnosu<br />

na ostale da bi je proglasili netipi£nom? Postoji nekoliko tehnika koje nam<br />

mogu pomo¢i da identikujemo da li opservacija ima netipi£nu vrijednost.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 13<br />

Da bi uo£ili netipi£ne opservacije u slu£aju proste regresije £esto je dovoljna<br />

vizuelna inspekcija dijagrama rasipanja (kao na slici 1.1). Kada<br />

imamo vi²estruki regresioni model za vizuelnu inspekciju koristimo parcijalne<br />

regresione dijagrame (engl.<br />

partial regression plots ili addedvariable<br />

plots). Oni omogu¢avaju da, uz odrežene ustupke, multidimenzionalne<br />

podatke predstavimo preko dvodimenzionlanih dijagrama. Parcijalni<br />

dijagrami pokazuju odnos izmežu reziduala zavisne varijable i nezavisne varijable<br />

kada su obje varijable regresirane odvojeno na preostaju¢e nezavisne<br />

varijable.<br />

Unutar State, parcijalne regresione dijagrame moºemo dobiti uz pomo¢<br />

naredbe avplots. Parcijalni regresioni dijagrami za model 1.10 su predstavljeni<br />

na slici 1.3.<br />

. avplots, mlabel (id)<br />

Slika 1.3<br />

U slu£aju prvog dijagrama vertikalna y-osa predstavlja vrijednosti reziduala<br />

koji ostanu kada se za predvižanje vrijednosti zavisne varijable prod


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 14<br />

(prodaja) upotrijebe sve nezavisne varijable, osim varijable gisk (godine iskustva).<br />

Na horizontalnoj x-osi su vrijednosti reziduala koji ostanu kada se<br />

za predvižanje vrijednosti nezavisne varijable gisk (godine iskustva) upotrijebe<br />

sve ostale nezavisne varijable. Ostala dva dijagrama prikazana na slici<br />

1.3 kreiraju se po istom principu. Samo se mijenja nezavisna varijabla £iji<br />

reziduali se prikazuju na horizontalnoj osi.<br />

Parcijalni regresioni dijagrami imaju sljede¢e osobine:<br />

• Izra£unavanjem reziduala, otklanjaju se linearni efekti drugih nezavisnih<br />

varijabli, kako unutar zavisne tako i unutar svake nezavisne varijable<br />

[13].<br />

• Regresiona linija na parcijalnim dijagramima ima koecijent i standardnu<br />

gre²ku (korigovanu za broj stepeni slobode) jednaku procijenjenom<br />

koecijentu i standardnoj gre²ci za dati prediktor unutar orginalne<br />

regresione jedna£ine [16].<br />

• Sa£uvan je pojedina£ni efekat svake opservacije na nagib regresione<br />

linije [16].<br />

Zbog navedenih osobina parcijalni dijagrami se mogu upotrijebiti za dijagnostiku<br />

dvije pretpostavke regresionog modela.<br />

Prvo, parcijalne regresione dijagrame koristimo da vizuelno provjerimo<br />

da li postoje izuzetno veliki reziduali koji mogu imati nesrazmjeran uticaj<br />

na regresioni koecijent nezavisne varijable. Tako sa slike 1.3 moºemo vidjeti<br />

da ni za jednu nezavisnu varijablu ne postoje opservacije sa netipi£nim<br />

rezidualima. Ta£ke su ravnomjerno rasporežene oko linija ²to ukazuje i na<br />

to da je ispunjena pretpostavka o postojanju homoskedasti£nosti (o £emu ¢e<br />

vi²e rije£i biti u zasebnoj sekciji).<br />

Eventualni izuzetak je opservacija broj 48 na drugom i opservacija broj 16<br />

na posljednjem dijagramu. Ove opservacije imaju ne²to ve¢u vrijednost reziduala<br />

i mogle bi uticati na regresione koecijente prediktora prom (budºet<br />

za unapreženje prodaje) i posj (broj posjeta).<br />

Drugo, neki istraºiva£i parcijalne dijagrame koriste da bi utvrdili da li<br />

izmežu zavisne varijable i prediktora postoji linearna veza [13, 7]. Mežutim,<br />

pri kreiranju parcijalnih regresionih dijagrama forsira se da veza izmežu y<br />

and x bude linearna. Samim tim, oni nisu najpogodni za ispitivanje pretpostavke<br />

o linearnosti [16, p. 1909]. Za vizuelno ispitivanje pretpostavke o<br />

linearnosti preporu£uje se kori²tenje druge vrste dijagrama koju ¢emo obraditi<br />

u okviru zasebne sekcije koja se bavi tom pretpostavkom.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 15<br />

Nekada vizuelna inspekcija nije dovoljna da sa sigurno²¢u kaºemo da li je<br />

neka opservacija netipi£na ili nije. Pri vizuelnom ispitivanju moºe postojati<br />

doza subjektivnosti pa ono ²to je jednom istraºiva£u u redu, drugi istraºiva£<br />

moºe progasiti problemati£nim. Da bi detektovanju netipi£nih opservacija<br />

pristupili objektivnije, pored vizuelne inspekcije parcijalnih regresionih dijagrama,<br />

koristi¢emo se jo² nekim pokazateljima. Cilj je identikovati opservacije<br />

koje mogu imati znatan uticaj na koecijente i reprezentativnost<br />

modela.<br />

Da bi detektovali opservacije koje predstavljaju outliere, posluºi¢emo se<br />

analizom reziduala. Ranije smo rekli da nestandardizovani reziduali<br />

predstavljaju razliku izmežu predvižene vrijednosti ŷ, koju dobijemo na bazi<br />

regresionog modela, i stvarne vrijednosti opservacije u uzorku y. Obzirom<br />

da veli£ina reziduala zavisi od skale na kojoj je mjerena zavisna varijabla,<br />

postavlja se pitanje kada je rezidual dovoljno velik da zavrježuje paºnju<br />

istraºiva£a? Na primjer, ukoliko je zavisna varijabla mjerena na skali od<br />

1 do 100, rezidual sa vrijedno²¢u 3 nije veliki rezidual. Mežutim, ako se<br />

raspon vrijednosti na kojoj je mjerna zavisna varijabla kre¢e u intervalu od<br />

1 do 10, onda je rezidual sa vrijedno²¢u 3 prili£no velik. Kako bi se olak²ala<br />

usporedba reziduala izmežu razli£itih modela oni se mogu standardizovati.<br />

Standardizovani reziduali (engl. standardized residuals) se izra£unavaju<br />

tako ²to vrijednost nestandardizovanih reziduala podijelimo sa procijenjenom<br />

standardom devijacijom reziduala. Standardizovani reziduali imaju<br />

aritmeti£ku srednu jednaku 0 i standardnu devijaciju jednaku 1. Pod pretpostavkom<br />

da su normalno distribuirani, moºemo o£ekivati da ¢e se 95%<br />

standardizovanih reziduala nalazi u rasponu izmežu −2 i +2, dok ¢e se njih<br />

99% nalaziti unutar raspona od −2, 58 i +2, 58. Opservacije sa standardizovanim<br />

rezidualima izvan ovih raspona su neuobi£ajene i zavrežuju dodatnu<br />

paºnju, a posebno one koje imaju standardizovane reziduale izvan raspona<br />

−3 i +3. Ukoliko model dobro reprezentuje podatke, za o£ekivati je da ¢e 5%<br />

opservacija imati reziduale sa apsolutnom vrijedno²¢u ve¢om od 2, odnosno<br />

da ¢e 1% opservacija imati reziduale sa apsolutnom vrijedno²¢u ve¢om od<br />

2,58.<br />

Studentizovani reziduali (engl. studentized residuals) imaju ista svojstva<br />

kao i standardizovani reziduali ali obi£no pruºaju precizniju procjenu<br />

varijanse gre²ke za pojedina£nu opservaciju [7]. Dobijamo ih tako ²to vrijednost<br />

reziduala podijelimo sa procijenjenom standardom devijacijom reziduala<br />

u datoj ta£ci. Naime, kada ra£unamo standardizovane reziduale, svaki pojedni£ani<br />

rezidual dijelimo sa istom vrijedno²¢u (standardnom devijacijom


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 16<br />

reziduala). Mežutim, predvižena vrijednost zavisne varijable y nije konstantna<br />

za sve opservacije ve¢ u jednoj mjeri zavisi od vrijednosti nezavisne<br />

varijable x. Opservacije sa vrijednostima koje su bliºe aritmeti£koj sredini<br />

uzorka imaju manji varijablitet predviženih vrijednosti u odnosu na opservacije<br />

koje su dalje od aritmeti£ke sredine. Zbog toga se na slici 1.5 interval<br />

ocjene ²iri kako se kre¢emo od sredine prema krajevima. Studentizovani reziduali<br />

uzimaju u obzir ove varijacije i omogu¢avaju da se lak²e uo£e kr²enja<br />

pretpostavki regresionog modela. Zato se njihovo kori²tenje vi²e preferira u<br />

odnosu na standardizovane reziduale [13, p. 424].<br />

Isklju£eni reziduali (engl. deleted residuals) su jo² jedna vrsta reziduala<br />

koja se £esto upotrebljava za detekciju netip£nih opservacija. Koncept<br />

ovih redizuala po£iva na ideji da se orginalni regresioni model uporedi sa<br />

modelom gdje je jedna opservacija isklju£ena iz uzorka. Razlika izmežu predvižene<br />

vrijednosti ŷ na osnovu punog uzorka i predvižene vrijednosti ŷ<br />

kada smo iz uzorka isklju£ili jednu opservaciju predstavlja isklju£eni rezidual.<br />

Ukoliko isklju£ena opservacija nema veliki uticaj na model, onda bi<br />

o£ekivani isklju£eni rezidual za tu opservaciju trebao biti jednak ili vrlo blizu<br />

nuli.<br />

Kao i kod nestandardizovanih reziduala, veli£ina isklju£enih reziduala ¢e<br />

zavisi od jedinica mjere zavisne varijable. Kako bi se olak²ala njihova usporedba<br />

izmežu razli£itih modela, oni se standardizuju tako da se podijele<br />

sa procijenjenom standardnom gre²kom u datoj ta£ci. Tako dobijamo studentizovane<br />

isklju£ene reziduale (engl. studentized deleted residuals ili<br />

jack-knifed resiuduals).<br />

Ako su regresione pretpostavke ispunjene i ako imamo otprilike jednak<br />

broj opservacija za svaku vrijednost nezavisne varijable standardizovani,<br />

studentizovani i studentizovani isklju£eni reziduali ¢e na razli£itim dijagramima<br />

imati isti ²ablon rasipanja [13].<br />

Unutar State moºemo upotrijebiti naredbu predict kako bi za model<br />

1.10 automatski izra£unali predvižene vrijednosti zavisne varijable (pprod),<br />

nestandardizovane (r), studentizovane (sr) i studentizovane isklju£ene reziduale<br />

(str). 1 Nakon ²to izra£unamo pomenute vrijednosti, pomo¢u naredbe<br />

1 Obratiti paºnju da smo nove varijable imenovali sa pprod, r, sr i str. Opcije rstandard<br />

i rstudent su skra¢enice koje dolaze od standardized i studentized ²to moºe biti zbunjuju¢e<br />

obzirom da se prva ne odnosi na standardizovane, a druga se ne odnosi na<br />

studentizovane reziduale. Naime, Stata koristi ne²to druga£iju terminologiju od uobi£ajene.<br />

Unutar Stata terminologije se pod standardizovanim rezidualima u stvari podrazumjevaju<br />

studentizovani, a Stata studentizovani reziduali se odnose na studentizovane


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 17<br />

list moºemo traºiti spisak svih opservacija koje imaju apsolutne vrijednosti<br />

studentizovanih isklju£enih reziduala ve¢e od 2.<br />

. predict pprod<br />

(option xb assumed; fitted values)<br />

. predict r, resid<br />

. predict sr, rstand<br />

. predict str, rstud<br />

. list gisk prom posj prod pprod sr str if abs(str) > 2<br />

gisk prom posj prod pprod sr str<br />

16. 22 4 4 15.12865 20.77 -2.277327 -2.391268<br />

26. 22 3.5 4 24.60312 19.65264 1.989938 2.058798<br />

38. 14 3.5 5 23.42656 18.287 2.036837 2.112069<br />

42. 16 3 5 23.17513 17.87359 2.091818 2.174987<br />

Output 1.1<br />

Iz outuput-a 1.1 vidimo da postoje £etiri potencijalno velika reziduala<br />

vezana za opservacije: 16, 26, 38 i 42. Najve¢i rezidual vezan je za opservaciju<br />

16. Kako smo ranije rekli, manje od 5% opservacija bi trebalo imati<br />

studentizovane isklju£ene reziduale u apsolutnom iznosu ve¢e od 2, a samo<br />

1% opservacija bi trebalo imati ove reziduale u apsolutnom iznosu ve¢e od<br />

2,58. Obzirom da imamo uzorak od 50 ispitanika, prethodno navede £etiri<br />

opservacije £ine 12% uzorka ²to ukazuje da model ne reprezentuje podatke na<br />

najbolji na£in. Sre¢om, u uzorku ne postoji ni jedan rezidual sa apsolutnom<br />

vrijedno²¢u ve¢om od 2,58.<br />

Nakon ²to se putem analize reziduala identikuju outileri, pristupa se detekciji<br />

leverage ta£ki. Leverage (h) pokazuje koliko se vrijednost opservacije<br />

nalazi daleko od prosjeka prediktora. Vrijednost ovog pokazatelja se moºe<br />

kretati u rasponu od 0 do 1. ’to je opservacija dalje od prosje£ne vrijednosti<br />

varijable prediktora, ona ima ve¢i potencijal da postane leverage ta£ka. Uobi-<br />

£ajeno pravilo je da se ispitaju sve opservacije koje imaju leverage > (2k+2) /n<br />

gdje se k odnosi na broj prediktora, a n je broj opservacija. Za model 1.10<br />

to bi zna£ilo leverage i > (2×3+2) /50 > 0, 16.<br />

isklju£ene ili jack-knife reziduale.<br />

pogledati [16, p. 1879].<br />

Za vi²e detalja o ovim terminolo²kim zakljo£icama


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 18<br />

. predict lev, leverage<br />

. list gisk prom posj lev if lev>(2*3+2)/50<br />

gisk prom posj lev<br />

17. 21 5 3 .1869939<br />

21. 25 5 3 .1826717<br />

48. 10 .5 4 .1969223<br />

Output 1.2<br />

Unutar outputa 1.2 su prikazane tri opservacije (17, 21 i 48) koje imaju<br />

leverage > 0,16.<br />

1.1.5.4 Analiza veli£ine uticaja netipi£nih opservacija na model<br />

Do sada smo identikovali nekoliko opservacija koje imaju visoke reziduale<br />

i leverage. Postavlja se pitanje koliko one zaista uti£u na regresioni model?<br />

Da li je njihov uticaj neznatan ili je dovoljno velik da zahtjeva korektivne<br />

akcije? Uticaj opservacije na model bilo bi najbolje procijeniti simultano,<br />

istovremeno gledaju¢i koliko je data opservacija netipi£na i kao outlier i kao<br />

leverage ta£ka. Zbog toga, da bi dobili odgovor na pitanje koliki i kakav<br />

uticaj na model imaju opservacije sa netipi£nim vrijednostima, posluºi¢emo<br />

se sa nekoliko razli£itih pokazatelja koji u sebi kombinuju ove uticaje.<br />

Cook's distance (D) je kompozitna mjera koja pokazuje veli£inu uticaja<br />

pojedina£ne opservacije na agregatnu promjenu estimiranih koecijenata<br />

kada se opservacija isklju£i iz modela. Kaºemo da je to kompozitna<br />

mjera jer skre¢e paºnju na opservacije koje uti£u na model kao reziduali,<br />

leverage ta£ke ili oboje. Postoje razli£ita mi²ljenja o tome koje vrijednosti<br />

ovog pokazatelja su uzimaju kao potencijalno problemati£ne. Neki smatraju<br />

da je potrebno ispitati sve opservacije koje imaju D i > 4 /n, gdje je n = broj<br />

opservacija [16, p. 1881]. S druge strane, postoji jednostavno pravilo koje<br />

kaºe da su problemati£ne samo one opservacije koje imaju D i > 1 [7].


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 19<br />

. predict d, cooksd<br />

. list gisk prom posj d if d>4/50<br />

gisk prom posj d<br />

16. 22 4 4 .0928654<br />

48. 10 .5 4 .1843889<br />

Output 1.3<br />

Prema prvom kriteriju opservacije broj 16 i 48 su potencijalno problemati£ne,<br />

²to vidimo na outputu 1.3. Mežutim, prema alternativnom kriteriju<br />

D i > 1 niti jedna opservacija ne predstavlja problem.<br />

Dfbeta pokazuje promjenu vrijednosti koecijenta kada je opservacija<br />

uklju£ena u model i kada nije. Izra£unava se za svaku varijablu posebno.<br />

Poºeljno je provjeriti sve opservacije koje imaju standardizovani |dfbeta i | ><br />

2/ √ n, gdje je n = broj opservacija u uzorku. U na²em primjeru to bi zna£ilo<br />

|dfbeta i | > 2 / √ 50 > 0, 283.<br />

I ovdje postoji alternativno pravilo koje kaºe da su problemati£ne one<br />

opservacije koje imaju |dfbeta i | > 1. Drugim rije£ima, one opservacije koje<br />

pomijeraju estimirani koecijent minimalno za 1 standardnu gre²ku.<br />

. dfbeta<br />

_dfbeta_1: dfbeta(gisk)<br />

_dfbeta_2: dfbeta(prom)<br />

_dfbeta_3: dfbeta(posj)<br />

. list gisk prom posj _dfbeta_1 _dfbeta_2 _dfbeta_3 if abs(_dfbeta_1)>2/sqrt(50<br />

> ) | abs(_dfbeta_2)>2/sqrt(50) | abs(_dfbeta_3)>2/sqrt(50)<br />

gisk prom posj _dfbeta_1 _dfbeta_2 _dfbeta_3<br />

1. 12 1 5 .0865975 -.344272 -.0088758<br />

3. 19 2 5 -.3094202 .3119982 -.1024393<br />

12. 14 5 5 .1211632 -.2908617 -.0254808<br />

27. 7 4 5 -.3025258 .2957777 -.0470022<br />

39. 14 3 6 -.0751978 -.0379395 -.2830282<br />

48. 10 .5 4 -.0261169 -.7008276 -.4186615<br />

Output 1.4<br />

Na outputu 1.4 se nalazi prikaz uticaja razli£itih opservacija na vrijednosti


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 20<br />

koecijenta sve tri nezavisne varijable. Vidimo da na koecijent nezavisne<br />

varijable gisk (godina iskustva) najve¢i uticaj ispoljavaju opservacije 3 i 27.<br />

Koecijent varijable prom (budºet za unapreženje prodaje) je pod uticajem<br />

opservacija 1, 3, 12, 27 i 48. Kona£no, koecijent nezavisne varijable posj<br />

(broj posjeta) je jedino pod uticajem opservacije 48. Mežutim, ova opservacija<br />

sa dfbeta 48 = −0, 70 za varijablu prom (budºet za unapreženje prodaje)<br />

i dfbeta 48 = −0, 42 za varijablu posj (broj posjeta) ima najve¢i uticaj.<br />

1.<br />

Ponovo, prema drugom kriteriju, niti jedna opservacija nema |dfbeta i | ><br />

Dt pokazuje razliku izmežu predvižene vrijednosti kada je opservacija<br />

uklju£ena u model i kada nije. Izra£unava se za svaku varijablu posebno.<br />

Poºeljno je provjeriti sve opservacije koje imaju |dfit i | > 2 × √ k/n, gdje je<br />

k broj varijabli prediktora (uklju£uju¢i i konstantu), a n broj opservacija u<br />

uzorku. Za model 1.10 to su opservacije sa |dfit i | > 2 × √ 4/50 > 0, 56.<br />

. predict dfit, dfits<br />

. list gisk prom posj dfit if abs(dfit)>2*sqrt(4/50)<br />

gisk prom posj dfit<br />

16. 22 4 4 -.6399702<br />

48. 10 .5 4 .8786362<br />

Output 1.5<br />

Sa outputa 1.5 vidimo da dvije opservacije (16 i 48) imaju |dfit i | > 0,56.<br />

1.1.5.5 Strategija detekcije netipi£nih opservacija<br />

Obzirom da Cook's Distance pomaºe da identikujemo potencijalno problemati£ne<br />

opservacije, jedna od mogu¢ih strategija analize netipi£nih vrijednosti<br />

bi se sastojala od tri koraka. Prvo, izra£unati Cook's D kako bi utvrdile<br />

opservacije koje potencijalno imaju znatan uticaj na model. Drugo, utvrditi<br />

prirodu tako identikovanih opservacija u pogledu toga da li se primarno<br />

radi o outlierima, leverage ta£kama ili njihovoj kombinaciji. Za tu namjenu<br />

moºemo se koristiti analizom reziduala i leverage vrijednosti, te vizuelnom<br />

inspekcijom parcijalnih regresionih dijagrama. Tre¢e, u situaciji kada smo sigurni<br />

da identikovane opservacije znatno naru²avaju zaklju£ke i predvižanje


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 21<br />

uz pomo¢ modela donijeti odluku o korektivnim akcijama.<br />

Vidjeli smo da pored Cook's D postoje i drugi kompozitni pokazatelji koji<br />

se upotrebljavaju za procjenu veli£ine uticaja netipi£nih opservacija na model<br />

od kojih smo pomenuli dfbeta i dt. Ukoliko je uražena temeljita analiza<br />

reziduala, leverage ta£aka i Cook's distanci, ovi dodatni pokazatelji ne¢e re¢i<br />

mnogo novog. Ipak, kako analizi uticaja netipi£nih opservacija pristupaju sa<br />

razli£itog aspekta u nekim situacijama se mogu pokazati korisnim. Ako se<br />

ukaºe potreba, moºemo ih iskoristiti kao dodatni vid dijagnostike.<br />

1.1.5.6 Rje²avanje problema netipi£nih opservacija<br />

Nakon ²to identikujemo netipi£ne vrijednosti potrebno je ispitati za²to se<br />

one javljaju. Neki od mogu¢ih uzroka koji rezultiraju sa pojavom ve¢eg broja<br />

netipi£nih vrijednosti su:<br />

• Gre²ke pri unosu podataka. Mogu¢e je da su prilikom unosa podataka<br />

pogre²no otipkane neke vrijednosti. Na primjer, umjesto broja 5 je gre-<br />

²kom otkucano 55. Ovakvi tiupfeleri su relativno £esti pa je potrebno<br />

voditi ra£una o logi£koj provjeri unesenih podataka.<br />

• U model nismo uklju£ili bitan prediktor. U tom slu£aju trebamo identikovati<br />

koji je to prediktor, uklju£iti ga u model i ponoviti analizu.<br />

• Naru²ena je neka od ostalih regresionih pretpostavki. Mogu¢e rje²enje<br />

problema je respecikacija modela kori²tenjem transformacija ili<br />

interakcija.<br />

Ukoliko netipi£ne vrijednosti zaista predstavljaju opservacije koje su znatno<br />

druga£ije od ve¢ine ostalih opservacija iz uzorka, mogu¢a su dva pristupa.<br />

Prvo, za estimaciju parametara modela moºemo upotrijebiti tzv. robustnu<br />

regresiju. To je tehnika estimacije razvijena kako bi se ublaºili problemi<br />

do kojih dolazi ako su u uzorku prisutne opservacije sa netipi£nim vrijednostima.<br />

Drugi pristup je da se uradi odvojena analiza kako bi vidjeli koliko se<br />

mijenjaju parametri modela ako isklju£imo problemati£ne opservacije. Ovdje<br />

je potrebno napomenuti da bez jakog teoretskog upori²ta i obrazloºenja<br />

nikada ne smijemo brisati netipi£ne vrijednosti samo da bi unaprijedili reprezentativnost<br />

modela (pove¢ali R 2 ) ili ostvarili neku drugu poºeljnu promjenu<br />

(npr. postigli da koecijent za neku varijablu postane signikantan). ƒak i<br />

ako imamo obrazloºenje, neophodno je prezentovati rezultate analize sa i bez<br />

netipi£nih vrijednosti. Generalno se moºemo osloniti na pravilo da ukoliko je


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 22<br />

Cook's D i < 1 nema stvarne potrebe za brisanje opservacije jer njen efekat<br />

na regresioni model nije veliki [7, p. 219].<br />

U na²em primjeru, na osnovu svega do sada uraženog, moºemo vidjeti<br />

da potencijalno najve¢i uticaj na model 1.10 mogu imati opservacije broj<br />

16 i 48. Njihove netipi£ne vrijednosti nisu rezultat gre²ke i one jednostavno<br />

predstavljaju komercijaliste koji su znatno druga£iji od ve¢ine ostalih kolega<br />

iz uzorka. Kako opservacija 16 ima rezidual manji od 2,58, a obje opservacije<br />

imaju Cook's D u apsolutnom iznosu daleko ispod 1, moºemo zaklju£iti da<br />

njihov efekat na regresioni model nije veliki i da nema potrebe za njihovim<br />

brisanjem iz uzorka.<br />

Ipak, ilustracije radi, uradili smo dvije odvojene analize kako bi uporedili<br />

parametre modela sa i bez ovih opservacija u uzorku.<br />

. quietly reg prod gisk prom posj<br />

. estimates store analiza1<br />

. quietly reg prod gisk prom posj if id!=16 & id!=48<br />

. estimates store analiza2<br />

. estimates table analiza1 analiza2, stats(r2) star<br />

Variable analiza1 analiza2<br />

gisk .35197263*** .36888132***<br />

prom 2.2347135*** 2.6274818***<br />

posj 1.4501431** 1.5615308**<br />

_cons -1.7128277 -3.6156904<br />

r2 .65117545 .70720128<br />

legend: * p


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 23<br />

1.1.6 Vrijednosti nezavisne varijable x su ksne<br />

Ova pretpostavka zna£i da vrijednosti x nemaju slu£ajni karakter ve¢ da su<br />

unaprijed poznate. Na primjer, zamislimo da trgovac ºeli utvrditi kako cijena<br />

uti£e na broj prodatih komada nekog proizvoda u jednoj prodavnici. Trgovac<br />

moºe organizovati eksperiment. U prvoj sedmici ¢e odrediti jednu cijenu i<br />

zabiljeºiti ostvarenu prodaju. Naredne sedmice ¢e promijeniti cijenu, a zatim<br />

ponovo zabiljeºiti prodaju u toj sedmici. U opisanom eksperimentu, vlasnik<br />

prodavnice unaprijed zna cijenu jer ju je ksirao na dvije vrijednosti od kojih<br />

svaka odgovara datoj sedmici. Kaºemo da je cijena nezavisna varijabla x i<br />

da je ksna, tj. da njena visina ne varira slu£ajno ve¢ je unaprijed poznata<br />

i odrežena zbog samog eksperimenta.<br />

Mežutim, u ekonomiji i biznisu istraºiva£ £esto raspolaºe podacima koji<br />

nisu prikupljani eksperimentom. Samim tim y i x su slu£ajne varijable, tj.<br />

njihove vrijednosti nisu poznate unaprijed, prije samog prikupljanja i mjerenja.<br />

Ukoliko zanemarimo ovu £injenicu i tretiramo vrijednosti prediktora<br />

x kao unaprijed poznate, to ne¢e promijeniti dobijene rezultate. Zato se ova<br />

pretpostavka relaksira i kaºe se da su dobijene vrijednosti nezavisne varijable<br />

realizacija slu£ajne varijable x koja je nezavisna od iznosa gre²aka ε. U tom<br />

slu£aju se zaklju£ivanje izvodi uslovno, obzirom na opaºene vrijednosti x.<br />

Relaksiranje pretpostavke ima jo² jednu prednost koja se ogleda u pojednostavljenju<br />

matematske notacije. Obzirom da x vi²e ne tretiramo kao<br />

slu£ajnu varijablu, ne trebamo koristiti ni uslovnu notaciju |. Zbog toga<br />

se npr, umjesto E(y|x) pi²e jednostavno E(y), umjesto E(ε|x), pi²e se samo<br />

E(ε) itd.<br />

1.2 Pretpostavke koje se odnose na pravilnu speci-<br />

kaciju modela<br />

Model je pravilno speciciran ukoliko regresiona jedna£ina predstavlja dobru<br />

aproksimaciju stvarne pojave. Dobra teoretska podloga i precizno razumjevanje<br />

onoga ²ta model zaista predstavlja su klju£ni za pravilnu specikaciju<br />

modela. Pretpostavke iz ove grupe primarno se odnose na: a) nepostojanje<br />

endogenosti, b) linearnost i c) nepostojanje multikolinearnosti.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 24<br />

1.2.1 Nepostojanje endogenosti<br />

Matematski gledano, pretpostavka o endogenosti zna£i da ni jedna nezavisna<br />

varijabla nije u korelaciji sa slu£ajnom gre²kom ε, pa je za svako i:<br />

cov(x i , ε) = 0 (1.1)<br />

Prisjetimo se da se slu£ajna gre²ka odnosi na razliku izmežu opservirane<br />

vrijednosti zavisne varijable i vrijednosti predvižene regresionom linijom za<br />

populaciju. Obzirom da je regresiona linija za populaciju nepoznata, pretpostavka<br />

se procjenjuje prvenstveno na bazi teorije i te²ko ju je statisti£ki<br />

testirati 2 . Ukoliko je ova pretpostavka naru²ena, kaºemo da postoji endogenost.<br />

1.2.1.1 Efekti endogenosti<br />

Endogenost moºe dovesti do ozbiljnih gre²aka pri tuma£enju rezultata regresione<br />

analize obzirom da ¢e procijenjeni parametri regresionog modela biti<br />

pristrasni. Posmatrano sa prakti£nog aspekta, pristrasnost zbog naru²avanja<br />

ove pretpostavke se javlja u tri situacije:<br />

1. Pristrasnost zbog izostavljene varijable (engl. ommited-variable<br />

bias) imamo kada je nezavisna varijabla x u korelaciji sa neopserviranim<br />

faktorom z (engl. confounding variable) koji se nalazi izvan regresionog<br />

modela. Obzirom da z uti£e na x koji korelira sa slu£ajnom<br />

gre²kom, proizilazi da neopservirana varijabla z pored toga ²to dejluje<br />

na prediktor x istovremeno djeluje i na zavisnu varijablu y. Ukoliko<br />

smo propustili da z uklju£imo u model i kontroli²emo njegov uticaj,<br />

OLS estimator ¢e bti pristrasan i nekonzistenatan jer ne moºemo izolovati<br />

stvarni uticaj prediktora od uticaja izostavljene varijable. Na<br />

primjer, ukoliko postoji pozitivna korelacija izmežu z, x i y, procijenjeni<br />

regresioni koecijenti ¢e biti ve¢i od stvarnih.<br />

2. Pristrasnost zbog gre²ke u mjerenju (engl. measurement error bias).<br />

Ukoliko je instrument za mjerenje vrijednosti varijabli neprecizan, onda<br />

¢e same izmjerene vrijednosti, pored onog ²to nas interesuje, sadrºavati<br />

i uticaj drugih faktora.<br />

2 Izmežu nezavisnih varijabli i reziduala nikada ne¢e postojati korelacija pa uslov da je<br />

cov(x, e) = 0 nije validan test za ovu pretpostavku [8].


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 25<br />

3. Simultana pristrasnost (engl. simultaneity bias) odnosi se na problem<br />

dvosmjernog uticaja koji imamo u situaciji kada x djeluje na y,<br />

ali istovremeno y djeluje na x. Na primjer, ve¢e izdvajanje u budºet za<br />

ogla²avanje uti£e na prodaju, ali istovremeno ve¢i obim prodaje uti£e<br />

na to da vi²e sredstava moºemo izdvojiti za ogla²avanje. Obzirom da<br />

postoji recipro£na kauzalnost, slu£ajne gre²ke ¢e korelirati sa prediktorom<br />

i bi¢e te²ko izlovati stvarni efekt varijable preditkora 3 .<br />

1.2.1.2 Rje²avanje problema endogenosti<br />

Obzirom da je prisustvo endogenosti te²ko ispitati statisti£ki, velika paºnja<br />

se pridaje pravilnoj specikaciji modela. Pri tome moramo voditi ra£una da<br />

varijable od interesa izmjerimo ²to je preciznije mogu¢e i da iz modela ne<br />

izostavimo neku bitnu varijablu. U slu£aju prisustva recipro£ne kauzalnosti<br />

postoje metode za procjenu parametara nerekurzivnih modela kao ²to je<br />

Two-Stage Least Squares (2SLS) regresija.<br />

1.2.2 Linearnost<br />

Iako moºda ne £ini tako na prvi pogled, mnoge pojave iz stvarnog svijeta se<br />

matematski mogu modelirati putam linearne funkcije predstavljene jedna£inom<br />

1.9. Linearnost dakle podrazumjeva da funkcionalna veza koja postoji<br />

izmežu nezavisnih varijabli i zavisne varijable ima linearni karakter.<br />

1.2.2.1 Ispitivanje pretpostavke o linearnosti<br />

U slu£aju proste regresije dovoljno je nacrtati dijagram rasipanja izmežu x<br />

i y kako bi ocijenili da li je prava linija dobra aproksimacija veze izmežu<br />

zavisne varijable i prediktora.<br />

Ova pretpostavka se teºe provjerava kod vi²estruke regresije. Alat koji<br />

se unutar State naj£e²¢e koristi za ispitivanje pretpostavke o nelinarnosti su<br />

tzv. acprplot dijagrami (²to je skra¢enica od engl. augmented componentplus-residual<br />

plots). Ovi dijagrami su sli£ni ranije pomenutim parcijalnim<br />

regresionim dijagramima jer omogu¢avaju projektovanja vi²edimenzionalnih<br />

3 Procjenjeni regresioni parametri ¢e biti pristrasni a testovi signikantnosti nepouzdani.<br />

Modeli u kojima zavisna varijabla djeluje na nezavisne varijable nazivaju se nerekurzivnim<br />

modelima (engl. non-recursive models).


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 26<br />

podataka unutar dvodimenzionalnog prostora. Mežutim, za razliku od parcijalnih<br />

dijagrama koji su pogodan alat za identikovnje outliera, acprplot<br />

dijagrami su bolji alat za ispitivanje prirode funkcionalne veze. Ono ²to pomo¢u<br />

njih poku²avamo utvrditi jeste koliko regresiona linija, £iji nagib je<br />

jednak procjenjenom regresionom koecijentu za datu varijablu prediktor,<br />

dobro opisuje podatke.<br />

Kako bi se olak²ala detekcija odstupanja od regresionog pravca, na dijagram<br />

se obi£no dodaje i tzv. kriva lokalno aproksimiraju¢e regresije<br />

(skra¢eno od engl. locally weighted scatterplot smoothing ili lowess smooth<br />

curve). Obja²njavanje lokalno aproksimiraju¢e regresije prelazi okvire<br />

ovog teksta pa ¢emo samo re¢i da je rije£ o tehnici prilagožavanja nekog od<br />

neparametarskih regresionih modela pomo¢u lokalno ponderisane regresije.<br />

Uglavnom, rezultiraju¢a lowess kriva je korisna za isticanje trenda unutar<br />

nesreženih podataka i olak²ava nam uo£avanje nelinearnosti.<br />

Da bi dobili acprplot dijagrame za model 1.10 iskoristi¢emo sljede¢i set<br />

naredbi unutar State:<br />

acprplot gisk, lowess mlabel(id) name(graph1) nodraw<br />

acprplot prom, lowess mlabel(id) name(graph2) nodraw<br />

acprplot posj, lowess mlabel(id) name(graph3) nodraw<br />

graph combine graph1 graph2 graph3, cols(2) title(acprplots)


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 27<br />

Slika 1.4<br />

Moºemo uo£iti da na slici 1.4 podaci za varijablu prom (tro²kovi za unapreženje<br />

prodaje) u lijevom dijelu iskazuje nelinearan trend. Ovo je vjerovatno<br />

posljedica pozicije opservacija broj 1 i 48. Ipak, obzirom na veli£inu<br />

uzorka smatramo da se ukupni obrazac podataka u dovoljnoj mjeri moºe<br />

aproksimirati pravom linijom.<br />

Postoji jo² jedan na£in vizuelnog ispitivanja pretpostavke o linearnosti.<br />

Naime, u nekim softverskim paketima nije mogu¢e dobiti acprplot dijagrame<br />

pa se umjesto njih mogu koristiti dijagrami rasipanja nestandardizovanih<br />

reziduala modela i vrijednosti nezavisnih varijabli 4 . Na dobijenim dijagramima,<br />

empirijske ta£ke ne bi trebale imati jasno izraºen nelinearni ²ablon<br />

4 Da bi za model iz na²eg primjera kreirali ove dijagrame, unutar State moºemo iskoristiti<br />

sljede¢i set naredbi:<br />

. predict r, resid<br />

. twoway (scatter r prom) (lowess r prom), name(graph1) nodraw<br />

. twoway (scatter r gisk) (lowess r gisk), name(graph2) nodraw<br />

. twoway (scatter r posj) (lowess r posj), name(graph3) nodraw<br />

. graph combine graph1 graph2 graph3, cols(2) title(Linearnost)


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 28<br />

rasipanja.<br />

1.2.2.2 Efekti naru²avanja linearnosti<br />

Manja odstupanja od linearnosti ne¢e imati ve¢i uticaj na procijenjene regresione<br />

parametre. U takvim slu£ajevima se smatra da je linearna veza<br />

jo² uvijek dobra aproksimacija stvarnosti. Mežutim, ukoliko postoje znatna<br />

nelinearna odstupanja, rezultati OLS regresione analize postaju nepouzdani<br />

jer ¢e uticaj varijabli prediktora biti podcijenjen. Generalno pravilo je da pri<br />

OLS estimaciji nelinarnost ne¢e predstavljati problem ukoliko je standardna<br />

devijacija zavisne varijable ve¢a od standardne devijacije reziduala [8, p. 92].<br />

1.2.2.3 Modeliranje nelinearne funkcionalne veze<br />

Ukoliko je pretpostavka o linearnosti naru²ena, mogu¢e je uraditi transformacije<br />

podataka ili za estimaciju koristiti neki od metoda neparametarske<br />

regresije (engl. Nonparametric regression).<br />

1.2.3 Nepostojanje multikolinearnosti<br />

Multikolinearnost se javlja ako izmežu dvije ili vi²e nezavisnih varijabli postoji<br />

znatna korelacija. Prisjetimo se da putem regresionog modela (jedna-<br />

£ina 1.9) poku²avamo utvrditi koliko zavisna varijabla reaguje na promjenu<br />

vrijednosti datog prediktora dok vrijednosti ostalih prediktora drºimo konstantnima.<br />

Ovo zna£i da ¢emo regresioni koecijent prediktora najbolje procijeniti<br />

ako unutar njega ostaje dovoljno varijacije nakon ²to smo kontrolisali<br />

ostale prediktore. Da bi ovo bilo jasnije, pretpostavimo da imamo dva prediktora<br />

x 1 i x 2 . Ako su ova dva prediktora mežusobno jako povezana, onda<br />

unutar x 1 ostaje malo varijabiliteta kada vrijednost x 2 drºimo konstantnom<br />

pa je mnogo teºe procijeniti koecijent b 1 (ili obrnuto). Ovakva situacija je<br />

prikazana na slici 1.5.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 29<br />

Slika 1.5<br />

Moºemo primjetiti da u slu£aju kada izmežu x 1 i x 2 postoji izuzetno visoka<br />

korelacija (r = 0, 9), nakon ²to kontroli²emo za x 2 , unutar x 1 ostaje<br />

samo mali dio jedinstvene varijanse. Ista situacija je i sa x 2 nakon ²to kontroli²emo<br />

za x 1 . U ovakvoj situaciji, regresioni model ¢e imati problem da<br />

utvrdi jedinstveni doprinos ovih varijabli promjeni zavisne varijable.<br />

1.2.3.1 Detektovanje multikolinearnosti<br />

Prilikom ispitivanja (ne)postojanja multikolinearnosti uvijek je poºeljno po¢i<br />

od korelacione matrice.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 30<br />

. pwcorr prod gisk prom posj, star(0.05)<br />

Output 1.7<br />

prod gisk prom posj<br />

prod 1.0000<br />

gisk 0.6156* 1.0000<br />

prom 0.6769* 0.4546* 1.0000<br />

posj -0.0077 -0.3977* -0.2037 1.0000<br />

Na outputu 1.7 je dat prikaz korelacija izmežu svih varijabli uklju£enih<br />

u model 1.10 iz na²eg primjera.<br />

Postoje razli£ita pravila o tome koji nivo korelacije izmežu prediktora<br />

je siguran u smislu da ne¢e dovesti do pojave prevelike multikolinearnosti.<br />

Naj£e²¢e se navodi da korelacije iznad 0,8 ili 0,9 mogu biti problemati£ne<br />

[7]. Neki istraºiva£i smatraju da £ak i korelacije ve¢e 0,7 mogu uzrokovati<br />

probleme [14].<br />

U na²em slu£aju, output pokazuje da nema ni jedne korelacije izmežu<br />

prediktora koja bi bila ve¢a od r > 0, 7. Statisti£ki signikantna korelacija<br />

(r = 0, 45) postoji izmežu prediktora gisk (godine iskustva) i prom (budºet<br />

za unapreženje prodaje). Takožer, signikantna korelacija (r = −0, 40) se<br />

javlja izmežu prediktora gisk (godine iskoustva) i posj (broj posjeta). Ovo<br />

reektuje £injenicu da stariji komercijalisti, u prosjeku gledano, dobijaju ve¢i<br />

budºet za unapreženje prodaje, kao i da manje izlaze na teren.<br />

Pored inspekcije korelacione matrice, za otkrivanje prisustva multikolinearnosti<br />

koriste se mežusobno povezani pokazatelji VIF (skra¢eno od engl.<br />

Variance Ination Ratio) i njegova recipro£na vrijednost tolerance ( 1 /V IF).<br />

Naime, sa porastom korelacije prediktora x k sa ostalim varijablama prediktorima<br />

dolazi do inacije njegove varijanse pa je VIF pokazatelj kojim se<br />

mjeri koliko je napuhana varijansa datog regresionog koecijenata b k u<br />

odnosu na situaciju kada izmežu njega i ostalih nezavisnih varijable nema<br />

korelacije. Na primjer, ako je VIF za jednu varijablu jednak 9, to zna£i da<br />

je standardna gre²ka regresionog koecijenta te varijable tri puta ve¢a nego<br />

u slu£aju kada je njen VIF jednak 1. Shodno tome, da bi bio statisti£ki<br />

signikantan njen koecijent bi trebao biti i 3 puta ve¢i.<br />

Generalno pravilo kaºe da VIF vrijednosti ve¢e od 10 za dati prediktor<br />

ukazuju na prisustvo prevelike multikolinearnosti, dok su vrijednosti ve¢e od<br />

5 razlog za zabrinutost. Obzirom da je tolerance recipro£na vrijednost od


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 31<br />

VIF, onda vrijednosti ovog pokazatelja ne bi trebale biti manje od 1 /V IF =<br />

1/10 = 0, 1, odnosno vrijednosti manje od 1 /V IF = 1 /5 = 0, 2 ukazuju na<br />

potencijalno visoku multikolinarnost. Takožer, prosje£na vrijednost VIF za<br />

sve varijable ne bi trebala biti znatno ve¢a od 1.<br />

Da bi smo unutar State dobili ove pokazatelje za model 1.10 posluºi¢emo<br />

se naredbom vif.<br />

. vif<br />

Variable VIF 1/VIF<br />

gisk 1.44 0.696220<br />

prom 1.26 0.792744<br />

posj 1.19 0.841148<br />

Mean VIF 1.30<br />

Output 1.8<br />

Output 1.8 pokazuje da su u na²em primjeru sve pojedina£ne vrijednosti<br />

VIF znatno ispod 10. 5 Istovremneo, prosje£ni VIF nije mnogo ve¢i od 1,<br />

tako da sa sigurno²¢u moºemo zaklju£iti kako nema multikorelacije unutar<br />

na²ih podataka.<br />

1.2.3.2 Efekti multikolinearnosti<br />

Previsoka multikolinearnost vodi ka nestabilnosti regresionog modela obzirom<br />

da je zbog visokog postotka zajedni£ke varijanse izmežu varijabli smanjena<br />

mogu¢nost predvižanja vrijednosti zavisne varijable kao i mogu¢nost<br />

da se ustanovi relativna uloga nezavisnih varijabli [10, p. 228]. Pored ovoga,<br />

multikolinearnost moºe uticati na to da regresioni koecijenati budu pogre²no<br />

procijenjeni pa £ak i da promijene predznak. Neo£ekivane promjene<br />

u veli£ini ili predznaku koecijenata su jedan od simptoma multikolinearnosti.<br />

Posebno veliki uticaj multikolineranost ima na testiranje signikantnosti<br />

regresionih koecijenata. U slu£aju prisustva znatne multikolinearnosti te²ko<br />

je procijeniti jedinstveni uticaj prediktora pa dolazi do inacije standardnih<br />

gre²ki. ƒak se moºe desiti da niti jedan koecijent unutar modela ne bude<br />

signikantan a da istovremeno imamo visok R 2 . Ovakva situacija je tipi£an<br />

5 Shodno tome i sve vrijednosti za tolerance su ve¢e od 0, 2.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 32<br />

simptom multikolinearnosti. Problemi vezani za multikolinearnot su posebno<br />

izraºeni ako imamo mali uzorak.<br />

1.2.3.3 Rje²avanje problema multikolinearnosti?<br />

Postoji nekoliko razli£itih pristupa putem kojih se moºe adresirati problem<br />

multikolineranosti. Ni jedan pristup ne predstavlja savr²eno rje²enje a izbor<br />

najprikladnijeg zavisi¢e od razumjevanja konteksta problema za koji koristimo<br />

regresioni model. Naj£e²¢i pristupi su:<br />

1. Kombinovanje prediktora koji visoko koreliraju u novu varijablu. Na<br />

primjer, pretpostavimo da kompanija prodaje proizvode putem dva<br />

distributivna kanala u kojima zbog razli£ite strukture tro²kova zara-<br />

£unava razli£ite cijene. Sasvim je o£ekivano da ¢e cijene proizvoda u<br />

kanalu 1 i 2 mežusobno visoko korelirati. Umjesto da u regresionoj<br />

analizi koristimo dvije nezavisne varijable za cijene u razli£itim kanalima,<br />

moºemo izra£unati prosje£nu cijenu. Kombinovanje dva ili vi²e<br />

prediktora u novu varijablu ima smisla ukoliko su oni mjereni na istoj<br />

mjernoj skali.<br />

Takožer, ako koristimo vi²e varijabli da bi izmjerili neki konstrukt<br />

(npr. nekoliko Likertovih skala kojima mjerimo kvalitet usluge), po-<br />

ºeljno primjeniti faktorsku analizu kako bi te varijable kombinovali u<br />

jednu varijablu koja ¢e predstavljati dati konstrukt u regresionom modelu.<br />

2. Prikupiti dodatne podatke kako bi se pove¢ala veli£ina uzorka. Postoji<br />

vjerovatno¢a da ¢e dodatni podaci bar donekle razblaºiti korelaciju<br />

izmežu prediktora ili smanjiti standardne gre²ke regresionih koecijenata.<br />

3. Izbaciti varijablu koja ima visok stepen korelacije sa drugim prediktorima.<br />

Ovo je legitimna radnja ukoliko dvije varijable mjere istu pojavu<br />

na vrlo sli£an na£in. U suprotnom, potrebno biti oprezan. Ako postoji<br />

jako teoretsko upori²te da varijabla bude u modelu, njeno izbacivanje<br />

moºe voditi do gre²ke specikacije (engl. specication error).<br />

4. Parametre modela moºemo procijeniti primjenom posebnih metoda<br />

koje su pogodnije za estimaciju u slu£aju prisustva multikolinearnosti.<br />

Najpoznatije metode iz ove grupe su: a) Ridge regresija (engl. Ridge<br />

regression) koja vje²ta£ki smanjuje nivo korelacije mežu varijablama


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 33<br />

da bi se dobile stabilnije procjene i b) Regresija osnovnih komponenata<br />

(engl. Principal component regression), koja predstavlja kombinaciju<br />

analize osnovnih komponenata (koja se prvo primenjuje u procesu stabilizacije<br />

modela) i metode najmanjih kvadrata (koja se primenjuje<br />

naknadno u cilju odreživanja vrijednosti regresionih koecijenata nezavisnih<br />

varijabli za koje je u primarnoj analizi utvrženo da su osnovne)<br />

[5].<br />

1.2.3.4 Multikolinearnost i efekat suzbijanja<br />

Ovdje ¢emo napraviti malu digresiju obzirom da korelaciona matrica sa outputa<br />

1.7 pokazuje jo² jednu zanimljivu £injenicu. Naime, prediktori gisk<br />

(godine iskustva) i prom (budºet za unapreženje prodaje) prili£no jako koreliraju<br />

sa zavisnom varijablom prod (obim prodaje). Mežutim, prediktor<br />

posj (broj posjeta) ne korelira sa zavisnom varijablom prom (budºet za unapreženje<br />

prodaje). Koecijent korelacije izmežu te dvije varijable je gotovo<br />

jednak nuli i nije statisti£ki signikantan. Ako bi kreirali prosti regresioni<br />

model dobili bi da je b 1 = −0.038 za varijablu posj (broja posjeta). Koecijent<br />

ne bi bio statisti£ki signikantan: t(50) = −0, 05, p = 0, 958. Koecijent<br />

determinacije bi iznosio: R 2 = 0, 00. Mežutim, kada se varijabla posj (broj<br />

posjeta) uklju£i u vi²estruki regresioni model (jedna£ina 1.10) procjenjeni<br />

koecijent bude znatno ve¢i od nule i statisti£ki signikantan (²to moºemo<br />

vidjeti sa outputa 1.6 i 1.8). Kako je to mogu¢e? Radi se o tzv. efektu<br />

suzbijanja (engl. suppression eect) 6 . Naime, obratimo paºnju da iako varijabla<br />

posj (broj posjeta) nije povezana sa zavisnom varijablom prod (obim<br />

prodaje), ona negativno korelira sa varijablom gisk (godine iskustva). Ve¢<br />

smo zaklju£ili da je to zbog toga ²to iskusniji komercijalisti manje idu na<br />

teren. Vjerovatno iz razloga ²to ve¢ imaju razvijenu mreºu distributera sa<br />

kojima su uhodali poslovnu saradnju pa nemaju potrebu da se sa tim klijentima<br />

£esto vižaju uºivo. Ako je ova pretpostavka ta£na, onda varijabla<br />

gisk (godine iskustva) ne djeluje samo na prodaju ve¢ i na varijablu posj<br />

(broj posjeta). U tom slu£aju varijabla posj (broj posjeta) unutar modela<br />

ima ulogu varijable supresora jer maskira stvarnu prirodu veze izmežu gisk<br />

(godina iskustva) i prod (obima prodaje). Moºe se re¢i da na isti na£in ove<br />

dvije varijbale maskiraju vezu izmežu posj (broja posjeta) i prod (obima<br />

prodaje).<br />

Izostavljanje varijable posj (broj posjeta) iz modela vodilo bi potcjenjiva-<br />

6 Od engl. glagola suppress ²to na na²em jeziku zna£i suzbiti.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 34<br />

nju efekta godina iskustva na prodaju. Za²to? Uklju£ivanje varijable supresora<br />

x 2 u regresioni model suzbija jedan dio neºeljene varijanse (engl. error<br />

variance) varijable prediktora x 1 . Samim tim x 1 postaje bolji prediktor ²to<br />

u kona£nici rezultira poja£avanjem veze izmežu x 1 i y. Ovo je prikazano na<br />

slici 1.6.<br />

Slika 1.6<br />

Na slici 1.6 je prikazan efekat tzv. klasi£ne supresije koji imamo kada<br />

ne postoji bivarijantna korelacija izmežu prediktora x 2 i zavisne varijable<br />

y. Postoje i druge vrste efekta supresije, a za vi²e detalja pogledati [9,<br />

17, 19, 11, 2, 10]. Ono ²to je bitno zapamtiti jeste to da varijable supresori<br />

pove¢avaju: a) prediktivnu validnost jedne ili vi²e drugih varijabli prediktora<br />

unutar modela i b) pove¢avaju ukupni R 2 , dok one same imaju slabu ili<br />

nikakvu bivarijantnu korelaciju sa zavisnom varijablom. Ovo je ilustrovano<br />

na sljede¢em outputu:


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 35<br />

. quietly reg prod gisk<br />

. estimates store model1<br />

. quietly reg prod gisk prom<br />

. estimates store model2<br />

. quietly reg prod gisk prom posj<br />

. estimates store model3<br />

. estimates table model1 model2 model3, stats(N r2 r2_a) star<br />

Variable model1 model2 model3<br />

gisk .43184719*** .27222467*** .35197263***<br />

prom 2.1973038*** 2.2347135***<br />

posj 1.4501431**<br />

_cons 10.665343*** 6.5917266*** -1.7128277<br />

Output 1.9<br />

N 50 50 50<br />

r2 .37892889 .57770217 .65117545<br />

r2_a .36598991 .55973205 .62842603<br />

legend: * p


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 36<br />

iskustva) i prom (budºet za unapreženje prodaje) ubacimo u model, one<br />

¢e objasniti znatan dio postoje¢e neºeljene varijanse unutar varijable posj<br />

(broj posjeta) i ona ¢e postati signikanta. Drugim rije£ima, uspje¢emo da<br />

detektujemo ranije maskirani efekat na relaciji posj (broj posjeta) → prod<br />

(ostvarena prodaja).<br />

Takožer, prisjetimo se da unutar vi²estruke regresije koecijente tuma-<br />

£imo uz ogradu kada ostale prediktore drºimo konstantnim, odnosno kada<br />

kontroli²emo za ostale prediktore (oba izraza imaju isto zna£enje). U na-<br />

²em slu£aju, koecijent za posj (broj posjeta) ¢e biti signikantan upravo<br />

ako ostale prediktore drºimo konstantnim. Ovo zna£i da ¢e prodava£i koji<br />

imaju isti nivo prodajnog iskustva u prosjeku ostvariti ve¢u prodaju ako<br />

£e²¢e posje¢uju klijente na terenu (²to je vidljivo na slici 1.4). Drugim rije-<br />

£ima, nakon ²to smo kontrolisali za godine iskustva moºemo vidjeti stvarni<br />

efekat koji broj posjeta ima na ostvarenu prodaju.<br />

1.3 Pretpostavke koje se odnose na svojstva distribucije<br />

reziduala<br />

Regresioni model opisan jedna£inama 1.1 i 1.9 po£iva na nekoliko pretpostavki<br />

koje opisuju distribuciju vjerovatno¢e reziduala. Pretpostavke o tome<br />

da bi reziduali trebali biti nezavisni, normalno distribuirani oko predviženih<br />

vrijednosti zavisne varijable sa prosje£nom vrijedno²¢u jednakom nuli i uz<br />

konstantnu varijansu σ 2 matematski se mogu izraziti jednim izrazom:<br />

e ∼ N(0, σ 2 ) (1.2)<br />

Ove pretpostavke moraju biti zadovoljene kako procjenjeni parametri modela<br />

ne bi bili pristrasni i kako bi testiranje njihove signikantnosti bilo<br />

validno. Osim pretpostavke o nezavisnosti, ostale pretpostavke su gra£ki<br />

predstavljene na slici 1.7.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 37<br />

Slika 1.7<br />

1.3.1 Nepostojanje heteroskedasti£nosti<br />

Obzirom da se y i e razlikuju samo za konstantu, njihova varijansa ¢e biti<br />

identi£na i jednaka, odnosno: V (e) = σ 2 za svaku vrijednost x. Drugim rije-<br />

£ima, varijansa reziduala oko predviženih vrijednosti zavisne varijable treba<br />

da je pribliºno jednaka za sve predvižene vrijednosti (slika 1.7). Gra£ki<br />

predstavljeno na slici 1.7 to bi zna£ilo da ¢e vertikalna raspr²enost reziduala<br />

oko regresione linije biti sli£na za svaku vrijednost x kako se kre¢emo s lijeva<br />

na desno. Ukoliko je ova pretpostavkla ta£na, kaºemo da postoji homoskedasti£nost<br />

(engl. homoscedasticity). U suprotnom, pojavljuje se problem<br />

heteroskedasti£nosti (engl. heteroskedasticity).<br />

Povezanost izmežu zavisne varijable i reziduala se moºe iskoristiti da<br />

konstrui²emo dijagram rasipanja na kojem su na y-osi predstavljene vrijednosti<br />

rezidula (e i ), a na x-osi predvižene vrijednosti zavisne varijable (ŷ i ).<br />

Na slici 1.8 su predstavljeni tipi£ni rezultati koje moºemo o£ekivati na takvom<br />

graku. Ukoliko je ispunjena pretpostavka o homoskedasti£nosti, ta£ke<br />

na dijagramu bi trebale biti ravnomjerno rasporežene oko nule bez ikakvog


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 38<br />

jasnog obrasca (prvi dijagram na slici 1.8). Kada su ta£ke ravnomjerno rasporežene<br />

ali jedna strana ima mnogo ve¢u raspr²enost onda nije ispunjena<br />

pretpostavka o normalnosti reziduala (drugi dijagram na slici 1.8). Ako ta£ke<br />

imaju bilo kakav oblik koji li£i na krivulju, postoji velika vjerovano¢a da je<br />

naru²ena pretpostavka o linearnosti (tre¢i dijagram na slici 1.8). Kada ta£ke<br />

formiraju sliku "lijevka", tj. da su na jednom kraju vi²e koncentrisane oko<br />

nule a na drugom nisu, onda imamo problem heteroskedasti£nosti (£etvrti<br />

dijagram na slici 1.8).<br />

Mogu¢e su i druge situacije, ali je bitno zapamtiti da sva znatnija odstupanja<br />

od situacije predstavljene na prvom dijagramu slike 1.8, a posebno<br />

pojava bilo kakvog jasnog oblika ili obrasca rasporeda ta£aka, ukazuju na<br />

potencijalni problem.<br />

Slika 1.8


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 39<br />

1.3.1.1 Uzroci heteroskedasti£nosti<br />

Kada je rije£ o heteroskedasti£nosti naj£e²¢a je situacija da imamo neku<br />

vrstu oblika lijevka. Na ²ta ukazuje takav raspored reziduala? Obrazac<br />

lijevka govori da varijansa reziduala raste kako rastu vrijednosti zavisne<br />

varijable. Postoje razli£iti razlozi zbog £ega se to de²ava.<br />

1. Reziduali mogu rasti (ili se smanjivati) kako raste (ili opada) vrijednost<br />

varijable prediktora. Na primjer, pretpostavimo istraºivanje u<br />

kojem se poku²ava utvrditi ²ta uti£e na prodajne performanse kompanije.<br />

Moglo bi se desiti da reziduali vezani za ve¢e rme imaju ve¢u<br />

varijansu u odnosu na rme manje veli£ine. To bi zna£ilo da je prodaja<br />

ve¢ih rmi podloºna ve¢im oscilacijama. U tom kontekstu model bi bio<br />

precizan za predvižanje prodaje manjih rmi, ali bi se sa porastom veli£ine<br />

rme pove¢avala nepreciznost.<br />

Sli£an primjer je vezan za mijenjanje obrazaca potro²nje do kojeg dolazi<br />

sa porastom diskrecionog dohotka. Kako dohodak raste, neki pojedinci<br />

²tede vi²e dok drugi imaju sklonost da odmah potro²e znatan dio dodatnih<br />

nov£anih sredstava. Samim tim, sa porastom dohodka raste<br />

i varijansa reziduala koja ne¢e biti ista za ljude sa manjim i ve¢im<br />

dohotkom.<br />

2. Kod longitudinalnih podataka, heteroskedasti£nost se moºe pojaviti<br />

kao rezultat usavr²avanja neke osobine tokom vremena. Na primjer,<br />

ako se tehnika prikupljanja podataka usavr²ava, kasnije gre²ke mjerenja<br />

¢e biti manje nego na po£etku. Ili, pretpostavimo, da testiramo<br />

sposobnosti prodava£a. Prodava£i tokom vremena u£e pa se shodno<br />

tome smanjuju gre²ke na testovima sposobnosti. Samim tim ¢e se tokom<br />

vremena smanjivati i varijansa reziduala.<br />

3. ƒest izvor heteroskedasti£nosti je upotreba agreriranih podataka dobijenih<br />

putem razli£itih anketa. Ukoliko ovakvi podaci nisu ponderisani<br />

na odgovaraju¢i na£in, pove¢ava se rizik da ¢e pretpostavka o konstantnoj<br />

varijansi biti naru²ena.<br />

4. Heteroskedasti£nost se moºe javiti i kao posljedica naru²avanja drugih<br />

regresionih pretpostavki. Na primjer, ako neki ispitanici mogu pruºiti<br />

preciznije odgovore u odnosu na druge ispitanike, varijansa reziduala<br />

¢e biti razli£ita zbog naru²avanja pretpostavke o preciznosti mjerenja.<br />

5. Heteroskedasti£nost se javlja i ako postoje subpopulacijske razlike (ili


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 40<br />

efekti interakcije). Na primjer, pretpostavimo da izmežu ºena i mu-<br />

²karaca postoji razlika u pogledu potro²nje nekog dobra. Ako u model<br />

nije uklju£ena varijablu spol koja bi inkorporirala te razlike, naru²ena<br />

je pretpostavka o pravilnoj specikaciji modela i varijansa reziduala ¢e<br />

biti razli£ita za mu²ke i ºenske ispitanike.<br />

6. Kad god vaºan prediktor nije uklju£en u model, to moºe dovesti do<br />

pojave heteroskedasti£nosti. U tom slu£aju ¢e reziduali korelirati sa<br />

eksternom varijablom koja nije u modelu. Na primjer, reziduali ¢e<br />

biti veliki (ili mali) kad god je vrijednost neuklju£ene varijable velika<br />

(odnosno mala).<br />

7. Nesimetri£na distribucija zavisne varijable i/ili varijabli prediktora je<br />

jo² jedan potencijalni izvor heteroskedasti£nosti.<br />

8. Pogre²na transformacija ili pogre²na specikacija funkcionalne forme.<br />

Na primjer, ako postoji nelinearni trend pa smo propustili da uz nezavisnu<br />

varijablu x u model ubacimo i njenu kvadriranu vrijednost x 2 .<br />

1.3.1.2 Detektovanje heteroskedasti£nosti<br />

Kako smo ve¢ obrazloºili, jedan od klju£nih na£ina za ispitivanje postojanja<br />

heteroskedasti£nosti je dijagram rasipanja rezidula i predvižene vrijednosti<br />

zavisne varijable. Da bi dobili takav dijagram za model 1.10 iz na²eg primjera,<br />

iskoristi¢emo rvfplot naredbu unutar State.<br />

rvfplot, yline(0)


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 41<br />

Slika 1.9<br />

Na dijagramu ne moºemo uo£iti da reziduali kreiraju bilo kakav sumnjiv<br />

oblik. Ta£ke su ravnomjerno raspr²ene oko nule pa zaklju£ujemo da je<br />

pretpostavka o homoskedasti£nosti ispunjena.<br />

Iako je vizulena inspekcija reziduala nezaobilazan alat, nekada ona sama<br />

nije dovoljna da donesemo kona£an sud o ispunjenju pretpostavke. Naime,<br />

kao i svaki drugi vizuelni metod, i ovaj je podloºan subjektivnosti istraºiva£a.<br />

Zbog toga se pored vizuelne inspekcije za ispitivanje pretpostavke koriste<br />

testovi za detektovanje heteroskedasti£nosti.<br />

Breusch-Pagan/Cook-Weisberg test je kreiran kako bi se detektovala<br />

bilo koja linearna forma heteroskedasti£nosti (kao ²to je ona na £etvrtom dijagramu<br />

slike 1.8). Nulta hipoteza ovog testa je da reziduali imaju homogenu<br />

varijansu. Alternativna hipoteza je da varijansa reziduala raste (ili opada)<br />

kako rastu (ili opadaju) predvižene vrijednosti zavisne varijable. Visoka hikvadrat<br />

vrijednost testa upu¢uje da je prisutna heteroskedasti£nost.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 42<br />

. estat hettest<br />

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity<br />

Ho: Constant variance<br />

Variables: fitted values of prod<br />

Output 1.10<br />

chi2(1) = 0.01<br />

Prob > chi2 = 0.9356<br />

Iz outputa 1.10 vidimo da je za model test visoko nesignikantan (p =<br />

0, 936), na osnovu £ega zaklju£ujemo da je pretpostavka o homogenoj varijansi<br />

ispunjena i da nema prisutne heteroskedasti£nosti.<br />

Kako smo prethodno rekli, Breusch-Pagan/Cook-Weisberg-ov test je dobar<br />

za detekciju linearnih formi heteroskedasti£nosti. Mežutim, ako reziduali<br />

nemaju normalnu distribuciju, ili ako su u pitanju neke druge forme<br />

heteroskedasti£nosti, bolje je koristiti White-ov op²ti test za heteroskedasti£nost.<br />

. estat imtest<br />

Cameron & Trivedi¡s decomposition of IM-test<br />

Source chi2 df p<br />

Heteroskedasticity 5.21 9 0.8159<br />

Skewness 1.12 3 0.7727<br />

Kurtosis 0.28 1 0.5960<br />

Total 6.61 13 0.9213<br />

Output 1.11<br />

Output 1.11 pokazuje da je i u ovom slu£aju test nesignikantan i da je<br />

ispunjena pretpostavka o homoskedasti£nosti.<br />

Za vi²e detalja o kalkulacijama koje stoje u pozadini ova dva testa pogledati<br />

[18].<br />

Vrlo je vaºno napomenuti da su navedeni testovi jako osjetljivi na naru-<br />

²avanje drugih regresionih pretpostavki, kao ²to je npr. pretpostavka normalnosti.<br />

Zbog toga je uobi£ajeno da se testovi kombinuju sa vizuelnom<br />

inspekcijom reziduala kako bi se procjenila ja£ina heteroskedasti£nosti i donijela<br />

odluka o tome da li su potrebne korektivne akcije.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 43<br />

1.3.1.3 Efekti heteroskedasti£nosti<br />

Heteroskedasti£nost ne uti£e na pristrasnost regresionih koecijenata. Glavna<br />

posljedica naru²avanja pretpostavke o homoskedasti£nosti je da OLS metod<br />

estimacije ne pruºa procjenu parametara uz najmanju varijansu (tj. nije<br />

ekasan). To dalje rezultira time da ¢e procjenjene standardne gre²ke biti<br />

neta£ne. Kako se testiranje signikantnosti regresionih koecijenata zasniva<br />

na veli£ini standardnih gre²aka, postoji vjerovatno¢a da ono bude neta£no.<br />

Zavisno od prirode heteroskedasti£nosti, standardne gre²ke mogu biti precijenjene<br />

ili podcijenjene.<br />

1.3.1.4 Rje²avanje problema heteroskedasti£nosti<br />

1. Respecikacija modela. Kako smo vidjeli iz prethodnog izlaganja, vrlo<br />

£est uzrok pojave heteroskedasti£nosti je pogre²na specikacija modela.<br />

Mogu¢e je da postoje razlike izmežu pojednih grupa, da je rije£ o nelinearnoj<br />

vezi, da varijable nemaju normalnu distribuciju ili da smo iz<br />

modela izostavili bitan prediktor. Identikovanje i adresiranje stvarnog<br />

uzroka pogre²ne specikacije ¢e rezultirati rje²enjem problema heteroskedasti£nosti.<br />

Naj£e²¢e se problem pogre²ne specikacije modela<br />

rje²ava putem dodavanja izostavljenog prediktora ili transformacijom<br />

postoje¢ih varijabli.<br />

2. Ukoliko je, uz najbolju mogu¢u specikaciju modela, heteroskedasti£nost<br />

i dalje prisutna, moºe se uraditi estimacija parametara uz kori²tenje<br />

robustnih standardnih gre²ki (engl. Robust standard errors<br />

ili White-corrected standard errors). Robustne standardne gre²ke se<br />

izra£unavaju na bazi korigovane matrice varijansi i kovarijansi (engl.<br />

variance-covariance matrix). Kori²tenje ove opcije ne¢e uticati na veli-<br />

£inu procjenjenih regresionih koecijenata i oni ¢e ostati isti. Mežutim,<br />

standardne gre²ke ¢e biti korigovane kako bi testiranje signikantnosti<br />

regresionih koecijenata bilo nepristrasno.<br />

3. Procjena parametara se moºe uraditi i primjenom metode ponderiranih<br />

najmanjih kvadrata (engl. Weighted Least Squares Regression - WLS).<br />

Ova metoda se koristi prvenstveno ukoliko nismo u mogu¢nosti identi-<br />

kovati eksternu varijablu koja korelira sa rezidualima ili ako smo tu<br />

varijablu propustili mjeriti a okolnosti ne dozvoljavaju naknadno prikupljanje<br />

dodatnih podataka. WLS regresija se upotrebljava i kad je


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 44<br />

potrebno ponderisati agrerirane podatake dobijene na bazi ankete. Za<br />

vi²e detalja o ovome pogledati [6].<br />

1.3.2 Nezavisnost i nepostojanje autokorelacije<br />

Reziduali su mežusobno nezavisni (engl. independent errors) i ne koreliraju<br />

(engl. no autocorrelation), pa je za svake dvije opservacije: cov(e i , e j ) =<br />

cov(y i , y j ) = 0.<br />

Stroºija verzija ove pretpostavke glasi da su reziduali statisti£ki nezavisni,<br />

u kojem slu£aju su i vrijednosti zavisne varijable takože mežusobno<br />

nezavisne. Pretpostavka o nezavisnosti ¢e biti naru²ena ukoliko su opservacije<br />

(ili mjerenja) na neki na£in mežusobno povezana. Naj£e²¢i slu£aj pri<br />

kojem se to de²ava je kada podaci imaju hijerarhijsku ili klaster strukturu.<br />

Na primjer, ako smo anketirali zaposlenike iz vi²e rmi postoji vjerovatno¢a<br />

da ¢e odgovori ispitanika iz iste rme biti mežusobno sli£ni. Kao posljedica<br />

toga, reziduali zaposlenih unutar iste rme ne¢e biti nezavisni. Ova pretpostavka<br />

moºe biti naru²ena i kada je pri istraºivanju kori²ten zavisni dizajn.<br />

Na primjer, ako je od ispitanika traºeno da popune isti upitnik prije i poslije<br />

eksperimentalne manipulacije, postoji vjerovatno¢a da ¢e odgovori iz upitnika<br />

biti mežusobno povezani. I tada imamo situaciju da reziduali ne¢e biti<br />

nezavisni.<br />

Pretpostavka o nepostojanju autokorelacije zna£i da reziduali vezani za<br />

sukcesivne opservacije e 1 , e 2 , e 3 . . . mežusobno ne bi trebali ni na koji na£in<br />

biti povezani jedni sa drugim. Drugim rije£ima, ako postoji trend na osnovu<br />

kojeg se moºe predvidjeti vrijednost bilo kojeg narednog reziduala u odnosu<br />

na prethodni kaºemo da postoji problem autokorelacije. Generalno gledano,<br />

postoje dvije situacije kada se javlja autokorelacija:<br />

Serijska autokorelacija (engl. serial autocorrelation) se javlja kada<br />

imamo podatke koji su prikupljani tokom vremenskog perioda. Zbog navedenog,<br />

ispitivanje ove pretpostavke je posebno zna£ajno za varijable koje<br />

se mjere longitudinalno. U takvim situacijama vrijednosti mnogih varijabli<br />

tokom vremena imaju tendenciju rasta (ili pada), pa ako znamo vrijednost<br />

opservacije u teku¢em periodu, vrlo lako moºemo procijeniti vrijednost prethodne<br />

opservacije. Serijska autokorelacija ¢e standardno biti ja£a za podatke<br />

koji su mežusobno vremenski blizu. Samim tim, i njihovi reziduali ¢e biti<br />

ja£e povezani.<br />

Ukoliko vrijednosti varijable u datom periodu koreliraju sa vrijednostima


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 45<br />

iste varijable koji se nalaze jedan period unazad tada se radi o tzv. serijskoj<br />

korelaciji sa vremenskim pomakom prvog reda (engl. rst-order serial correlation),<br />

gdje je corr(e t , e t−1 ) ≠ 0. Na primjer, ako smo mjerili ostvareni<br />

poslovni rezultat preduze¢a tokom niza godina, mogu¢e je da su reziduali<br />

za opservacije koje se nalaze u susjednim godinama mežusobno povezani. 7<br />

Na slici 1.10 je dat prikaz dvije mogu¢e situacije serijske autokorelacije prvog<br />

reda izmežu sukcesivnih opservacija (gornji red) i pripadaju¢ih reziduala<br />

(donji red).<br />

Slika 1.10<br />

Na lijevoj strani slike 1.10 vidimo kako izgleda tzv. pozitivna autokorelacija<br />

kod koje je corr(e t , e t−1 ) > 0. Moºemo primjetiti kako se na po£etku<br />

perioda opservirane vrijednosti nalaze koncentrisane iznad linije. Kako vrijeme<br />

proti£e, povezanost se nastavlja ali se mijenja trend koji u jednom<br />

7 Serijska korelacija izmežu rezidula se moºe javiti i u slu£ajevima vremenskih pomaka<br />

(engl. time lag) ve¢ih od jednog perioda, pa ¢emo imati da je corr(e t, e t−n) ≠ 0. Na<br />

primjer, ako su podaci prikupljani kvartalno mogu¢e je da ¢e podaci iz jesenjeg perioda<br />

jedne godine korelarati sa podacima iz jesenjeg perioda druge godine.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 46<br />

momentu pada ispod regresione linije. Na kraju perioda trend se ponovo<br />

postepeno vra¢a iznad linije.<br />

Na desnoj starni slike 1.10 je dat primjer tzv. negativne autokorelacije<br />

kod koje je corr(e t , e t−1 ) < 0. Ovdje imamo cik-cak povezanost gdje je<br />

opservirana vrijednost u jednom periodu iznad linije, da bi u narednom pala<br />

ispod linije, pa se vratila ponovo iznad itd.<br />

Prostorna autokorelacija (engl. spatial autocorrelation) se javlja kada<br />

na osnovu prostorne lokacije jedinice uzorkovanja moºemo procijeniti vrijednost<br />

susjednih jedinica. Za razliku od vremenske autokorelacije, gdje<br />

podaci koreliraju izmežu razli£itih vremenskih perioda, kod prostorne korelacije<br />

podaci korelaraju izmežu razli£itih (naj£e²¢e geografskih) lokacija.<br />

Autokorelacija ¢e standardno biti ja£a za podatke koji su prostorno bliºi.<br />

Na primjer, vrlo je vjerovatno da su cijene nekretnina u susjednim gradskim<br />

kvartovima sli£ne. Na slici 1.11 je dat primjer pozitivne i negativne prostorne<br />

autokorelacije.<br />

Slika 1.11<br />

1.3.2.1 Detektovanje autokorelacije<br />

Da bi ispitali pretpostavku o nezavisnosti gre²ki i odsustvu autokorelacije<br />

unutar State posluºi¢emo se sa dvije metode.<br />

Durbin-Watson (D-W) test je naj£e²¢i test kojim se ispituje postojanje<br />

serijske korelacije prvog reda izmežu reziduala regresionog modela.<br />

Mogu¢i raspon koecijenta dobijenog na testu se kre¢e od 0 do 4. Vrijednosti<br />

koje su blizu 0 indikuju ekstremnu pozitivnu autokorelaciju, dok vrijednosti<br />

koje su blizu 4 indikuju ekstremnu negativnu autokorelaciju. Ako je dobijeni


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 47<br />

rezultat blizu 2 to upu¢uje na odsustvo autokorelacije. Generalno, vrijednosti<br />

koecijenta unutar raspona od 1,5 do 2,5 se smatraju prihvatljivim za<br />

ispunjene pretpostavke.<br />

Da bi proveli D-W test potrebno je prvo naredbom tsset denisati varijablu<br />

koja se odnosi na vremenski slijed obi£no mjesec, godinu ili neki<br />

drugi period tokom kojeg su prikupljani podaci. Mežutim, u konkretnom<br />

slu£aju, nas prvenstveno interesuje da li je ispunjena pretpostavka o nezavisnosti<br />

reziduala. Kako se ne radi o longitudinalnim podacima nemamo ni<br />

varijablu koja se odnosi na vremenski slijed. Zbog toga ¢emo je supstituirati<br />

varijablom id kojom se identikuju opservacije unutar skupa podataka. 8 Cilj<br />

je da vidimo da li gre²ke sukcesivno prikupljenih opservacija mežusobno koreliraju.<br />

Nakon ²to smo denisali potrebnu varijablu, sam Durbin-Watson<br />

test pozivamo sa naredbom dwastat, kako je prikazano na outputu 1.12.<br />

. quietly regress prod gisk prom posj<br />

. tsset id<br />

time variable: id, 1 to 50<br />

delta: 1 unit<br />

. dwstat<br />

Durbin-Watson d-statistic( 4, 50) = 1.875395<br />

Output 1.12<br />

Output pokazuje da dobijeni koecijent d = 1, 87 ²to je vrlo blizu vrijednosti<br />

2. To upu¢uje na zaklju£ak da je pretpostavka o nezavisnosti gre²aka<br />

ispunjena.<br />

Drugi metod koji se koristi za ispitivanje pretpostavke je vizuelna inspekcija<br />

rezidula. U tu svrhu potrebno je kreirati dijagram rasipanja na kojem<br />

y-osa predstavlja reziduale (nestandardizovane ili standardizovane), a x-osa<br />

vremenski tok. Obzirom da u na²em slu£aju nemamo longitudinalne podatke<br />

na x-osu ¢emo staviti identikacioni broj opservacija prema redoslijedu prikupljanja<br />

podataka.<br />

. predict r, resid<br />

. scatter r id, yline(0)<br />

8 U slu£aju da u bazi ne postoji ovakva varijabla, moºemo generisti sa: gen id = _n.


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 48<br />

Slika 1.12<br />

Na slici 1.12 ne moºemo uo£iti bilo kakav obrazac rasporeda reziduala<br />

koji bi ukazivao na prisustvo autokorelacije.<br />

Ovdje je potrebno napomenuti da bi se vizuelna provjera pretpostavke<br />

o postajanju autokorelacije trebala raditi tek na kraju, ako su ostale pretpostavke<br />

ispunjene, a posebno pretpostavka o pravilnoj speciaciji modela.<br />

Naime, nekada je mogu¢e dobiti obrazac prikazan na lijevoj strani slike 1.10<br />

ne zbog autokorelacije ve¢ zato ²to je model pogre²no speciciran kao linearan,<br />

iako je u stvari rije£ o nelinearnoj vezi.<br />

1.3.2.2 Efekti autokorelacije<br />

Sli£no kao i u slu£aju prisustva heteroskedasti£nosti, prisustvo serijske korelacije<br />

¢e uticati na ekasnost OLS estimatora. U slu£aju pozitivne autokorelacije,<br />

standardne gre²ke regresionih koecijenata ¢e biti potcijenjene.<br />

OLS estimator ¢e se £initi preciznijim nego ²to zaista jeste pa ¢e i R 2 biti<br />

precijenjen. Nasuprot tome, u slu£aju prisustva negativne autokorelacije


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 49<br />

standardne gre²ke ¢e biti precijenjene, a R 2 ¢e biti manji nego ²to bi trebalo.<br />

U oba slu£aja, validnost testiranja hipoteza o signikantnosti regresionih koecijenata<br />

je upitna zbog potencijalne pristrasnosti prilikom procjene veli£ine<br />

standardnih gre²ki.<br />

1.3.2.3 Rje²avanje problema autokorelacije<br />

U cilju rje²avanja problema autokrelacije, za vremenske serije, kros-sekcione<br />

vremenske serije (panel podatke) i kada podaci imaju hijerarhijsku ili klaster<br />

strukturu postoje razli£ite metode estimacije parametara modela. Na primjer,<br />

mogu¢e je koristiti metode generalizovanih najmanjih kvadrata (engl.<br />

Generalized Least Squares - GLS) ili mulitlevel modele 9 .<br />

1.3.3 Normalnost<br />

Ova pretpostavka se odnosi na to da distribucija vjerovatno¢e reziduala za<br />

datu vrijednost x ima: a) normalan raspored (e ∼ N) i b) prosje£nu (o£ekivanu)<br />

vrijednost jednaku nuli E(e|x) = E(e) = 0.<br />

Ako reziduali imaju normalan raspored, to zna£i da su empirijske ta£ke<br />

ravnomjerno rasporežene oko regresione linije. Vjerovatno¢a da ¢e za datu<br />

vrijednost x empirijska ta£ka biti dalje od linije postepeno opada kako se<br />

vertikalno udaljavamo od linije. Na slici 1.7 je dat prikaz rasporeda empirijskih<br />

ta£aka za pet vrijednosti nezavisne varijable x. Za svaku od tih pet<br />

vrijednosti, ve¢ina reziduala je koncentrisana koko regresione linije. Ta£ke<br />

iznad linije imaju pozitvnu, dok ta£ke ispod linije imati negativnu vrijednost<br />

reziduala. Kada su empirijske ta£ke manje-vi²e ravnomjerno rasporežene oko<br />

regresione linije, pozitivne i negativne vrijednosti njihovih reziduala ¢e se u<br />

zbiru gledano poni²titi i njihova prosje£na vrijednost ¢e biti jednaka nuli.<br />

U principu to zna£i da su razlike izmežu vrijednosti predviženih modelom i<br />

opserviranih vrijednosti naj£e²¢e jednake nuli ili da su veoma blizu nuli, dok<br />

se vrijednosti zna£ajno ve¢e od nule javljaju samo kao posljedica slu£ajnosti<br />

[7].<br />

Ovdje je potrebno obratiti paºnju da se ova pretpostavka primarno odnosi<br />

na distribuciju reziduala, a ne na distribuciju vrijednosti zavisne ili nezavis-<br />

9 Uobi£ajeni nazivi za ovakave modele su jo²: mje²oviti linearni modeli (engl. linear<br />

mixed models), hijerarhijski modeli (engl. hierarchical linear models) i modeli slu£ajnih<br />

koecijenata (eng. random parameter models)


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 50<br />

nih varijabli. Mežutim, ukoliko zavisna ili neka od nezavisnih varijabli imaju<br />

jako nakrivljenu distribuciju to moºe rezultirati time da distribucija reziduala<br />

bude nakrivljena.<br />

1.3.3.1 Ispitivanje pretpostavke o normalnosti<br />

Uobi£ajeno je da ispitivanje ove pretpostavke po£nemo tako ²to ¢emo nacrtati<br />

dijagram distribucije frekvencija reziduala. Ukoliko to nismo ranije<br />

uradili, prvo ¢emo naredbom predict kreirati varijablu koja sadrºi nestandardizovane<br />

reziduale. Zadim ¢emo iskoristiti naredbu kdensity sa opcijom<br />

normal da dobijemo traºeni dijagram. Opcija normal ¢e pored opservirane<br />

distribucije frekvencija prikazati i idelanu normalnu distribuciju ²to olak²ava<br />

poreženje.<br />

. predict r, resid<br />

. kdensity r, normal<br />

Slika 1.13


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 51<br />

Na dobijenom dijagramu reziduali bi trebali imati otprilike normalnu distribuciju.<br />

Vidimo da distribucija reziduala za model iz na²eg primjera vrlo<br />

blisko prati idealnu normalnu distribuciju. Takožer, distribucija je koncentrisana<br />

oko nule pa zaklju£ujemo da je pretpostavka ispunjena.<br />

Vizuelno ispitivanje pretpostavke o normalnosti putem dijagrama distribucije<br />

frekvencija moºe biti problemati£no ukoliko imamo mali uzorak. Zbog<br />

toga se za ocjenu normalnosti savjetuje kori²tenje dijagrama vjerovatno¢e<br />

(engl. probability plots). P-P dijagram (engl. probabilityprobability plot)<br />

predstavlja usporedbu opservirane kumulativne vjerovatno¢e pojave standardizovanih<br />

reziduala (y-osa) sa o£ekivanom kumulativnom vjerovatno¢om<br />

standardizovanih reziduala kada je njihova distribucija normalna (x-osa). Q-<br />

Q dijagram (engl. quantile-quantile plot) prikazuje usporedbu opserviranih<br />

kvantila datog uzorka sa kvantilima o£ekivane normalne distribucije. Ukoliko<br />

opservirane vrijednosti imaju normalnu distribuciju, ta£ke na oba dijagrama<br />

bi trebale biti rasporežene ta£no duº dijagonalne linije ili uz manja odstupanja<br />

oko nje.<br />

Oba dijagrama sluºe za provjeru pretpostavke o normalnosti reziduala.<br />

Prakti£na razlika izmežu njih je da P-P dijagram ima tendenciju da uveli£ava<br />

odstupanja od o£ekivane teoretske distribucije u sredini, dok Q-Q dijagram<br />

nagla²ava odstupanja na krajevima o£ekivane distribucije.<br />

. qnorm r, name(graph1) nodraw title(qq-plot)<br />

. pnorm r, name(graph2) nodraw title(pp-plot)<br />

. graph combine graph1 graph2, cols(2) title(Probability Plots: qq-plot vs pp-plot)


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 52<br />

Slika 1.14<br />

Na slici 1.14 vidimo da oba dijagrama pokazuju minimalna odstupanja<br />

reziduala od o£ekivane normalne distribucije ²to upu¢uje na zaklju£ak o ispunjenosti<br />

pretpostavke. Na Q-Q plotu u gornjem desnom uglu imamo tri<br />

ta£ke koje odstupaju ne²to vi²e od linije. Rije£ je o opservacijama 26, 37 i<br />

38 koje mogu predstavljati outliere.<br />

Osim vizuelno, pretpostavku o normalnosti distribucije reziduala moºemo<br />

ispitati i putem statisti£kih testova. Dva naj£e²¢e kori²tena testa za ovu namjenu<br />

su KolmogorovSmirnov (KS) test i ShapiroWilk (SW) test. Kod<br />

oba testa, signikantan rezultat (p>0,05) zna£i da je distrubucija rezidula<br />

odstupa od normalne distribucije. Generalno govore¢i, SW test je osjetljiviji<br />

na odstupanja od normalnosti pa ga je preporu£ljivo koristiti, pogotovo<br />

ukoliko imamo manji uzorak [1]. Za vi²e detalja o testovima normalnosti<br />

distribucije pogledati [15].


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 53<br />

. swilk r<br />

Shapiro-Wilk W test for normal data<br />

Variable Obs W V z Prob>z<br />

r 50 0.98778 0.575 -1.181 0.88121<br />

Output 1.13<br />

Output 1.13 pokazuje da distribucija reziduala ne odstupa zna£ajno od<br />

normalne distribucije (W = 0, 99, p = 0, 881) pa zaklju£ujemo da je pretpostavka<br />

ispunjena.<br />

Ovdje vrlo vaºno napomenuti da rezultate testova normalnosti treba uzeti<br />

sa zrnom soli. Naime, u ve¢im uzorcima i najmanja odstupanja od normalne<br />

distribucije ¢e biti statisti£ki signikantna. Zbog toga je testove neophodno<br />

korisiti u kombinaciji sa vizuelnom inspekcijom kako bi se donijela<br />

pravilna odluka o tome da li je pretpostavka o normalnosti naru²ena ili nije.<br />

1.3.3.2 Efekti naru²avanja pretpostavke o normalnosti<br />

U manjim uzorcima, primarni uticaj naru²avanja pretpostavke o normalnosti<br />

odnosi se na ekasnost OLS estimatora. Veli£ina procijenjenih standardnih<br />

gre²ki bi¢e nepouzdana, a samim tim testiranje signifakntnosti regresionih<br />

koecijenata moºe biti pristrasno i nepouzdano.<br />

U ve¢im uzorcima, naru²avanje ove pretpostavke ne predstavlja ozbiljan<br />

problem i moºemo se osloniti na testove signikantnosti koji ¢e biti<br />

pouzdani[2]. Takožer, naru²avanje pretpostavke o normalnosti ne¢e mnogo<br />

uticati na procijenjene regresione koecijente. Centralni grani£ni teorem<br />

podrazumjeva da ¢e u ve¢im uzorcima distribucija uzorkovanja (engl. sampling<br />

distribution) regresionih koecijenata imati normalan raspored, £ak i<br />

ako reziduali nisu normalno rasporeženi u datom uzorku [8]. Samim tim,<br />

b koecijenti ¢e i dalje biti nepristrasni. Naru²avanje pretpostavke da je<br />

E(e|x) = 0 ¢e uticati samo na pogre²nu procjenu vrijednosti konstante b 0 .<br />

1.3.3.3 Rje²avanje problema naru²ene pretpostavke o normalnosti<br />

Naru²avanje pretpostavke o normalnosti reziduala £esto je vaºan signal pogre²ene<br />

specikacije modela. Istraºiva£ treba nastojati da u model uklju£i


POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 54<br />

sve bitne faktore koji djeluju na zavisnu varijablu, tako da reziduali obuhvate<br />

samo nerelevantne ili faktore koje je nemogu¢e izmjeriti. Ako iz modela izostavimo<br />

neki bitan faktor, ili napravimo bilo koju drugu gre²ku u specikaciji<br />

modela, onda rizikujemo da ¢e se desiti da je E(e|x) ≠ 0.<br />

Ukoliko zavisna varijabla ili prediktori imaju jako nakrivljenu distribuciju,<br />

moºemo poku²ati uraditi i odgovaraju¢u transformaciju.


Bibliograja<br />

[1] Nor Aishah Ahad, Teh Sin Yin, Abdul Rahman Othman, and Che Rohani<br />

Yaacob. Sensitivity of normality tests to non-normal data. Sains<br />

Malaysiana, 40(6):637641, 2011.<br />

[2] Jacob Cohen, Patricia Cohen, Stephen G. West, and Leona S. Aiken.<br />

Applied Multiple Regression/Correlation Analysis for the Behavioral<br />

Sciences. Lawrence Erlbaum Associates, Inc., 3 edition, 2003.<br />

[3] Robert G. Croinger and Karen M. Douglas. Survey Research Emerging<br />

Issues: New Directions for Institutional Research. Number 127. Jossey-<br />

Bass, San Francisco, 2005. Chapter 3, pp. 33-50.<br />

[4] John Dawes. Do data characteristics change according to the number<br />

of scale points used? an experiment using 5-point, 7-point and 10-point<br />

scales. International Journal of Market Research, 50(1), 2007.<br />

[5] Branka Dimitrijevi¢ and Vladimir Simi¢. Heuristi£ki algoritam regresione<br />

stabilnosti. In XXIX Simpozijum o novim tehnologijama u po-<br />

²tanskom i telekomunikacionom saobra¢aju PosTel 2011. Saobra¢ajni<br />

fakultet Univerziteta u Beogradu, Decembar 2011.<br />

[6] David Dranove. Practical regression: Noise, heteroskedasticity, and grouped<br />

data. Technical Report KEL640, Kellogg School of Management,<br />

Northwestern university, 2012.<br />

[7] Andy Field. Discovering Statistics Using SPSS. SAGE Publications<br />

Ltd., 3 edition, 2009.<br />

[8] G. David Garson. Multiple Regression. Blue Book Series. Statistical<br />

Associates Publishing, 2012 edition edition, 2012.<br />

[9] David. C. Howell. Moderating and mediating relationships, 2002.<br />

55


BIBLIOGRAFIJA 56<br />

[10] Jr. Joseph F. Hair, William C. Black, Barry J. Babin, Rolph E. Anderson,<br />

and Ronald D. Tatham. Multivariate Data Analysis. Pearson<br />

Prentice Hall, 6 edition, 2006.<br />

[11] David P. MacKinnon, Jennifer L. Krull, and Chondra M. Lockwood.<br />

Equivalence of the mediation, confounding and suppression eect. Prevention<br />

Science, 1(4):173181, December 2000.<br />

[12] Patrick E. McKnight, Katherine M. McKnight, Souraya Sidani, and<br />

Aurelio Jose Figueredo. Missing Data: A Gentle Introduction. The<br />

Gulford Press, 2007.<br />

[13] Marija Noru²is. SPSS 7.5 Guide to Data Analysis. Prentice-Hall, Inc.,<br />

1997.<br />

[14] Julie Pallant. SPSS Priru£nik za preºivljavanje: Postupni vodi£ kroz<br />

analizu podataka pomo¢u SPSS-a. Mikro knjiga, 4 edition, 2011.<br />

[15] Hun Myoung Park. Univariate analysis and normality test using sas,<br />

stata, and spss, 2008.<br />

[16] StataCorp. Stata Base Reference Manual Release 13. College Station,<br />

Texas, 2013.<br />

[17] Barbara G. Tabachnick and Linda S. Fidell. Using Multivariate Statistics.<br />

Pearson Education, Inc., 5 edition, 2007.<br />

[18] Richard Williams. Heteroscedasticity, 2014. Spring 2014 course notes<br />

for the second semester of graduate statistics courses.<br />

[19] Kristin K. Woolley. How variables uncorrelated with the dependent variable<br />

can actually make excellent predictors: The important suppressor<br />

variable case. Austin, TX, January 23-25 1997. Annual Meeting of the<br />

Southwest Educational Research Association.


UNIVERZITET U SARAJEVU<br />

EKONOMSKI FAKULTET U SARAJEVU<br />

Regresiona analiza:<br />

Dummy varijable 1<br />

Autor:<br />

prof. dr Emir Agić<br />

Sarajevo, 21. januar 2016. godine<br />

1<br />

NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />

njegovih dijelova bez prethodnog pisanog pristanka autora.<br />

1


Dummy varijable<br />

Sve do sada korištene nezavisne varijable u okviru regresionog modela bile su metrijskog tipa.<br />

Međutim, nisu rijetke situacije kada imamo nominalne varijable koje mogu pomoći u predikciji<br />

vrijednosti zavisne varijable. Na primjer, broj članova domaćinstva je metrijska varijabla od interesa<br />

ukoliko želimo analizirati mjesečnu potrošnju domaćinstva, ali isto tako i varijable kao što su tip<br />

domaćinstva (ruralno ili urbano) i administrativna jedinica kojoj domaćinstvo pripada (npr. FBiH, RS i<br />

Distrikt Brčko) mogu biti dobri prediktori potrošnje.<br />

Da bi nominalne varijable uključili u regresioni model neophodno je prvo uraditi tzv. dummy kodiranje<br />

podataka. Najjednostavniji oblik dummy kodiranja koristi "1" za ispunjavanje uslova, i "0" za<br />

predstavljanje odsustva uslova. U tabeli 1 dat je primjer dummy kodiranja za varijable „tip<br />

domaćinstva“ i „administrativna jedinica“.<br />

Tabela 1.<br />

ID<br />

Tip domaćinstva<br />

Administrativna jedinica<br />

ruralno urbano fbih rs db<br />

domaćinstvo 1 1 0 0 1 0<br />

domaćinstvo 2 0 1 1 0 0<br />

domaćinstvo 3 0 1 0 0 1<br />

…<br />

domaćinstvo n 1 0 1 0 1<br />

Iz tabele 1 vidimo da je prvo domaćinstvo ruralnog tipa i da se nalazi u RS-u, drugo domaćinstvo je<br />

urbanog tipa iz FBiH, treće je urbano iz Distrikta Brčko i tako dalje do posljednjeg domaćinstva<br />

označenog sa n. Primjećujemo da svaka dummy varijabla u tabeli 1 predstavlja jednu kategoriju<br />

orginalne nominalne varijable. Tako su od nominalne varijable „tip domaćinstva“ kreirane dvije dummy<br />

varijable (urbano i ruralno), a od varijable „administrativna jedinica“ kreirane su tri dummy varijable<br />

(fbih, rs i db). Upotrebom ovakvog načina kodiranja kategorije bilo koje nominalne varijable mogu se<br />

pretvoriti u dummy varijable. 2<br />

Međutim, prije nego upravo kreirane dummy varijable ubacimo u regresioni model, moramo znati da<br />

u višestrukoj regresiji ne smijemo imati situaciju u kojoj se vrijednost jedne ili više nezavisnih varijabli<br />

može u potpunosti predvidjeti na bazi stanja bilo koje druge nezavisne varijable ili kombinacije<br />

nezavisnih varijabli. U statistici se kaže da su takve varijable linearno zavisne jer između njih postoji<br />

savršena multikolinearnost (koeficijent korelacije je r = ±1). U takvim slučajevima, matematski izračun<br />

se neće moći obaviti ili će biti pogrešan obzirom da regresiona analiza ne može razdvojiti doprinos<br />

nezavisnih varijabli predviđanju zavisne varijable.<br />

U tabeli 1 javlja se upravo problem linearne zavisnosti. Obzirom da su kategorije orginalne nominalne<br />

varijable međusobno isključive, isto domaćinstvo ne može istovremeno biti urbano i ruralno, već mora<br />

biti u jednoj od ove dvije kategorije. Samim tim, na bazi vrijednosti dummy varijable „ruralno“,<br />

možemo bez ikakve greške predvidjeti vrijednost varijable „urbano“. Isto tako, ako domaćinstvo nije<br />

locirano u FBiH i RS-u onda znamo da je locirano u Distriktu Brčko.<br />

Problem linearne zavisnosti možemo jednostavno riješiti izostavljanjem jedne kategorije tako da se<br />

svaka orginalna nominalna varijabla koja ima k kategorija u regresionom modelu predstavi uz pomoć<br />

2<br />

Dummy varijable se još zovu binarnim ili varijblama indikatorima, obzirom da 0 i 1 indikuje odsustvo, odnosno<br />

prisustvo neke karkateristike.<br />

2


k-1 dummy varijabli. U tabeli 2 je dat prikaz strukture podataka kakvu možemo koristiti u regresionom<br />

modelu za naš hipotetički primjer.<br />

Tabela 2.<br />

ID urbano rs db<br />

domaćinstvo 1 0 1 0<br />

domaćinstvo 2 1 0 0<br />

domaćinstvo 3 1 0 1<br />

…<br />

domaćinstvo n 0 0 1<br />

U suštini, tabelu 2 smo dobili tako što smo iz tabele 1 izbacili kategorije „ruralno“ i „fbih“. Mogli smo<br />

izostaviti i bilo koju drugu kolonu, s tim da treba imati na umu da izostavljene kolone uvijek<br />

predstavljaju referentne nivoe u odnosu na koje će se porediti vrijednosti regresionih koeficijenata<br />

dummy varijabli koje ostaju u modelu.<br />

Dummy varijable u regresionom modelu<br />

Vratimo se našem primjeru u kojem smo se bavili ispitivanjem uticaja godina iskustva (gisk), budžeta<br />

za unapređenje prodaje (prom) i broja terenskih posjeta (posj) na prodajne performanse komercijalista<br />

(prod). Pretpostavimo da pored navedenih metrisjkih varijabli raspolažemo i sa podatkom o tome da li<br />

je prodajni predstavnik završio specijalizovani trening za unapređenje prodajnih vještina (trening).<br />

Varijabla trening je dummy varijabla a njena deskriptivna statistika je predstavljena u okviru outputa:<br />

. tab trening<br />

trening | Freq. Percent Cum.<br />

------------+-----------------------------------<br />

0 | 26 52.00 52.00<br />

1 | 24 48.00 100.00<br />

------------+-----------------------------------<br />

Total | 50 100.00<br />

U datom slučaju „0“ označava komercijaliste koji nisu prošli trening, dok „1 „označava one koji su<br />

završili trening. Primjećujemo da je od ukupnog broja komercijalista iz uzorka njih 26 (52 %) nije prošlo<br />

trening, dok ij je 24 (48%) završilo trening.<br />

Ilustracije radi, kreirajmo regresioni model koji će sadržavati samo dummy varijablu trening. Rezultati<br />

estimacije su predstavljeni u okviru outputa:<br />

. reg prod trening<br />

Source | SS df MS Number of obs = 50<br />

-------------+------------------------------ F( 1, 48) = 23.53<br />

Model | 285.240122 1 285.240122 Prob > F = 0.0000<br />

Residual | 581.938154 48 12.1237115 R-squared = 0.3289<br />

-------------+------------------------------ Adj R-squared = 0.3149<br />

Total | 867.178276 49 17.6975158 Root MSE = 3.4819<br />

------------------------------------------------------------------------------<br />

prod | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

-------------+----------------------------------------------------------------<br />

trening | 4.780772 .9856223 4.85 0.000 2.799045 6.762498<br />

_cons | 14.58917 .6828591 21.36 0.000 13.21619 15.96215<br />

------------------------------------------------------------------------------<br />

3


prod<br />

prod (hat)<br />

= b0 + b1 x trening + e<br />

= 14,59 + 4,78 x trening<br />

Koeficijent vezan za nezavisnu varijablu trening je statistički signifikantan i iznosi b1 = 4,78. Ovaj<br />

koeficijent predstavlja procjenjeni efekat koji trening ima na ostvareni obim prodaje i interpretira se<br />

na sljedeći način:<br />

Ako se vrijednost dummy varijable trening poveća za jednu jedinicu, obim prodaje će se<br />

povećati za 4,78 jedinica. Povećanje za jednu jedinicu u kontekstu dummy varijable znači da sa<br />

prelaskom komercijaliste iz kategorije 0 (nije prošao trening) u kategoriju 1 (prošao trening)<br />

možemo očekivati porast obima prodaje u iznosu od 4.780 KM.<br />

Kada uključimo dummy varijablu u regresioni model, presjek (b0) sadrži efekat referentne kategorije.<br />

Referentna kategorija je ona kategorija koja je unutar dumy varijable označena sa nulom:<br />

prod (hat) = 14,59 + 4,78 x 0<br />

= 14,59 (kada je trening = 0)<br />

Ovo znači da prosječna očekivana prodaja za komercijaliste bez treninga iznosi oko 14.590 KM. U<br />

slučaju komercijalista koji su završili trening prosječna očekivana prodaja iznosiće:<br />

prod (hat) = 14,59 + 4,78 x 1<br />

= 19,37 (kada je trening = 1)<br />

U suštini, vidimo da koeficijent vezan za dummy varijablu govori kolika je prosječna razlika između ove<br />

dvije grupe. U tom smislu, možemo reći i da komercijalisti sa treningom u prosjeku prave 4.780 KM<br />

više od onih bez treninga i da je ta razlika statistički signifikantna. 3<br />

Proširimo sada regresioni model sa varijablom godine iskustva (gisk) tako da bude:<br />

prod<br />

= b0 + b1 x gisk + b2 x trening + e<br />

Rezultati estimacije su predstavljeni na outputu:<br />

. reg prod gisk trening<br />

Source | SS df MS Number of obs = 50<br />

-------------+------------------------------ F( 2, 47) = 26.11<br />

Model | 456.441079 2 228.220539 Prob > F = 0.0000<br />

Residual | 410.737197 47 8.73908931 R-squared = 0.5264<br />

-------------+------------------------------ Adj R-squared = 0.5062<br />

Total | 867.178276 49 17.6975158 Root MSE = 2.9562<br />

------------------------------------------------------------------------------<br />

prod | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

-------------+----------------------------------------------------------------<br />

gisk | .3323109 .0750801 4.43 0.000 .1812693 .4833525<br />

trening | 3.41212 .8921138 3.82 0.000 1.617418 5.206821<br />

_cons | 10.46085 1.098224 9.53 0.000 8.251507 12.67019<br />

3<br />

Do istog rezultat bi došli i da smo uradili nezavisni t-test.<br />

4


------------------------------------------------------------------------------<br />

Vidimo da su oba koeficijenta statistički signifikantna. Da bi olakšali interpretaciju dobijenog outputa<br />

napišimo jednačinu za predviđenu vrijednost zavisne varijable:<br />

prod (hat)<br />

= 10,46 + 0,33 x gisk + 3,41 x trening<br />

Ako znamo da su komercijalisti bez treninga u okviru dummy varijable označeni sa 0, onda će<br />

regresiona jednačina za tu grupu imati sljedeći oblik:<br />

prod (hat) = 10,46 + 0,33 x gisk + 3,41 x 0<br />

= 10,46 + 0,33 x gisk (kada je trening = 0)<br />

Za komercijaliste bez iskustva presjek regresione linije sa y-osom iznosi 10,46. Prisjetimo se da presjek<br />

predstavlja očekivanu vrijednost zavisne varijable kada su sve nezavisne varijable jednake nuli. Dakle,<br />

u slučaju komercijalista bez treninga (trening = 0) i bez ikakvog iskustva (gisk = 0), očekivana prosječna<br />

prodaja će iznositi 10.460 KM. Koeficijent vezan za iskustvo jednak je 0,33 što znači da za svaku dodatnu<br />

godinu iskustva, prosječni obim prodaje komercijalista bez treninga će se uvećavati za 330 KM.<br />

S druge strane, regresiona jednačina za komercijaliste sa treningom je:<br />

prod (hat) = 10,46 + 0,33 x gisk + 3,41 x 1<br />

= (10,46 + 3,41) + 0,33 x gisk<br />

= 13,87 + 0,33 x gisk (kada je trening = 1)<br />

U slučaju komercijalista sa završenim treningom (trening = 1), ali bez ikakvog iskustva na terenu (gisk<br />

= 0), možemo očekivati prosječnu prodaju u iznosu od 13.870 KM, što je za 3.410 KM više u odnosu na<br />

komercijaliste bez završenog treninga i iskustva. Koeficijent vezan za iskustvo jednak je 0,33 što znači<br />

da za svaku dodatnu godinu iskustva, prosječni obim prodaje komercijalista sa treningom raste za 330<br />

KM. Uočimo da je porast očekivane prodaje vezane za iskustvo identičan u obje grupe – i za<br />

komercijaliste koji su završili trening i za one koji nisu.<br />

Ono što je bitno zapamtiti je sljedeće: Iako analiziramo jedan regresioni model, mi u stvari ubacivanjem<br />

dummy varijable omogućavamo kreiranje dvije regresione jednačine – jednu za komercijaliste bez<br />

treninga i jednu za komercijaliste sa treningom što se vidi na slici 1:<br />

5


Na slici 1 predstavljen je dijagram rasipanja za varijable prodaja i godine iskustva. Kvadratima su<br />

predstavljene opservirane vrijednosti prodaje za komercijaliste bez treninga, dok su sa x označene<br />

opservirane vrijednosti prodaje za komercijaliste sa treningom. Na dijagramu su takođe predstavljene<br />

procijenje regresione linije za komercijaliste bez treninga (puna linija) i sa treningom (isprekidana<br />

linija). Obratimo pažnju da su linije paralelne i da je razlika između ove dvije grupe samo u presjeku.<br />

Nagib linije je isti u obje grupe (gisk = 0,33).<br />

Proširimo sada postojeći regresioni model i sa ostalim varijablama koje smo imali ranije (ref. 1.10)<br />

tako da bude:<br />

prod = bo + b1gisk + b2prom + b3posj + b4trening + e<br />

Rezultat procjene ovog modela vidimo u okviru outputa:<br />

. reg prod gisk prom posj trening<br />

Source | SS df MS Number of obs = 50<br />

-------------+------------------------------ F( 4, 45) = 47.38<br />

Model | 700.789148 4 175.197287 Prob > F = 0.0000<br />

Residual | 166.389129 45 3.69753619 R-squared = 0.8081<br />

-------------+------------------------------ Adj R-squared = 0.7911<br />

Total | 867.178276 49 17.6975158 Root MSE = 1.9229<br />

------------------------------------------------------------------------------<br />

prod | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

-------------+----------------------------------------------------------------<br />

gisk | .2644737 .0567636 4.66 0.000 .1501459 .3788016<br />

prom | 2.173827 .3221026 6.75 0.000 1.525079 2.822575<br />

posj | 1.648642 .3508686 4.70 0.000 .9419561 2.355327<br />

trening | 3.538056 .5831571 6.07 0.000 2.363517 4.712595<br />

_cons | -2.939243 2.215445 -1.33 0.191 -7.401379 1.522893<br />

------------------------------------------------------------------------------<br />

Model sa uključenom dummy varijablom trening objašnjava 79,11% varijanse zavisne varijable, što je<br />

za 16,27% više od modela koji uključuje samo metrijske varijable.<br />

Koeficijent vezan za nezavisnu varijablu trening je statistički signifikantan i iznosi b4 = 3,538. Ovaj<br />

koeficijent predstavlja procjenjeni efekat koji trening ima na ostvareni obim prodaje i interpretira se<br />

na sljedeći način: Ako se vrijednost dummy varijable trening poveća za jednu jedinicu, obim prodaje će<br />

6


se povećati za 3,358 jedinica uz uslov da ostale varijable ostanu nepromijenjene. Povećanje za jednu<br />

jedinicu u kontekstu dummy varijable znači da sa prelaskom komercijaliste iz kategorije 0 (nije prošao<br />

trening) u kategoriju 1 (prošao trening) možemo očekivati porast obima prodaje u iznosu od 3.358 KM.<br />

Također, možemo reći i da komercijalisti sa treningom u prosjeku prave 3.358 KM više od onih bez<br />

treninga, u slučaju kada vrijednosti ostalih prediktora držimo konstantnim.<br />

7


UNIVERZITET U SARAJEVU<br />

EKONOMSKI FAKULTET U SARAJEVU<br />

Regresiona analiza:<br />

Interakcijski (moderacijski) efekt 1<br />

Autor:<br />

prof. dr Emir Agić<br />

Sarajevo, 21. januar 2016. godine<br />

1<br />

NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />

njegovih dijelova bez prethodnog pisanog pristanka autora.<br />

1


Sadržaj<br />

1. Uvod ................................................................................................................................ 3<br />

2. Modeliranje interakcija u regresionoj analizi ............................................................ 3<br />

3. Interpretacija interakcijskog efekta ............................................................................ 5<br />

4. Grafičko predstavljanje interakcijskog efekta ........................................................... 8<br />

5. Centriranje i standardizovanje varijabli .................................................................. 11<br />

6. Dummy varijable i interakcije ................................................................................... 15<br />

7. Bibliografija ................................................................................................................. 20<br />

2


1. UVOD<br />

Do sada smo razmatrali parcijalne efekte nezavisnih varijabli na zavisnu varijablu, odnosno<br />

efekte svake nezavisne varijable na zavisnu nakon što kontrolišemo za ostale varijable u<br />

modelu. Interkacijski ili moderacijski efekt se javlja kada veličina efekta jedne nezavisne<br />

varijable (x1) na zavisnu varijablu (y) varira u zavisnosti od vrijednosti druge nezavisne<br />

varijable (x2) (Preacher, 2003).<br />

Interakcijski ili moderirajući efekt se u regresioni model inkorporira putem složene varijable<br />

koja predstavlja proizvod varijabli x1 i x2. Regresioni model sa interakcijskim efektom možemo<br />

predstaviti sljedećom formulom:<br />

= + + + +<br />

gdje je y = zavisna varijabla, b0 = konstanta, b1x1 = linearni efekt nezavisne varijable x1, b2x2 =<br />

linearni efekt nezavisne varijable x2, b3x1x2 = interakcijski efekt između x1 i x2 i e = rezidual.<br />

Prije nego krenemo dalje potrebno je ukazati na terminološku distinkciju između interakcijskog<br />

i moderacijskog efekta. Naime, iako se u literaturi izrazi „interakcijski efekt“ i „moderirajući<br />

efekt“ često koriste odvojeno, u suštini se radi o istoj stvari: efekt jednog prediktora na zavisnu<br />

varijablu će biti različit za različite vrijednosti drugog prediktora (Grace-Martin, n.d.).<br />

Kada govorimo o interakcijskom efektu onda ne pravimo razliku između nezavisne varijable i<br />

moderirajuće varijable. Za bilo koji od dva prediktora (x1 i x2) se može reći da „moderira“ efekt<br />

drugog. Obratimo pažnju da je interakcijski efekt simetričan što znači da je: x1x2 = x2x1, pa je<br />

sa matematskog aspekta svejedno koju varijablu ćemo nazvati „prediktorom“ a koju<br />

„moderatorom“.<br />

Međutim, ukoliko smo zainteresovani prvenstveno za efekt tačno određene nezavisne varijable<br />

(x1) na zavisnu varijablu (y), ali znamo da će taj efekt zavisiti od vrijednosti druge nezavisne<br />

varijable (x2), onda je terminološki ispravnije govoriti o moderirajućem efektu. U tom slučaju,<br />

varijabla x2 se uobičajeno naziva moderatorom jer ona mijenja vezu između x1 i y. Moderator<br />

uključujemo u model kako bi dobili relaniji uvid u prirodu veze između x1 i y, a ne zato što nas<br />

interesuje efekt moderirajuće varijable same po sebi.<br />

Već u fazi dizajniranja istraživanja bi trebali znati koja varijabla će biti nezavisna a koja će<br />

imati ulogu moderatora. Odabir varijable koja će imati ulogu moderatora prvenstveno zavisi od<br />

teoretskih postavki i utvrđuje se na bazi pregleda literature. Drugim riječima, treba razmotriti<br />

da li je smislenije govoriti da se veza između x1 i y mijenja kako se mijenja x2 ili više smisla<br />

ima reći da se veza između x2 i y mijenja sa promijenom x1 (Aguinis and Gottfredson, 2010).<br />

Nakon što smo odabrali moderirajuću varijablu treba imati na umu da ona može pojačati,<br />

amortizirati ili čak predstavljati određenu vrstu supresora kada je u pitanju odnos između druge<br />

dvije varijable (Međedović, 2013, p. 1).<br />

2. MODELIRANJE INTERAKCIJA U REGRESIONOJ ANALIZI<br />

Uzmimo primjer u kojem želimo istražiti kako raspoloživi dohodak utiče na izdatke na pizzu.<br />

Pored dohotka smatramo da će ukupni izdaci na pizzu zavisiti i od godina starosti osobe. Na<br />

bazi slučajnog uzorka anketirano je 40 ispitanika i zabilježeni su podaci o godišnjem iznosu<br />

3


njihove potrošnje na pizzu (pizza), godišnjem prihodu u 000 dolara (income) i godinama starosti<br />

(age). Podaci su pohranjeni u okviru datoteke pizza4.dta. 2 Na outputu 1 je dat prikaz rezultata<br />

deskriptivne analize:<br />

. summarize pizza income age<br />

Variable | Obs Mean Std. Dev. Min Max<br />

-------------+--------------------------------------------------------<br />

pizza | 40 191.55 155.8806 0 590<br />

income | 40 55.8025 51.16614 7.8 288.6<br />

age | 40 33.475 10.25317 18 55<br />

Output 1<br />

Godišnji izdaci na pizzu se kreću u rasponu od 0$ za ispitanike koji je uopšte ne konzumiraju<br />

pa do 590$ za velike ljubitelje ovog italijanskog jela. Prosječna potrošnja iznosi 191,55$.<br />

Godišnji prihod ispitanika varira u rasponu od 7.800$ do 388.600$ sa prosjekom od 55.802$.<br />

Uzorak je obuhvatio osobe u dobi od 18 do 55 godina, a prosječna dob iznosi 33,5 godina.<br />

Kako bi se testirala pretpostavka o uticaju dohodka i starosti ispitanika na izdatke na pizzu,<br />

inicijalno je kreiran sljedeći regresioni model:<br />

= + + +<br />

Procijenjeni parametri su prikazani u okviru outputa 2.<br />

. reg pizza income age<br />

Source | SS df MS Number of obs = 40<br />

-------------+------------------------------ F( 2, 37) = 9.08<br />

Model | 312015.179 2 156007.589 Prob > F = 0.0006<br />

Residual | 635636.721 37 17179.3708 R-squared = 0.3293<br />

-------------+------------------------------ Adj R-squared = 0.2930<br />

Total | 947651.9 39 24298.7667 Root MSE = 131.07<br />

------------------------------------------------------------------------------<br />

pizza | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

-------------+----------------------------------------------------------------<br />

income | 1.832479 .4643007 3.95 0.000 .8917163 2.773242<br />

age | -7.575556 2.316988 -3.27 0.002 -12.27022 -2.880893<br />

_cons | 342.8848 72.34342 4.74 0.000 196.3031 489.4665<br />

------------------------------------------------------------------------------<br />

Output 2<br />

Dobijeni rezultat pokazuje da sa porastom dohodka rastu i izdaci na pizzu. Ukoliko se dohodak<br />

poveća za 1.000$, prosječni izdaci na pizzu će porasti za 1,83$, uz uslov da dob ispitanika<br />

ostane nepromijenjena. Također, možemo primjetiti da sa povećanjem godina starosti izdaci na<br />

pizzu opadaju. Za svaku dodatnu godinu starosti imamo smanjenje od 7,57$, pod<br />

pretpostavkom da je dohodak ostao nepromijenjen. Oba koeficijenta su statistički signifikantna.<br />

Pretpostavimo sada da sa porastom godina starosti smanjenje izdataka nije konstantno. Naime,<br />

iz iskustva znamo da zbog životnog stila tinejdžeri i studenti više konzumiraju pizzu od osoba<br />

u srednjim godinama. Srednovječne osobe pak više konzumiraju pizzu od penzionera. Samim<br />

2<br />

Primjer je uzet iz knjige Hill, R. Carter & Griffiths, William E. & Lim, Mark Andrew, Principle of Econometrics<br />

(2011).<br />

4


tim, možemo očekivati da se prosječni izdaci na pizzu neće smanjivati uvijek za isiti iznos već<br />

će sa porastom starosne dobi to smanjenje biti sve veće i veće. U ovom slučaju imamo<br />

konceptualno uporište da godine starosti (age) posmatramo kao moderirajuću varijablu.<br />

Hipotezu o tome da smanjenje izdataka po godinama nije konstantno možemo testirati<br />

uvođenjem moderacijskog efekta u prethodni regresioni model:<br />

= + + + × +<br />

Rezultati estimacije prikazani su na outputu 3.<br />

. reg pizza income age c.income#c.age<br />

Source | SS df MS Number of obs = 40<br />

-------------+------------------------------ F( 3, 36) = 7.59<br />

Model | 367043.25 3 122347.75 Prob > F = 0.0005<br />

Residual | 580608.65 36 16128.0181 R-squared = 0.3873<br />

-------------+------------------------------ Adj R-squared = 0.3363<br />

Total | 947651.9 39 24298.7667 Root MSE = 127<br />

------------------------------------------------------------------------------<br />

pizza | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

-------------+----------------------------------------------------------------<br />

income | 6.979905 2.822768 2.47 0.018 1.255067 12.70474<br />

age | -2.977423 3.352101 -0.89 0.380 -9.775799 3.820952<br />

|<br />

c.income#|<br />

c.age | -.1232394 .0667187 -1.85 0.073 -.2585512 .0120725<br />

|<br />

_cons | 161.4654 120.6634 1.34 0.189 -83.25131 406.1822<br />

------------------------------------------------------------------------------<br />

Output 3<br />

Obratimo pažnju da je estimirani koeficijent za efekt interakcije negativan i signifikantan (b3 =<br />

- 012, p < 0,05 za jednosmjerni test).<br />

Nakon što dobijene koficijente uvrstimo u jednačinu modela imamo:<br />

= 161,46 + 6,98 × + 2,98 × − 0,12 × × +<br />

3. INTERPRETACIJA INTERAKCIJSKOG EFEKTA<br />

U modelu bez interakcija, koeficijente b1 i b2 interpretiramo kao glavne efekte (engl. main<br />

effects) nezavisnih varijabli x1 i x2 na zavisnu varijablu y. Međutim, signifikantan interakcijski<br />

efekt znatno mijenja tumačenje ranijih koeficijenata.<br />

U modelu sa interakcijama koeficijent b1 predstavlja glavni efekt x1 samo onda kada je x2 jednak<br />

nuli, odnosno koeficijent b2 predstavlja glavni efekt x2 samo onda kada je x1 jednak nuli (Joseph<br />

F. Hair et al., 2006). Ukoliko varijable x1 i x2 nemaju prirodnu nulu, kao što je to slučaj ovdje,<br />

onda ove koeficijente ne možemo direktno interpretirati. U tom slučaju, postojanje interakcije<br />

znači da će efekt dohotka (x1) na izdatke (y) biti različit za različite vrijednosti varijable starost<br />

(x2). Drugim riječima, jedinstveni efekt dohotka na izdatke ne zavisi više samo od vrijednosti<br />

koeficijenta b1 već zavisi i od vrijednosti koeficijenta b3 i godina starosti (Grace-Martin, n.d.).<br />

5


Koeficijent b3 intrpretiramo kao veličinu promjene u nagibu regresije između y i x1 kada se x2<br />

promijeni za jednu jedinicu (Aguinis and Gottfredson, 2010; Preacher, 2003). Signifikanatan<br />

moderirajući efekt upućuje na (Mooi and Sarstedt, 2014, p. 215):<br />

- Jačina uticaja x1 na y se povećava kako se povećava x2 ako je predznak za b3 pozitivan.<br />

- Jačina uticaja x1 na y se smanjuje kako se povećava x2 ako je predznak za b3 negativan.<br />

U konkretnom slučaju ovo znači da je efekt dohodka (income) na izdatke (pizza) različit za<br />

različite godine starosti (age). Kako dohodak raste izdaci na pizzu također rastu, ali obzirom da<br />

je koeficijent b3 negativan, taj rast će biti manji u slučaju starijih osoba nego mlađih. 3<br />

Obratimo pažnju da je koeficijent vezan za godine starosti (age) u modelu sa interkacijama sada<br />

statistički nesignifikantan. Ovo znači da godine starosti utiču na izdatke za pizzu samo kroz<br />

interakciju sa prihodom.<br />

Da bi olakšali interpretaciju prethodnu jednačinu možemo napisati kao:<br />

= ( + ) + ( + ( ))<br />

= (6,98 − 0,12 × ) × + 161,46 − 2,98 × ( )<br />

Član ( + ( )) se naziva jednostavni presjek (engl. simple intercept) za jednačinu kojom<br />

opisujemo y kao linearnu funkciju x1. Ovaj član ne utiče na nagib regresije već samo na presjek.<br />

Član ( + ) se u modelu sa interakcijom naziva jednostavnim nagibom (engl. simple<br />

slope). Jednostavni nagib se definiše kao regresija između y i zavisne varijabe x1 za specifičnu<br />

vrijednost moderatora x2. Činjenica da jednostavni nagib uključuje x2 govori da će se nagib<br />

između y i x1 mijenjati sa promjenom x2 (Preacher et al., 2004). Samim tim, procjenu efekta<br />

koji x1 ima na y možemo dobiti tako što ćemo za x2 odabrati vrijednosti od interesa i izračunati<br />

jednostavni nagib. Odabrane vrijednosti za x2 se nazivaju još i uslovnim vrijednostima (engl.<br />

conditional values).<br />

Shodno tome, bitno je zapamtiti da u modelima sa interakcijama govorimo prvenstveno o<br />

uslovnim efektima. Vrlo često istraživači koeficijente nižeg reda (tj. b1 i b2) u modelima sa<br />

interakcijama nazivaju glavnim efektima. Upotreba takve terminologije može dovesti do<br />

zabune jer se zaboravlja da je u stvari riječ o uslovnim efektima tj. da se efekt x1 može<br />

interpretirati kao glavni efekt samo kada je x2 = 0 i obrnuto, efekt x2 se interpretira kao glavni<br />

efekt samo kada je x1 = 0 (Afshartous and Preston, 2011, p. 13).<br />

Ukoliko su x1 i x2 kontinuirane varijable, onda u modelima sa interakcijom postoji beskonačno<br />

veliki broj uslovnih vrijednosti koje možemo uzeti da bi izračunali efekte koje nezavisne<br />

varijable imaju na zavisnu varijablu. Ipak, kako bi se razumio efektat interakcije, sasvim je<br />

dovoljno da se iz tog skupa odaberu dvije ili tri uslovne vrijednosti za x2 i dvije ili tri vrijednosti<br />

za x1. U praksi, istraživači najčešće se uzimaju vrijednosti koje se nalaze ±1 standardnu<br />

devijaciju od aritmetičke sredine nezavisnih varijabli (Preacher, 2003).<br />

3<br />

Ako dohodak posmatramo kao moderirajuću varijablu onda bi efekt interakcije interpretirali na sledeći način:<br />

Efekt godina (age) na izdatke (pizza) je različit za različite visine prihoda. Kako osoba stari njeni izdaci na<br />

potrošnju pizze padaju. Obzirom daje b3 negativan, taj pad će biti veći kod osoba sa većim dohotkom.<br />

6


U našem primjeru, za moderirajuću varijablu age (x2) vrijednosti aritmetičke sredine i<br />

standardne devijacije su prikazane u okviru outputa 1 i iznose:<br />

aritmetička sredina za x2 (age) = 33,47 ≈ 33<br />

standardna devijacija za x2 (age) = 10,25 ≈ 10<br />

Na osnovu toga dvije uslovne vrijednosti za x2 su:<br />

x2(mlađi) = AS – SD = 33 – 10 = 23<br />

x2(stariji) = AS + AD = 33 + 10 = 43<br />

Regresiona linija za mlađe ispitanike imaće sljedeću formulu:<br />

( đ ) = ( + ) + + ( )<br />

( đ ) = (6,98 − 0,12 × ) × + (161,46 − 2,98 × )<br />

= (6,98 − 0,12 × 23) × + (161,46 − 2,98 × 23)<br />

= 92,92 + 4,22 ×<br />

Na ovaj način smo izračunali simple slope za ispitanike koji imaju 23 godine starosti. Isto tako<br />

ćemo izračunati simple slope za ispitanike koji imaju 43 godine starosti:<br />

( ) = ( + ) + + ( )<br />

( ) = (6,98 − 0,12 × ) × + (161,46 − 2,98 × )<br />

= (6,98 − 0,12 × 43) × + (161,46 − 2,98 × 43)<br />

= 33,32 + 1,82 ×<br />

Ove dvije jednačine nam pružaju uvid u ukupni efekt nezavisne varijable x1 za odabrane<br />

vrijednosti moderirajuće varijable x2. Kada je je dob ispitanika (x2) jednaka 23 godine, ukupni<br />

efekt prihoda (x1) na potrošnju (y) je 4,22. Drugim riječima, ukoliko se prihod osobe starosti 23<br />

godine poveća za 1.000$ možemo očekivati da će se izdaci na pizzu povećati za 4,22$.<br />

S druge strane, za ispitanike u starosnoj dobi od 43 godine ukupni efekt nezavisne varijable<br />

iznosi 1,82. Odnosno, ukoliko se prihod osobe starosti 43 godine poveća za 1.000$ možemo<br />

očekivati da će se izdaci na pizzu povećati za 1,82$.<br />

Sada možemo izabrati bilo koje dvije smislene vrijednosti za nezavisnu varijablu x1 (income)<br />

kako bi predvidjeli vrijednosti zavisne varijable uz prethodno odabrane uslovne vrijednosti x2.<br />

Uobičajeno se uzimaju minimalna i maksimalna opservirana vrijednost x1 ili vrijednosti koje se<br />

nalaze ±1 standardnu devijaciju od aritmetičke sredine nezavisne varijable x1. U našem slučaju:<br />

aritmetička sredina za x1 (income) = 55,80 ≈ 56<br />

standardna devijacija za x1 (income) = 51,17 ≈ 51<br />

Na osnovu toga dobićemo sljedeće vrijednosti za x1:<br />

7


x1(niski prihod) = AS – SD = 56 – 51 = 5<br />

x1(visoki prihod) = AS + SD = 56 + 51 = 107<br />

Prvo ćemo razmotriti ispitanike sa niskim godišnjim primanjima:<br />

( đ ) = 92,92 + 4,22 × ( ) = 92,92 + 4,22 × 5 = 114,02<br />

( ) = 33,32 + 1,82 × ( ) = 33,32 + 1,82 × 5 = 42,42<br />

Dakle, za mlađe osobe starosti 23 godine koje imaju godišnji prihod od 5.000$ očekujemo da<br />

na pizzu u prosjeku potroše 114$. S druge strane, osobe starosti 43 godine sa istim nivoom<br />

prihoda će na pizzu u prosjeku potrošiti samo 42$.<br />

Pogledajmo sada šta se dešava u kategoriji ispitanika sa većim primanjima:<br />

( đ ) = 92,92 + 4,22 × ( ) = 92,92 + 4,22 × 107 = 544,46<br />

( ) = 33,32 + 1,82 × ( ) = 33,32 + 1,82 × 107 = 228,06<br />

Osobe starosti 23 godina koje imaju ukupna godišnja primanja 107.000$ u prosjeku će na<br />

izdatke za pizzu godišnje potrošiti 544$. Potrošnja osoba u dobi od 43. godine sa istim nivoom<br />

godišnjeg prihoda će biti znatno manja i iznosiće 286$.<br />

4. GRAFIČKO PREDSTAVLJANJE INTERAKCIJSKOG EFEKTA<br />

Moderirajući efekt je često teško interpretirati bez korištenja grafika. Da bi grafički prikazali<br />

moderirajući efekt, ranije dobijene predviđene vrijednosti zavisne varijable ćemo unijeti u<br />

sljedeću tabelu:<br />

Tabela 1.<br />

mlađi stariji<br />

niži prihod 114 42<br />

viši prihod 544 228<br />

Vrijednosti iz tabele 1 zatim možemo iskoristiti u Excel-u kako bi efekt interakcije predstavili<br />

vizuelno 4 . Linije na grafu korespondiraju odabranim uslovnim vrijednostima morerirajuće<br />

varijable age.<br />

4<br />

Jeremy Dawson’s website (http://www.jeremydawson.co.uk/slopes.htm) offers a tool to visualize moderation<br />

effects.<br />

8


Slika 1.<br />

Na grafu primjećujemo da sa povećanjem prihoda dolazi do rasta izdataka na pizzu. Međutim,<br />

ovaj porast je znatno brži kod mlađih nego kod starijih ispitanika.<br />

Novije verzije State omogućavaju da čitav proces grafičkog predstavljanja interakcijskih efekta<br />

pojednostavimo upotrebom naredbi margins i marginsplot. Naredba margins<br />

omogućava korisniku da izračuna predviđenu vrijednost zavisne varijable za bilo koje uslovne<br />

vrijednosti nezavisnih varijabli. Samim tim, umjesto da ručno računamo predviđene vrijednosti<br />

koje su nam potrebne za tabelu 1, taj posao možemo prepustiti Stati.<br />

Naredba margins se koristi nakon što estimiramo regresioni model. Iz tog razloga, prvo smo<br />

ponovo uradili regresionu analizu:<br />

. quietly reg pizza income age c.income#c.age<br />

Obzirom da smo za dohodak i godine starosti ranije definisali vrijednosti koje se nalazi nalaze<br />

±1 standardnu devijaciju od aritmetičke sredine, putem margins komande ćemo tražiti da<br />

Stata izračuna srednju predviđenu vrijednost zavisne varijable za odabrane uslovne vrijednosti<br />

nezavisnih varijabli. Ukoliko testiramo moderacijski efekt onda je konvencija da se prvo<br />

definišu uslovne vrijednosti nezavisne varijable (u konkretnom slučaju su to vrijednosti 5 107),<br />

a zatim uslovne vrijednosti moderirajuće varijable (u datom primjeru su to vrijednosti 23 i 43) 5 .<br />

Izračunate predviđene vrijednosti prikazane su na outputu 4.<br />

. margins, at(income=(5 107) age=(23 43))<br />

Adjusted predictions Number of obs = 40<br />

Model VCE : OLS<br />

Expression<br />

: Linear prediction, predict()<br />

1._at : income = 5<br />

age = 23<br />

2._at : income = 5<br />

5<br />

Prilikom definisanja možemo uzeti i više od dvije uslovne vrijednosti. Na primjer, pored već odabranih mogli<br />

smo dodati i aritmetičku sredinu nezavisnih varijabli kao još jednu uslovnu vrijednost. U tom slučaju puna naredba<br />

bi imala sljedeći oblik: margins, at(income=(5 56 107) age=(23 33 43))<br />

9


age = 43<br />

3._at : income = 107<br />

age = 23<br />

4._at : income = 107<br />

age = 43<br />

------------------------------------------------------------------------------<br />

| Delta-method<br />

| Margin Std. Err. z P>|z| [95% Conf. Interval]<br />

-------------+----------------------------------------------------------------<br />

_at |<br />

1 | 113.7117 46.68085 2.44 0.015 22.2189 205.2045<br />

2 | 41.83929 43.72043 0.96 0.339 -43.85118 127.5298<br />

3 | 536.5425 103.1831 5.20 0.000 334.3073 738.7777<br />

4 | 213.2618 30.48697 7.00 0.000 153.5085 273.0152<br />

------------------------------------------------------------------------------<br />

Output 4<br />

Ako ih uporedimo sa vrijednostima koje smo dobili ručnim izračunom (tabela 1), vidjećemo<br />

da se slažu. Razlika se javlja samo zbog zaokruživanja.<br />

Ono što nismo mogli dobiti ručnim računanjem je statistička signifikantnost predviđenih<br />

vrijednosti. Naime, već smo naglasili da u modelima sa interkacijama postoji veliki broj<br />

uslovnih vrijednosti koje se mogu uzeti za analiziranje efekta, potrebno je imati na umu da svaki<br />

od izračunatih efekta može imati različit nivo statističke signifikantnosti. Naime, obzirom da<br />

uticaj x1 na y zavisi od odabrane vrijednosti x2, ne samo da će se veličina efekta (b1) razlikovati<br />

za svaku odabranu vrijednost varijable x2, već se razlikovati i standardna greška, t-vrijednost, a<br />

samim tim i p-vrijednost pridružena tom efektu. Shodno tome, možemo utvrditi vrijednosti x2<br />

za koje je efekt x1 na y signifikantan - ili obratno - vrijednosti x1 za za koje je efekt x2 na y<br />

signifikantan (Afshartous and Preston, 2011).<br />

U konkretnom slučaju, predviđeni izdatak na pizzu u iznosu od 42$ godišnje, za osobe starosti<br />

43 godina i sa dohodkom od 5.000$, nije statistički signifikantan. To znači da nemamo dovoljno<br />

dokaza da odbacimo hipotezu da je u prosjeku gledano za tu kategoriju potrošnja veća od nule.<br />

U sljedećm koraku ćemo upotrijebiti naredbu marginsplot kako bi grafički predstavili efekt<br />

interakcije.<br />

. marginsplot, noci<br />

Variables that uniquely identify margins: income age<br />

10


Slika 2<br />

Tumačenje je identično kao i za sliku 1.<br />

5. CENTRIRANJE I STANDARDIZOVANJE VARIJABLI<br />

Nezaobilazna tema kada je riječ o modelima koji uključuju interakcijske efekte odnosi se na<br />

centiranje varijabli. Pod centriranjem se podrazumjeva postupak pri kojem se od vrijednosti<br />

svake pojedinačne opservacije nezavisne varijable oduzima aritmetička sredina te varijable.<br />

Takvo centriranje se naziva još i centriranje oko opšteg prosjeka (engl. Grand Mean Centering).<br />

Nakon ove transformacije, AS nove varijable je 0, dok SD ostaje ista kao kod orginalne<br />

varijable (Međedović, 2013, p. 270).<br />

Postoji veliki broj radova u kojima se prepručuje centriranje varijabli prije nego pristupimo<br />

estimaciji modela sa interakcijama. Gotovo svi autori koji preporučuju centriranje varijabli se<br />

referenciraju na dvije vrlo uticajne knjige o regresionoj analizi (Aiken and West, 1991; Cohen<br />

et al., 2003). Pri tome se najčešće navode dva razloga za centriranje varijabli:<br />

1. Reduciranje multikolinearnosti između nezavisnih varijabli.<br />

2. Olakšavanje interpretacije regresionih koeficijenata<br />

Kad je riječ o prvom razlogu, ispostavlja se da centriranje varijabli niti pomaže niti odmaže pri<br />

reduciranju multikolineranost. Jednostavno, riječ je o svojevrsnom mitu koji je prositekao iz<br />

pogrešnog interpretiranja onoga što su napisali Aiken i West (Echambadi and Hess, 2004, p. 4;<br />

Hayes, 2013, p. 289)<br />

Pogledajmo u našem primjeru šta se dešava ako koristimo centirarne varijable i kako to utiče<br />

na tumačenje rezultata. Prvo ćemo nezavisne varijable centrirati oko opšteg prosjeka:<br />

. gen cincome = income - 55.8025<br />

. gen cage = age - 33.475<br />

Zatim ćemo genrisati interakcioni efekt za orginalne i centrirane varijable:<br />

11


. gen incomexage = income*age<br />

. gen cincomexcage = cincome*cage<br />

Na outputu 5 je prikazana deskriptivna statistika za sve varijable od interesa:<br />

. tabstat pizza income cincome age cage incomexage cincomexcage, s(mean sd var skew k range min<br />

max) format(%9.1f)<br />

stats | pizza income cincome age cage income~e cinco~ge<br />

---------+----------------------------------------------------------------------<br />

mean | 191.6 55.8 -0.0 33.5 -0.0 2107.6 239.6<br />

sd | 155.9 51.2 51.2 10.3 10.3 2360.6 483.2<br />

variance | 24298.8 2618.0 2618.0 105.1 105.1 5572450.9 233505.2<br />

skewness | 0.7 2.7 2.7 0.3 0.3 2.8 3.3<br />

kurtosis | 2.5 12.2 12.2 2.1 2.1 12.6 17.5<br />

range | 590.0 280.8 280.8 37.0 37.0 12753.0 3091.4<br />

min | 0.0 7.8 -48.0 18.0 -15.5 234.0 -408.4<br />

max | 590.0 288.6 232.8 55.0 21.5 12987.0 2683.0<br />

--------------------------------------------------------------------------------<br />

Output 5<br />

Možemo primjetiti da se aritmetička sredina centriranih varijabli promijenila i da je jednaka<br />

nuli. Također, promijenile su min i max vrijednosti ali je raspon ostao jednak. Ostali parametri<br />

su takođe ostali nepromijenjeni. Kad je riječ o interakcijskim članovima, primjećujemo da su<br />

SD, varijansa i raspon znatno manji u slučaju interakcijskog člana dobijenog množenjem<br />

centriranih varijabli. Ovo ne čudi obzirom da je prosječna vrijednost centriranih varijabli<br />

jednaka nuli, pa se njihovim međusobnim množenjem smanjuje kovarijansa (Echambadi and<br />

Hess, 2004, p. 3).<br />

U suštini, centriranje varijabli je matematska transformacija kojom se samo pomjera polazna<br />

tačka podataka, bez da se utiče na relativnu poziciju bilo koje pojednične opservacije<br />

(Echambadi and Hess, 2004, p. 4). Ovo se najbolje može vidjeti na slici 3.<br />

Slika 3: Grafička reprezentacija necentriranih i centriranih podataka u 3D prostoru<br />

Prije same regresione analize kreirat ćemo korelacionu matricu:<br />

. pwcorr pizza income cincome age cage incomexage cincomexcage<br />

12


| pizza income cincome age cage income~e cinco~ge<br />

-------------+---------------------------------------------------------------<br />

pizza | 1.0000<br />

income | 0.3680 1.0000<br />

cincome | 0.3680 1.0000 1.0000<br />

age | -0.2165 0.4685 0.4685 1.0000<br />

cage | -0.2165 0.4685 0.4685 1.0000 1.0000<br />

incomexage | 0.2670 0.9812 0.9812 0.5862 0.5862 1.0000<br />

cincomexcage | 0.2561 0.6943 0.6943 0.0190 0.0190 0.7130 1.0000<br />

Output 6<br />

Primjećujemo da interakcijski član income×age u znatnoj mjeri korelira sa orginalnom<br />

varijablom income (r = 0,98), dok nešto manje korelira sa varijablom age (r = 0,59). Nakon<br />

centriranja, korelacija između interakcijskog člana cincome×cage i centrirane varijable<br />

cincome je manja (r = 0,69), a za varijablu cage je gotvo nepostojeća (r = 0,02).<br />

Činjenica da centriranje varijabli vodi ka manjoj međusobnoj korelaciji je najčešći razlog zbog<br />

kojeg nemali broj autora tvrdi da je neophodno centrirati varijable prije specifikacije modela i<br />

testiranja interkacija. Prema toj argumentaciji, korištenje orginalnih varijabli može dovesti do<br />

znatne multikolinearnosti između nezavisnih varijabli i interakcijskog člana, što će za<br />

posljedicu imati probleme pri estimaciji koji će rezultirati pristrasnim ili „čudnim“ regresionim<br />

koeficijentima, velikim standardnim greškama i smanjenoj snazi pri testiranju interakcionog<br />

efekta. Ipak, ispostavilo se da je u slučajevima modela sa interkacijskim efektom ova logika<br />

pogrešna i nekompletna. (Hayes, 2013).<br />

Zašto centiranje ne pomaže mnogo u pogledu poboljšanja estimacije objašnjeno je detaljno u<br />

nekoliko radova (Echambadi and Hess, 2004; Afshartous and Preston, 2011; Hayes, 2013). Bez<br />

ulaženja u tehničke detalje navešćemo samo da centiranje varijabli smanjuje kovarijansu<br />

između nezavisnih varijabli i interakcijskog člana, što je „dobro“, ali ono takođe samnjuje i<br />

varijansu samog interakcijskog člana što je „loše“. Naime, za precizno mjerenje odnosa unutar<br />

modela, potrebno je da interakcijski član obuhvati što širi skup vrijednosti. Međutim, u slučaju<br />

interakcijskog člana dobijenog množenjem centriranih varijabli taj raspon je znatno manji.<br />

Nakon što se u obzir uzme „dobra“ i „loša“ strana centriranja, dolazi se do zaključka kako ono<br />

uopšte ne utiče na preciznost estimacije regresionih koeficijenata. Drugim riječima, centriranje<br />

niti pomaže niti odmaže pri estimaciji regresionog modela (Echambadi and Hess, 2004, p. 9).<br />

Estimirajmo sada regresioni model sa centriranim varijbalma:<br />

. reg pizza cincome cage c.cincome#c.cage<br />

Source | SS df MS Number of obs = 40<br />

-------------+------------------------------ F( 3, 36) = 7.59<br />

Model | 367043.244 3 122347.748 Prob > F = 0.0005<br />

Residual | 580608.656 36 16128.0182 R-squared = 0.3873<br />

-------------+------------------------------ Adj R-squared = 0.3363<br />

Total | 947651.9 39 24298.7667 Root MSE = 127<br />

----------------------------------------------------------------------------------<br />

pizza | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

-----------------+----------------------------------------------------------------<br />

cincome | 2.854468 .7130921 4.00 0.000 1.40825 4.300686<br />

cage | -9.854487 2.561649 -3.85 0.000 -15.04975 -4.659222<br />

c.cincome#c.cage | -.1232394 .0667187 -1.85 0.073 -.2585512 .0120725<br />

_cons | 221.0826 25.66757 8.61 0.000 169.0264 273.1389<br />

----------------------------------------------------------------------------------<br />

Output 7<br />

13


Ako uporedimo dobijene rezultate sa rezultatima estimacije modela sa orginalnim<br />

necentriranim varijablama možemo vidjeti da je dio outputa koji se odnosi na reprezentativnost<br />

regresionog modela ostao nepromijenjen (MSresidual = 580.609, F = 7,59, adj-R 2 = 0,3363).<br />

Također, sam estimirani interakcijski efekt, njegova standardna greška, t-staistika i p-vrijednost<br />

su ostale nepromijenjene. Dakle, iako je centriranje smanjilo multikolinearnost, rezultati testa<br />

vezanog za interakcijski član u modelu sa centriranim varijablama su identični rezultatima testa<br />

u modelu sa orginalnim varijabalma. Iz ovoga proizilazi da multikolinearnost ne smanjuje<br />

snagu testa niti rezultira pristrasnim koeficijentima.<br />

Ono po čemu se razlikuju rezultati estimacije modela sa centriranim u odnosu na model sa<br />

orginalnim varijablama jesu koeficijenti vezani za varijable prediktore x1 i x2. Također,<br />

primjećujemo da su standardne greške vezane za varijable prediktore znatno manje u modelu<br />

sa centriranim varijablama. Zbog toga, orginalna varijabla age u prvobitnom modelu nije<br />

signifikantna, dok je centrirana varijabla cage u modelu sa transformisanim varijablama<br />

signifikantna.<br />

Na prvi pogled ispada da multikolineranost zaista utiče na estimaciju uticaja varijabli<br />

prediktora. U modelu u kojem smo koristili orginalne varijable, koeficijenti su drugačiji,<br />

standardne greške su veće, a uticaj jednog prediktora nije čak ni statistički signifikantan. Nakon<br />

centriranja varijabli prediktora, rezultati su naizgled 'bolji' jer smo se riješili multikolinearnosti.<br />

Međutim, podsjetimo se da u modelima sa interakcijama govorimo prvenstveno o uslovnim<br />

efektima, od kojih svaki može imati različit nivo statističke signifikantnosti. U modelu sa<br />

orginalnim varijablama koeficijent b1 predstavlja efektat varijable x1 samo onda kada je x2 = 0.<br />

Isto tako, koeficijent b2 je efekt varijable x2 u slučaju kada je x1 = 0. S druge strane, u modelu<br />

sa centriranim varijablama, b1 predstavlja efektat koji x1 ima u slučaju kada je vrijednost x2<br />

jednaka aritmetičkoj sredini. Odnosno, b2 je efekt prediktora x2 kada je vrijednost x1 jednaka<br />

aritmetičkoj sredini.<br />

Dakle, razlika u koeficijentima b1 i b2 između modela sa i bez centriranja se ne javlja zbog toga<br />

što je model sa centriranim varijablama precizniji i manje pristrasan, već zato što ta dva modela<br />

estimiraju različite efekte. Obzirom da estimiraju različite efekte, njihove standardne greške, t<br />

i p-vrijednosti će biti različite. Samim tim i razlika u standardnim greškama nema nikakve veze<br />

sa multikolineranošću već sa činjenicom da se procjenjuju različiti efekti (Hayes, 2013, p. 288).<br />

Postavlja se pitanje da li onda uopšte centrirati varijable? Glavni razlog zbog kojeg je nekad<br />

poželjno, ali ne i neophodno, uraditi centriranje varijabli odnosi se na olakšavanje interpretacije<br />

dobijenih koeficijenata vezanih za varijable prediktore. Naime, već smo vidjeli da će nakon<br />

centriranja koeficijent vezan za interakcijski član ostati nepromijenjen. U tom smislu,<br />

interpetacija samog interacijskog efekta će ostati ista bez obzira na to da li smo centrirali<br />

varijable ili ne.<br />

S druge strane, ukoliko varijable x1 i x2 nemaju prirodnu nulu, onda u modelu sa necentriranim<br />

varijablama dobijene koeficijente ne možemo direktno interpretirati jer takva interpretacija<br />

neće biti logički smislena. Na primjer, b1 unutar modela sa orginalnim varijablama procjenjuje<br />

promjenu u izdacima na pizzu (y) ako dohodak poraste za jednu jedinicu (x1), u slučaju kada je<br />

14


dob ispitanika (x2) jednaka nuli. 6 Ipak, takvo tumačenje teško da ima logičkog smisla jer dob<br />

ispitanika koji konzumiraju pizzu ne može biti nula.<br />

Međutim, ukoliko smo nezavisne varijable centrirali, onda će dobijeni koeficijenti uvijek biti<br />

smisleni, a ne samo u slučaju kada te varijable imaju prirodnu nulu. Tako će b1 unutar modela<br />

sa centriranim varijablama predstavljati procjenu promjene u izdacima na pizzu (y) ako<br />

dohodak poraste za jednu jednicu (x1), u slučaju kada je dob ispitanika jednaka prosjeku (x2 =<br />

33,4 godine). Slično tome, b2 možemo interpretirati kao procjenu promjene u izdacima na pizzu<br />

ako starost poraste za jednu godinu (x2), u slučajevima kada je prihod ispitanika jednak prosjeku<br />

(x1 = 55,8 hiljada $).<br />

Jasno je da tumačenje koeficijenata iz modela sa centriranim varijablama ima više logičkog<br />

smisla. Ipak, na kraju ćemo ponovo napomentuti da i sam prosjek varijabli prediktora<br />

predstavlja samo jednu od mogućih uslovnih vrijednosti. Do istog rezultata smo mogli doći i<br />

na osnovu vrijednosti b1 i b3 koeficijenata iz modela sa orginalnim varijablama uz procjenu<br />

uslovnog efekta za x1 kada je x2= :<br />

= ( + )<br />

= (6,979905 − 0,12324 × ) ×<br />

= (6,979905 − 0,12324 × 33,475) ×<br />

= 2,2854468 ×<br />

što je rezultat koji tačno odgovara koeficijentu b1 iz modela sa centriranim predktorima. Štaviše,<br />

čak se i standardne greške za b1 u modelu sa centriranim varijablama mogu izvesti rješenja koje<br />

smo dobili za model bez centriranja 7 .<br />

6. DUMMY VARIJABLE I INTERAKCIJE<br />

Koncept interakcija se direktno može primijeniti i u slučaju varijabli indikatora. Pretpostavimo<br />

da je istraživač želio ispitati da li žene više troše na odjeću u odnosu na muškarce. U tu svrhu<br />

anketirano je 100 posjetitelja tržnog centra (50 muškaraca i 50 žena). Od svakog ispitanika je<br />

traženo da navede podatak o mjesečnim izdacima na odjeću (izdaci) i ličnom dohotku (plata).<br />

Prikupljeni podaci su pohranjeni u datoteku izdaci.dta. U okviru outputa 8 i 9 dat je prikaz<br />

prosječnih izdataka i dohodak za ispitanike iz uzorka.<br />

. sum<br />

Variable | Obs Mean Std. Dev. Min Max<br />

-------------+--------------------------------------------------------<br />

plata | 100 1016.45 328.2963 150 1872<br />

izdaci | 100 127.15 63.2266 0 285<br />

spol | 100 .5 .5025189 0 1<br />

Output 8<br />

. tabstat izdaci plata, by (spol) s(mean)<br />

Summary statistics: mean<br />

6<br />

Tumačenje na bazi onoga što piše u (Hayes, 2013, p. 288)<br />

7<br />

Za više detalja pogledati: (Hayes, 2013, p. 289)<br />

15


y categories of: spol (Spol)<br />

spol | izdaci plata<br />

-------+--------------------<br />

Muški | 87.5 971.84<br />

Ženski | 166.8 1061.06<br />

-------+--------------------<br />

Total | 127.15 1016.45<br />

----------------------------<br />

Output 9<br />

Možemo primjetiti da ispitanice imaju nešto veću prosječnu platu ali i da istovremeno imaju<br />

duplo veće mjesečne izdatke za odjeću.<br />

Da bi preciznije ispitali uticaj plate i spola na mjesečne izdatke za odjeću kreirali smo sljedeći<br />

regresioni model:<br />

= + + +<br />

gdje je varijabla spol kodirana tako da je 0 = muški, 1 = ženski. Rezultati estimacije su dati u<br />

okviru outputa 9.<br />

. reg izdaci plata spol<br />

Source | SS df MS Number of obs = 100<br />

-------------+------------------------------ F( 2, 97) = 69.00<br />

Model | 232400.481 2 116200.24 Prob > F = 0.0000<br />

Residual | 163362.269 97 1684.14711 R-squared = 0.5872<br />

-------------+------------------------------ Adj R-squared = 0.5787<br />

Total | 395762.75 99 3997.60354 Root MSE = 41.038<br />

------------------------------------------------------------------------------<br />

izdaci | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

-------------+----------------------------------------------------------------<br />

plata | .0847383 .0126822 6.68 0.000 .0595676 .1099089<br />

spol | 71.73965 8.2853 8.66 0.000 55.29563 88.18368<br />

_cons | 5.147962 13.62315 0.38 0.706 -21.89023 32.18615<br />

------------------------------------------------------------------------------<br />

Output 9<br />

Nakon što estimirane parametre ubacimo u prethodnu formulu dobićemo:<br />

= 5,15 + 0,0847 × + 71,74 ×<br />

<br />

<br />

<br />

Konstanta nam govori da za muške ispitanike (spol = 0) bez vlastitog ličnog dohotka<br />

(plata = 0) u prosjeku možemo očekivati mjesečnu potrošnju od 5,15 KM. Ipak, ovakav<br />

zaključak treba uzeti sa određenom rezervom obzirom da u uzorku nismo imali<br />

ispitanika bez ličnih primanja.<br />

Koeficijent vezan za platu je pozitivan i statistički signifikantan što znači da s<br />

povećanjem plate od 100 KM možemo očekivati povećanje mjesečnih izdatataka na<br />

odjeću u iznosu od 8,47 KM.<br />

Koeficijent vezan za spol je pozitivan i statistički signifikantan što govori da žene<br />

mjesečno na odjeću troše 71,74 KM više u odnosu na muškarce.<br />

16


Estimirani model je grafički predstavljen na slici 4.<br />

Slika 4<br />

Model sa slike 4 implicira da se potrošnja između muškaraca (isprekidana linija) i žena (puna<br />

linija) uvijek razlikuje za konstantni iznos. U prosjeku gledano, žene će uvijek imati izdatke na<br />

odjeću veće za 71,74 KM u odnosu na muškarce sa istim nivoom primanja.<br />

Međutim, može se postaviti pitanje da li je to tačno. Odnosno, da li paralelne linije najbolje<br />

oslikavaju empirijske tačke na slici 4? Ukoliko pažljivije pogledamo raspored empirijskih<br />

tačaka za muškarce i žene na slici 4 čini se da izdaci na odjeću kod žena sa povećanjem dohotka<br />

rastu brže u odnosu na muškarce.<br />

Hipoteza da će dohodatk imati različit uticaj na potrošnju kod žena u odnosu na muškarce<br />

naziva se uslovnom hipotezom i može se testirati putem interakcijskog efekta. Interakcijski<br />

efekat žemo dobiti tako što pomnožimo indikatorsku varijablu (spol) sa metrijskom varijablom<br />

(plata) tako da imamo:<br />

= + + + × +<br />

Rezultati estimacije modela sa interakcijskim efektom prikazani su unutar outputa 10.<br />

. reg izdaci plata spol c.plata#i.spol<br />

Source | SS df MS Number of obs = 100<br />

-------------+------------------------------ F( 3, 96) = 51.07<br />

Model | 243304.612 3 81101.5374 Prob > F = 0.0000<br />

Residual | 152458.138 96 1588.1056 R-squared = 0.6148<br />

-------------+------------------------------ Adj R-squared = 0.6027<br />

Total | 395762.75 99 3997.60354 Root MSE = 39.851<br />

------------------------------------------------------------------------------<br />

izdaci | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

-------------+----------------------------------------------------------------<br />

plata | .0541829 .01696 3.19 0.002 .0205175 .0878483<br />

spol | 5.882689 26.38946 0.22 0.824 -46.49998 58.26535<br />

|<br />

spol#c.plata |<br />

17


1 | .0646364 .0246673 2.62 0.010 .0156722 .1136006<br />

|<br />

_cons | 34.84287 17.41931 2.00 0.048 .2658066 69.41994<br />

------------------------------------------------------------------------------<br />

Output 10<br />

U odnosu na prethodni model, novi model ima adj. R 2 bolji za 2,4% što nije mnogo. Obratimo<br />

pažnju i da je efekt dummy varijable sada mnogo manji i nesignifikantan. Ipak, interakcijski<br />

efekt je signifikantan.<br />

Da bi dobili bolji uvid u to šta smo postigli ubacivanjem interakcijskog efekta poći ćemo od<br />

opšte jednačine modela:<br />

= 34,84 + 0,0542 × + 5,88 × + 0,0646 × ×<br />

Zatim ćemo kreirati dvije odvojene jednačine vezane za muškarce i žene. Jednačinu za žene<br />

žemo dobiti ako vrijednost dummy varijable fiksiramo na 0:<br />

š = 34,84 + 0,0542 × + 5,88 × 0 + 0,0646 × × 1<br />

š = 34,84 + 0,0542 ×<br />

<br />

<br />

Možemo očekivati da muškarci bez vlastitih primanja (plata = 0) u prosjeku na odjeću<br />

mjesečno troše 33,84 KM.<br />

Koeficijent vezan za platu je pozitivan i statistički signifikantan što znači da s<br />

povećanjem plate od 100 KM možemo očekivati da će muškarci u prosjeku povećati<br />

mjesečne izdatke na odjeću u iznosu od 5,42 KM.<br />

S druge strane, jednačinu za žene dobijamo ako vrijednost varijable spol fiksiramo na 1:<br />

ž = 34,84 + 0,0542 × + 5,88 × 1 + 0,0646 × × 1<br />

ž = 34,84 + 0,0542 × + 5,88 + 0,0646 ×<br />

ž = (34,84 + 5,88) + (0,0542 + 0,0646) ×<br />

ž = 40,72 + 0,1188 ×<br />

<br />

<br />

Možemo očekivati da žene bez vlastitih primanja (plata = 0) u prosjeku na odjeću<br />

mjesečno troše 40,72 KM.<br />

Koeficijent vezan za platu je pozitivan i statistički signifikantan što znači da s<br />

povećanjem plate od 100 KM možemo očekivati da će žene u prosjeku povećati<br />

mjesečne izdatke na odjeću u iznosu od 11,88 KM.<br />

Iako ne postoji statistički signifikantna razlika u mjesečnim izdacima između muškaraca i žena<br />

koji nemaju vlastita primanja (spol = 5,8, p = 0,824, kada je plata = 0), postojanje statistički<br />

signifikantnog efekta interakcije upućuje na zaključak da između muškaraca i žena postoji<br />

razlika u pogledu obrazaca potrošnje na odjeću. Naime, za svaku marku povećanja ličnog<br />

dohotka možemo oćekivati da će žene više trošiti na odjeću u odnosu na muškarce (11,88<br />

feninga u odnosu na 5,42 feninga).<br />

18


Ove relacije su grafički prikazane na slici 5.<br />

Slika 5<br />

Kao što je ubacivanje indikatorske varijable u model omogućilo da imamo dvije različite<br />

konstante, interakcijski efekt omogućava da imamo različite nagibe regresionih linija vezanih<br />

za muškarce i žene.<br />

Također, za kraj treba nepomenuti da u slučaju interakcija sa dummy varijablama ne treba<br />

koristiti centriranje obzirom da prosječna vrijednost dummy varijable nema nikakvo praktično<br />

značenje (Afshartous and Preston, 2011, p. 19).<br />

19


7. BIBLIOGRAFIJA<br />

Afshartous, D., Preston, R.A., 2011. Key Results of Interaction Models With Centering. J. Stat.<br />

Educ. 19.<br />

Aguinis, H., Gottfredson, R.K., 2010. Best-practice recommendations for estimating interaction<br />

effects using moderated multiple regression. J. Organ. Behav. 31, 776–786.<br />

doi:10.1002/job.686<br />

Aiken, L.S., West, S.G., 1991. Multiple Regression: Testing and Interpreting Interactions.<br />

SAGE Publications, Inc, Newbury Park, Calif.<br />

Cohen, J., Cohen, P., West, S.G., Aiken, L.S., 2003. Applied Multiple Regression/Correlation<br />

Analysis for the Behavioral Sciences, 3rd ed. Lawrence Erlbaum Associates, Inc.<br />

Echambadi, R., Hess, J.D., 2004. Mean-Centering Does Nothing for Moderated Multiple<br />

Regression. J. Mark. Res.<br />

Grace-Martin, K., n.d. Interpreting Interactions in Regression. Anal. Factor.<br />

Hayes, A.F., 2013. Introduction to Mediation, Moderation, and Conditional Process Analysis:<br />

A Regression-Based Approach, 1 edition. ed. The Guilford Press, New York.<br />

Međedović, J., 2013. Analiza interkacija prediktora u modelima linearne regresije: Primer<br />

stranačke evaluacije. Primjen. Psihol. 6, 267–286.<br />

Mooi, E., Sarstedt, M., 2014. A Concise Guide to Market Research: The Process, Data, and<br />

Methods Using IBM SPSS Statistics, 2nd ed. Springer.<br />

Preacher, K.J., 2003. A primer on interaction effects in multiple linear regression.<br />

Preacher, K.J., Curran, P.J., Bauer, D.J., 2004. Simple Intercepts, Simple Slopes, and Regions<br />

of Significance in MLR 2-Way Interactions.<br />

20

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!