analitika teorija

Marketing analitika: Istraºiva£ki proces 1 

autor: doc. dr Emir Agi¢ 

02. 03. 2015. (ver. 1.1) 

1 NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnoºavanje 

ovog materijala ili nekih njegovih dijelova bez prethodnog pisanog pristanka 

autora.

Sadrºaj 

1 Metodologija istraºiva£kog procesa 2 

1.1 Denisanje problema istraºivanja . . . . . . . . . . . . . . . . 3 

1.2 Generisanje teoretskog okvira . . . . . . . . . . . . . . . . . . 4 

1.3 Denisanje istraºiva£kih hipoteza . . . . . . . . . . . . . . . . 8 

1.4 Kreiranje istraºiva£kog dizajna za provjeru hipoteza . . . . . 9 

1.4.1 Denisanje na£ina mjerenja: varijable . . . . . . . . . 9 

1.4.1.1 Kvalitativne i metrijske varijable . . . . . . . 10 

1.4.1.2 Opservirane i latentne varijabe . . . . . . . . 11 

1.4.2 Denisanje na£ina mjerenja: korelacioni i eksperimentalni 

dizajn . . . . . . . . . . . . . . . . . . . . . . . . 13 

1.4.3 Prikupljanje podataka: Uzorak i uzorkovanje . . . . . 15 

1.5 Analiza podataka i interpretacija rezultata . . . . . . . . . . . 17 

1.5.1 Priprema podataka za analizu . . . . . . . . . . . . . . 17 

1.5.2 Odabir tehnike analize . . . . . . . . . . . . . . . . . . 18 

1.5.3 Analiza podataka . . . . . . . . . . . . . . . . . . . . . 23 

1.5.3.1 Statisti£ko modeliranje . . . . . . . . . . . . 23 

1.5.3.2 Interpretacija dobijenih rezultata . . . . . . . 24 

1.6 Zaklju£ak istraºivanja . . . . . . . . . . . . . . . . . . . . . . 26 

1

Poglavlje 1 

Metodologija istraºiva£kog 

procesa 

Istraºivanje u naj²irem smislu moºemo denisati kao skup aktivnosti koje 

poduzimamo kako bi pro²irili postoje¢a znanja i dobili odgovore na razli£ita 

pitanja. Iz ove ²ire denicije izvodi se pojam nau£nog istraºivanja koje podrazumjeva 

primjenu nau£nog metoda u istraºivanju. Nau£ni metod je 

primjena standardizovanog procesa putem kojeg se postavljene pretpostavke 

provjeravaju analizom empirijskih podataka. Dakle, da bi imalo nau£ni karakter 

istraºivanje mora biti zasnovan na prikupljanju empirijskih i mjerljivih 

podataka [6]. Uobi£ajeno je da se istraºivanje uz primjenu nau£nog metoda 

prikazuje kao skup koraka koje nazivamo istraºiva£ki proces. U ²irem 

smislu ovaj proces obuhvata: 

1. Denisanje problema istraºivanja 

2. Generisanje teoretskog okvira 

3. Denisanje istraºiva£kih hipoteza 

4. Odabir istraºiva£kog dizajna za provjeru hipoteza 

5. Analiza podataka i interpretacija rezultata 

6. Formulisanje odgovora na postavljeno pitanje (zaklju£ak istraºivanja) 

2

POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 3 

1.1 Denisanje problema istraºivanja 

Ovaj korak podrazumjeva odabir teme istraºivanja i denisanje istraºiva£kog 

pitanja (engl. research question). Tema istraºivanja treba biti relevantna 

sa teoretskog i/ili prakti£nog aspekta. U okviru ovog koraka obavlja 

se i pregled literature. Danas se kao nezaobilazni izvori, posebno za radove 

nau£nog karaktera, name¢u specijalizovane baze tekstova objavljenih u 

stru£nim £asopisima i na konferencijama. Neke od popularnih baza za oblast 

dru²tvenih nauka su: Ebsco, Emerald, Science Direct i sli£no. Antonius [2] 

navodi da pregled literature treba da ostvari tri cilja: 

• da obezbjedi spisak autora, radova, knjiga i nau£nih izvje²taja koji se 

odnose na dato istraºiva£ko pitanje; 

• identikuje teoretske pristupe koji se koriste pri istraºivanju datog pitanja; 

• da pruºi spoznaju o dosada²njim glavnim empirijskim nalazima o istraºivanoj 

probelmatici i povezanim temama. 

Nakon ²to smo obavili pregled literature i stekli uvid u dosad²nja istraºivanja 

moramo specicirati glavno istraºiva£ko pitanje na²e studije. Istraºiva£ko 

pitanje predstavlja formalnu izjavu o cilju studije i daje jasnu naznaku o 

tome ²ta istraºujemo i ²ta poku²avamo da dokaºemo. Odabrana tema i 

istraºiva£ko pitanje trebaju biti orginalni. Ukoliko se pregledom literature 

ispostavi da je neko ve¢ istraºivao odabranu temu potrebno je istoj pristupiti 

sa novog aspekta i vidjeti da li moºemo postoje¢em znanju dodati ne²to novo 

ili pro²iriti studiju na populaciju koja nije bila predmet prethodnih radova 

(drugim rije£ima, da li moºemo uraditi replikaciono istraºivanje). U tabeli 

1.1 je dat primjer istraºiva£kih pitanja formulisanih na bazi odabrane teme 

istraºivanja.


Tablica 1.1: Primjer tema istraºivanja i povezanih pitanja 

Tema istraºivanja 

Istraºiva£ko pitanje 

Primjena marketing koncepta Da li kompanije koje su vi²e 

poslovanja i performanse trºi²no orijentisane ostvaruju 

kompanije. 

bolje poslovne performanse u 

Programi lojalnosti i pona²anje 

kupaca pri kupovini. 

Uticaj eksibilnog radnog 

vremena na motivaciju 

zaposlenika. 

odnosu na druge kompanije? 

U kojoj mjeri programi sa 

karticama lojalnosti koje svojim 

kupcima nude veliki trgova£ki 

centri uti£u na pona²anje 

potro²a£a u kupovini? 

Kakva ¢e biti reakcija 

zaposlenika na uvoženje 

eksibilnijeg radnog vremena? 

1.2 Generisanje teoretskog okvira 

Nakon ²to smo postavili istraºiva£ka pitanja potrebno je razraditi teoretski 

okvir. Teoretski okvir (engl. theoretical framework) sa£injavaju koncepti, 

konstrukti, njihove denicije i teorija koja ih povezuje zajedno sa referencama 

na odgovaraju¢u literaturu. Unutar teoretskog okvira istraºiva£ mora 

demonstrirati razumjevanje koncepata i teorija koji su relevantni za istraºivanje 

[8]. Zbog toga je generisanje teoretskog okvira, naro£ito u akademskim 

istraºivanjima, usko povezano sa pregledom literature. Teoretski okvir povezuje 

trenutno istraºivanje sa prethodnim saznanjima, usmjerava istraºiva£a 

u pogledu obuhvata istraºivanja (²ta ¢e biti fokus) i deni²e speci£nu ta£ku 

gledi²ta (perspektivu, aspekt) iz koje ¢e istraºiva£ pristupiti analizi i interpretaciji 

podataka koje prikupi tokom istraºivanja. 

Ako se vratimo na tabelu 1.1 moºemo uo£iti razli£ite pojmove: marketing 

koncept, trºi²na orijentacija, poslovne performanse, programi lojalnosti, 

pona²anje potro²a£a, veliki trgova£ki centri, felskibilno radno vrijeme, zaposlenici 

i reakcija zaposlenika. Izuzetno je vaºno da se sloºimo oko zna£enja 

ovih pojmova. ’ta zna£i biti trºi²no orijentisan? Koje performanse i kako 

ih mjerimo? ’ta su veliki trgova£ki centri i koje kriterije koristimo za njihovu 

klasikaciju? ’ta podrazumjevamo pod programima lojalnosti? Kakve 

vrste reakcija zaposlenika? Kojih zaposlenika? ’ta su najvaºniji indikatori?


Ovakva i sli£na pitanja zahtijevaju kori²tenje koncepata, konstrukata i denicija. 

Koncept je uop²tena ideja o odreženim objektima, atributima, pojavama 

ili procesima koja ima svoj naziv [11, p.40]. Koncepti se opisuju pojmovima 

(rije£ima i frazama), pa se recimo pojmovi trºi²te i orijentacija koriste za 

opis koncepta trºi²ne orijentacije. U svakodnevnom govoru mi se u znatnoj 

mjeri koristimo konceptima kako bi lak²e baratali kompleksnim objektima 

i dogažajima. Tako na primjer kada £ujemo putni£ki automobil u svijest 

prizivamo £itav niz mogu¢ih modela automobila koje povezuju odrežene 

karakteristike. 

Uspjeh istraºivanja zavisi od jasne konceptualizacije i sposobnosti drugih 

da razume koncepte koje koristimo. Ljudi vrlo £esto istim pojmovima pridaju 

razli£ita zna£enja pa su £este situacije da, iako govore istim jezikom, 

ne razumiju jedni druge. Npr., uobi£ajeno pitanje: Primanja va²eg doma- 

¢instva iznose... sadrºi naizgled jasan koncept primanja. Mežutim, mnogi 

ispitanici ne¢e znati ²ta ta£no odgovoriti jer nije naveden period na koji se 

primanja odnose (sedmica, mjesec, godina), da li se uklju£uju samo primanja 

glave porodice ili svih £lanova doma¢instva, da li osim plate u primanja 

ulaze i ostali prihodi (dividende, kamate...) i sl. 

Posebno treba obratiti paºnju da u slu£aju nekih koncepata postoji izrazito 

velik nivo apstrakcije. Kako nivo apstrakcije raste, pove¢ava se vjerovatno¢a 

da ¢e ljudi razli£ito poimati zna£enje koncepta. Na primjer, koncepti 

oko £ijeg se zna£enja moºemo lako sloºiti su: zaposlenik, automobil, kompjuter, 

novac, trgova£ki centar i sl. Ove koncepte karakterizira niºi nivo 

apstrakcije i lako moºemo vizualizirati svaki od pobrojanih koncepata. Mežutim, 

ve¢ koncepti kao ²to su primanja, kompanija, zaposlenici, poslovne 

performanse, trgova£ki centar i sl. mogu izazvati probleme u komunikaciji. 

Stvari se dodatno kompliciraju u slu£aju izazovnih koncepata kao ²to su: 

programi lojalnosti, marketing, trºi²na orijentacija i sl. U slu£aju ovih koncepata 

imamo visok nivo apstrakcije i vizualizacija je mnogo teºa. 

Apstraktni koncepti se £esto nazivaju konstruktima i obi£no grade kombinovanjem 

drugih koncepata ili konstrukata, posebno kada ideja koju namjeravamo 

iskazati nije direktno vidljiva ili mjerljiva. Na primjer, marketing 

koncept je poslovna lozoja prema kojoj je klju£ uspjeha kompanije u zadovoljenju 

potro²a£kih potreba na bolji na£in nego ²to to rade konkurenti. 

S druge strane, koncept trºi²ne orijentacije se odnosi na primjenu marketing 

koncepta praksi. Oba koncepta su dosta apstraktna i te²ko ih je izmjeriti. 

Samim tim postoji velika vjerovatno¢a da ¢e imati sasvim razli£ita zna£enja


za razli£ite osobe. ’tavi²e, ako napravimo pregled dosada²njih istraºivanja 

moºemo primjetiti da autori trºi²noj orijentaciji kompanije pristupaju iz 

razli£itih perspektiva. U tabeli 1.2 su predstsvljena dva pristupa iz kojih vidimo 

da je trºi²na orijentacija sloºeni konstrukt koji se gradi kombinovanjem 

drugih konstrukata. 

Tablica 1.2: Dva razli£ita pristupa konstruktu trºi²ne orijentacije 

Perspektiva Denicija Konstrukti Autori 

Trºi²na orijentacija je 

(1) Orijentacija 

organizaciona kultura koja 

na potro²a£e; 

najefektivnije i 

(2) Orijentacija Narver i 

Organizaciona najekasnije kreira 

na konkurente; Slater 

kultura neophodno pona²anje 

(3) Interfunkcionalna 

(1990) 

kompanije £iji je krajnji 

cilj isporuka superiorne 

koordinacija 

vrijednosti potro²a£ima. 

Pona²anje 

organizacije 

Trºi²na orijentacija se 

odnosi na generiranje 

informacija vezanih za 

sada²nje i budu¢e potrebe 

potro²a£a, ²irenje tako 

prikupljenih informacija u 

sve organizacione dijelove 

kompanije, i organizovanje 

reagovanja kompanije na 

osnovu tih informacija. 

(1) Generisanje 

informacija; (2) 

Diseminacija 

informacija; (3) 

Responsivnost 

Kohli i 

Jaworski 

(1990) 

Pogre²no razumjevanje zna£enja koncepta i konstrukta moºe potkopati 

rezultate istraºivanja a da istraºiva£ toga nije ni svjestan. Zbog toga, nakon 

²to identikujemo sve koncepte i konstrukte relevantne za istraºivanje, potrebno 

je razviti operativnu deniciju koja mora precizirati karateristike 

koje se prou£avaju i na£in na koji ¢e te karakteristike biti mjerene. Osnovna 

svrha operativne denicije je da omogu¢i razumjevanje i mjerenje koncepata, 

posebno onih koje ¢emo koristiti za testiranje hipoteza i teorije [3]. Pri 

kreiranju operativne denicije moramo biti svjesni i odreženih problema. 

Cooper i Emory [3] skre¢u paºnju na stalno prisutnu opasnost izjedna£avanja 

koncepta i operativne denicije. Ipak, denicija uvijek ima uºe zna£enje 

od koncepta. Ona £esto pruºa uvid u neku pojavu iz samo jedne perspek-


tive. Zato se de²ava da pri istraºivanju iste pojave imamo denicije koje su 

mežusobno znatno razli£ite po zna£enju. Ovo je posebno izraºeno kada u 

istraºivanju koristimo konstrukte. Tada, zbog visokog nivoa apstrakcije, postoji 

veoma malo empirijskih pokazatelja na osnovu kojih moºemo procjeniti 

da li se operativna denicija zaista odnosi na ono ²to bi trebali mjeriti. Na 

primjer, u tabeli 1.1 su navedene dvije razli£ite operativne denicije koje proizilaze 

iz dva razli£ita pristupa fenomenu trºi²ne orijentacije. Ipak, obzirom 

da su vezane za isti fenomen, obje denicije sadrºe zajedni£ku poveznicu, a 

to je aktivan stav kompanije prema potro²a£ima. Oni su u centru paºnje i 

sve po£inje od njihovih potreba. 

Nakon ²to smo denisati glavne koncepte potrebno je odrediti njihove mežusobne 

odnose i pretpostavke na kojima se ti odnosi baziraju. Pogledajnmo 

istraºiva£ka pitanja iz tabele 1.1. Prvo istraºiva£ko pitanje odnosi na uticaj 

trºi²ne orijentacije na poslovne performanse. Pretpostavka je da ¢e trºi²no 

orijentisane kompanije bolje poznavati potrebe potro²a£a ²to im omogu¢ava 

da tim istim potro²a£ima isporu£e ve¢u vrijednost. Takvi potro²a£i ¢e biti 

zadovoljni i stalno se vra¢ati da kupuju od kompanije koja im je dala vi²e u 

odnosu na konkurente. Samim tim ve¢a trºi²na orijentisanost ¢e u krajnjoj 

liniji rezultirati superiornim poslovnim performansama. Drugo istraºiva£ko 

pitanje odnosi se na programe lojalnosti i pona²anje potro²a£a. Istraºiva£ 

moºe po¢i od pretpostavke da kartice lojalnosti imaju uticaj na pona²anje 

potro²a£a zbog toga ²to lojalnim kupcima omogu¢uju kupovinu po sniºenim 

cijenama. Zato ¢e takvi kupci vi²e i £e²¢e kupovati u prodavnici odnosu na 

kupce koji nisu £lanovi. 

Ovakve i sli£ne generalizacije, koje pravimo kada govorimo o konceptima 

i vezama izmežu njih, predstavljaju teoriju. Teorije se razvijaju kako bi 

razumjeli, objasnili i predvidjeli neki fenomen, £esto i kako bi opovrgli ili 

pro²irili postoje¢a saznanja. U tom kontekstu, unutar teoretskog okvira se 

predstavlja i opisuje teorija koja obja²njava za²to smo uop²te postavili istra- 

ºiva£ko pitanje [8]. 

Ako se vratimo na prethodne primjere, mogu¢e je razviti i alternativne teorije. 

Tako se moºe ustvrditi da implementacija trºi²ne orijentacije zahtjeva 

dosta resursa i da ¢e zbog tih tro²kova poslovne performanse biti slabije, a ne 

bolje. Takožer, mogu¢e je da programi lojalnosti uti£u samo na pona²anje 

kupaca sa manjim primanjima budu¢i da niska visina cjenovnih u²teda nije 

dovoljan motiv za promjenu kupovnih navika ve¢ine kupaca. 

Da bi testirali da li je neka teorija ta£na neophodno je prikupiti empirijske 

podatke na bazi kojih ¢e se uraditi provjera. Mežutim, prije toga se formuli²u


formalne izjave unutar kojih je nazna£eno kakvi se rezultati o£ekuju ako je 

teorija ispravna. Drugim rije£ima, deni²u se prijedlozi i hipoteze. 

1.3 Denisanje istraºiva£kih hipoteza 

Izjave kojima se speciciraju karakteristike i veze izmežu koncepata nazivaju 

se propozicijama ili prijedlozima [11, p. 40]. Na primjer, ako kaºemo da 

ve¢a trºi²na orijentacija preduze¢a rezultira boljim poslovnim performansama, 

mi smo specicirali vezu izmežu trºi²ne orijentacije preduze¢a i njegovih 

poslovnih performansi. Propoziciju koju moºemo empirijski provjeriti 

nazivamo hipotezom [3]. Hipoteza ukazuje na rezultat koji najvjerovatnije 

o£ekujemo, a koji se ne mora pokazati kao ta£an. Zbog toga i provodimo 

istraºivanje, da testiramo da li je neka hipoteza ta£na ili ne. Ako smo unaprijed, 

bez ikakve sumnje, sigurni u to ²ta ¢e biti rezultat istraºivanja onda 

nam istraºivanje i ne treba. 

Generalno govore¢i, hipoteze moºemo podijeliti u dvije grupe: deskriptivne 

i relacione. Relacione hipoteze mogu biti korelacione ili kauzalne. 

Deskriptivnim hipotezama obi£no izraºavamo postojanje, veli£inu ili 

distribuciju frekvencija neke varijable [3, p. 39]. Na primjer, U Bosni i Hercegovini, 

trºi²no u£e²¢e kompanije Meggle u prodaji mlijeka iznosi manje 

od 20%. U praksi istraºiva£i rijetko eksplicitno speciciraju deskriptivne 

hipoteze ve¢ je dovoljno navesti samo istraºiva£ko pitanje. Tako se umjesto 

prethodno navedene hipoteze, moºe formulisati pitanje Koliko trºi²no u£e²¢e 

ima kompanije Meggle u prodaji milijeka na teritoriji Bosne i Hercegovine? 

Relacionim hipotezama deni²emo vrste odnosa koji postoje izmežu varijabli. 

Relacione hipoteze mogu biti koralcione i kauzalne. Korelacione 

hipoteze govore o tome da li je kretanje vrijednosti dvije ili vi²e varijabli 

mežusobno povezano, bez speciciranja uzro£no posljedi£ne veze. Na 

primjer, Broj prodatih automobila varira u zavisnosti od stadija poslovnog 

ciklusa privrede . Kauzalne hipoteze govore o tome da promjena vrijednosti 

jedne varijable direktno uti£e na drugu varijablu. Na primjer, Ve¢a 

trºi²na orijentacija rezultira ve¢im ostvarenim protom kompanije. 

Cooper i Emory [3] navode da hipoteze igraju vi²estruku ulogu: 

• Usmjeravaju istraºivanje u odgovaraju¢em pravcu, 

• Pomaºu da se identikuju sve relevantne £injenice,


• Sugeri²u najprikladniji istraºiva£ki dizajn i 

• Pruºaju okvir za organizovanje dobijenih zaklju£aka. 

Uzmimo za primjer hipotezu: Zadovoljstvo potro²a£a trgova£kom markom 

je pozitivno povezano sa lojalno²¢u prema prodavnici koja prodaje tu marku. 

Ovako postavljena hipoteza determini²e koga istraºujemo (potro²a£e), u kojem 

kontekstu se studija provodi (kupovina) i ²ta je predmet istraºivanja 

(zadovoljstvo trgova£kom markom i lojalnost prema prodavnici). 

Nakon ²to smo kreirali teoretski okvir i denisali hipoteze istraºivanja, 

sljede¢i korak je operacionalizacija, tj. prelazak sa teoretskog na empirijski 

nivo istraºivanja. 

1.4 Kreiranje istraºiva£kog dizajna za provjeru hipoteza 

Prvi korak u okviru operacionalizacije istraºivanja odnosi se na odabir istra- 

ºiva£kog dizajan. Istraºiva£ki dizajn predstavlja osnovni plan istraºivanja 

kojim se deni²e na£in mjerenja, prikupljanja i analize podataka. Odabir 

pravog istraºiva£kog dizajna nije lagan zadatak obzirom da postoji veliki 

broj faktora koje treba uzeti u obzir. Denitivno najvaºniji faktor je istraºiva£ki 

problem. U skladu sa tim, istraºiva£ki dizajn treba da pruºi strategiju 

kojom ¢e se na koherentan i logi£an na£in objediniti razli£ite komponente 

studije u cilju pronalaºenja efektivnog odgovora na postavljeno istraºiva£ko 

pitanje. Dakle, problem istraºivanja diktira izbor vrste kori²tenog dizajna a 

ne obratno [1]. 

1.4.1 Denisanje na£ina mjerenja: varijable 

Na empirijskom nivou istraºivanja, gdje se na bazi prikupljenih podataka 

odvija provjera postavljenih hipoteza, moramo prvo odrediti na£in na koji 

¢emo mjeriti identikovane koncepte i konstrukte. U tom kontekstu govorimo 

o varijablama. Varijabla je pojava ili osobina koja se mijenja, i po 

kojoj se jedinice odrežene populacije mežusobno razlikuju, ili se mogu razlikovati. 

Modalitet koji varijabla moºe uzeti naziva se vrijedno²¢u varijable. 

Na primjer, spol je kvalitativna varijabla koja ima samo dva modaliteta: 

mu²ki ili ºennski.


U praksi, varijabla je £esto sinonim za koncept ili obiljeºje koje se prou£ava 

[3]. Na primjer, za mjerenje socio-demografskih karkateristika koristimo 

neke od sljede¢ih varijabli: dob, pol, religija, nivo obrazovanja, bra£ni 

status, nacionalnost, prebivali²te... Za mjerenje ekonomskih karakteristika 

upotrebljavamo: radni status, primanja, duºina radnog vremena... Varijable 

kojima mjerimo psiholo²ka obiljeºja izmežu ostalog uklju£uju: stepen depresivnosti, 

preferencije, rezultat ostvaren na testu personalnosti... Neke od 

ostalih £esto kori²tenih varijabli su: broj stanovnika, ostvareni prot, stepen 

trºi²ne orijentacije, i sli£no. 

1.4.1.1 Kvalitativne i metrijske varijable 

Primje¢ujemo da neke od gore nabrojanih varijabli odraºavaju karakteristike 

ili kvalitativna svojstva koja nisu numeri£ke prirode, kao ²to je na primjer 

mjesto prebivali²ta. S druge strane, neke se odnose na kvantitativna svojstva, 

kao ²to je recimo ostvareni prot. Generalno, prema vrsti podataka 

koje reprezentuju, varijable moºemo podijeliti u dvije grupe: kategorijske 

(kvalitativne) i metrijske varijable. 

Prvi tip kategorijskih varijabli su dihotomne (binarne) varijable koje 

mogu imati samo dvije vrijednosti: 0 ili 1. Ove vrijednosti ozna£avaju prisustvo, 

odnosno odsustvo neke osobine, obiljeºja ili kategorije. Na primjer, pol 

ispitanika moºe se ozna£iti sa: 0 mu²ki, 1 ºenski. Za ovakav tip varijabli 

nije smisleno izra£unavati mjere centralne tendencije kao ²to je aritmeti£ka 

sredina ili medijana, budu¢i da brojevi 0 i 1 nemaju zna£enje u smislu vrijednosti. 

Drugi tip kategorisjkih varijabli su politomne varijable koje mogu biti 

nominalne kategorijske varijable ili ordinalne kategorijske varijable. Nominalne 

kategorijske varijable su ekstenzija prethodno pomenutih dihotomnih 

varijabli i za razliku od njih mogu imati vi²e kategorija. Na primjer, 

primarna djelatnost kompanije se moºe ozna£iti sa: 0 Poljoprivreda, 1 

’umarstvo, 2 Preraživa£ka industrija itd. Kao i kod binarnih varijabli 

broj£ane vrijednosti su radi identikacije i nemaju zna£enje u smislu vrijednosti. 

Ordinalne kategorijske varijable imaju vi²e kategorija koje se 

ozna£avaju sa brojevima, koji za razliku od prethodnog slu£aja, daju indikaciju 

odrežene vrijednosti s obzirom na redoslijed u nizu u kojem su poredani. 

Na primjer, kompanije prema visini ostvarenog prota moºemo ozna£iti na 

sljede¢i na£in: 1 Lo²ije u donosu na konkurente, 2 Jednake u odnosu na 

konkurente, 3 Bolje u odnosu na konkurente. Za razliku od prethodna dva


slu£aja jasno se vidi da broj dva ozna£ava ve¢u vrijednost u odnosu na broj 

jedan a broj tri ve¢u vrijednost u odnosu na broj dva, a samim tim i u odnosu 

na broj jedan. Ono ²to se ne vidi je veli£ina stvarna razlike izmežu ovih 

kategorija. Da li su kompanije iz tre¢e kategorije mnogo bolje u odnosu na 

one u drugoj kategoriji ili je ta razlika mala? Na ovo pitanje je te²ko dati odgovor 

budu¢i da ordinalne varijable ne omogu¢avaju mjerenje veli£ine razlike 

izmežu datih kategorija. Kod ovih varijabli za mjerenje centralne tendencije 

ima smisla koristiti medijanu, ali ne i aritmeti£ku sredinu. 

Metrijske varijable predstavljaju podatke mjerene na intervalnim i proporcionalnim 

skalama. Osnovna razlika izmežu ova dva tipa skala je ²to 

proporcionalne skale imaju prirodnu nulu kao svoj po£etak, dok intervalne 

skale za po£etnu vrijednost uzimaju arbitrarnu vrijednost. Ono ²to je bitno 

naglasiti za skale je £injenica da omogu¢avaju mjerenje veli£ine razlike izmežu 

vrijednosti na kojima se skala kre¢e. U statisti£kim paketima kao ²to 

je SPSS, STATA i sl. ne pravi se posebna diferencijacija izmežu intervalnih 

i proporcionalnih skala i one se u analizama tretiraju jednako. 

1.4.1.2 Opservirane i latentne varijabe 

Osvrnimo se sada na jednu drugu vrstu kategorizacije, prema kojoj varijabile 

dijelimo na opservirane (engl. observed), dakle, one koje smo direktno 

izmjerili i latentne (skrivene), tj. one koje ne moºemo mjeriti direktno ve¢ 

isklju£ivo indirektno putem opserviranih varijabli (koje u takvoj ulozi zovu 

indikatorima ili manifestnim varijablama). U literaturi je uobi£ajeno da se 

opservirane varijable na ²ematskim prikazima predstavljaju pravugaonicima 

dok se latentne varijable predstavljaju elipsama. Na primjer, stepen trºi²ne 

orijentacije odrežene kompanije ne moºemo nikada precizno izmjeriti samo sa 

jednim pitanjem (varijablom). Ukoliko bi koristili samo jednu varijablu javila 

bi se velika mogu¢nost da ¢e razli£iti ispitanici interpretirati pitanje na svoj 

na£in i davati razli£ite odgovore, ²to smanjuje sigurnost da precizno mjerimo 

konstrukt trºi²ne orijentacije koji nas interesuje. Mežutim, preciznost se 

moºe pove¢ati ako postavimo vi²e razli£itih pitanja koja mjerenju trºi²ne 

orijentacije pristupaju sa razli£itih aspekata. Kombinirani odgovori na data 

pitanja daju ve¢u preciznost i sigurnost da mjerimo ono ²to nas interesuje. 

Na slici 1.1 je dat prikaz opserviranih varijabli koje predstavljaju pitanja 

na sedmostepenoj Likertovoj skali a kojima se mjere tri koncepta koja 

prema Narveru i Slateru £ine konstrukt trºi²ne orijentacije. Sam proces 

kojim sloºeni konstrukt ra²£lanjujemo na dimenzije i indikatore naziva se


operacionalizacija konstrukta. 

Slika 1.1 

Drugi primjer u okviru kojeg moºemo ilustrovati odnos izmežu manifestnih 

i latentnih varijabli odnosi se na poslovne performanse. Ukupne poslovne 

performanse predstavljaju konstrukt koji se manifestuje preko razli£itih 

dimenzija. Jedan od na£ina na koji moºemo izmjeriti ukupne poslovne 

performanse je da ih podijelimo na proizvodne, marketini²ke i nansijske


performanse koje ¢emo mjeriti sa nekoliko indikatora kao ²to je prikazano u 

tabeli 1.3 

Tablica 1.3: Sloºeni konstrukt ra²£lanjen na nekoliko dimenzija koje 

mjerimo indikatorima 

Konstrukt Dimenzije Indikatori 

Proizvodne performanse 

Tro²kovi (T) 

Kvalitet (Q) 

Fleksibilnost (F) 

Poslovne performanse Marketing performanse 

Trºi²no u£e²¢e (S) 

Rast trºi²nog u£e²¢a (G) 

Finansijske performanse 

Povrat na aktivu (ROA) 

Povrat na ulaganja (ROI) 

Povrat od prodaje (ROS) 

Latentne varijable 

Opserivrane varijable 

Na desnoj strani tabele imamo niz indikatora, odnosno opserviranih varijabli 

koje moºemo direktno mjeriti. Ni jedan indikator samostalno ne moºe 

mjeriti konstrukt poslovnih performansi ve¢ samo neke njegove aspekte. Mežusobno 

sli£ni indikatori se grupi²u u dimenzije ili faktore. Kona£no, razli£ite 

dimenzije posmatrane zajedno, mjere sloºeni konstrukt. 

1.4.2 Denisanje na£ina mjerenja: korelacioni i eksperimentalni 

dizajn 

Prema na£inu na koji organizujemo prikupljanje podataka razlikujemo korelacioni 

i eksperimentalni dizajn. U oba slu£aja cilj nam je da utvrdimo 

postojanje veza i kauzalnosti izmežu varijabli od interesa a osnovna razlika 

ogleda se u na£inu na koji dolazimo do podatka kojima testiramo hipoteze 

Korelacioni dizajn podrazumjeva posmatranje i prikupljanje podatka 

o odnosima koji postoje izmežu varijabli bez bilo kakvog upliva istraºiva£a u 

sam proces prikupljanja podataka. Jednostavno re£eno, istraºiva£ biljeºi ono 

²to se de²ava u stvarnom svijetu pri tome poku²avaju¢i utvrditi na koji na£in 

su varijable mežusobno povezane. U zavisnosti od toga da li se ¢e se podaci 

prikupljati u samo jednom, ta£no odreženom, vremenskom periodu ili kroz 

kroz vi²e perioda, korelacioni dizajn moºe biti kros-sekcioni i longitudinalni. 

O kros-sekcionom dizajnu govorimo onda kada se prikupljeni podaci


odnose na samo jedan vremenski period (dan, sedmica, mjesec, godina i 

sli£no). Na primjer, istraºiva£ moºe pitati ispitanike o tome gdje su ljetovali 

tokom zadnjeg godi²njeg odmora i koji faktori su opredijelili njihov izbor 

lokacije ljetovanja. O£ito je da ¢e se prikupljeni podaci u ovom slu£aju 

odnositi samo na jedan period (posljednji godi²nji odmor). 

Ako pojave mjerimo na istim subjektima kroz vi²e vremenskih perioda 

onda govorimo o longitudinalnom dizajnu. Na primjer, istraºiva£ tokom 

niza godina moºe biljeºiti kretanje potraºnje nekom destinacijom zajedno 

sa ostalim varijablama kao ²to su preferencije, cijena smje²taja i sli£no, a 

sve kako bi utvrdio dinamiku promjena i klju£ne faktore koji determini²u tu 

dinamiku. 

U oba prethodno navedena primjera, nije bilo direktne manipulacije od 

strane istraºiva£a na varijable od interesa. Istraºiva£ je samo biljeºio stvarnu 

situaciju u datom vremenskom momentu (kros sekcioni dizajn) ili tokom nekog 

vremenskog perioda (longitudinalni dizajn). Nasuprot tome, ekperimentalni 

dizajn se odnosi na situacije u kojima istraºiva£ direktno manipluli²e 

nezavisnom varijablom kako bi izmjerio kakve efekte ta manipulacija 

ima na zavisnu varijablu. Vezano za na£in na koji prikupljamo podatke u 

eksperimentalnom dizajnu, razlikujemo nezavisni i zavisni eksperimentalni 

dizajn. 1 

Na primjer, pretpostavimo da istraºiva£ ºeli organizovati eksperiment 

kako bi utvrdio da li potro²a£i vi²e preferiraju plavu ili crvenu boju pakovanja. 

Prvi na£in na koji se moºe organizovati ovakav eksperiment je da 

ispitanike iz uzorka potpuno slu£ajno raspodijelimo u dvije grupe. Zatim 

da jednoj grupi pokaºemo plavo a drugoj crveno pakovanje pri tome mjere¢i 

razlike u preferencijama izmežu ove dvije grupe. U ovom slu£aju radi se o 

nezavisnom dizajnu jer istraºiva£ manipuli²e nezavisnom varijablom (boja 

pakovanja) na dvije odvojene grupe ispitanika. Drugim rije£ima, mjerenje 

preferencija u jednoj grupi je potpuno nezavisno od mjerenja u drugoj grupi. 

Drugi na£in je da istraºiva£ svim ispitanicima pokaºe prvo plavo a zatim 

crveno pakovanje istovremeno mjere¢i njihove preferencije prema ova dva 

pakovanja. Tada govorimo o zavisnom dizajnu, jer istraºiva£ manipuli²e 

1 Nezavisni dizajn (engl. independent design) nekada se naziva jo² i mežugrupni dizajn 

(engl. between-groups ili between-subjects design). S druge strane, nije neuobi£ajeno 

da se zavisni dizajn (engl. dependent design) £esto imenuje kao unutar grupni dizajn 

(engl. within-subject design) ili £ak dizajn ponovljenih mjerenja (engl. repeated-measures 

design). Bez obzira na naziv, rije£ je o istoj stvari.


nezavisnom varijablom (boja pakovanja) ali na istoj grupi ispitanika. U tom 

smislu drugo mjerenje je zavisno jer se obavlja na istim ispitanicima. 

1.4.3 Prikupljanje podataka: Uzorak i uzorkovanje 

Vrlo vaºan dio istraºiva£kog dizajna odnosi se na pitanja odreživanja uzorka. 

Pretpostavimo da ºelimo saznati koliko potro²a£i u Bosni i Hercegovini mjese£no 

potro²e na kupovinu nekog proizvoda. Do potpuno ta£ne informacije 

do²li bi samo ako bi obuhvatili sve potro²a£e tj. sve jedinice populacije. 

Skup svih elemenata na kojima se izvjesna pojava statisti£ki posmatra zove 

se populacija [5]. Populacija se moºe odnositi na razli£ite subjekte ili pojave 

koje posmatramo na odreženoj teritoriji i tokom odreženog vremenskog 

razdoblja, kao ²to su potro²a£i, kompanije, proizvodi, marke, krediti, potraºivanja, 

investicije... Pojedina£ni elementi od kojih se sastoji populacija 

su jedinice populacije. U na²em primjeru mjese£ni izdaci predstavljali 

bi varijablu dok bi izra£unata prosje£na potro²nja predstavljala speci£no 

obiljeºje populacije koje nazivamo nazivamo parametar [9]. 

Provoženje istraºivanja koje bi obuhvatilo cjelokupnu populaciju naj£e²¢e 

zahtjeva dosta vremena i ogromne materijalne resurse. U takvim slu£ajevima 

moºemo kreirati uzorak i na osnovu uzorka procijeniti parametre populacije. 

Uzorak je dio populacije na osnovu £ijeg prou£avanja donosimo zaklju£ke 

o samoj populaciji. Proces odabira jedinica populacije u uzorak naziva se 

uzorkovanje. Sam postupak dono²enja zaklju£aka o karakteristikama populacije 

na osnovu uzorka nazivamo statisti£kim zaklju£ivanjem [5]. Prema 

na£inima stvaranja zaklju£aka razlikujemo dvije vrste statistike: deskriptivnu 

i inferencijalnu. 

Deskriptivna statistika obuhvata numeri£ke i gra£ke procedure koje 

se koriste za organizovanje i opisivanje vaºnih svojstava podataka. Koriste¢i 

deskriptivnu statistiku istraºiva£ izra£unava numeri£ke vrijednosti (prosjek, 

standardna devijacija, medijana...) i gra£ki predstavlja podatke (histogrami, 

dijagrami...). Ako analiziramo podatke iz uzorka, primarni cilj desktiptivne 

statistike je da predstavi rezultate analize bez poku²aja da se ti 

rezultati generaliziraju izvan uzorka na £itavu populaciju (Norman & Streiner, 

2003). Deskriptivni pokazatelji koji se izra£unavaju pomo¢u podataka 

u uzorku nazivaju se statistikom uzorka. Na primjer, ako na bazi uzorka 

izra£unamo prosje£nu mjese£nu potro²nju govorimo o statistici tog obiljeºja 

u uzorku [10].


Mežutim, vrlo £esto istraºiva£ ºeli oti¢i dalje i biti siguran da se ono ²to 

vaºi za uzorak moºe primjeniti i na populaciju u cjelini. Na primjer, cilj 

istraºivanja moºe biti da ispitamo da li ¢e novo pakovanje rezultirati ve¢im 

obimom prodaje. Kada istraºujemo efekte novog pakovanja na prodaju, na²a 

namjera je da dožemo do generalnog zaklju£aka koji ¢e vaºiti za sve prodavnice 

u kojima ¢e se to pakovanje prodavati, a ne samo za one prodavnice 

koje su u uzorku. Da bi zaklju£ke do kojih dožemo na bazi uzorka generalizirali 

na populaciju potrebno je da uzorak bude reprezentativan, tj. da se 

u njemu posmatrana pojava ispoljava pribliºno isto kao i u cjelokupnoj populaciji. 

Zbog toga je u okviru planiranja uzroka potrebno donijeti odluke o 

veli£ini uzorka i na£inu uzorkovanja kojim ¢e se obezbjediti reprezentativnost 

i mogu¢nost generalizacije nalaza iz uzorka na populaciju u cijelini. 

Pretpostavimo da se pokazalo da je prosje£na prodaja proizvoda u prodavnicama 

iz uzorka ve¢a nakon uvoženja novog pakovanja. Prije nego po- 

ºurimo da zaklju£imo istraºivanje i ustvrdimo da novo pakovanje rezultira 

boljom prodajom moramo biti svjesni dvije stvari. Prvo, kad koristimo uzorak 

postoji mogu¢nost da on ne bude reprezentativan za populaciju. Taj 

problem predstavlja gre²ku uzorkovanja (engl. sampling error) i odra- 

ºava se u £injenici da uzorak nikada ne¢e biti savr²eno identi£an populaciji. 

Tako se moºe desiti da su u uzorak sasvim slu£ajno odaberene prodavnice u 

kojima bi prosje£na prodaja proizvoda bila ve¢a £ak i da nismo uveli novo 

pakovanje. 

Drugo, zbog kompleksnosti i heterogenosti ispitivanih pojava mogu¢e su 

gre²ke u mjerenju. Ove gre²ke mogu biti sistematske i slu£ajne. Sistematske 

gre²ke (engl. systematic errors) nastaju kao posljedica pristrasnosti pri 

prikupljanju podataka (pristrasnost izbora, neodgovaraju¢i upitnik...). Na 

primjer, moºda smo prodaju mjerili u periodu kada se dati proizvod ina£e 

vi²e kupuje pa je pove¢anje prodaje posljedica sezonskog uticaja a ne novog 

pakovanja. Paºljiv istraºiva£ nastoji da sistematske gre²ke izbjegne pravilnim 

uzorkovanjem (reprezentativnost i veli£ina uzorka) i kroz kori²tenje odgovaraju¢ih 

instrumenta kojima se mjere varijable (validnost i pouzdanost). 

Slu£ajne gre²ke (engl. random errors) posljedica su varijabiliteta posmatranih 

pojava koji nastaje zbog djelovanja mnogih nepoznatih varijabli koje 

nisu pod kontrolom istraºiva£a. Na primjer, moºda je ve¢a prodaja posljedica 

djelovanja neke varijable koju nismo mjerili. Mogu¢e je da je porastao 

dohodak pa ve¢a prodaja nije rezultat uvoženja novog pakovanja ve¢ £injenice 

da ljudi generalno vi²e kupuju taj proizvod. Istraºiva£i slu£ajne gre²ke 

poku²avaju ²to vi²e drºati pod kontrolom odabirom odgovaraju¢eg istraºiva£kog 

dizajna kao i uklju£ivanjem u analizu svih varijabli koje mogu imati


uticaja na posmatranu pojavu. Ipak, slu£ajne gre²ke se nikada ne mogu u 

potpunosti izbje¢i. 

Zbog svega navedenog, logi£no je postaviti pitanje o tome da li rezultati 

iz uzorka vaºe i za populaciju u cjelini? Da li je nalaz o pove¢anju prodaje 

proizvoda u prodavnicama iz na²eg uzorka zaista posljedica uvoženja novog 

pakovanja? Drugim rije£ima, kako znati da li je novo pakovanje primarni 

uzrok porasta prodaje i sa kolikom sigurno²¢u moºemo tvrditi da ¢e na²i 

nalazi vrijediti u svim prodavnicama, a ne samo u onim iz uzorka? Na 

ovakva pitanja dobijamo odgovor kori²tenjem inferencijalne statistike. 

Inferencijalna statistika obuhvata tehnike koje omogu¢uju da se, na 

osnovu karakteristika uzorka i teorije vjerovatno¢e, dobijeni rezultati generaliziraju 

na populaciju u cjelini. U ve¢em dijelu ove knjige mi ¢emo se upravo 

baviti razli£itim tehnikama inferencijalne statistike. Ona moºe uklju£ivati 

tehnike za procjenu parametara populacije, testiranje hipoteza o karakteristikama 

populacije, analizu odnosa izmežu dvije ili vi²e varijabli i prognoziranje 

[9]. U na²em primjeru, uz pretpostavku da smo odabrali odgovaraju¢i 

slu£ajan uzorak, primjenom tehnika inferencijalne statistike moºemo sa odreženim 

stepenom sigurnosti re¢i da li su ve¢i prodajni efekti rezultat uvoženja 

novog pakovanja ili ne. 

1.5 Analiza podataka i interpretacija rezultata 

Kao ²to je ranije re£eno, da bi odgovorili na istraºiva£ko pitanje prvo kreiramo 

teoriju a zatim na bazi teorije postavljamo hipoteze istraºivanja. Da bi 

provjerili postavljene hipoteze prikupljamo podatke koje zatim analiziramo 

primjenom odgovaraju¢ih tehnika statisti£ke analize. 

1.5.1 Priprema podataka za analizu 

Prikupljene podatke podrebno je prvo pripremiti za analizu. Priprema podataka 

prvenstveno podrazumjeva unos podataka u tabele unutar nekog softverkih 

paketa kao ²to je na primjer Excel. Tako uneseni podaci se zatim 

spremaju u datoteke i u£itavaju u specijalizovani statisti£ki softver unutar 

kojeg se vr²i njihova dalja obrada.


1.5.2 Odabir tehnike analize 

Ovo je vjerovatno korak u kojem istraºiva£i po£etnici prave najve¢i broj gre- 

²ki. Problem nastaje zbog toga ²to je odabir odgovaraju¢e statisti£ke tehnike 

analize podataka usko povezan sa hipotezama koje namjeravamo provjeriti 

i podacima koji nam trebaju za takvu analizu. Istraºiva£i po£etnici obi£no 

o tehnici analize po£nu razmi²ljati nakon ²to su postavili hipoteze, kreirali 

upitnik i prikupili podatke. Nerijetko se desi da u tom momentu shvate da 

su prikupljeni podaci neadekvatni za analizu koja bi odgovarala postavljenim 

ciljevima i hipotezama istraºivanja. To obi£no zna£i ponavljanje procesa 

prikupljanja podataka, ²to iziskuje dodatne tro²kove i vrijeme. U najgorem 

slu£aju moºe se desiti da istraºiva£ spozna da je nemogu¢e do¢i do podataka 

koji su potrebni za datu vrstu analize. Takožer, nije rijetka situacija 

da £itavo istraºivanje treba osmisliti od po£etka jer potrebna tehnika analize 

jednostavno prelazi mogu¢nosti sa kojima istraºiva£ raspolaºe (softver i 

ekspertiza neophodna za provoženje analize). 

Da bi se izbjegli navedeni problemi izuzetno bitno je poznavati osnovne 

vrste i karakteristike razli£itih statisti£kih tehnika analize jo² u fazi postavljanja 

ciljeva i hipoteza istraºivanja i kreiranja upitnika. Samo tako moºemo 

izbje¢i nepotrebne tro²kovi i imati £itav proces istraºivanja pod kontrolom 

od po£etka do kraja. 

Statisti£ke tehnike moºemo primarno podijeliti na univariacione tehnike 

(engl. univariate techniques) gdje analiziramo podatake jedne varijable 

i multivariacione tehnike (engl. multivariate techniques) gdje simultano 

analiziramo dvije ili vi²e varijabli. Na primjer, pretpostavimo da ºelimo da 

saznamo od £ega zavisi obim prodaje nekog proizvoda. Moºemo testirati 

hipotezu da visina sredstava uloºenih u ogla²avanje zna£ajno uti£e na obim 

prodaje. U ovom primjeru analiziramo uticaj samo jedne varijable, budºeta 

za ogla²avanje na obim prodaje. Mežutim, ako smatramo da ¢e obim prodaje 

pored budºeta za ogla²avanje zavisiti i od drugih faktora, npr. cijene 

proizvoda i vrste pakovanja, onda je potrebno analizirati efekte vi²e varijabli 

( i tada govorimo o multivariocinoj analizi). Rezultati do kojih dožemo upotrebom 

multivariacionih tehnika su relevantniji, obzirom da tada simultano 

kontroli²emo efekte razli£itih faktora. 

Dalje, statisti£ke tehnike moºemo podijeliti u zavisnosti od toga da li su 

podaci metri£ki ili nemetri£ki (kategorijski). Za analizu metrijskih podataka 

koristimo parametarske tehnike, dok za analizu nemetrijskih podataka 

koristimo neparametarske tehnike. Parametarskim tehnikama obi£no se


procjenjuju vrijednosti nepoznatih parametara kao ²to su aritmeti£ka sredina, 

varijansa i kovarijansa. Pri tome se pretpostavlja da podaci pripadaju 

nekoj od poznatih teorijskih distribucija vjerovatno¢e (naj£e²¢e se koristi normalna 

raspodjela). Parametarske tehnike su obi£no preciznije ali po£ivaju na 

brojnim pretpostavkama koje, ako su naru²ene, mogu voditi do nepouzdanih 

rezultata. 

S druge strane, neparametarske tehnike ne zahtjevaju da podaci imaju 

normalnu raspodjelu, srednju vrijednost i varijansu pa se upotrebljavaju za 

analizu podataka iskazanih preko nominalnih i ordinalnih skala. Neparametarske 

tehnike se koriste i u slu£ajevima kada je distribucija vjerovatno¢a 

potpuno nepoznata i onda kada su naru²ene pretpostavke parametarskih 

tehnika (na primjer, ako je poznato da distribucija ne slijedi normalnu raspodjelu). 

2 

Sljede¢a podjela bazira se na tome kakvu ulogu varijable imaju u samoj 

analizi. Tehnike kod kojih je za dobijanje odgovora na postavljeno pitanje 

nepohodno denisati zavisne i nezavisne varijable nazivaju se tehnikama 

zavisnosti (engl. dependence techniques). U takvim situacijama nastojimo 

da objasnimo ili predvidimo vrijednosti zavisne varijable na bazi nezavisnih 

varijabli. U slu£aju kada je fokus istraºivanja na grupisanju varijabli 

ili objekata (ispitanici, stvari, pojave) govorimo o tehnikama mežuzavisnosti 

(engl. interdependence techniques). 

U literaturi se mogu na¢i razli£iti poku²aji da se odabir odgovaraju¢e 

tehni£ke analize predstavi u formi ²eme. Mežutim, kako postoji vi²e faktora 

koji uti£u na odabir, potrebno je imati u vidu da ni jedna takva ²ema nije 

potpuna. Kori²tenje ²ematskih prikaza moºe biti korisno ako smo svjesni 

da oni predstavlju samo grubi vodi£. Pravilna odluka o izboru statisti£ke 

tehnike £esto je mnogo sloºenija. Generalno govore¢i izbor tehnike analize 

naj£e²¢e zavisi od: 

1. Vrste istraºiva£kog pitanja 

2. Vrsti kori²tenih varijabli 

3. Vrste istraºiva£kog dizajna (korelacioni ili eksperimentalni) 

2 Ipak, kod mnogih neparametarskih testova prisutne su z-vrijednosti (odnosno t- 

vrijednosti). To je zbog toga ²to neparametarska statistika ipak podrazumjeva o£ekivane 

varijacije i distribucije uzoraka. Odnosno, ako uzorci nisu premali, bez obzira na orginalnu 

distribuciju populacije, uzorci aritmeti£kih sredina ima¢e normalnu raspodjelu 

²to rezultira uvoženjem z-vrijednosti u neparametarsku statistiku (Horvat, 1995).


Ova lista nije sveobuhvatna i potrebno je imati u vidu da odluka o jednom 

naj£e²¢e ima uticaj na ostala dva elementa. U nastavku ¢emo izloºiti neke 

od osnovnih vrsta statisti£kih tehnika analize koje se koriste u zavisnosti 

od karakteristika postavljenog istraºiva£kog pitanja i odgovora koji nam 

trebaju. 

• Kakve se sumarne informacije mogu dobiti iz raspoloºivih podataka? 

Primjeri ovakvih pitanja: 

Kakva je distribucija ispitanika u uzorku prema: polu, dobi, zanimanju, 

mjestu boravka...? 

Koliko potro²a£a iz uzorka preferira pakovanje A u odnosu na 

pakovanje B? 

Koliko potro²a£a iz uzorka kupuje marku X? 

Koliko novca potro²ite prosje£no dnevno u ka¢ima? 

Za sumiranje informacija o raspoloºivim podacima iz uzorka koristimo 

razli£ite vrste deskriptivne analize. Konkretan izbor tehnike analize 

zavisi¢e prije svega od toga da li imamo kategorijske podatke (binarne, 

nominalne i ordinalne kategorijske varijable) ili metrijske podatke. 

Za dobijanje opisnih statisti£kih pokzatelja kategorijskih varijabli naj- 

£e²¢e koristimo tabele frekvencija i razli£ite vrste dijagrama, dok za 

metrijske varijable obi£no izra£unavamo zbirne statisti£ke pokazatelje 

kao ²to su prosjek, medijana i standardna devijacija. Nerijetko se 

koriste i zahtjevnije vrste deskriptivne analize kao ²to su krostabelacije 

i gra£ko opisivanje podataka. 

• Da li postoji statisti£ki zna£ajna razlika izmežu razli£itih grupa ispitanika 

u pogledu nekog obiljeºja (varijable)? Neki od primjera za ovakva 

pitanja: 

Da li postoji statisti£ki zna£ajna razlika izmežu mu²karaca i ºena 

u pogledu mjese£nih izdataka na proizvod A? 

Da li postoji statisti£ki zna£ajna razlika izmežu preferencija potro²a£a 

prema proizvodu A prije i nakon probe tog proizvoda? 

Da li postoji statisti£ki zna£ajna razlika u proporciji izmežu mu- 

²karaca i ºena u pogledu toga da li ¢e kupiti neki proizvod ili 

ne?


Postoji vi²e statisti£kih tehnika kojima se utvržuje da li postoje statisti£ki 

zna£ajne razlike izmežu grupa po posmatranim varijablama. U 

literaturi se ove tehnike jednim imenom nazivaju statisti£ki testovi. 

Odabir konkretnog testa zavisi¢e od broja grupa za koje testiramo te 

razlike (jedna, dvije ili vi²e), od toga da li je rije£ o nezavisnim ili zavisnim 

grupama i od na£ina na koji smo mjerili varijable od interesa 

(kategorisjki ili metrijski podaci). Testovi kojima se utvržuje postojanje 

razlika izmežu grupa spadaju u tehnike zavisnosti jer tu imamo 

jednu zavisnu i jednu nezavisnu varijablu. Na primjer, pretpostavimo 

nas interesuje da li postoji razlika izmežu mu²karaca i ºena u pogledu 

mjese£nih izdataka na proizvod A. U ovom slu£aju visina mjese£nih 

izdataka prestavlja zavisnu a pol ispitanika nezavisnu varijablu. 

• Da li postoji veza izmežu raznih obiljeºja (varijabli)? Neki od primjera 

za ovakva pitanja: 

Koliko je jaka veza izmežu mjese£nih primanja doma¢instva i izdataka 

na uslugu A? 

Da li je ulaganje u marketin²ke aktivnosti povezano sa veli£inom 

komapnije? 

Za utvrživanje postojanja veza izmežu varijabli koristimo se korelacionom 

analizom. Primarno, odabir tehnike korelacione analize zavisi 

od toga na koji na£in su mjerene varijable od interesa. 

• Koliki uticaj ima promjena jedne (ili vi²e) nezavisnih varijabli na zavisnu 

varijablu? Neki od primjera za ovakva pitanja: 

Koliko na motivaciju prodajnog osoblja uti£e vi²e visina dohodka 

a koliko eksibilno radno vrijeme? 

Ako pove¢amo budºet za ogla²avanje koliki rast prodaje i moºemo 

o£ekivati? 

Postoji vrlo ²irok spektar statisti£kih tehnika kojima se nastoji izmjeriti 

uticaj nezavisnih na zavisnu varijablu. Odabir konkretne tehnike 

zavisi¢e prije svega od toga da li je zavisna varijabla metrijskog ili 

kategorijskog tipa. Ukoliko se radi o zavisnoj metrijskoj varijabli koristi¢emo 

regresionu analizu. U slu£aju da imamo zavisnu varijabla 

kategorijskog tipa, odabir tehnike analize zavisi¢e od toga da li je rije£ 

o dihotomnoj, nominalnoj kategorijskoj ili ordinalnoj kategorijskoj 

varijabli.


• Da li ve¢i broj opserviranih varijabli moºemo svesti na manji broj latentnih 

varijabli (faktora) a da pri tome ne izgubimo mnogo informacija? 

Neki od primjera za ovakva pitanja: 

Ispitanicima je postavljeno dvadeset pitanja kojima smo mjerili 

njihove stavove prema odreženoj marki proizvoda. Da li tih dvadeset 

pitanja moºemo reducirati na manji broj faktora? 

Da bi smo dobili odgovore na ovakva i sli£na pitanja prvenstveno poku- 

²avamo grupisati opservirane varijable u grupe. Eksplorativna faktorska 

analiza (engl. Exploratory Factor Analysis - EFA) je najpogodnija 

za tu vrstu zadataka. 

• Kako mjeriti latentne varijable i kako analizirati njihove mežusobne 

odnose? Neki od primjera za ovakva pitanja: 

Kako izmjeriti sloºene apstraktne konstrukte kao ²to su trºi²na 

orijentacija, ljubaznost prodajnog osoblja, etnocentrizam i sl.? 

Kako dokazati da su pitanja kojima ih mjerimo pouzdana i validna 

za takvu vrstu mjerenja? 

Da li kompanije koje su vi²e trºi²no orijentisane ostvaruju bolje 

poslovne rezultate? 

Tehnike konrmativne faktorske analize (engl. Conrmatory Factor 

Analysis - CFA) i modeliranja putem strukturnih jedna£ina 

(engl. Structural Equation Modeling SEM ) se koriste da bi smo mogli 

raditi istraºivanja koja uklju£uju mjerenje i analizu latentnih konstrukata. 

• Kako grupisati jedinice posmatranja u grupe ili klase tako da se sli£ne 

jedinice nažu u istoj klasi (klasteru)? Neki od primjera za ovakva 

pitanja: 

Da li je mogu¢e potro²a£e na nekom podru£ju grupisatii prema 

njihovim obiljeºijima (kao ²ti su godine, pol, preferencije i sl.) u 

trºi²ne segmente? Koliko takvih segmenata ima, ²ta ih karakteri²e, 

koliko su homogeni i kolika je veli£ina svakog pojedina£nog 

segmenta? 

Da li se kompanije mogu klasikovati u grupe prema tome koju 

strate²ku orijentaciju primjenjuju u svom nastupu prema trºi²tu? 

U prvom slu£aju, kada razli£ite objekte (ispitanike) trebamo grupisati 

prema opservirsanim obiljeºjima u homogene grupe, koristimo se


tehnikama klaster analize. U drugom slu£aju, za grupisanje koristimo 

latentne konstrukte (traºi²na orijentacija) koristi¢emo se tehnikom 

analze latentnih klasa. 

1.5.3 Analiza podataka 

Nakon ²to smo pripremili podatke pristupamo njihovoj analizi. U su²tini to 

zna£i da na prikupljene podatke primjenjujemo odabranu statisti£ku tehniku 

kako bi dobili odgovor na postavljeno istraºiva£ko pitanje. Ovdje ¢emo se 

osvrnuti i na pojam statisti£kog modeliranja. 

1.5.3.1 Statisti£ko modeliranje 

Analiziranje podataka podrazumjeva izgradnju statisti£kih modela kojima 

¢emo provjeriti da li prikupljeni podaci podrºavaju postavljene hipoteze. 

Model moºemo denisati kao poku²aj da se neki fenomen predstavi na na- 

£in da se moºe predvidjeti njegovo pona²anje. Na primjer, prije izgradnje 

nekog objekta (graževina, vozilo, letjelica...) inºinjeri prvo izražuju makete, 

odnosno manje modele objekata. Svrha izgradnje ovih maketa je da se predvidi 

kako bi se stvarni objekat pona²ao u odreženim uslovima (zemljotres, 

olujno vrijeme i sli£no). Da bi zaklju£ci bili vjerodostojni, potrebno je da 

maketa ²to vjernije odgovara stvarnom objektu u pogledu dizajna, kori²tenog 

materijala i sli£no. 

Na sli£an na£in, u dru²tvenim naukama, istraºiva£i putem modela nastoje 

da predstave kompleksne odnose izmežu razli£itih koncepata i pokaºu kako 

oni mežusobno djeluju u razli£itim uslovima. U tom smislu, statisti£ki 

model je poku²aj opisivanja odnosa koji postoje izmežu varijabli u formi 

matemati£kih jedna£ina i gradi se isklju£ivo na bazi emprijskih kvantitativnih 

podataka. Dakle, statisti£ki model predstavlja apstrakciju (ili aproksimaciju) 

stvarnog svijeta [7]. Statisti£ki modeli nam pomaºu da bolje razumijemo 

za²to se ne²to de²ava i da predvidimo ²ta ¢e se de²avati u budu¢nosti. 

Field [4] navodi da se u statistici sve moºe svesti na jedan izraz: 

rezultat i = (model) + greška i 

Ovaj izraz nam prakti£no govori da na osnovu modela moºemo opisati


prikupljene podatke i utvrditi ²ta djeluje na rezultat i predvidjeti kakva ¢e 

biti promjena njihovih vrijednosti u zavisnosti od toga kako su specicirane 

veze izmežu varijabli u samom modelu. 

Uobi£ajne tehnike statisti£ke analize o kojima govorimo u ovoj knjizi u 

stvari i nisu ni²ta drugo nego na£ini na koje procjenjujemo parametre modela. 

Sama estimacija modela uz pomo¢ specijalizovanih statisti£kih alata 

znatno olak²ava posao jer je istraºiva£ po²težen toga da samostalno rje²ava 

komplekse jedna£ine kako bi do²ao do ºeljenih rezultata. Statisti£ki softver 

¢e korisniku, naj£e²¢e u par sekundi, dati na uvid rezultate prora£una za koje 

bi ina£e trebalo iznimno veliko znanje matematike i sati vremena, ukoliko 

bi se do njih dolazilo uz pomo¢ papira i olovke. Neke od tehnika analize 

koje pominjemo u ovoj knjizi su prije pojave softverskih paketa ražene vrlo 

rijetko upravo zbog kompleksnosti potrebnih matemati£kih prora£una. 

1.5.3.2 Interpretacija dobijenih rezultata 

Rezultate analize statisti£ki softver ¢e korisniku prezentirati u obliku graka 

ili tabela koje sadrºavaju razi£ite numeri£ke vrijednosti. Korisnik mora biti 

u stanju pravilno interpretirati ove vrijednosti kako bi iz njih dobio uvid u 

ono ²to ga interesuje. Statisti£ka interpretacija rezultata je samo prvi korak. 

Nakon nje slijedi kvalitativna interpretacija koja podrazumjeva razumjevanje 

zna£enja i relavantnosti numeri£kih rezultata kao i izvoženje zaklju£aka o 

postavljenom i straºiva£kom pitanju i hipotezama. 

Obzirom da u dru²tvenim naukama posmatrane pojave karakteri²e varijabilitet 

(stohasti£ki odnosi) predvižanje putem modela nikada nije u potpunosti 

precizno i podloºno je gre²kama. Zbog toga ni jedan statisti£ki model 

nikada ne¢e savr²eno opisivati i predvižati podatke i potrebno je procijeniti 

njegovu preciznost. To se radi tako da uporedimo prikupljene empirijske 

podatke sa podacima koji su rezultat predvižanja na bazi modela. Drugim 

rije£ima, da bi zaklju£ci koje izvedemo na bazi statisiti£kog modela bili 

validni, dati model mora oslikavati prikupljene podatke ²to je mogu¢e preciznije. 

Omjer u kojem statisti£ki model precizno opisuje prikupljene podatke 

predstavlja reprezentativnost modela 3 [4]. 

Najjednostavniji na£in da provjerimo da li neki model dobro reprezentuje 

prikupljene podatke je da uporedimo koliko varijacije unutar rezultata 

3 engl. model t


obja²njava model u odnosu na neobja²njenu varijaciju. 

Statistika testa = 

varijacije objašnjene modelom 

varijacije koje nisu objašnjene modelom = efekat 

greška 

Odnos izmežu obja²njenog i neobja²njenog varijabiliteta naziva se statistikom 

testa [4]. Postoji vi²e razli£itih statistika testa a sve se zasnivaju na 

nekoj od teoretskih distribucija vjerovatno¢e sa poznatim karakteristikama. 

Detaljnije obja²njavanje statistika testa izlazi iz okvira ove knjige pa £itaoce 

savjetujemo da za detalje konsultuju neki statisti£ki udºbenik. Ono ²to je 

bitno je da shvatimo da se sve statistike testa u su²tini predstavljaju istu 

stvar: odnos izmežu varijanse obja²njene modelom i neobja²njene varijanse. 

U slu£aju kada je statistika testa jednaka broju 1 odnos izmežu obja²njene 

i neobja²nje varijanse je jednak. Kako statistika testa raste, model obja²njava 

sve vi²e i vi²e varijabiliteta a gre²ka se smanjuje. ’tavi²e, njenim 

rastom smanjuje se vjerovatno¢a da je ono ²to model obja²njava rezultat 

slu£ajnosti. Kada ova vjerovatno¢a padne ispod .05, sa velikom sigurno²¢u 

moºemo tvrditi da model reprezentuje ono ²to se zaista de²ava u populaciji. 

U tom slu£aju kaºemo da postoji statisti£ka signikantnost. 

Kako bi smo vidjeli ²ta to zna£i vratimo se na na² raniji primjer. Pretpostavimo 

da smo kreirali statisti£ki model na osnovu kojeg testiramo hipotezu: 

Uvoženje novog pakovanja rezultira¢e ve¢im obimom prodaje datog 

proizvoda. Trebamo vidjeti koliko dobro dati model opisuje prikupljene podatke 

koriste¢i se odgovaraju¢om statistikom testa koja se svodi na: 

Statistika testa = 

var. u prodaji objašnjene pakovanjem 

var. u prodaji koje nisu objašnjene pakovanjem = efekat 

greška 

Budu¢i da model kojim opisujemo prikupljene podatke oslikava hipotezu 

koju ºelimo testirati, onda nam signikantna statistika testa govori da je 

malo vjerovatno da bi model tako dobro predstavljao odnose mežu varijablama 

(prodaja i vrsta pakovanja) u slu£aju da ne postoji stvarni efekat 

(novo pakovanje) u populaciji. Suprotno, nesignikantna statistika testa bi 

zna£ila da model ne pruºa dovoljno dokaza o tome da novo pakovanje uti£e 

na pove¢anje prodaje.


1.6 Zaklju£ak istraºivanja 

Kona£no, na bazi rezultata provedene analize istraºiva£ donosi generalni sud 

o relevantnosti i adekvatnosti postavljene teorije. Na osnovu toga daju se 

prakti£ne preporuke vezane za ono ²to smo istraºivali. Naj£e²¢e se u ovom 

dijelu navedu i ograni£enja istraºivanja kao i preporuke u pogledu toga kako 

otkloniti ta ograni£enja u ponovljenim studijama.

Bibliograja 

[1] Organizing your social sciences research paper, 2014. Pristupljeno: 09. 

11. 2014. 

[2] Rachad Antonius. Interpreting Quantitative Data With SPSS. SAGE 

Publications Ltd, 2003. 

[3] Donald R. Cooper and William Emory. Business Research Methods. 

Irwin, 1995. 

[4] Andy Field. Discovering Statistics Using SPSS. SAGE Publications 

Ltd., 3 edition, 2009. 

[5] Mileva šiºi¢, Miodrag Lovri¢, and Dubravka Pavli£i¢. Metodi statisti£ke 

analize. Ekonomski fakultet Beograd, Beograd, 11 edition, 2001. 

[6] Andrew Janiak. Newton's philosophy, Summer 2014. 

[7] Wolfgang Jank. Business Analytics for Managers. Use R! Springer, 

2011. 

[8] libgudes. Theoretical framework. 

[9] Paul Newbold, William L. Carlson, and Betty M. Throne. Statistika za 

poslovanje i ekonomiju. Mate d.o.o., Zagreb, Zagreb, 2010. 

[10] Kultar Singh. Quantitative Social Research Methods. SAGE Publications 

Pvt. Ltd, 2007. 

[11] William G. Zikmund, Barry J. Babin, Jon C. Carr, and Mitch Grin. 

Business Research Methods. Cengage Learning, 8 edition, 2009. 

27

lzbor prikladnih 

statistidkih tehnika 

Za ve(ina studenata istraZivadkih tehnika, jedan od naiteLih (moZda dak i 

zastraSuju6ih) delova istraZivadkog procesa jeste pronalai.enje (izbor) statistidke 

tehnike prikladne za analizu datih podataka. Na veiini statistidkih 

kurseva udi se izradunavanje koeficijenta korelacije i kako se radi t-test, pa 

im obidno ne ostaje dovoljno vremena da studente naude da izaberu statistidki 

pristup prikladan zapronalaLenje odgovora na konkretna istraZivaika pitanja. 

U veiini istraZivadkih projekata upotrebljavaju se razlidite statistidke 

tehnike, u zavisnosti od pitanja na koja treba odgovoriti i prirode podataka 

koje treba analizirati. Zato je vaLno da steknete makar i elementarno poznavanje 

razliditih statistidkih tehnika, vrsta pitanja na koja one mogu odgovoriti, 

njihovih zahteva i pretpostavki na kojima podivaju. 

Zato iskopajte svoje udZbenike statistike i pregledajte osnovne tehnike i 

nadela na kojima one podivaju. Isto tako, trebalo bi da prelistate dlanke u dasopisima 

o vaSoj temi i identifikujete statistidke tehnike upotrebljene u tim 

studijama. Raznim oblastima statistidki se pristupa na razllEite nadine, pa je 

vaZno da uwrdite kako su drugi istraZivali analizirali podatke. TraLite 

dugadke i detaljne dlanke u dasopisima u kojima jasno i jednostavno piSe 

koje statistidke tehnike su koriSiene. Sakupite takve dlanke i spremite ih u 

zasebnu fasciklu radi lakSeg koriSienja. Dobro 6e vam doii i kasnije, kada 

budete razmatrali kako da predstavite rezultate svojih analiza. 

U ovom poglavlju razmotridemo razne dostupne statistidke tehnike i korak 

po korak pro6i kroz proces izbora. Ukoliko vas ve6 i sama red statistika baca 

u paniku, smatrajte sve ovo izborom recepta po kome iete vederas pripremiti 

jelo. Sta imate u friZideru, 5ta vam se jede (supa, pe6enje, ne5to prZeno, kuvano 

jelo) i koji je postupak? Statistidkim jezikom redeno, razmotriiemo vrste 

istraZivaikih pitanja koja postoje, promenljive (obeleija, karakteristike) koje 

treba analizirati i prirodu samih podataka. Prodite kroz ovaj proces korak po 

korak i vide6ete da je konadna odluka 6esto iznenadujude jednostavna. Kada 

utvrdite Sta imate i 5ta Zelite da uradite, desto preostaje samo jedan nadin da 

se to postigne. NajvaZniji deo ovog procesa je jasno napisati Sta imate i 5ta s 

tim treba da uradite.

106 Deo lll: Preliminarne analize 

Pregled raznih statistidkih tehnika 

Ovaj odeljak ima dva osnovna dela. Prvo 6emo razmotriti tehnike istraZivanja 

ueza izmedu promenliiuih (npr. starosti i optimizma), a potom nadine 

istraiivanja razlika izmedu grupd (npr. polnih ruzlika u stavovima o optimizmu). 

Tehnike sam ovako podelila zato Sto je tako ustrojena ve6ina 

udZbenika iz statistike, a i veiinu studenata su tako udili osnove statistike. 

Time se pomalo ve5tadki istiie razlika izmedu ta dva skupa tehnika. U stvari, 

izmedu raznth statistiikih tehnika ima mnogo slidnosti, Sto se na prvi pogled 

ne vidi. Celovito razmatranje te teme nije predmet ove knjige. Ko o tome Zeli 

da sazna vi5e, preporudujem da najpre prodita L7. poglavlje knjige koju su 

napisale Tabachnick i Fidell (20071. Tu je dat prikaz oplteg linearnog modela, 

pod koji se mogu svrstati mnoge statistidke tehnike. 

Razne statistidke tehnike namerno sam opisala saZeto i jednostavno da bi 

ih podetnici lakSe razumeli. U ovom poglavlju nisu dak ni nabrojane sve dostupne 

tehnike, ali su date osnove koje su dovoljne da Eovek podne da ih 

upotrebljava i tako stekne samopouzdanje. 

lstraZivanje veza izmedu raznih obeleZia 

U anketnom istraZivanju desto nisu vaLne ruzhke izmedu grupa, nego jadina 

veze izmedu obeleZja (promenljivih). MoZe se upotrebiti viSe tehnika. 

Korelacija 

Za istraLivanje jadine veze izmedu dve neprekidne promenljive upotrebljavaju 

se Pirsonova i Spirmanova korelacija. Korelacija pokazuje smer (pozitivan 

ili negativan) i jadinu veze. Pozitivna korelacija pokazuje da obe 

promenljive zajedno i opadaju i rastu. Negativna korelacija pokazuje da jedna 

promenljiva opada kada druga raste i obrnuto. To je tema 11. poglavlja. 

Delimiina korelacija 

Delimidna (parcijalna) korelacija je proSirenje Pirsonove korelacije. Pomoiu 

nje iskljudujemo uticaj tre6e, remetilaike promenljive. Delimidna korelacija 

uklanja uticaj remetiladke promenljive (npr. svesno davanje netadnih, ali 

druStveno poZeljnih odgovora), dime je omogu6eno dobijanje tadnije slike 

veze izmedu dve promenljive od interesa. Delimidna korelacija je tema L2. 

poglavlja. 

Viiestruka regresiia 

ViSestruka regresija je sofisticiranije proSirenje korelacije, kojim se izraiunava 

moguinost da se pomoiu skupa nezavisnih promenljivih predvidi vrednost 

jednog neprekidnog zavisnog obeleZja. Razne vrste vi5estruke regresije 

slui.e za poredenje prediktivne moguinosti (predvidanja) odredenih nezavisnih 

promenljivih i pronalaZenje najboljeg skupa promenljivih za predikciju 

jedne zavisne promenljive. Videti poglavlje 13.

Poglavlje 10: lzbor prikladnih statistidkih tehnika 1O7 

Faktorska analiza 

Faktorska analiza sltfi,i za svodenje velikog skupa promenljivih ili stavki 

skale na manji broj dimenzija ili faktora, s kojima je lak5e raditi. To se posti- 

Le saLimanjem oblika korelacije koji leZe u njihovoj osnovi i pronalaZenjem 

grupa tesno povezanih stavki. Ova tehnika se Eesto koristi prilikom razvoja 

skala i merila, za identifikaciju pripadne strukture. Videti poglavlje 15. 

Sa2etak 

Sve navedene analize obuhvataju istraZivanje veza izmedu neprekidnih promenljivih. 

Kada imate samo kategorijske promenljive, za ispitivanje njihove 

uzajamne veze moLe se upotrebiti hi-kvadrat test veza i nezavisnosti (npn za 

odgovor na pitanje da li pol klijenata utiie na stopu njihovog odustajanja od 

odredenog programa tretmana). U toj situacijizanimavas broj osoba u svakoj 

kategoriji (broj muSkaracaii.enakoji odustaju od tog programa ili ga zavrSavaju), 

a ne njihove prosedne vrednosti na nekoj skali posmatranog obeleZja. 

Spomenuiu jo5 neke tehnike o kojima treba barem znati da postoje. ViSe o 

njima na6i iete u knjizi koju su napisale Tabachnick i Fidell (2007). To su: 

o Diskriminaciona analiza (engl. discriminant function analysis) shtli za 

ispitivanje moguinosti da se pomoiu skupa nezavisnih promenljivih 

predvidi vrednost jednog kategoriiskoe zavisnog obeleZja, tj. da se 

odredi koje promenljive najbolje predvidaju pripadnost grupi. (Diskriminaciona 

funkcija je linearna kombinacija nezavisnih promenljivih 

koja najbolje razdvaja sludajeve na a priori definisane grupe.) U ovom 

sludaju, zavisna promenljiva je obiino neki jasan kriterijum (poloZio/ 

pao, prekinuo/nastavio tretman). Videti poglavlje 9, Tabachnick i Fidell 

(2007). 

o Kanonska korelaciia (engl. canonical correlation) sluLi za analiza uzajamnih 

veza dva skupa promenljivih. Na primer, moglo bi se istraZiti 

kako razne demografske promenljive utidu na merila opSteg raspoloZenja 

i sposobnosti prilagodenja. Videti poglavlje 12, Tabachnick i 

Fidell (2007). 

o Strukturno modelouanie (engl. structural equation modelling) relativno 

je nova i veoma sofisticirana tehnika za ispitivanje raznih modela meduveza 

u skupu promenljivih. Zasnovana je na viSestrukoj regresiji i 

tehnikama faktorske analize. SluZi za izradunavanje vaZnosti svake nezavisne 

promenljive u modelu i testiranje koliko dobro ceo model odgovara 

podacima, kao i za poredenje alternativnih modela. Sam SPSS 

nema modul za strukturno modelovanje, ali podriava odgovarajuii dodatni 

program AMOS. Videti poglavlje 14, Tabachnick i Fidell (20071.


lspitivanje razlika izmedu grupa 

Postoji joS jedna porodica statistidkih tehnika za utvrdivanje statistiEki 

znadajnih nzllka izmedu grupa. U nastavku iemo prikazati parametarske 

verzrje tih testova prikladne za podatke na intervalnim skalama s normalnom 

raspodelom rezultata i njihove neparametarske alternative. 

T-testovi 

T:testovi se upotrebljavaju kada imate due grupe (recimo, mulkarce i Zene) ili 

dva skupa podataka (pre i posle), i Zelite da uporedite srednje vrednosti neke 

neprekidne promenljive. Postoje dve glavne vrste t-testova. Tltestove uparenih 

uzoraka (ili ponovljenih merenja, engl. repeated measures) upotrebljavate 

kada vas zanimaju promene vrednosti posmatranog obeleZja dobijene 

od udesnika testiranih u Vreme l izatim ponovo u Vreme 2 (obidno posle 

neke intervencije ili dogadaja). Ti uzorci su povezani poito se radi o istimljudima 

testiranim u dva navrata. T:testovi nezavisnih uzoraka upotrebljavaju 

se kada imate dve razliiite (nezavisne) grupe ljudi (muSkarce i Zene) i Zelite da 

uporedite njihove rezultate za posmatrano obeleZje. U tom sludaju informacije 

prikupljate samo jednom, ali od dve grupe ljudi. T:testovi su obradeni u 

poglavlju 17. Njihove neparametarske alternative, Man-Vitnijev U test i Vilkoksonov 

test ranga, predstavljeni su u poglavlju 16. 

Jed nofa ktorska a na I iza va riia nse 

Jednofaktorska analiza varijanse (engl. one-uay ANOVA) slidna je t-testu, 

ali se koristi kada imate due ili uiie grupa i ielite da uporedite njihove srednje 

vrednosti za iednu neprekidnu promenljivu (obeleZje). Jednofaktorska 

znaEi da se istraiuje uticaj samo iedne nezavisne promenljive na zavisnu. 

ANOVA kazaje da li se grupe razlikuju, ali ne kazuje gde je razhkaznaEajna 

(gp7lgp3,gp2lgp3 itd.). Naknadnim poredenjem moie se utvrditi koje grupe 

se medusobno znadajno razlikuju. Umesto da se porede sve grupe, mogu se 

ispitati i razlike izmedu odredenih grupa; to su planirana poredenja. Sliino 

t-testovima, postoje dve vrste jednofaktorske analize varijanse: ANOVA ponovljenih 

merenja (kada se isti ljudi ispituju u vi5e od dva navrata) i ANOVA 

razliiitih grupa (ili nezavisnih uzoraka), kada se porede srednje vrednosti 

posmatranogobeleLja u dve ili vi5e grupa. Jednofaktorska ANOVA je obradena 

u poglavlju 18, dok su njene neparametarske alternative (Kruskal-Volisov 

test i Fridmanov test) predstavljene u poglavlju L5. 

Dvofa kto rska a n a I iza va rii a n se 

Dvofaktorska analiza varijanse (engl. tuto-utay ANOVA) sluLi za ispitivanje 

uticaja dve nezavisne promenljive na jednu zavisnu. Prednost dvofaktorske 

analize varijanse je to Sto omogu6ava ispitivanje jadine interakcije, tj. uticaja 

druge nezavisne promenljive na dejstvo prve; na primeq kada posumnjate da 

se optimizam poveiava s godinama, ali samo kod mu5karaca. Ona meri i 

osnovne, zasebne uticaje, tj. celokupan uticaj svake nezavisne promenljive

Poglavlje 10: lzbor prikladnih statistidkih tehnika 109 

(npr. pola, starosti). Postoje dve vrste dvofaktorske analizevarijanse: ANOVA 

razliditih grupa (engl. betuteen-groups ANOVA), kada se ispituju grupe koje 

se medusobno razlikuju, i ANOVA ponovljenih merenja (engl. repeated measures 

ANOVA), kada se isti ljudi ispituju u vi5e navrata. Neka istraZivanja su 

projektovana tako da u istoj studiji kombinuju analize varijanse razliditih 

grupa i ponovljenih merenja. To se onda na engleskom naziva Mixed Between-I7ithin 

Designs ili Split Plot, tj. kombinovana ANOVA. Dvofaktorska 

ANOVA obradena je u poglavlj u L9, a kombinovana ANOVA u poglavlju 20. 

M u ltivarijaciona a nal iza va rij a n se 

Multivarijaciona analiza varijanse (engl. multiuariate analysis of uariance, 

MANO VA ) sluLi za poredenj e srednj e vrednosti posmatrano g obeleLja grupa 

u vi5e razliditih, ali pouezanih,zavisnih promenljivih; na primer, poredite uticaj 

razliditih tretmana narazne merljive ishode (npr. anksioznost, depresiju). 

Multivarijaciona ANOVA moZe biti uradena uz jednofaktorske, dvofaktorske 

ili vi5efaktorske analize varijanse sa jednom, dve ili viSe nezavisnih promenljivih. 

MANOVA je obradena u poglavlju 21. 

Analiza kovarijanse 

Analiza kovarijanse (ANCOVA) sluliza statistiiku kontrolu mogudih uticaja 

dodatne, remetiladke (engl. confounding) promenljive (engl. couariate). 

Ovo je korisno kada posumnjate da se vale grupe razlikuju po nekom obeleZju 

koje utide na dejstvo nezavisnih promenljivih na zavisnu. Kako biste 

bili sigurni da uticaj potiEe od nezavisne promenljive, ANCOVA statistidki 

uklanja dejstvo remetilaEke promenljive. Analiza kovarijanse moie se obaviti 

kao deo jednofaktorske, dvofaktorske ili multivarijacione analize varijanse. 

ANCOVA je obradena u poglavlju 22. 

Proces dono5enia odluka 

PoSto ste videli 5ta vam stoji na raspolaganju, vreme je da izaberete tehnike 

koje odgovaraju vaSim potrebama. Prilikom izbora odgovarajuie statistidke 

analize, treba uzeti u obzir viSe dinilaca. To su vrsta pitanja na koja traLite 

odgovore, vrsta stavki i merne skale u vaSem upitniku, priroda podataka dostupnih 

za svaku promenljivu i pretpostavke koje moraju biti zadovol jene za 

svaku statistidku tehniku. Proii iemo korak po korak kroz proces odludivanja. 

Korak 1: na koja pitania traZite odgovore? 

NapiSite spisak sa svim pitanjima na koja bi istraZivanje trebalo da odgovori. 

Videiete da se neka pitanja mogu postaviti na razliEite nadine. U svakoj 

oblasti od interesa, pitanje poku5ajte da postavite na viSe nadina. Te alternative 

iete upotrebiti kada budete razmatrali razne staristidke pristupe koje biste 

mogli primeniti. Na primer, zanima vas uticaj starosti na optimizam. To 

pitanje se moZe postaviti na viSe nadina:


. Postoji liveza izmedu starosti i nivoa optimizma? 

. Da li su starije osobe optimistidnije od mladih? 

Ova dva pitanja se razlikuju i za dobijanje odgovora na njih potrebne su 

razlitite statistidke tehnike. Od prirode prikupljenih podataka zavisi koje pitanje 

iemo proglasiti za prikladnije. Zato za svaku oblast od interesa postavite 

viSe pitanja. 

Korak 2: pronadite stavke i skale koie cete upotrebiti 

zalralenie odgovora na ta pitanja 

Vrsta stavki i skala u upitniku i studiji igra veliku ulogu pri izboru statistidkih 

tehnika koje su prikladne zatraLenje odgovora na istraiivadka pitanja. 

Zato je prilikom projektovanja istraZivanja toliko vaLno imati u vidu predvidene 

analize. Na primer, nadin prikupljanja informacija o starosti ispitanika 

(videti primer u 1. koraku) odredide koje su statistidke analize 

dostupne. Ako od ispitanika zatraLite da izaberu jednu od dve opcije (ispod 

35 godina/preko 35 godina), izbor analiza bi6e vrlo ograniden, zato 5to promenljiva 

starost moZe imati samo dve vrednosti. S druge strane, ukoliko od 

ispitanika zatraLite da svoju starost navedu u godinama, izbor 6e biti Siri 

zato 5to promenljiva moZe poprimiti vrednosti u Sirokom opsegu od L8 do 

80 i vi5e. U toj situaciji, mogli biste za neke analize (kao Sto je ANOVA) svesti 

raspon vrednosti na manji broj kategorija, a za druge analize (npr. korelaciju) 

zadri.ati ceo opseg vrednosti. 

Ako ste za svoje istraZivanje razdelili upitnik ili anketu, vratite se na konkretne 

stavke upitnika i Sifarnika i pronadite svako pojedinadno pitanje (npr. 

starost) i ukupne vrednosti posmatranih obeleZja na skalama (npr. optimizma) 

koje iete upotrebiti u svojim analizama.Identifikujte svaku promenljivu, 

kako je bila merena, koliko je bilo mogu6nosti za odgovor i moguii 

raspon vrednosti (brojeva, Sifara) u koje su odgovori pretvoreni. 

Ukoliko je studija obuhvatala eksperiment, proverite kako je bila merena 

svaka zavisna i nezavisna promenljiva. Da li se vrednosti promenljive sastoje 

od broja tadnih odgovora, opservatorove ocene konkretnog pona5anja ili 

duZine vremena koje je subjekat proveo baveii se odredenom aktivnoSiu? 

Bez obzira na prirodu istraZivanja, treba da vam je jasno kako je svaka promenljiva 

bila merena. 

Korak 3: identifikujte prirodu svake promenliive 

Slede6i korak je identifikacija prirode svake promenljive u studiji, tj. za svaku 

promenljivu treba utvrditi da li je nezavisna ili zavisna. Te informacije ne 

potiiu od samih podataka, nego od vaSeg shvatanja oblasti i teme studije, relevantnih 

teorija i prethodnih istraZivanja. Mora vam biti jasno u glavi (i u 

pitanjima postavljenim u istraZivanju) kakva je veza izmedu vaSih promenljivih 

- koje (nezavisne) utidu na druge, a koje (zavisne) trpe uticaj drugih. 

Ima nekih analiza (npr. korelacija) gde nije neophodno uwrditi koje su pro-


menljive nezavisne a koje zavisne. Za druge analize, kao sto je ANOVA, to 

vam mora biti jasno. Korisno je nacrtati model uzajamnog odnosa promenljivih 

kako ga sami vidite (pogledajte korak 4 u nastavku). 

Zasvakupromenljivu trebaznati i njen nivo merenja. Zavisno od toga da 

li su promenljive kategorijske ili neprekidne, upotrebljavaju se razlidite statistidke 

analize, pa morate znati s dim radite. Da li su va5e promenljive: 

r kategorijske (nominalni podaci, npr. pol: mulkilZenski); 

. ordinalne (rangirani podaci: prvi, drugi, treii); ili 

. neprekidne (intervalni podaci, npr. starost u godinama ili vrednosti na 

skalama optimizma)? 

U nekim prilikama treba promeniti nivo merenja odredenih promenljivih. 

Odgovori za neprekidne promenljive mogu se svesti na manji broj kategorija 

(videti 8. poglavlje). Na primer, starost se moZe podeliti na razb(ite kategorije 

(npr. ispod 35 godina/preko 35 godina). To bi bilo podesno za analint 

varijanse (proceduru ANOVA), a i u sludaju da neprekidna promenljiva ne 

zadovoljava neku od polaznih pretpostavki odredenih analiza (npr. ima veoma 

asimetridnu raspodelu). Medutim, saiimanje podataka ima odigledan 

nedostatak jer se njime gube informacije. 'Sabijanjem'ljudi u istu grupu katkada 

se gube vaZne nzllke izmedu njlh. Zato dobre i lode strane treba pa- 

Zljivo odvagnuti. 

Dodatne informacije potrebne za neprekidne 

i kategorijske promenljive 

Za neprekidne promenljive trebalo bi da prikupite informacije o raspodeli 

rezultata (npr. da li im je raspodela normalna ili jako asimetridna?). Koji je 

raspon njihovih moguiih vrednosti? (Kako se to radi objaSnjeno je u poglavlju 

5.) Kada promenljiva obuhvata kategoriie (npr. grupa Tlgrupa 2, mu- 

SkarcilZene), utvrdite koliko osoba spada u svaku od kategorija i da li su te 

grupe pribliino jednake ili veoma razllEite po broju dlanova?). Da li je neka 

od moguiih kategorija prazna? (Videti poglavlje 5.) Sve informacije koje 

ovde prikupite o promenljivama kasnije ie se koristiti za sttLavanje izbon 

dostupnih statistidkih analiza. 

Korak 4: nacrtajte dijagram za svako istraiiva6ko pitanje 

Moji studenti desto ostaju bez teksta kada treba da objasne 5ta istraZuju. Ponekad 

je lakSe, a i jasnije, saZeti kljudne tadke pomoiu dijagrama. Ideja je 

deo informacija prikupljenih u koracima 1 i 2 objediniti u jednostavnom 

formatu koji ie pomoii pri izboru prikladne statistidke tehnike ili izabrati 

jednu od vi5e opcija. 

Trebalo bi da razmislite o jednom od kljudnih pitanja: da li me zanima 

odnos/ueza dve promenljive ili poredenje dve grupe subjekata? Mol.da ee 

vam biti lakbe da odgovorite kada za svako pitanje saZmete prikupljene 

informacije i nacrtate dijagram. Ilustrovaiu to navodenjem informacija 

i crtanjem dijagrama za viSe istraZivadkih pitanja.


Pitanje l: Postoji Ii veza izmedu sfarosfi i nivoa optimizma? 

Promenljive: 

r Starost - neprekidna: starost u godinama od 18 do 80; 

. Optimizam - neprekidna: vrednosti na skali optimizma, u rasponu od 

5 do 30. 

Iz literature ste izvukli hipotezu da su stariji ljudi optimistidniji od mladih. 

Ta veza izmedu dve neprekidne promenljive moZe se ilustrovati ovako: 

Optimizam 

*** 

*** 

** ** 

** 

** 

Starost 

Kada odekujete da vrednost na skali optimizma raste sa Zivotnim dobom, 

tadke crtate podev od donjeg levog ugla dijagrama prema gornjem desnom 

uglu. Ukoliko prognozirate da vrednost na skali optimizma opada sa iivotnim 

dobom, tadke crtate podev od gornjeg levog ugla dijagrama prema donjem 

desnom uglu. 

Pitanie 2: Da li su muEkarci skloniji optimizmu od ilena? 

Promenliive: 

. Pol - nezavisna, kategorijska (dve grupe): mulkarci i Lene; 

. Optimizam - zavisna, neprekidna: vrednosti na skali optimizma, u 

rasponu od 6 do 30. 

Rezultati dobijeni kao odgovor na ovo pitanje, s jednom kategorijskom 

promenljivom (sa samo dve grupe) i jednom neprekidnom promenljivom, 

mogu se saZeti ovako: 

MuSkarci 

Zene 

Srednja vrednost na skali optimizma 

Pitanje 3: Da li se starost razlidito utiie na optimizam 

mu5karaca iZena? 

Kada biste istraZivali zajednidki uticaj starosti i pola na vrednost na skali optimizma, 

mogli biste podeliti svoj uzorak na tri starosne grupe (ispod 30, 

3L49 godina i 50 i viSe).


Promenljive: 

o Pol - nezavisna, kategorijska: mudkarcilZene; 

o Starost - nezavisna, kategorijska: udesnici podeljeni na 

grupe; 

. Optimizam - zavisna, kategorijska: vrednosti na skali 

raspon od 5 do 30. 

Dijagram bi mogao izgledati ovako: 

tri jednake 

optimizma, 

Srednja vrednost na skali 

ootimizma 

MuSkarci 

Zene 

Starost 

lspod 3O 31 -49 50 i vi5e 

Pitanje 4: Kolikise deo variianse u zadovoljsttru iivotom moZe 

o bj a s n iti po m o Cu d atog s ku p a oso b i n a I i 6n osti (sa m o poitova ni e, 

o pti m i za m, s u bj e ktiva n d oiivlj aj sa m o ko n tro I e) ? 

MoZda treba da uporedite prediktivnu moguinost viSe nezavisnihza jednuzavisnu 

promenljivu. Takode vas zanima koliki deo varijanse zavisne promenljive 

potide od varijanse tog skupa nezavisnih promenljivih, tj. obja5njen je njom. 

Promenljive: 

o Samopoltovanje - nezavisna, neprekidna; 

. Optimizam - nezavisna, neprekidna; 

. Subjektivan doLivljaj samokontrole - nezavisna, neprekidna; 

. Zadovoljstvo iivotom - zavisna, neprekidna. 

Va5 dijagram bi mogao daizgleda ovako: 

Samopo5tovanj€ 

Optimizam ---------------- Zadovoljstvo iivotom 

---------------- 

Subjektivan doiivljaj samokontrole 

J 

Y 

Korak 5: Zakljudite da li je prikladna parametarska 

ili neparametarska statistidka tehnika 

Samo da bi studentima bilo teZe, mno5tvo dostupnih statistidkih tehnika podeljeno 

je u dve glavne grupe: parametarske i neparametarske. Parametarska 

statistika je mo6nija, ali podiva na viSe pretpostavki, tj. njene pretpostavke o 

podacima su stroie. Na primer, sve parametarske metode podivaju na pretpostavci 

da je raspodela rezultata analize u populaciji iz koje je izvuden 

uzorak normalna. 

Svaka parametarska tehnika (kao 5to su t-testovi, ANOVA, Pirsonova 

korelacija) ima i svoje dodatne pretpostavke. Da li su one zadovoljene ili ne,


treba proveriti pre sprovodenja analiza. Za svaku tehniku obradenu u preostalim 

poglavljima, biie navedene konkretne pretpostavke na kojima podiva. 

Sta ako pretpostauh.e na koiima poiiua statistiiha tehnika koiu ielite da 

upotrebite nisu zadouoliene? Nai.alost, to se desto dogada u istraZivan jima iz 

oblasti druStvenih nauka. Mnogi od atributa koje ho6emo da izmerimo nisu 

normalno raspodeljeni. Neki su jako asimetridni, pri iemu veiina rezultata 

ima malu vrednost (npr. depresija); drugi su asimetridni tako da ve6ina rezultata 

ima veliku vrednost na skali (npr. samopoltovanje). 

Kada pretpostavke na kojima podiva statistidka tehnika koju Zelite da 

upotrebite nisu zadovoljene, na raspolaganju vam je viSe mogudnosti koje 

iemo sada podrobno opisati. 

1. mogucnost 

Mogli biste ipak upotrebiti tu parametarsku tehniku i nadati se da time niste 

ozbiljno narulili valjanost svojih nalaza. Neki autori tvrde da je vedina statistidkih 

postupaka prilidno robusna, tj. da one dobro podnose manja odstupanja 

od pretpostavki, narodito kada je uzorak pristojne veliiine. Ako 

odludite da ipak uradite neku parametarsku analizu, to iete morati nekako 

da opravdate u izveStaju, pa prikupite podesne citate autora statistidkih knjiga, 

prethodnih istraZivada itd. koji podrZavaju takvu odluku. Proverite 5ta 

kaiu iasopisi o oblasti koju istraZujete, pogotovo oni dlanci koji opisuju 

upotrebu istih skala. Pominju li sliine probleme? Ukoliko ih pominju,5ta su 

ti autori preduzeli? Jednostavan i ditljiv prikaz robusnosti raznih statistidkih 

testova proditajte u knjizi Conea i Fostera (2006). 

2. mogu6nost 

Mogli biste modifikovati podatke tako da zadovolje pretpostavke na kojima 

podiva statistidki test (npr. normalnost raspodele). Neki autori predlaZu 

transformaciju promenljivih dija raspodela nije normalna (videti poglavlje 8). 

MiSljenja o tome su podeljena, pa 6ete morati mnogo toga da proditate kako 

biste uspeino opravdali svoj postupak (videti Thbachnick & Fidell, 2007). 

3. mogudnost 

Kada podaci ne zadovoljavaju pretpostavke parametarskih tehnika, moiete 

umesto njih upotrebiti neku neparametarsku tehniku. Mnoge desto koriSdene 

parametarske tehnike imaju svoje neparametarske alternative. I one podivaju 

na nekim pretpostavkama, ali manje strogim. Te neparametarske alternative 

(npr. Kruskal-Volisov test, Man-Vitnijev U test, hi-kvadrat) najdeSie su manje 

moine, tj. manje osetljive prilikom otkrivanja vezainzlika izmedu grupa. U 

poglavlju 16 obradene su neke od uobidajenih neparametarskih tehnika. 

Korak 6: dono6enie konadne odluke 

Nakon 5to prikupite informacije koje se odnose na istraZivaika pitanja, nivo 

merenja svih promenljivih i karakteristike dostupnih podataka, konadno ste


u poloiaju da razmotrite sve mogu6nosti. U narednom tekstu saZela sam 

kljudne elemente osnovnih statistidkih analiza s kojima iete se sretati. Prodite 

dui tog spiska, nadite primer vrste istraZivadkog pitanja na koje treba da 

odgovorite i proverite imate li sve potrebne sastojke. Takode razmislite ima 

li i drugih nadina na koje biste mogli postaviti isto pitanje i stoga primeniti 

drugadiji statistidki pristup. Na kraj poglavlja stavila sam saZetu tabelu koja 

6e vam pomoii u procesu odlu6ivanja. 

PotraLite dodatne informacije o tehnikama za koje ste se odludili i postarajte 

se da dobro shvatite nadela i pretpostavke na kojim a po(ivaiu. Za to 

je dobro upotrebiti viSe razliditih izvora: razni autori imaju razlidita miSljenja. 

Treba dobro da shvatite sporna pitanja - moida iete dak morati da 

opravdate koriSienje odredene statistidke tehnike u svojoj situaciji - zato 

obavezno mnogo toga proditajte. 

Osnovne osobine glavnih statistidkih tehnika 

Ovaj odeljak je podeljen na dva pododeljka: 

1. tehnike za istrai,ivanje veza (odnosa) izmedu promenljivih 

detvrtom delu knjige); 

2. tehnike za istraLivanje razlika izmedu grupa (obradene u 

knjige). 

(obradene u 

petom delu 

lstraiivanje veza (odnosa) izmedu promenliivih 

Hi-kvadrat za nezavisnost 

Primer istraZivadkog pitanja: Kakav je odnos izmedu pola osobe i stope odustajanja 

od terapije? 

Treba vam: 

o jedna kategorijska nezavisna promenljiva (npr. pol: mudkarci/Zene); 

o jedna kategorijska zavisna promenljiva (npr. odustajanje: DaAtre). 

Diiagram: 

Zanimavas broiosoba u svakoj kategoriji (ne vrednosti na nekoj skali). 

Muikarci 

Zene 

Odustajanje 

Da 

Ne 

Korelacija 

Primer istraiivadkog pitanja: Postoji li veza izmedu starosti i vrednosti na 

skali optimizma? Raste li optimizam s pove6anjem Zivotne dobi? 

Tieba vam: dve neprekidne promenljive (npr. starost, vrednosti na skali optimizma)


Dijagram: 

Optimizam 

*** 

*** 

** ** 

** 

** 

Starosl 

Neparametarska alternativa: Spirmanova korelacija ranga 

Delimiina korelacija 

Primer istraiivaikog pitanja: Nakon uklanjanja uticaja svesno netadnih, ali 

druStveno poZeljnih odgovora, postoji li jo5 uvek veza izmedu optimizma i 

zadovoljstva Zivotom? 

Treba vam: Tri neprekidne promenljive (npr. optimizam,zadovoljstvo Zivotom, 

svesno davanje netadnih, ali drultveno poZeljnih odgovora) 

Neparametarska alternativa: Ne postoji. 

ViSestruka regresiia 

Primer istraiivaikog pitanja: Koliki deo varijanse pri ispitivanju zadovoljswa 

Zivotom potide od varijanse (tj. moie biti pripisan varijansi) slededeg skupa 

promenljivih: samopoStovanje, optimizam, subjektivan doZivljaj samokontrole? 

Koja od ovih promenljivih bolje predvida zadovoljstvo Zivotom? 

Theba vam: 

o jedna neprekidna zavisna promenljiva (npr. zadovoljstvo Zivotom); 

r dve ili viSe neprekidnih nezavisnih promenljivih (npr. samopoltovanje, 

optimizam, sub j ektivan dolivljaj samokontrole ). 

Dilagram: 

Samopo5tovanje ---------------- 

Optimizam 

ZaOovotlJwo iivotom 

Subjektivan doiivljaj samokontrole J 


lstraZivanie razlika izmedu grupa 

I-fesf nezavisnih uzoraka 

Primer istraZivaikog pitania: Da li su mulkarci skloniji optimizmu od Zena?


Tleba vam: 

o jedna kategorijska nezavisna promenljiva sa samo due grtpe (npr. pol: 

muSkarci/Zene); 

o jedna neprekidna zavisna promenljiva (npr. vrednost na skali optimizma). 

Udesnici mogu pripadati samo iednoi grupi. 

Diiagram: 


MuSkarci 

Zene 

I-tesf uparenih uzoraka (ponovlienih merenia) 

Primer istraZivadkog pitania: Smanjuje li 10-nedeljna obuka u meditaciji 

anksioznost udesnika? Da li se nivo anksioznosti menja od vremena L (pre 

intervencije) do vremena 2 (posle intervencije)? 

teba vam: 

o jedna kategorijska nezavisna promenljiva (npr. vreme 7 / weme 2); i 

o jedna neprekidna zavisna promenljiva (npr. vrednost na skali anksioznosri). 

Isti uiesnici ispitani u dua zasebna navrata: vreme 1 (pre intervencije) i vreme 

2 (posle intervencije). 

Dijagram: 

Srednja vrednost na skali anksioznosti 

Neparametarska alternativa: Vilkoksonov test ranga 

Vreme 1 Vreme 2 

J ed n ofa ktorska a n a I iza va rij a n se rad i eifi h g ru pa 

Primer istraiivaikog pitania: Postoji li razlika u vrednostima na skali optimizma 

kod osoba mladih od 30, izmedu 3L49, i starih 50 i vi5e godina? 

teba vam: 

o jedna kategorijska nezavisna promenljiva sa dve ili viSe grupa (npr. starost: 

ispod 3013149150 i viSe); 

o jedna neprekidna zavisna promenljiva (npr. vrednost na skali optimizma). 

Diiagram: 


Starost 

lspod 30 34-49 50 i vi5e 

Neparametarska dternativa: Kruskal-Volisov test


Dvofa kto rska a n a I i za va rii a n se ra zl i iiti h g r u pa 

Primer istraiivadkog pitanja: Koliko starost utide na rezultate na skali optimizma 

za mu5karc e i za i.ene? 

Sta ta- treba: 

o dve kategorijske nezavisne promenljive (npr. pol: mu5karcilZene; starosna 

grupa: ispod 30/3149150 i viSe); 

o jedna neprekidna zavisna promenljiva (npr vrednost na skali optimizma). 

Diiagram: 

Srednja vrednost na skali 

ootimizma 

MuSkarci 

Zene 

Starost 

lspod 30 34-49 50 ivi5e 


Napomena: analiza varijanse se moZe proliriti tako da obuhvati tri ili viSe nezavisnih 

promenljivih. (To se najdeSde naziva faktorskom analizom varijanse). 

Kombinovana analiza varijanse razliditih grupa 

iponovljenih merenja 

Primer istraiivaikog pitanja: Koja intervencija (pove6anje matematidkog 

znanja/izgradnja samopouzdanja) delotvornije smanjuje strah udesnika od 

statistike, meren u tri navrata (pre intervencije, odmah posle intervencije, tri 

meseca posle intervencije) ? 

Theba vam: 

o jedna nezavisna promenljiva razliditih grupa (npr. vrsta intervencije); 

o jedna nezavisna promenljiva ponovljenih merenja istih grupa (npr. vreme 

1-, vreme 2, vreme 3); 

o jedna neprekidna zavisna promenljiva (npr. vrednosti na testu kojim se 

ispituje strah od statistike). 

Dijagram: 

Srednja vrednosl 

na testu kojim se 

ispituje strah od 

statistike 

Intervencija povecanjem 

matematidkog znanja 

Intervencija izgradnjom 

samopouzdanja 

Vreme 

Vreme 1 Vreme 2 Vreme 2 

Neparametarska alternativa: Ne postoji.


M ultivarijaciona analiza variianse 

Primer istraiivaEkog pitania: Da li su mu5karci bolje prilagodeni od i,ena po 

opStem telesnom i dulevnom zdravlju (meri se nivo anksioznosti, depresije i 

subjektivno doiivljenog stresa) ? 

Treba vam: 

o jedna kategorijska nezavisna promenljiva (npr. pol: muSkarcilZene); i 

o dve ili vi5e zavisnih promenljivih (npr. anksioznost, depresija, subjektivno 

doZivljen stres). 

Dijagram: 

Anksioznost 

Depresija 

Subjektivno doZivljen stres 

Mu5karci 

Zene 


Napomena: multivarijaciona analiza varijanse moZe se koristiti uz jednofaktorsku 

(jedna nezavisna promenljiva), dvofaktorsku (dve nezavisne promenljive) 

i viSefaktorsku analizu varijanse. MoZe se uzeti u obzir i dejstvo 

drugih promenljivih (kovarijansi). 

Analiza kovarijanse 

Primer istraZivaikog pitania: Postoji li znalajna razlika u rezultatima ispitivanja 

straha od statistike izmedu dlanova grupe koja pove6ava matematidko 

znanje i dlanova grupe koja gradi samopouzdanje, kada se oduzme uticaj 

njihovih prethodnih rezultata na tom testu? 

Treba vam: 

o jedna kategorijska nezavisna promenljiva (npr. vrsta intervencije); 

o jedna neprekidna zavisna promenljiva (npr. vrednosti na skali straha 

od statistike u vreme 2); i 

o jedna ili viSe neprekidnih remetiladkih promenljivih (npr. vrednosti na 

skali straha od statistike u vreme L). 


Napomena: analiza kovarijanse se moie obaviti kao deo jednofaktorske 

(jedna nezavisna promenljiva), dvofaktorske (dve nezavisne promenljive) ili 

viSefaktorske analize varijanse (dve ili viSe zavisnih promenljivih).

6 

o 

o 

o 

c 

s 

o 

-j gE 

?'9/J 

'-6 (! 

Yl c 

3fg 

*gu 

6sg 

==JFEo 

9 .9'For 

rr.i0 H 9 

E$E: 

f€EE 

: 

do;, 

sE E- 

l!9or 

E t:.9 E 

F c!= O 

I €.A: * 

EE6;P 

EE E Fg 

: 

No Ee 

!!E 

XE 

x't 

=6 

FE 

i5 

o(6 

.E 

E 

fi '5 

ra (E 

N 

9o 

._o .oc 

-l:*'6' '=XJ( 

5 E: 

$I; 

s ?€* 

d 

(6 

6 

c 

o: 

E 

- 

.9 

o 

OE 

co otr 

EE 

No. 

6 

5 E{, 

E 

eCI 

o 

c 

.9 

o 

N 

o 

z 

* ,** 

'c >n 

o G- 

g=i$'t 

qFEb 

EE.8E 

.I 

c 

tr 

(! 

J 

o 

o 

o, 

0) 

ii ,N 

J\ 

; 

R o^o 

gt 

E; 

Oe 

tc 

9= 

*8 

:€ 

tS p 

s E:E 

€sE 

EgggEiF 

i9o 

g FB 

-!9F 

;i o\\ ^ 

(!; O*t 

EfiN,S 

€=t$€ 

gEggs 

?S 

=.s $ Es 

€ "$E dE oS 

;E$ F 

:-*=9'g 

tF$* 

flf;$t 

o 

.9, 

(6 

N 

(! 

I o 

d)d 

o.> 

IP 

E3R 

g\ 

d.z o 

€;{r 

= 9bcR 

E OE 

o !'E 

g:8 = N 

: ts c.x 

E.9! C 

7 > 9= 

o 

.o 

6 

N 

o 

(uN 

is^ E 

o 

EDd^S 

!t, 

g-18S 

*EEc 

;o'0 

EEdts 

.0. ae s 

o 

.Y 

c 

-c 

G) 

E 

J 

)(Jl 

o 

F o 

t 

€ C 

o cooo 

o 

oo 

o 

-g c, lto G c 

II 

N 

o 

.Y o o(r6 

c> 

F€ 

qi 

!+o 

z@ 

o 

J oo!Uo 

FJ 

!Utr 

dg 

(t 

E 

6 

'6. 

(, 

E 

o. 

o 

c 

o 

E 

Gt 

z 

(o 

*5 

=> >= 

+o, 

=8 

o 

o 

z 

0) 

6 

'; 

a'. 

oo 

s.^ 

f:i 

d]'O 

NX 

R9 

va oF 

-o 

) 

'i :- 

.YO 

r6 5F 

o^ 

F-E E-)g.,! = 

,".E E'P 

.Q c, 

x: 

-vu >.:.:a o 

A _.i __ 

ie E i 

*a€p 

oas 

YC 

6.N 

OE 

- 'i: 

.N j; 

66 

tt! 

-o '= :J 

8E (Lt 

o 

z 

c-{ 

E,gi- 

E!E 

+ EE., 

d9d 

bti9 

^ --T'=., 

rD o-y O 

iaaE 

sg g: 

.EPa i 

l€:3F 

.FCUJtr E;: &* 

f,o ord x 

!Et9: 

E: s *,i 

?':icN; 

Zi'E 3-o 

'a 

o 

o 

z 

.P 

* o.9- 

;'dE 

gsg 

t;sEEa 

g$gEtE 

:= 

a 

o- 

z 

6 

.N o 

;- r> 

og 

dO 

U:(L 

J

G 

o 

o 

a 

6 

c 

g 

(t 

o 

:-a 

OE 

to |/|c 

FE 

NO 

.l o- 

E3 

H _9- 

;a 

;g 

F,() 

$\ 

€;i* 

=Ec 

F*f s 

frf;EE 

Aa 

6I 

3E 

o)tg 

$- 

o)> 

'55 

.- ro 

:-f 

- 

€;{; 

g; 

! - 6i: 

KqS P 

o scl - 

: H8 H 

E.= X{ 

.!4. ii > o 

! EE- 

3;E 

v,> N'= 

8Rg5 

.: E 3.3 

3 * Ei 

-.9; 

€ET 

F3E $ 

flf;!E 

4E*i 

FciE* 

BebsX 

3Ti B,E 

*.9 t.* 

i --t.g 

i8c€ pxsa 

F[EE cEPo 

eE3$* 

gEE$*$$, 

- 9t'+ 

€E-Iff" 

s$$$$ 

o 

.: 

cll, 

E 

e 

o 

E 

.9 

o 

N 

o 

z 

ox '= 

.: 

iic 

g:: . 

'fe $ 

or(! (' 

9,: o 

l;io 

fl[$ 

oG) 

fi€ $ 

iE* 

b;c 

9,2: 

(!=F 

{6cr 

a3c 

P 

.9e- 

PE 

or '=d 

'E is- 9S c'E B 

9;i€ H 

'6 

! EEE 

o--v (a 

,l '1X 

E qr 

E;E 

+ - iE'$ 

g5:gsg 

!ig€ !i $r 

atsEgg 

E- 

'i;> E 

x= 4. 

r Ee $ 

.q; o'E B 

=Eg H 

gE€$ 

i.e g it 

g;Eett$ 

s 

EEgEFg$* 

6 

.Y g6IDG 

c> 

EE q! 

t+o 

zA 

o 

.9. o 

)o (u> 

JO 

Y(L 

o 

9o 

YO 

o> 

PP 

|id 

o 

a 

o 

z 

o 

an 

o 

z 

'a 

6 

o 

q) 

z 

:= 

6 

q) 

z 

o 

.Y g6 

lD(E 

E* 

FC 

IE 

6 

c 

6 

'd. 

o 

E 

o. 

(!E 

+{) c= o 

-6< 9id 

x> 

5 

;r..l xJ - 

n> f z 

P 

ga bd 

*#; 

)c x$ 

oE 

oo 

,ggE 

oxc 

upg 

91 X.- 

:.; * 

-t 

(! 

(!(E0) 

-= > 

E* s 

d€ 

iZ= = 

o) 

Eid 

iS -;' 

 

*Z-l 

E >E) 

€ E8 

;t sg* * 

;ii1.s.;E 

a ar c.!aE 

- 

t*$Eatr 

iEEEEE: 

FEE€gE; 

o 

c 

o 

E 

6 

z


Literatu ra za dalie usavrSavanje 

Statistidke tehnike obradene u ovom poglavlju samo su mali deo dostupnih 

nadina analize podataka. Morate biti svesni postojanja i moguiih nadina 

upotrebe velikog broja tehnika kako biste mogli da izabercte onu najprikladniju 

za va5u situaciju. eitajte dto vi5e moZete. 

Osnovne tehnike (t-test, analizu varijanse, korelaciju) udite iz svog udZbenika 

statistike ili iz knjiga koje su napisali Cooper i Schindler (2003); Gravetter 

i 'Wallnau (200a); Peat, J. (2001); Runyon, Coleman i Pittenger 

(2000); Norman i Streiner (2000). Podrobnije informacije, narodito o multivarijacionoj 

statistici, videti u knjigama Haiq Black, Babin, Anderson i 

Tatham (2006) ili Tabachnick i Fidell (2007\.

UNIVERZITETSARAJEVU 

EKONOMSKIFAKULTETSARAJEVU 

 

 

 

 

 

 

 

OsnoveradastatistikompaketuStata: 

Deskriptivnastatistikavišestrukiodgovori 1 

 

 

 

 

Autor: 

doc.drEmirAgi 

 

 

Sarajevo,30.mart2013.godine 

 

 

1 NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih 

njegovih dijelova bez prethodnog pisanog pristanka autora. 

1

Sadržaj 

1. Tabele frekvencija ......................................................................................................3 

2. Dijagrami stupaca ......................................................................................................4 

3. Deskriptivne mjere.....................................................................................................5 

4. Histogrami ..................................................................................................................8 

5. Unakrsno tabeliranje ............................................................................................... 10 

6. Višestruki odgovori .................................................................................................. 13 

6.1. Indikativni mod................................................................................................... 13 

6.2. Politomni mod .................................................................................................... 16 

2

1. TABELE FREKVENCIJA 

Tabele frekvencija uglavnom koristimo kako bi dobili distribuciju vrijednosti neke varijable. 

Distribucija predstavlja skup vrijednosti koje neka varijabla može uzeti zajedno sa podatkom 

o tome koliko esto se svaka od tih vrijednosti javlja. Tabele frekvencija se naješe koriste 

za tabeliranje vrijednosti pojedinanih kategorijalnih varijabli. Tabeliranje vrijednosti jedne 

varijable možemo uraditi preko menija (Statistics Summaries, tables, and tests Tables 

One-way tables) ili preko naredbe tabulate (skraeno tab). Sintaksa glasi: 

.tab varname, missing nofreq nolabel plot sort 

gdje je: 

Opcija 

missing 

nofreq 

nolabel 

plot 

sort 

Opis 

- U tabeli prikazuje i broj opservacija sa nedostajuim vrijednostima 

- Ne prikazuje frekvencije 

- Prikazuje samo numerike kodove umjesto opisa kategorija 

- Kreira grafik sa stupcima relativnih frekvencija 

- Sortira kategorije prema frekvencijama 

Na primjer, ukoliko želimo da vidimo kakva je dobna struktura našeg uzorka (varijabla dob) 

možemo ukucati: 

. tab dob, missing 

Dob | Freq. Percent Cum. 

------------+----------------------------------- 

18-25 | 111 55.78 55.78 

25-29 | 20 10.05 65.83 

30-34 | 16 8.04 73.87 

35-39 | 14 7.04 80.90 

40-44 | 14 7.04 87.94 

45-49 | 6 3.02 90.95 

50-54 | 10 5.03 95.98 

55-59 | 2 1.01 96.98 

60-64 | 3 1.51 98.49 

65-69 | 3 1.51 100.00 

------------+----------------------------------- 

Total | 199 100.00 

Iz tabele vidimo da u uzorku ima dosta mlaih osoba. Štaviše, više od polovine ispitanika 

(55,8%) nalazi se u dobi od 18-25 godina starosti. Posljednja kolona (cum.) su kumulativni 

procenti koje dobijamo tako što redom sabiramo procente iz prethodne kolone (percent). Tako 

na primjer možemo proitati da je 91% ispitanika koji su ušli u uzorak mlae od 50 godina. 

3

2. DIJAGRAMI STUPACA 

Vrijednosti jedne kategorijlne varijable graki se naješe predstavljaju pomou dijagrama 

stupaca. Najbolji nain na koji možemo dobiti dijagram stupaca je preko komande catplot 

(ukoliko to nismo ranije uradili potrebno je prvo instalirati catplot paket naredbom: ssc 

inst usespss). Sintaksa naredbe je: 

. catplot ime_varijable, percent recast(bar) blabel(bar, format()) 

gdje je: 

Opcija 

percent 

Opis 

- Prikazuje procente umjesto frekvencija 

recast(bar) - Kreira vertikalni dijagram stupaca umjesto horizontalnog 

blabel(bar, 

format()) 

- Ispisuje numeriku vrijednost stupca (podopcija format služi da 

preciziramo broj decimala u outputu i može se izostaviti) 

Na primjer, ukoliko želimo grafiki prestaviti varijablu eduk (obrazovanje ispitanika) tako da 

stupci reprezentuju postotke umjesto frekvencija ukucaemo: 

. catplot eduk, percent blabel(bar, format(%4.1f)) 

Završena osnovna škola 

2.5 

Obrazovanje 

Završena srednja škola 

Završen fakultet 

22.1 

72.9 

Završen postidiplomski studij 

2.5 

0 20 40 60 80 

percent 

Alternativno, za grafiki prikaz vrijednosti kategorijalne varijable možemo koristiti i tzv. 

tortni dijagram (engl. pie chart). Dijaloški okvir za kreiranje ovog grafa pozivamo preko 

menija (Graphics Pie chart) ili upotrebom naredbe graph pie. Na primjer: 

. graph pie, over(spol) 

4

3. DESKRIPTIVNE MJERE 

Naredba summarize daje osnovnu deskriptivnu statistiku (Statistics Summaries, tables, and 

tests Summary and descriptive statistics Summary statistics). Deskriptivne mjere ima 

smisla tražiti samo za numerike varijable. Uzmimo za primjer numeriku varijablu koja se 

odnosi na veliinu porodice (brclan): 

. summarize brclan 

Variable | Obs Mean Std. Dev. Min Max 

-------------+-------------------------------------------------------- 

brclan | 199 3.819095 1.225749 1 8 

Vidimo da prosjean broj lanova domainstva iznosi 3,82 lanova (uz standardnu devijaciju 

od 1,23). Prema podacima iz uzorka najvee domainstvo broji osam dok najmanje broji 

jednog lana. 

Nešto detaljnije podatke možemo dobiti ako uz naredbu summarize ukucamo i opciju detail. 

. summarize brclan, detail 

Veliina domainstva 

------------------------------------------------------------- 

Percentiles Smallest 

1% 1 1 

5% 2 1 

10% 2 1 Obs 199 

25% 3 1 Sum of Wgt. 199 

50% 4 Mean 3.819095 

Largest Std. Dev. 1.225749 

75% 4 6 

90% 5 7 Variance 1.502462 

95% 6 7 Skewness .03472 

99% 7 8 Kurtosis 3.621425 

Dakle, pored ve objašnjenih pokazatelja opcija detail nam omoguava da vidimo percentile, 

varijansu, kao i dva pokazatelja o zakrivljenosti distribucije. 

Druga naredba koju možemo koristiti za deskriptivne statistike pokazatelje je tabstat 

(Statistics Summaries, tables, and tests Tables Table of summary statistics (tabstat)). 

Ova naredba nam omoguava dosta veu fleksibilnost i kontrolu u pogledu toga kako e 

izgledati konana tabela sa rezultatima. Štaviše, mogue je direktno porediti vrijednosti dvije 

numerike varijable. Na primjer, ako želimo da istovremeno dobijemo deskriptivne 

pokazatelje za varijable brclan (broj lanova domainstva) i brdjece (broj djece u 

domainstvu) dovoljno je ukucati: 

. tabstat brclan brdjece, s(mean semean median sd var skew k count sum 

range min max) 

5

gdje opcije znae: mean (aritmetika sredina), semean (standardna greška aritmetike 

sredine), median (medijana), sd (standardna devijacija), var (varijansa), skew (engl. skewness 

– zakrivljenost distribucije), k (engl. kurtosis – spljoštenost distribucije), sum (zbirna 

vrijednost), range (raspon), min (minimalna vrijednost) i max (maksimalna vrijednost). 

stats | brclan brdjece 

---------+-------------------- 

mean | 3.819095 1.497487 

se(mean) | .0868911 .0912035 

p50 | 4 2 

sd | 1.225749 1.286583 

variance | 1.502462 1.655297 

skewness | .03472 1.225218 

kurtosis | 3.621425 7.767028 

N | 199 199 

sum | 760 298 

range | 7 9 

min | 1 0 

max | 8 9 

------------------------------ 

Poreenje dvije numerike varijable omoguava istraživau da pored uvida u deskriptivne 

pokazatelje uradi i logiku kontrolu kako bi se otkrile greške pri unosu podataka ili 

nepouzdani odgovori. Na primjer, u gornjoj tabeli možemo uoiti da je maksimalan broj 

lanova porodice 8, dok je istovremeno maksimalan broj djece u porodici 9. Ovo upuuje na 

zakljuak da je pri unosu podataka došlo do greške ili da anketar nije obavio kvalitetnu 

kontrolu na licu mjesta. 

Deskriptivnu statistiku za numerike varijable pored cjelokupnog uzorka (prethodni primjer) 

možemo gledati i prema odreenim grupama. Za ovo možemo iskoristiti opciju by. Na 

primjer, pretpostavimo da želimo da vidimo prosjenu veliinu porodice i broj djece prema 

entitetima u kojima ispitanici žive: 

. tabstat brclan brdjece, by (entitet) s(mean median sd) 

Summary statistics: mean, p50, sd 

by categories of: entitet (Entitet) 

entitet | brclan brdjece 

--------+-------------------- 

FBiH | 3.879699 1.699248 

| 4 2 

| 1.348611 1.193321 

--------+-------------------- 

RS | 3.69697 1.090909 

| 4 1 

| .9276886 1.378151 

--------+-------------------- 

Total | 3.819095 1.497487 

| 4 2 

| 1.225749 1.286583 

----------------------------- 

6

Iz dobijenog outputa uoavamo da prosjena porodica u FBiH broji 3.9 lanova (sd = 1.35) a 

u RS-u 3.7 lanova (sd = .93). U oba suaja medijana je 2. Kad je rije o broju djece, 

prosjena porodica iz FBiH ima 1.7 djece (sd = 1.19) dok prosjena porodica iz RS-a ima 1.4 

djece (sd = 1.38). Medijana za FBiH prema ovoj varijabli je 2 djece, dok je u RS-u medijana 1 

djete. 

Ono što može biti dodatno interesantno je da grafiki predstavimo prosjene vrijednosti 

prema kategorijama neke kvalitativne varijable. Ako se vratimo na prethodni primjer, 

dobijene pokazatelje možemo grafiki predstaviti koristei naredbu graph bar: 

. graph bar (mean) brclan (mean) brdjece, by(entitet) 

FBiH 

RS 

0 1 2 3 4 

Graphs by Entitet 

mean of brclan 

mean of brdjece 

Korištenjem opcije over možemo dobiti još kompleksnije grafike prikaze. Na primjer, 

ukoliko želimo da grafiki prikažemo prosjene vrijednosti za muške i ženske ispitanike 

(varijabla spol) prema entitetu (varijabla entitet) u kojem žive ukucaemo: 

. graph bar (mean) brclan (mean) brdjece, over(spol) by(entitet) 

7

FBiH 

RS 

0 1 2 3 4 

Muški Ženski Muški Ženski 


mean of brclan 

mean of brdjece 

Postoji još dosta mogunosti kojima se može precizno definisati izgled ovakve vrste grafova. 

Obzirom da bi puna sintaksa bila prilino kompleksna mnogo bolje rješenje je koristiti 

dijaloške okvire koje pozivamo preko menija Graphics Bar chart. 

4. HISTOGRAMI 

Histograme koristimo za grafiko prestavljanje numerikih podataka. Numeriki podaci mogu 

biti prekidni (engl. discrete) i kontinuirani (engl. continuous). Prekidni podaci mogu imati 

samo odreene numerike vrijednosti. Na primjer, broj osoba u domainstvu (vrijabla 

brclan) je prekidni podatak jer jedno domainstvo ne može imati 3,5 lanova. S druge strane 

strane, kontinuirani podaci mogu uzeti bilo koju vrijednostu u datom rasponu. Na primjer, 

cijena jednog litra mineralne vode može uzeti bilo koju vrijednost u rasponu od 0,50 do 4,00 

KM. U suštini, može se rei da prekidni podatak dobijamo prebrojavanjem dok kontinuirani 

podatak dobijamo mjerenjem. Takoer, histograme možemo iskoristiti i za grafiko 

prestavljanje grupisanih numerikih podataka. Na primjer, varijabla dob ima kategorije koje 

predstavljaju grupisane numerike podatke (18-25 godina, 25-29 godina, 30-34 godine itd.). 

Naredba za crtanje je histogram i ima sljedeu sintaksu: 

. histogram ime_varijable, discrete freq addlalbel 

. histogram ime_varijable, discrete percent addlabel 

gdje opciju discrete koristimo ukoliko varijabla sadrži prekidne numerike vrijednosti. 

Ukoliko izostavimo ovu opciju Stata e automatski podrazumjevati da su podaci unutar 

varijable kontinuirani. Opcijama freq i percent definišemo da li Y-osa prestavlja frekvencije 

ili procente. Obratite pažnju da, ukoliko ne stavimo jednu od ove dvije opcije, Stata e na Y- 

osu staviti vrijednosti funkcije gustoe vjerovatnoe što nije uobiajen nain na koji se 

interpretiraju histogrami. I na kraju, ako želimo, opcijom addlabel možemo dati numeriku 

vrijednost iznad svakog stupca kako bi olakšali interpretaciju. 

8

Na primjer: 

. histogram brclan, discrete percent 

. histogram brdjece, discrete percent 

Percent 

0 10 20 30 40 50 

0 2 4 6 8 

Veliina domainstva 

Percent 

0 10 20 30 40 

0 2 4 6 8 10 

Broj djece 

Taoer, ono što može biti korisno je da se prikažu histogrami varijable prema željenim 

grupama. Na primjer, histogram za varijablu brdjece možemo posmatrati prema entitetima: 

. histogram brdjece, discrete percent addlabel by(entitet) 

Percent 

0 50 

FBiH 

RS 

0 5 10 0 5 10 

Broj djece 


Pored ovih osnovnih postoji niz i drugih opcija kojma možemo definisati konani izgled 

histograma kao što su broj stupaca (bin), njihova širina (width), boja i slino. Obzirom da 

puna sintaksa može biti dosta komplikovana preporuka je da se za dodatno podešavanje 

izgleda histograma koriste dijaloški okviri do kojih dolazim preko menija: Graphics 

Histogram. 

9

5. UNAKRSNO TABELIRANJE 

Unakrsno tabeliranje se koristi kada želimo da vidimo zajednike distribucije frekvencija 

dvije ili više kategorijalnih varijabli. Rezultat koji dobijemo naziva se tabela kontegencije. 

Broj polja unutar tabele kontigencije e zavisiti od broja kategorija varijabli koje ukrštavamo. 

Najjednostavnija tabela kontigencije ima etiri polja (2x2) i dobije se kada ukrstimo dvije 

varijable od kojih svaka ima dvije kategorije. 

Pretpostavimo da želimo utvrditi da li je radni status ispitanika (varijabla v3) povezan sa 

entitetom prebivališta (varijabla entitet). Kod unakrsnog tabeliranja uobiajeno je da 

nezavisna varijabla predstavlja kolone a zavisna varijabla redove kontigencijske tabele. Kako 

bi dobili kontigencijsku tablicu za dvije kategorijalne varijable iskoristiemo naredbu tabulate 

koja ima sljedeu sintaksu: 

. tab nezavisna_var zavisna_var, col row cell nofreq 

gdje je 

Opcija 

col 

row 

cell 

noofreq 

Opis 

- Unutar tabele prikazuje procente prema kolonama 

- Prikazuje procente prema redovima 

- Prikazuje procente prema ukupnom zbiru svih elija tabele 

- Iskljuuje prikazivanje frekvencija 

Alternativno, ukrstanje dvije kategorijske varijable možemo uraditi i preko dijaloškog okvira 

kojeg pozivamo putem menija: Statistics Summaries, tables, and tests Tables Twoway 

tables with measures of association 

Kreirajmo sada kontigencijsku tabelu za varijable rstatus i entitet: 

. tab rstatus entitet 

Radni | Entitet 

status | FBiH RS | Total 

-----------+----------------------+---------- 

Zaposlen | 55 19 | 74 

Nezaposlen | 18 1 | 19 

Student | 49 46 | 95 

Penzioner | 9 0 | 9 

-----------+----------------------+---------- 

Total | 131 66 | 197 

Dobili smo 2x4 tabelu kontigencije iz koje možemo vidjeti strukutru ispitanika prema tome iz 

kojeg entiteta dolaze i kakav radni status imaju. Grafiki ove podatke možemo prestaviti uz 

pomo naredbe catplot ako ukucamo: 

. catplot rstatus entitet, blabel (bar) 

10

Zaposlen 

55 

FBiH 

Nezaposlen 

Student 

18 

49 

Penzioner 

9 

Zaposlen 

19 

RS 

Nezaposlen 

Student 

1 

46 

Penzioner 

0 20 40 60 

frequency 

Pri direktnim kompariranjima dobijenih frekvencija trebamo biti oprezni jer je oito da je 

rije o nejadnakim uzorcima budui da imamo duplo više ispitanika iz FBiH nego iz RS-a. U 

situaciji kada imamo grupe nejednakih veliina, a kako bi lakše interpretirali dobijene 

frekvencije, poželjno je pogledati i relativne (procentualne) odnose unutar tabele kontigencije. 

Uobiajeno je da se procenti prikažu za kolone kako bi direktno komparirali razlike izmeu 

kategorija nezavisne varijable: 

. tab rstatus entitet, column nofreq 

Radni | Entitet 

status | FBiH RS | Total 

-----------+----------------------+---------- 

Zaposlen | 41.98 28.79 | 37.56 

Nezaposlen | 13.74 1.52 | 9.64 

Student | 37.40 69.70 | 48.22 

Penzioner | 6.87 0.00 | 4.57 

-----------+----------------------+---------- 

Total | 100.00 100.00 | 100.00 

Ili grafiki: 

. catplot rstatus entitet, percent(entitet) blabel(bar, format(%4.1f)) 

11

Zaposlen 

42.0 

FBiH 

Nezaposlen 

Student 

13.7 

37.4 

Penzioner 

6.9 

Zaposlen 

28.8 

RS 

Nezaposlen 

Student 

1.5 

69.7 

Penzioner 

0 20 40 60 80 

percent 

Na osnovu postotaka možemo uoiti da je u uzorak iz FBiH ušao znatno vei broj zaposlenih 

(42.0%) u odnosu na RS (28.8%). Isto tako u uzorku iz FBiH imamo znatno vei broj 

nezaposlenih (13.7% prema 1.5%) i penzionera (6.9%). Nasuprot tome, više od dvije treine 

uzorka iz RS-a ine studenti (69.7%) i uzorkom nije obuhvaen niti jedan penzioner (0.0%). 

Sve ovo ukazuje da su oba uzorka pristrasna u pogledu toga da znatno više reprezentuju 

mlau populaciju. Ovo se posebno odnosi na uzorak iz RS-a koji je sastavljen primarno od 

studentske populacije. 

12

6. VIŠESTRUKI ODGOVORI 

U praksi se istraživai vrlo esto susreu sa pitanjima kod kojih je ispitanik pri odgovaranju 

mogao odabrati više od jednog ponuenog odgovora. Ovakva pitanja se javljaju u dva 

pojavna oblika: indikativi i politomni. Bez obzira o kojem pojavnom obliku se radi, za analizu 

pitanja sa višestrukim odgovorima nužno je prvo instalirati dodatni paket mrtab. 

. ssc install mrtab 

6.1. INDIKATIVNI MOD 

Kod indikativnih pitanja imamo situaciju da za svaki odgovor bilježimo vrijednost 1 onda 

kada je ispitanik odbrao datu alternativu. Na primjer, u okviru istraživanja igara na sreu 

ispitanicima je postavljeno sljedee pitanje: 

Molimo Vas da sa „X“ oznaite koje od navednih 

igara na sreu ste igrali tokom prethodih 12 mjeseci: 

L O T O 

Sreke (instant) 

B I N G O 

Sportska kladionica 

Poker (automat) 

Rulet 

Ostalo 

U tabeli je predstavljen dio baze koji se odnosi na odgovore prvih pet ispitanika. Iz tabele 

možemo vidjeti da prvi ispitanik igra Loto i Bingo, drugi ispitanik igra Loto, Spotrsku 

kladionicu i poker itd. 

id igra1 igra2 igra3 igra4 igra5 igra6 igra7 

1 1 1 

2 1 1 1 

3 1 

4 1 1 

5 1 1 1 

Da bi sumirali ovako unesene višestruke odgovore potrebno je ukucati sljedeu naredbu: 

. mrtab igra1-igra7, title (Igre na sreu) 

gdje se igra1-igra7 odnosi na varijable indikatore, dok se opcija title koristi kako bi se 

definisao naziv tabele koji e Stata prikazati po završetku analize. 

Dobijeni rezultat je predstavljen na sljedeem outputu: 

13

| Percent of Percent 

Igre na sreu | Frequency responses of cases 

--------------------------+----------------------------------- 

igra1 L O T O | 452 24.82 77.00 

igra2 Sreke | 393 21.58 66.95 

igra3 B I N G O | 512 28.12 87.22 

igra4 Sportska kladionica | 307 16.86 52.30 

igra5 Automati | 100 5.49 17.04 

igra6 Rulet | 23 1.26 3.92 

igra7 Ostalo | 34 1.87 5.79 

--------------------------+----------------------------------- 

Total | 1821 100.00 310.22 

Valid cases: 587 

Missing cases: 3 

U kolonama „Frequency“ i „Percent of Responses“ dat je prikaz strukture frekvencija 

odgovora i odgovarajuih procenata. Na primjer, možemo vidjeti da je najšeši odgovor 

Bingo sa 512 odgovora, što je 28.1% od ukupnog broja odgovora. Mnogo interesantnije 

podatake imamo u koloni „Percent of Cases (Procenat ispitanika)“. Ova kolona pokazuje 

koliko je ispitanika u zadnjih 12 mjeseci igralo neku od navedenih igara na sreu. Tako 

vidimo da je 87.2% ispitanika igralo Bingo, 77.0% ih je igralo Loto itd. U ovoj koloni zbir 

prelazi 100% ali je to normalno obzirom da je jedan ispitanik mogao navesti da je igrao više 

od jedne igre na sreu u protekloj godini. 

Grafiki prikaz možemo pozvati sa: 

. mrgraph hbar igra1-igra7, stat(column) blabel(bar, format(%4.1f)) 

title(Zastupljenost igara na sreu) 

Zastupljenost igara na sreu 

L O T O 

77.0 

Sreke 

67.0 

B I N G O 

87.2 


52.3 

Automati 

17.0 

Rulet 

3.9 

Ostalo 

5.8 

0 20 40 60 80 

column percent (base: cases) 

Varijable sa višestrukim odgovorima mogue je ukrstiti sa drugim varijablama. Na primjer, 

ako želimo dobiti zastupljenost igranja pojedinih igara prema polu: 

14

. mrgraph hbar igra1-igra7, stat(column) blabel(bar, format(%4.1f)) 

title(Zastupljenost igara na sreu (prema polu)) by (spol) 

Zastupljenost igara na sreu (prema polu) 

L O T O 

Sreke 

62.3 

75.4 

80.0 

78.8 

B I N G O 

85.7 

91.3 


33.1 

59.9 

Automati 

8.8 

20.3 

Rulet 

Ostalo 

4.3 

3.1 

5.5 

6.9 

0 20 40 60 80 100 


Muški 

Ženski 

Možemo primjetiti da žene u odnosu na muškarce dosta više igraju sreke, dok neznatno više 

igraju Bingo i Loto. S druge strane, muškarci u odnosu na žene mnogo više igraju sportsku 

kladionicu i automate. 

Alternativno, podatke smo mogli prikazati i na sljedei nain: 

. mrgraph hbar igra1-igra7, stat(column) blabel(bar, format(%4.1f)) by 

(spol, separate title(Zastupljenost igara na sreu)) 

Zastupljenost igara na sreu 

Muški 

Ženski 

L O T O 

75.4 

L O T O 

80.0 

Sreke 

62.3 

Sreke 

78.8 

B I N G O 

85.7 

B I N G O 

91.3 


59.9 


33.1 

Automati 

20.3 

Automati 

8.8 

Rulet 

4.3 

Rulet 

3.1 

Ostalo 

5.5 

Ostalo 

6.9 

Graphs by spol 

0 20 40 60 80 100 0 20 40 60 80 100 


15

6.2. POLITOMNI MOD 

Vrlo esto se tokom istraživanja javljaju situacije u kojima je ispitanicima ponueno mnogo 

više od samo nekoliko alternativa. Jedno uobiajeno takvo pitanje može se odnositi na to da 

ispitanik navede marke koje naješe kupuje. 

Zaokružite koje od navedenih marki flaširane mineralne vode naješe kupuje vaše domainstvo? 

1. Olimpija 2. Ilidžanski Dijamant 3. Sarajevski Kiseljak 4. Prolom 

5. Jamnica 6. Studenac 7. Studena 8. Vitinka 

9. Knjaz Miloš 10. Princess 11. Jana 12. Tuzlanski Kiseljak 

13. Tešanjski Dijamant 14. Oaza 15. Radenska 16. Kristal 

17. Ledena 18. Evian 19. Sarajevska 20. Donat Mg 

21. Rosa Rosa 22. Voda Voda 23. Zlatobor 24. Voda Vrnci 

25. Ostalo 26. Minaqua 

Ako bi ovakvo pitanje tretirali kao indikativno to bi zahtjevalo da svaka od ponuenih 

alternativa u okviru tabele sa podacima ima svoju kolonu (varijablu). Obzirom da u najveem 

broju sluajeva ispitanik kupuje samo jednu ili dvije marke, ostala polja u tabeli bi veinom 

bila prazna. 

Kako bi izbjegli takvu situaciju navedeno pitanje emo tretirati kao politomno. Kod 

politomnih pitanja pri unosu podataka kreiramo onoliko kolona koliko je najviše zaokruženo 

alternativa. Na primjer, u narednoj tabeli je dat prikaz dijela baze podataka koji obuhvata 

odgovore prvih deset ispitanika na prethodno postavljeno pitanje. Odgovore unosimo tako da 

kolone redom popunjavamo brojanim oznakama odgovarajue alternative. 

id marka1 marka2 marka3 marka4 marka5 marka6 

1 3 5 8 

2 3 21 

3 1 10 11 21 

4 3 11 

5 2 3 20 

6 3 

7 3 11 

8 3 

9 1 3 

10 4 8 9 16 22 23 

Iz tabele možemo uoiti da je prvi ispitanik odgovrio da kupuje tri marke i to: Sarajevski 

Kiseljak (3), Jamnicu (5) i Vitinku (8). Drugi ispitanik kupuje samo dvije marke, Sarajevski 

Kiseljak (3) i DonatMg (21). Trei ispitanik kupuje etiri marke, itd. Obratimo pažnju da 

ispitanik broj 10 kupuje ak šest razliitih marki. Upravo ovaj ispitanik je zaokružio najvei 

broj alternativa (šest) pa unutar tabele za unos imamo isto toliko (šest) kolona. 

Odgovore na politomni tip pitanja sa višestrukim odgovorima možemo analizirati sa 

sljedeom naredbom: 

. mrtab marka1-marka6, poly response(1/26) title (Marka) 

16

gdje marka1-marka6 oznaava kolone u koje su bilježeni mogui odgovori, dok se opcijom 

poly response naglašava da se radi o politomnom tipu pitanja i da pri obradi treba uzeti sve 

alternative od 1 do 27. Opcija title definiše naziv tabele u otputu. 

| Percent of Percent 

Marka | Frequency responses of cases 

------------------------+----------------------------------- 

1 Olimpija | 26 7.07 13.07 

2 Ilidžanski Dijamant | 10 2.72 5.03 

3 Sarajevski Kiseljak | 67 18.21 33.67 

4 Prolom | 14 3.80 7.04 

5 Jamnica | 33 8.97 16.58 

6 Studenac | 3 0.82 1.51 

7 Studena | 5 1.36 2.51 

8 Vitinka | 36 9.78 18.09 

9 Knjaz Miloš | 32 8.70 16.08 

10 Princess | 14 3.80 7.04 

11 Jana | 38 10.33 19.10 

12 Tuzlanski Kiseljak | 2 0.54 1.01 

13 Tešanjski Dijamant | 9 2.45 4.52 

14 Oaza | 5 1.36 2.51 

15 Radenska | 23 6.25 11.56 

16 Kristal | 0 0.00 0.00 

17 Ledena | 0 0.00 0.00 

18 Evian | 2 0.54 1.01 

19 Sarajevska | 21 5.71 10.55 

20 Donat Mg | 4 1.09 2.01 

21 Rosa Rosa | 7 1.90 3.52 

22 Voda Voda | 8 2.17 4.02 

23 Zlatobor | 1 0.27 0.50 

24 Voda Vrnci | 5 1.36 2.51 

25 Ostalo | 1 0.27 0.50 

26 Minaqua | 2 0.54 1.01 

------------------------+----------------------------------- 

Total | 368 100.00 184.92 



Struktura, izgled i tumaenje dobijene tabele je identiano kao i kod indikativnih pitanja. U 

konkretnom primjeru, najvei broj ispitanika kupuje Sarajevski Kiseljak (33.7%) koji je 

samm tim najzustupljenija marka u Bosni i Hercegovini. Na drugom mjestu je Jana (19.1%), 

zatim Vitinka (18.1%), Jamnica (16.6%) itd. Pored ovoga interesantno je uoiti da ni jedan od 

199 ispitanika nije naveo da konzumira dvije od ponuenih marki: Kristal i Ledenu. 

Naravno i ove varijable možemo ukrstiti sa drugim varijablama. Pogledajmo strukturu 

odgovora prema entitetima: 

17

. mrtab marka1-marka6, poly response(1/26) by(entit) column nofreq 

| Entitet 

| FBiH RS | Total 

------------------------+------------------------+----------- 

1 Olimpija | 14.29 10.61 | 13.07 

2 Ilidžanski Dijamant | 7.52 0.00 | 5.03 

3 Sarajevski Kiseljak | 47.37 6.06 | 33.67 

4 Prolom | 5.26 10.61 | 7.04 

5 Jamnica | 20.30 9.09 | 16.58 

6 Studenac | 1.50 1.52 | 1.51 

7 Studena | 2.26 3.03 | 2.51 

8 Vitinka | 2.26 50.00 | 18.09 

9 Knjaz Miloš | 0.75 46.97 | 16.08 

10 Princess | 10.53 0.00 | 7.04 

11 Jana | 17.29 22.73 | 19.10 

12 Tuzlanski Kiseljak | 1.50 0.00 | 1.01 

13 Tešanjski Dijamant | 6.77 0.00 | 4.52 

14 Oaza | 3.76 0.00 | 2.51 

15 Radenska | 12.78 9.09 | 11.56 

16 Kristal | 0.00 0.00 | 0.00 

17 Ledena | 0.00 0.00 | 0.00 

18 Evian | 0.75 1.52 | 1.01 

19 Sarajevska | 15.79 0.00 | 10.55 

20 Donat Mg | 2.26 1.52 | 2.01 

21 Rosa Rosa | 0.00 10.61 | 3.52 

22 Voda Voda | 0.00 12.12 | 4.02 

23 Zlatobor | 0.00 1.52 | 0.50 

24 Voda Vrnci | 0.00 7.58 | 2.51 

25 Ostalo | 0.00 1.52 | 0.50 

26 Minaqua | 0.00 3.03 | 1.01 

------------------------+------------------------+----------- 

Total | 172.93 209.09 | 184.92 



Ono što možemo primjetiti je da se neke marke uopšte ne prodaju u bar jednom od entiteta. 

Na primjer, marke Rosa Rosa, Voda Voda, Zlatibor, Voda Vrnci i Minaqua se uopšte ne 

prodaju u FBiH, iako su neke od ovih marki prilino zastupljene u RS-u. Isto tako, marke 

Vitinka i Knjaz Miloš su ubjedljivo dvije najdominantnije marke u RS-u dok su u FBiH 

sasvim malo zastupljene. 

S druge strane, Ilidžanski Dijamant, Princess, Tešanjski Dijamant, Tuzlanski Kiseljak, Oaza i 

Sarajevska uopšte nisu zastupljene u RS-u. Takoer, Sarajevski Kiseljak, kao najjaa marka 

na nivou cijele države i marka koja definitivno dominira u FBiH, ima relativno slab položaj u 

RS-u. 

Još bolji uvid možemo dobiti ako kupovinu marki uporedimo prema tri regiona: 

. mrtab marka1-marka6, poly response(1/26) by(region) column nofreq 

18

| Region 

| FBiH - Bos FBiH - Her RS | Total 

------------------------+------------------------------------+----------- 

1 Olimpija | 23.94 3.23 10.61 | 13.07 

2 Ilidžanski Dijamant | 14.08 0.00 0.00 | 5.03 

3 Sarajevski Kiseljak | 66.20 25.81 6.06 | 33.67 

4 Prolom | 8.45 1.61 10.61 | 7.04 

5 Jamnica | 4.23 38.71 9.09 | 16.58 

6 Studenac | 0.00 3.23 1.52 | 1.51 

7 Studena | 0.00 4.84 3.03 | 2.51 

8 Vitinka | 2.82 1.61 50.00 | 18.09 

9 Knjaz Miloš | 0.00 1.61 46.97 | 16.08 

10 Princess | 19.72 0.00 0.00 | 7.04 

11 Jana | 22.54 11.29 22.73 | 19.10 

12 Tuzlanski Kiseljak | 2.82 0.00 0.00 | 1.01 

13 Tešanjski Dijamant | 12.68 0.00 0.00 | 4.52 

14 Oaza | 7.04 0.00 0.00 | 2.51 

15 Radenska | 8.45 17.74 9.09 | 11.56 

16 Kristal | 0.00 0.00 0.00 | 0.00 

17 Ledena | 0.00 0.00 0.00 | 0.00 

18 Evian | 1.41 0.00 1.52 | 1.01 

19 Sarajevska | 25.35 4.84 0.00 | 10.55 

20 Donat Mg | 4.23 0.00 1.52 | 2.01 

21 Rosa Rosa | 0.00 0.00 10.61 | 3.52 

22 Voda Voda | 0.00 0.00 12.12 | 4.02 

23 Zlatobor | 0.00 0.00 1.52 | 0.50 

24 Voda Vrnci | 0.00 0.00 7.58 | 2.51 

25 Ostalo | 0.00 0.00 1.52 | 0.50 

26 Minaqua | 0.00 0.00 3.03 | 1.01 

------------------------+------------------------------------+----------- 

Total | 223.94 114.52 209.09 | 184.92 



Postaje evidentno da je i Federacija u suštini podjeljena na dva prilino razliita tržišta. Tako 

se marke: Olimpija, Ilidžanski Dijamant, Princess, Tuzlanski Kiseljak, Tešanjski Dijamant, 

Oaza i Sarajevska, prodaju vrlo malo ili gotvo nikako u južnom dijelu (Hercegovini). Na jugu 

primarno dominiraju Jamnica (38.7%), Sarajevski Kiseljak (25.8%), Radenska (17.7%) i Jana 

(11.3%). 

S druge strane, u sjevernom dijelu Federacije, daleko najvei udio ima Sarajevski Kiseljak 

(66.2%) a zatim slijede: Sarajevska (25.4%), Olimpija (23.9%), Jana (22.5%) i Princess 

(19.7%). 

19

Marketing analitika: Uvod u Statu 1 


02. 03. 2015. (ver. 1.1) 



autora.

Sadrºaj 

1 Uvod u Statu 2 

1.1 Tipografske konvencije . . . . . . . . . . . . . . . . . . . . . . 2 

1.2 Stata radno okruºenje . . . . . . . . . . . . . . . . . . . . . . 2 

1.3 Instaliranje dodataka i update-a . . . . . . . . . . . . . . . . . 4 

1.4 Pretraºivanje sistema pomo¢i . . . . . . . . . . . . . . . . . . 5 

1.5 Radni direktorij . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

1.6 U£itavanje eksterno spremljenih podataka . . . . . . . . . . . 6 

1.6.1 Podaci iz Excel-a . . . . . . . . . . . . . . . . . . . . . 6 

1.6.2 Podaci iz SPSS-a . . . . . . . . . . . . . . . . . . . . . 7 

1.7 Upravljanje varijablama . . . . . . . . . . . . . . . . . . . . . 7 

1.7.1 Tipovi varijabli . . . . . . . . . . . . . . . . . . . . . . 9 

1.7.2 Format prikaza . . . . . . . . . . . . . . . . . . . . . . 10 

1.7.3 Promjena naziva varijabli . . . . . . . . . . . . . . . . 11 

1.7.4 Opisivanje varijabli . . . . . . . . . . . . . . . . . . . . 12 

1.7.5 Dodjeljivanje opisa vrijednostima kategorijskih varijabli 13 

1.8 Nedostaju¢e vrijednosti . . . . . . . . . . . . . . . . . . . . . 14 

1.9 Upravljanje podacima . . . . . . . . . . . . . . . . . . . . . . 15 

1.9.1 Selektiranje i brisanje varijabli . . . . . . . . . . . . . 16 

1.9.2 Selektiranje i brisanje opservacija . . . . . . . . . . . . 17 

1.9.3 Generiranje novih i transformacija postoje¢ih varijabli 19 

1.9.4 Rekodiranje vrijednosti varijable . . . . . . . . . . . . 22 

1.9.4.1 Pretvaranje metrijskih varijabli u kategorijalne 22 

1.9.4.2 Rekodiranje vrijednosti kategorijalne varijable 23 

A Variables Manager 27 

1

Poglavlje 1 

Uvod u Statu 

1.1 Tipografske konvencije 

Za Stata komande je kori²ten je typewriter font. Ako je u pitanju cjelokupna 

naredba, nju smo nazna£ili sa ta£kom, obzirom da takav output 

ispisuje sama Stata u Results window-u ili unutar .log datoteka. 

Imena varijabli ili fajlova unutar samog teksta su nagla²ena italic fontom 

kako bi se dalo do znanja da su arbitrarni a ne ksni dio neke naredbe. 

Nazivi prozora i izbornici unutar menija su prikazani sa Sans Serif fontom. 

Na primjer, File > Open zna£i da treba kliknuti na meni File a zatim na stavku 

Open. 

Stata razlikuje velika i mala slova. Ako ukucamo summarize, Stata ¢e to 

razumjeti kao komandu, ali Summarize ne¢e. 

1.2 Stata radno okruºenje 

Nakon ²to pokrenemo program pojavi¢e se radno okruºenje koje £ini ²est 

glavnih elemenata prikazanih na slici 1.1. 

2

POGLAVLJE 1. UVOD U STATU 3 

Slika 1.1: Stata radno okruºenje 

1. Menu bar element gra£kog okruºenja koji sadrºi menije preko kojih 

pristupamo razli£itim funkcijama. 

2. Tool bar element gra£kog okruºenja koji sadrºi ikone i kratice do 

£esto kori²tenih funkcija za upravljanje podacima i Stata sintaksom. 

3. Variables window Prozor u kojem se nalazi spisak trenutno u£itanih 

varijabli. 

4. Command window Prozor u koji unosimo Stata naredbe. 

5. Results window Prozor u kojem se ispisuju rezultati analize i poruke. 

6. Review window Prozor koji sadrºi spisak svih naredbi upotrebljenih 

tokom jedne radne sesije. Na svaku naredbu je mogu¢e kliknuti i ona 

¢e automatski biti ponovo ispisana u prozora za uno²enje komandi. 

Ovo moºe biti prakti£no ako ºelimo ponoviti neku naredbu bez da je 

ponovo tipkamo.


1.3 Instaliranje dodataka i update-a 

Stata je softver koji se stalno nadogražuje. Vremenom se dodaju nove naredbe 

ili se ispravljaju uo£ene gre²ke unutar postoje¢e verzije. Nakon uspje²ne 

instalacije poºeljno je provjeriti da li postoji novija verzija. Ukoliko 

smo konektovani na Internet dovoljno je da ukucamo: 

. update all 

U slu£aju da u okviru update-a postoji i nova verzija izvr²ne datoteke 

(.exe), mora¢emo upisati komandu: 

. swap all 

kako bi Stata izvr²ila zamjenu stare izvr²ne datoteke novijom. 

Sami korisnici £esto pi²u vlastite pakete (engl. packages) koje omogu¢avaju 

da se znatno pro²iri postoje¢a funkcionalnost State. Ve¢ina ovih paketa 

nalazi se na SSC serveru i potpuno je besplatna za kori²tenje. Na primjer, u 

osnovnoj verziji State ne postoji komanda kojom bi se podaci jedne kategorijalne 

varijable jednostavno predstavili pomo¢u graka stupaca (engl. bar 

graph). Postoje zaobilazni (i komplikovani) na£ini da se to uradi, ali puno 

je jednostavnije instalirati specijalizovani paket catplot . 

Prije same instalacije moºemo provjeriti ²ta nudi paket kojeg namjeravamo 

instalirati tako ²to ¢emo upisati: 

ssc type catplot.hlp 

Prvi na£in na koji moºemo dodati ovaj (ili bilo koji drugi) paket je da 

ga diretktno instaliramo sa SSC servera. Dovoljno je da unutar komandne 

linije ukucamo: 

. ssc install catplot 

Drugi na£in je da upotrijebimo naredbu findit. Na primjer: 

. findit catplot 

Ovim putem sama Stata ¢e locirati gdje se na Internetu nalazi paket 

kojeg traºimo, a zatim ¢e u zasebnom pregledniku ponuditi opciju da ga 

instaliramo ili ne.


1.4 Pretraºivanje sistema pomo¢i 

Stata u sebi ima ugražen ekstenzivan sistem pomo¢i kojeg korisnik moºe 

pozvati u bilo kojem trenutku. Ako ºelimo pozvati generalnu pomo¢ moºemo 

koristiti naredbu help. Ako nas pak interesuje pomo¢ za ta£no odreženi 

paket ili naredbu, onda uz help moramo ukucati i naziv paketa (ili naredbe) 

za koji traºimo pomo¢. Na primjer, naredbom: 

. help catplot 

pozvimo pomo¢ za paket catplot u okviru kojeg moºemo pro£itati za ²ta 

je paket namjenjen, kako izgleda sintaksa naredbi unutar ovog paketa, primjere 

njegove upotrebe, op²te napomene, a nerijetko ¢e nam biti ponužena 

mogu¢nost preuzimanja datoteke sa podacima za koje se primjeri odnose. 

1.5 Radni direktorij 

Radni direktorij (engl. working directory) je lokacija na disku unutar koje 

Stata snima i iz koje u£itava datoteke sa podacima. Naredbom pwd dobijamo 

trenutnu lokaciju radnog direktorija, dok naredbom cd moºemo promjeniti 

teku¢i radni direktorij. Na primjer: 

. pwd 

D:\Stata11 

govori da se teku¢i radni diretorij nalazi na disku [D:], unutar foldera Stata 

11 . 

Ukoliko ºelimo da promjenimo radni direktorij moramo eksplicitno naglasiti 

putanju do lokacije foldera koji ¢e biti novi radni direktorij. Na primjer: 

. cd D:\Users\Projekat1\ 

za novi radni direktorij odrežuje folder Projekat1 koji se nalazi na disku 

[D:], unutar foldera Users. 

Alternativno, novi radni direktorij moºemo odabrati i preko menija: File 

> Change Working Directory.


Generalni savjet je da se za svako istraºivanje kreira zaseban folder u 

okviru kojeg ¢e se snimati podaci, rezultati analize i ostala prate¢a dokumentacija 

vezana za dato istraºivanje. 

1.6 U£itavanje eksterno spremljenih podataka 

1.6.1 Podaci iz Excel-a 

Iako Stata ima mogu¢nost direktnog u£itavanje podataka iz Excel datoteka 

(*.xls i *.xlsx), u ranijim verzijama (Stata 11 ili starije) potrebno je da se 

podaci iz Excela prvo snime u format tekstualne datoteke razgrani£ene tabulatorom 

(*.txt) ili nekim drugim znakom (*.csv) 1 . Tako spremljenu datoteku 

u Statu u£itavamo pomo¢u naredbe insheet. Na primer, pretpostavimo da 

ºelimo u£itati datoteku snimljenu u .csv formatu. Ukoliko je datoteka ve¢ 

locirana u radnom direktoriju dovoljno je upisati: 

. insheet using file.csv, delimiter(";") 

gdje se le.csv odnosi na naziv datoteke iz koje ¢e se u£itati podaci. Argument 

delimiter(";") se koristi kako bi Stati rekli da su varijable (kolone) 

unutar .csv datoteke odvojene znakom ta£ka-zarez (;). 

Ako se pak datoteka nalazi u nekom drugom folderu potrebno je ta£no 

specicirati putanju. Putanja moºe upu¢ivati i na datoteku koja nije lokalno 

pohranjena na disku (ve¢ na drugom ra£unaru u mreºi ili na Internetu). Na 

primjer: 

. insheet using "D:\Stata11\Projekat\datoteka.csv, delimiter(";") 

gdje D:\Stata11\Projekat ozna£ava putanju do foldera u kojem se nalazi 

datoteka sa podacima pod nazivom le.csv. 

Alternativni na£in je da podatke u£itamo koriste¢i dijalo²ki obrazac koji 

se dobija preko menija File > Import > ASCII data created by a spreadsheet. 

1 Datoteku iz Microsoft Excela moºemo pretvoriti u drugi datote£ni format tako ²to ¢emo 

je iz samog Excela spremiti pomo¢u naredbe: File > Save as > Other Formats u ºeljenu 

odredi²nu datoteku.


Nakon ²to je Stata u£itala podatke u radnu memoriju, u prozoru sa rezultatima 

(Results window), ispisa¢e koliko varijabli i opservacija se nalazilo 

u datoteci sa podacima. Na primjer: 

(20 vars, 199 obs) 

zna£i da je u£itano ukupno 20 varijabli (kolone) i 199 opservacija (redovi). U 

prozoru Variables moºemo vidjeti imena varijabli i eventualno njihove oznake. 

1.6.2 Podaci iz SPSS-a 

Osnovna verzija State ne moºe direktno uvesti podatake iz SPSS-a. Mežutim, 

postoji dodatni paket pod nazivom usespss koji omogu¢ava direktno 

£itanje podataka iz SPSS datoteka zajedno sa svim denisanim parametrima 

(nazivi varijabli, opisi vrijednosti kategorijskih varijabli i sl.). Ukoliko to nismo 

ranije uradili, potrebno je prvo instalirati pomenuti paket: 

. ssc inst usespss 

a zatim u£itati podatke kori²tenjem naredbe: 

. usespss using file.sav 

Ukoliko se datoteka le.sav ne nalazi u radnom direktoriju, kao i u ranijem 

primjeru, potrebno je specicirati ta£nu putanju do iste. 

1.7 Upravljanje varijablama 

Svaka varijabla unutar baze ima pet osnovnih atributa. Uzmimo za primjer 

varijablu eduk unutar koje je zabiljeºen stepen formalnog obrazovanja ispitanika. 

Rije£ je o kategorijalnoj varijabli a njene atribute moºemo dobiti uz 

pomo¢ naredbe describe:


. describe eduk 

storage display value 

variable name type format label variable label 

eduk byte %9.0f obraz Obrazovanje 

Output 1.1 

Prvi atribut odnosi se na naziv same varijable (engl. variable name). 

Zatim slijedi opis \ref{output:describe} (engl. storage type), format prikaza 

varijable (engl. display format), naziv seta koji sadrºi opis vrijednosti varijable 

(engl. value label) i opis varijable (engl. variable label). 

Neke od ovih elemenata je obavezno denisati. Tako svaka varijabla mora 

imati naziv, tip pohrane i format. S druge strane, opis varijable i opis vrijednosti 

varijable je poºeljno ali ne i obavezno denisati. Naro£ito je poºeljno 

denisati opise vrijednosti za kategorijske varijable. Vrijednosti metrijskih 

varijabli nije potrebno opisivati jer su one same po sebi jasne. Na pimjer, 

u slu£aju varijable eduk ne moramo imati opis varijable i njenih vrijednosti 

da bi mogli raditi analizu. Mežutim, ove elemente je poºeljno denisati radi 

bolje preglednosti i smanjenja mogu¢nosti pogre²ne interpretacije dobijenih 

rezultata. Tako iz outputa 1.1 moºemo vidjeti da se varijabla eduk odnosi 

na obrazovanje (variable label) i da su opisi vrijednosti za ovu varijablu u 

memoriji pohranjeni unutar seta pod nazivom obraz (value labels). Opise 

vrijednosti varijable moºemo dobiti uz pomo¢ naredbe labelbook:


. labelbook obraz 

value label obraz 

values 

labels 

range: [1,4] string length: [8,20] 

N: 4 unique at full length: yes 

gaps: no unique at length 12: yes 

missing .*: 0 null string: no 

leading/trailing blanks: no 

numeric -> numeric: no 

definition 

1 Osnovna skola 

2 Srednja skola 

3 Fakultet 

4 Postdiplomski studij 

variables: 

Output 1.2 

eduk 

Output 1.2 pokazuje da opservacije unutar kategorijalne varijable eduk 

mogu uzeti jednu od £etiri mogu¢e vrijednosti: range [1,4]. Opisi ovih vrijednosti 

su dati u rubrici denition i odnose se na: 1 osnovna ²kola, 2 

srednja ²kola, 3 fakultet i 4 postdiplomski studij. 

U nastavku je obja²njeno kako korisnik unutar State moºe denisati i 

promjeniti svaki od navedenih pet atributa. 

1.7.1 Tipovi varijabli 

Za razliku od nekih drugih statisti£kih paketa (npr. SPSS-a), unutar kojih 

je mogu¢e denisati da li je pojedina£ni podatak mjeren na nominalnom, 

ordinalnom ili metrijskom nivou, Stata barata sa samo dvije vrste podataka: 

tekstovnim (engl string) i numeri£kim (engl. numeric). 

Numeri£ki podaci mogu biti pohranjeni u jednoj od pet varijanti: byte, 

int, long, oat, ili double. Za pohranu cjelobrojnih vrijednosti se koriste 

byte, int i long, dok se za racionalne brojeve koristee float i double. 

Defaultni tip pohrane numeri£kih vrijednosti je float. Obzirom da Stata 

sve numeri£ke vrijednosti £uva u radnoj memoriji, razli£ite varijante £uvanja 

numeri£kih podataka sluºe da se racionalizira kori²tenje memorije. Tako 

numeri£ki podatak pohranjen kao byte zauzima najmanje prostora u radnoj 

memoriji dok double zauzima najvi²e. Na£in pohrane numeri£kih vrijednosti


nije toliko bitan ukoliko radimo sa manjim bazama podataka. Mežutim u 

slu£ajevima kada u bazi imamo veliki broj opservacija i varijabli, kori²tenjem 

odgovaraju¢eg tipa pohrane moºe se u²tediti znatan dio radne memorije. 

Detaljnije informacije o ovim tipovima se mogu dobiti ako ukucamo naredbu: 

. help datatype 

Da bi promijenili na£in pohrane vrijednosti varijable iz jednog tipa u 

drugi koristimo naredbu recast. Na primjer: 

. recast long prihod 

¢e od State traºiti da promjeni postoje¢i tip pohrane vrijednosti unutar varijable 

prihod u long kao novi tip pohrane. Stata ¢e promjenu izvr²iti samo 

ako ona ne¢e dovesti do gubitka preciznosti spremljenih podataka. Ako ºelimo 

izvr²iti promjenu na£ina pohrane bez obzira na mogu¢i rizik gubitka 

preciznosti, onda to moºemo posti¢i tako da nakon naredbe recast upotrijebimo 

opciju force. 

1.7.2 Format prikaza 

Tekstualni podaci imaju oznaku str#, gdje je broj nakon oznake pokazuje 

maksimalnu duºinu teksualnog zapisa. Tako, ako vidimo da uz varijablu stoji 

type: str13, to zna£i da se radi o tekstovnoj varijabli koja ima maksimalnu 

duºinu od 13 karaktera. 

Stata nudi nekoliko razli£itih formata za prikaz numeri£kih vrijednosti 

unutar seta podataka. Format uvijek po£inje sa %, a naj£e²¢e se koristi f ili 

ksini numeri£ki format. Pretpostavimo, da unutar varijable x imamo broj 

123,321. Format prikaza %9.1f zna£i da ¢e prilikom prikaza broj ispuniti 

devet kolona i da ¢e imati jednu cifru iza decimalnog zareza. Samim tim ¢e 

123,321 biti prikazan kao 123,3. Pored ksnog, postoji jo² e (eksponencijalni) 

i g (generalni) format. Eksponencijalni format se naj£e²¢e koristi za prikaz 

vrlo malih ili velikih brojeva, dok generalni format Stati prepu²ta da izabere 

f ili e format u zavisnosti od situacije. 

Pri unosu podataka, Stata automatski bira format prikaza numeri£kih 

vrijednosti unutar seta podataka ali se to moºe promijeniti. Na primjer, ako


ºelimo da broj£ane vrijednosti unutar varijable x umjesto jednog imaju tri 

decimalna mjesta, ona je dovoljno unijeti: 

. format x %9.3f 

Bez obzira koji format koristili, orginalno unesene vrijednosti uvijek ostaju 

iste. Mijenja se samo na£in njihovog prikaza. Detaljnije obja²njenje 

o na£inu prikazivanja numeri£kih vrijednosti unutar seta podataka moºe se 

pozvati sa: 

. help format 

1.7.3 Promjena naziva varijabli 

Promjenu imena varijabli moºemo izvr²iti na dva na£ina: a) preko dijalo²kog 

okvira kojeg pozivamo preko menija Data > Data utilities > Rename variables 

ili b) kori²tenjem naredbe rename koja ima sljede¢u sintaksu: 

. rename old_varname new_varname 

gdje se old_varname odnosi na postoje¢i (stari) naziv varijable, a new_varname 

na novi naziv koji ¢e zamjeniti ve¢ postoje¢i naziv. 

Na primjer, unutar baze u koju su snimljeni podaci o navikama u potro²a£a 

u pogledu konzumacije mineralnih voda, varijabla v1 se odnosi na 

u£estalost konzumaciju gazirane mineralne vode. Obzirom da je naziv v1 

prili£no generi£ki ºelimo da naziv varijable v1 promjenimo u ne²to ²to ¢e 

nas vi²e asocirati na to na ²ta se pomenuta vrajbla odnosi. Pretpostavimo 

da smo se opredjelili da novi naziv bude kgaz. Promjenu ¢emo izvr²iti tako 

da ukucamo: 

. rename v1 kgaz 

£ime smo varijablu v1 preimenovali u kgaz. 

Ovdje je potrebno napomenuti da se imena varijabli obi£no ozna£avaju 

skra¢enicama. Poºeljno je da ime ne bude previ²e dugo (do 8 karaktera), a


uobi£ajeno je da se za ime varijable koriste isklju£ivo mali znakovi. Unutar 

imena se ne moºe koristi ta£ka (.) ali umjesto nje moºe se koristiti donja 

crtu (_). Na primjer, varijablu v1 umjesto kgaz mogli smo imenovati kao 

k_gaz ali ne i kao k.gaz. 

Razlog zbog kojeg se imena varijabli pi²u skra¢enicama ogleda se u tome 

²to tokom analize £esto trebamo navoditi varijable na koje se neka naredba 

odnosi. U tom smislu mnogo je lak²e i brºe obaviti posao ako koristimo skra- 

¢enicu (npr. kgaz) umjesto punog imena (npr. konzumacija_gazirane_vode). 

Na ovaj na£in smanjuje se mogu¢nost gre²ke pri kucanju a istovremeno se 

pove¢ava preglednost kori²tene sintakse. 

1.7.4 Opisivanje varijabli 

Opisivanje varijabli je postupak u kojem varijablama dodjeljujemo duºe 

opisno ime od onog kojeg varijabla trenutno ima. Na primjer, ve¢ smo rekli 

da se varijabla kgaz odnosi sna u£estalost konzumacije. Nakon nekog vremena 

moºe se desiti da se ne sje¢amo ²ta zna£e skra¢enice koje smo koristili 

u imenima varijabli. Upravo da bi izbjegli taj problem, ali i da bi pove¢ali 

preglednost dobijenog outputa, koristimo se postupkom labeliranja putem 

kojeg pobliºe opisujemo varijable. Kori²tenje opisnih imena je posebno zna- 

£ajno za istraºiva£e koji obražuju podatke iz razli£itih anketa ali i za neke 

vrste analiza. 

Za dodjeljivanje duºeg opisa nekoj varijabli koristi se dijalo²ki okvir Data 

> Variables Manager. Unutar ovog dijalo²kog okvira potrebno je mi²em ozna£iti 

varijablu na lijevoj strani i u polju Label unijeti opis varijable. 

Drugi na£in za opisivanje varijable je uz kori²tenje naredbe label koja 

ima sljede¢u sintaksu: 

. label variable ime_varijable "Opis varijable" 

Na primjer, varijablu kgaz moºemo pobliºe opisati tako da ukucamo: 

. label variable kgaz "Sedmi£na konzumacija gazirane vode"


1.7.5 Dodjeljivanje opisa vrijednostima kategorijskih varijabli 

Nakon u£itavanja iz eksterne datoteke Stata ¢e sve varijable unutar kojih 

nema tekstualnih karaktera automatski denisati kao numeri£ke varijable. 

Na primjer, znamo da je varijabla spol kategorijska varijabla sa vrijednostima: 

1 za mu²ki i 2 za ºenski spol. Kako pri £itanju rezultata analize ne bi 

morali pamtiti ²ta ozna£ava 1 a ²ta 2, poºeljno je da broj£anim vrijednostima 

kategorijskih varijabli dodijelimo i tekstualni opis. 

Stata koristi dvostepeni proces dodjeljivanja opisa vrijednostima kategorijskih 

varijabli. Prvo je potrebno denisati set sa opisom kategorija i tom 

setu dodijeliti naziv. To ¢emo uraditi uz pomo¢ naredbe label: 

. label define Spol 1 "mu²ki" 2 "ºenski" 

Dakle, ovim smo denisali opisni set sa nazivom Spol. U drugom koraku 

potrebno je ovako denisani set dodijeliti varijabli spol a za to koristimo 

naredbu: 

. label values spol Spol 

Obratite paºnju da se ime opisnog seta poklapa sa imenom varijable (osim 

velikog po£etnog slova). 

U praksi se nerijetko javljaju situacije u kojima jedan opisni set moºemo 

primjeniti na va²i varijabli. Na primjer, pretpostavimo da smo neki konstrukt 

mjerili sa tri tvrdnje na petostepenoj Likertovoj skali gdje je 1 apsolutno 

se ne slaºem, 2 ne slaºem se, 3 niti se slaºem niti se ne slaºem, 4 slaºem 

se, 5 apsolutno se slaºem. Odgovore ispitanika prema ove tri tvrdnje smo 

zabiljeºili unutar varijabli: item1, item2 i item3. 

U ovakvom slu£aju prvo bi trebali denisati opisni set, nazovimo ga Likert5, 

sa: 

. label define Likert5 1 "apsolutno se ne slaºem" 2 "ne slaºem se" 

3 "niti se slaºem niti se ne slaºem" 4 " slaºem se" 5 "apsolutno se ne slaºem"


A zatim bi, u jednom koraku, svakoj varijabli dodijeliti ovako denisani 

set: 

. label values item1 item2 item3 likert5 

Naravno, sve ovo moºemo uraditi i preko ranije pomenutog Variables Managera, 

a kompletan postupak opisan je u Dodatku A. 

1.8 Nedostaju¢e vrijednosti 

Prazne ¢elije u tabeli sa podacima Stata automatski prepoznaje kao nedostaju¢e 

vrijednosti. Ove vrijednosti prikazane su u tabeli sa podacima sa 

ta£kom (.). Po£ev²i od verzije 8 postoji jo² 26 kodova koji se mogu iskoristiti 

za nedostaju¢e vrijednosti. Kodovi se ozna£avaju sa ta£kom koju prati 

malo slovo (od .a do .z). 

Nedostaju¢e vrijednosti za tekstualne podatke ozna£avaju se sa "" (ravni 

navodnici bez razmaka izmežu), ²to ne treba mje²ati sa " " (ravni navodnici 

sa razmakom). 

Vrlo £esto se u istraºivanjima nedostaju¢i podaci ozna£avaju sa specijalnim 

kodovima kao ²to su npr.: 88 nije primjenljivo, 99 nije utvrženo i sl. 

U slu£aju da dobijemo datoteku u kojoj je kori²ten ovakav na£in kodiranja 

nedostaju¢ih vrijednosti, nakon ²to importujemo podatke, potrebno je Stati 

jasno nazna£iti da 88, 99 (ili bilo koja druga sli£na oznaka) ne predstavlja 

broj nego nedostaju¢i podatak. Na primjer, pretpostavimo da su za varijablu 

primanja neki odgovori kodirani kao: 99 odbija odgovoriti i 999 ne moºe 

se sjetiti. Nakon ²to importujemo podatke u Satu potrebno je naredbom 

replace ili recode oznake 99 i 999 zamjeniti sa oznakama koje koristi Stata: 

. replace primanja = .n if primanja == 99 

. replace primanja = .m if primanja == 999 

ili 

. recode primanja 99 = .n 

. recode primanja 999 = .m


Ukoliko se u £itavom skupu podataka, za sve varijable koristila ista oznaka, 

recimo da je to znaka: −9, onda jednostavno moºemo ukucati: 

. recode _all -9 = . 

Da li unutar neke varijable postoje nedstaju¢i podaci moºemo provjeriti 

ako ukucamo naredbu inspect ime_varijable. 

Vrijedi napomenuti da, za razliku od drugih statisti£kih paketa, Stata 

nedostaju¢e vrijednosti tretira kao beskona£no velike brojeve, s tim da je 

.< .a < .b < ... < .z. Ovo uvijek treba imati na umu kako bi izbjegli 

potencijalne gre²ke pri denisanju odgovaraju¢ih matematskih izraza. 

Na primjer, recimo da u bazi od 199 ispitanika imamo 134 ºene, 62 mu- 

²karca i 3 ispitanika koji nisu naveli podatak o spolu. Pretpostavimo da za 

potrebe analize ºelimo da prebrojimo broj ºena. Obzirom da smo unutar varijable 

spol brojem 1 ozna£ili mu²karce, a sa brojem 2 ºene, provjeru moºemo 

izvr²iti tako da ukucamo: 

. count if spol>1 & spol1 

137 

dobili bi broj 137 jer bi 3 ispitanika koja nisu navela podatak o spolu u²la u 

prebrojavanje. To bi se desilo jer nismo eksplicitno nazna£ili da se nedostaju¢e 

vrijednosti ne trebaju ra£unati. 

1.9 Upravljanje podacima 

U ovom dijelu nau£i¢emo osnovne operacije koje se ti£u upravljanja podacima. 

Ove operacije odnose se na selektiranje ºeljenih varijabli i opservacija, 

2 Ne zaboravimo da ta£ka (.) ozna£ava dosta veliku numeri£ku vrijednost.


rekodiranje varijabli, transformaciju varijabli, preoblikovanje skupa podataka 

(engl. reshaping) i pretvaranje jedne vrste podataka u drugu. 

Prvo je bitno da poznajemo operatore koji se koriste u relacionim i aritmeti£kim 

izrazima. Naj£e²¢e kori²teni operatori predstavljeni su u narednoj 

tabeli 1.1. 

Operator Zna£enje Napomena 

== jednako kao koristi se u relacionim izrazima 

= proizvodi koristi se u aritm. operacijama 

, == realcioni operatori koriste se nakon izraza if 

= ili ~= razli£ito od desni alt + 1 za simbol ~ 

! ili ~ nije 

& 

i 

| ili desni alt + w za simbol | 

+, -, *, /, ^ aritmeti£ki operatori desni alt + 3 za simbol ^ 

Tablica 1.1: Operatori unutar State 

Obratiti paºnju na razliku izmežu = i ==. Simbol jednakosti (=) se 

obi£no koristi kada dodjeljujemo vrijednosti varijabli. Na primjer: 

. gen wage = salary/(hours*weeks) 

dok se dvostruki simbol jednakosti (==) koristi kada ºelimo da napravimo 

komparaciju. 

. replace fulltime = 1 if hours == 40 

1.9.1 Selektiranje i brisanje varijabli 

Operacija selektiranja varijabli i opservacija moºe biti korisna kada imamo 

skup sa velikim brojem podataka, a za analizu ºelimo upotrijebiti samo jedan 

njegov dio. To zna£i da ¢emo odabrati samo one varijable i/ili opservacije 

koje nam trebaju. 

Pretpostavimo od svih varijabli ºelimo zadrºati samo tri varijable: id, v1 

i v2. To moºemo uraditi koriste¢i naredbu keep:


. keep id v1 v2 

Alternativno, ako ºelimo da izbacimo varijable, koristi¢emo naredbu drop: 

. drop id v1 v2 

Naredbama keep i drop mijenjamo sadrºaj skupa podataka koji se nalazi 

u memoriji. To zna£i da varijable koje smo izbacili nisu izbrisane u datoteci 

sa podacima. Ukoliko ºelimo da varijable izbri²emo i sa diska onda, nakon 

²to ih izbacimo iz memorije, potrebno je da promjene snimimo na disk preko 

naredbe save. 

Jo² jedna bitna naredba je clear. Ovom naredbom bri²emo sve varijable 

iz memorije. 

1.9.2 Selektiranje i brisanje opservacija 

Naredbe drop i keep moºemo korsititi i za selektovanje ispitanika koji zadovoljavaju 

odrežene uslove. Uzmimo za primjer varijablu eduk koja se odnosi 

na nivo formlanog obrazovanja ispitanika, gdje je: 1 osnovna ²kola, 2 

srednja ²kola, 3 fakultet, 4 postdiplomski studij. Kada tabeliramo vrijednosti 

ove varijable dobijamo sljede¢i output: 

. tab eduk, missing 

Obrazovanje Freq. Percent Cum. 

Zavrsena osnovna skola 5 2.51 2.51 

Zavrsena srednja skola 145 72.86 75.38 

Zavrsen fakultet 44 22.11 97.49 

Zavrsen postidiplomski studij 5 2.51 100.00 

Output 1.3 

Total 199 100.00 

Pretpostavimo da ºelimo analizirati samo ispitanike koji imaju fakultetsko 

ili vi²e obrazovanje. Da bi smo selektovali i u memoriji ostavili samo 

opservacije koje ispunjavaju taj kriterij ukuca¢emo:


. keep if (eduk >= 3) 

(150 observations deleted) 

Stata nas obavje²tava da je iz memorije izbrisano 150 opservacija ²to 

zna£i da je za dalji rad ostalo 49 ispitanika koji ispunjavaju traºeni kriterij. 

Ako pogledamo prethodnu tabelu, jasno je da se tih 49 ispitanika odnosi 

na one koji imaju zavr²en fakultet (44 ispitanika) i postdiplomski studij (5 

ispitanika). 

Mežutim, ²ta da smo ºeljeli odabrati samo osobe ºenskog pola koje imaju 

srednjo²kolsko obrazovanje? Ponovo ¢emo prvo tabelirali odgovore naredbom 

tab. Obratimo paºnju da postoje 3 ispitanika koja nisu navela podatak 

o spolu. 

. tab spol, missing 

Spol Freq. Percent Cum. 

Muski 62 31.16 31.16 

Zenski 134 67.34 98.49 

. 3 1.51 100.00 

Total 199 100.00 

Output 1.4 

Naredba za selektovanje osoba ºenskog pola koje imaju zavr²enu srednju 

²kolu glasi: 

. keep if (eduk==2 & spol==2) 


Nakon ove naredbe Stata nas obavje²tava da je iz memorije izbacila 104 

opservacije od ukupnih 199. Istu stvar mogli smo posti¢i da smo ukucali: 

. use ime_datoteke if (eduk==2) & (spol==2) 

Na ovaj na£in bi direktno sa hard diska, iz datoteke u kojoj su spremljeni 

podaci, u memoriju u£itali samo one ispitanike koji imaju zavr²enu srednju 

²kolu i koji su ºenskog spola.


Jo² nekoliko primjera vezanih za selektovanje i brisanje opservacija je 

prikazano u tabeli 1.2. 

Naredba 

Opis 

. keep if id!=51 & id!=85 Izbacuje opservacije sa id 51 i 85 

. drop in 6 Izbacuje opservaciju pod rednim brojem 6 

. drop in 2/4 Izbacuje opservacije 2, 3 i 4 

Tablica 1.2 

1.9.3 Generiranje novih i transformacija postoje¢ih varijabli 

Nove varijable generiramo preko komandi generate i egen. Sintaksa glasi: 

. gen new_variable = exp 

gdje new_variable ozna£ava ime varijable koju kreiramo a exp je funkcija ili 

izraz koji koristimo za kreiranje varijable. 

U tabeli 1.3 su dati neki od £e²¢e kori²tenih izraza za generiranje novih 

varijabli ili transformacije podataka. 

Izraz 

ln(x) ili log(x) 

exp(x) 

sqrt(x) 

x^2 

x1*x2 Proizvod x 1 i x 2 

Tablica 1.3 

Opis 

Prirodni logaritam od varijable x 

Eksponencijalna funkcija varijable x 

Kvadratni korijen od x 

x na kvadrat 

Na primjer, pretpostavimo da ºelimo transformirati metrijsku varijablu 

var1 tako ²to ¢emo na njene vrijednosti primjeniti funkciju prirodnog logaritma 

ln(x). Dovoljno je ukucati: 

. gen lnvar1=ln(var1) 

£ime smo kreirali novu varijablu lnvar1 koja sadrºi logaritamske vrijednosti 

izvorne varijable var1.


Naredba gen moºe biti korisna i kada ºelimo napravimo identi£nu kopiju 

izvorne varijable. Na primjer, logaritamsku transformaciju mogli smo uraditi 

i na sljede¢i na£in: 

. gen lnvar1=var1 

. replace lnvar1 = ln(lnvar1) 

Na ovaj na£in smo kreirali novu varijablu lnvar1 koja je po sadrºaju identi£na 

ve¢ postoje¢oj varijabli var1. U sljede¢em koraku smo na novokreiranu 

varijablu primjenili logaritamsku transformaciju. Krajnji rezultat je isti kao 

i u prethodnom slu£aju. 

Pretpostavimo da smo ºeljeli transformirati vrijednosti varijable var1, bez 

kreiranja nove varijable. Za to smo se mogli posluºiti naredbom replace: 

. replace var1 = ln(var1) 

¢ime smo sve izvorne vrijednosti varijable var1 zamijenili njihovom logaritamskom 

vrijedno²¢u. Potrebno je obratiti paºnju na to da je sadrºaj 

varijable promjenjen iako je njen naziv ostao isti. 

Vrlo £esto je na osnovu vrijednosti postoje¢ih varijabli potrebno izra£unati 

njihov prosjek. Na primjer, zamislimo da imamo tri varijable nazvane: 

item1, item2, item3, kojima smo na petostepenoj Likertovoj skali mjerili neki 

konstrukt. Odgovori za prvih pet ispitanika prikazani su na outputu 1.5. 

. list 

id item1 item2 item3 

1. 1 3 2 5 

2. 2 4 2 4 

3. 3 2 4 4 

4. 4 . 3 1 

5. 5 5 5 2 

Output 1.5 

Pretpostavimo da ºelimo izra£unati novu varijablu (nazovimo je prosjek1 ) 

koja ¢e predstavljati prosje£nu vrijednost koju svaki ispitanik ima po osnovu 

pomenute tri varijable. Prvi na£in je da koristimo izraz:


. gen prosjek_k = (item1 + item2 + item3)/3 

£ime smo za svakog ispitanika sabrali vrijednosti odgovora i podijelili tako 

dobijenu sumu sa brojem varijabli. Rezultat je prikazan na outputu 1.6 u 

koloni prosjek1. 

. list 

id item1 item2 item3 prosjek1 

1. 1 3 2 5 3.333333 

2. 2 4 2 4 3.333333 

3. 3 2 4 4 3.333333 

4. 4 . 3 1 . 

5. 5 5 5 2 4 

Output 1.6 

Obratimo paºnju da za ispitanika broj 4 nije izra£unata prosje£na vrijednost 

jer nemamo podatka za item1. Ovaj primjer pokazuje da ¢e Stata u 

slu£aju da ne postoji podatak po samo jednoj varijabli u potpunosti presko- 

£iti tu opservaciju i kao kona£ni rezultat izraza ¢e takože biti nedostaju¢a 

vrijednost. 

Sre¢om, u okviru naredbe egen postoji funkcija rowmean (ili skra¢eno 

rmean) koja pri izra£unavanju prosjeka uzima u obzir samo validne podatke, 

zanemaruju¢i nedostaju¢e vrijednosti. Puna sintaksa bi bila: 

. egen prosjek2 = rmean(item1 item2 item3) 

a rezultat je prikazan u okviru outputa 1.7


. list 

id item1 item2 item3 prosjek1 prosjek2 

1. 1 3 2 5 3.333333 3.333333 

2. 2 4 2 4 3.333333 3.333333 

3. 3 2 4 4 3.333333 3.333333 

4. 4 . 3 1 . 2 

5. 5 5 5 2 4 4 

Output 1.7 

Za razliku od prethodnog poku²aja, vidimo da je sada izra£unat prosjek 

i za ispitanika broj 4. 

1.9.4 Rekodiranje vrijednosti varijable 

Rekodiranje se odnosi na zamjenu postoje¢ih vrijednosti neke varijable sa 

novim vrijednostima. U zavisnosti od ciljeva analize razlikuju se dvije vrste 

rekodiranja. Prva vrsta odnosi se na konverziju metrijskih varijabli u kategorijalne, 

dok se druga vrsta odnosi na rekodiranje postoje¢ih vrijednosti 

kategorijalni varijabli. Iako nije obavezno, poºeljno je varijable sa rekodiranim 

vrijednostima snimiti kao zasebne varijable. Na taj na£in ¢e se sa£uvati 

nepromjenjene vrijednosti izvorne varijable. 

1.9.4.1 Pretvaranje metrijskih varijabli u kategorijalne 

Pretpostavimo da imamo varijablu prot u okviru koje su zabiljeºeni podaci 

o ostvarenom godi²njem protu preduze¢a i da cilj analize zahtjeva da sva 

preduze¢a podjelimo u dvije grupe: a) ona koja posluju sa gubitkom i b) ona 

koja posluju sa dobitkom. Kako bi to postigli potrebno je kreirati novu kategorijalnu 

varijablu (nazovimo je pos_rezultat) koja ¢e imati dvije kategorije: 

1 gubitak i 2 dobit. 

Prvi na£in na koji ovo moºemo uraditi je da upotrijebimo komandu 

replace: 

. gen pos_rezultat=. 

. replace pos_rezultat =1 if (profit0 & profit


Potrebno je voditi ra£una o tome da li unutar varijable prot ima nedostaju¢ih 

vrijednosti ili ne. U slu£aj da imamo nedostaju¢e vrijednosti bilo bi 

pogre²no u posljednjoj naredbi ne uklju£iti naznaku za to i recimo napisati 

samo: 

. replace pos_rezultat =2 if (profit>0) //pogre²no 

jer bi u tom slu£aju sve opservacije sa nedostaju¢im vrijednostima u²le u 

kategoriju 2 (dobitak) ²to nije poºeljno. 

Drugi na£in je da iskoristimo naredbu recode. U ovom slu£aju sintaksa 

je mnogo kra¢a: 

. recode profit (min/0=1) (0/max=2), gen (pos_rezultat) 

Tre¢i na£in je da se rekodiranje obavi uz pomo¢ naredbe egen i opcije 

group. Ovaj na£in je poºeljan u slu£aju kada ºelimo da dobijemo grupe sa 

jednakim brojem opservacija. Sintaksa glasi: 

. egen newvariable = cut (oldvariable), group(# broj grupa) 

Tako na primjer, ako bi sva preduze¢a u zavisnosti od visine njihovog pro- 

ta ºeljeli podjeliti u tri jednake grupe onda bi konkretna naredba izgledala: 

. egen pos_rezultat = cut (profit), group(3) 

1.9.4.2 Rekodiranje vrijednosti kategorijalne varijable 

Kada je rije£ o kategorijalnim varijablama istraºiva£ se naj£e²¢e susre¢e sa 

dvije situcije. U prvoj situaciji potrebno je rekodirati vrijednosti kategorijalne 

varijable tako da ostane isti broj kategorija ali sa druga£ijim redosljedom. 

Na primjer, pretpostavmo da imamo varijablu item1 gdje kategorije 

prestavljaju odgovore na petosteponoj Likertovoj skali: 1 apsolutno se ne 

slaºem, 2 ne slaºem se, 3 niti se slaºem niti se ne slaºem, 4 slaºem


se, 5 apsolutno se slaºem. Vidimo da item1 ima pet nivoa koji se kre¢u 

u rasponu od apsolutnog neslaganja (1) do apsolutnog slaganja (5). 

Ukoliko ºelimo da obrnemo redoslijed nivoa tako da imaju suprotan slijed, 

onda moramo rekodirati vrijednosti varijable item1. To je najlak²e posti¢i 

upotrebom naredbe recode: 

. recode item1 (1=5) (2=4) (3=3) (4=2) (5=1), gen (item1r) 

Druga situacija se javlja kada ve¢i broj kategorija neke varijable ºelimo 

svesti na manji broj kategorija. Na primjer, ako ºelimo odgovore sa petostepene 

Likertove skale spremljene unutar varijable item1 svesti na samo tri 

kategorije: 1 (neslaganje), 2 (neutralan) i 3 (slaganje), moºemo iskoristiti 

sljede¢u sintaksu: 

. recode item1 (1 2=1) (3=2) (4 5=3), gen (item1r) 

Unutar naredbe recode mogli smo odmah denisati i opise kategorija. 

Na primjer: 

. recode item1 (1 2 = 1 "Ne slaºem se") (3 = 2 "Nemam stav") 

(4 5 = 3 "Slaºem se") (else=.), gen (item1r) 

Za razliku od prethodne komande ovdje smo koristili i else=. uslov 

kojim smo kao nedostaju¢e podatake deklarisali sve vrijednosti koje izlaze 

iz raspona skale od 1 do 5. Kori²tenje ove opcije moºe biti korisno ako smo 

u tabeli sa podacima imali oznake kao ²to su npr.: 6 nije siguran, 7 

odbija da odgovori i sli£no. 

Nave²¢emo jo² jedan primjer. Recimo da za varijablu primanja imamo 

sljede¢u distribuciju odgovora:


. tab primanja, missing 

Visina 

primanja Freq. Percent Cum. 

ispod 200 KM 10 5.03 5.03 

200-299 KM 2 1.01 6.03 

300-399 KM 5 2.51 8.54 

400-599 KM 11 5.53 14.07 

600-699 KM 9 4.52 18.59 

700-799 KM 9 4.52 23.12 

800-899 KM 14 7.04 30.15 

900-999 KM 7 3.52 33.67 

1.000-1.099 KM 16 8.04 41.71 

1.100-1.199 KM 11 5.53 47.24 

1.200-1.299 KM 19 9.55 56.78 

1.300 i vise 80 40.20 96.98 

. 6 3.02 100.00 

Output 1.8 

Total 199 100.00 

Pretpostavimo da varijablu ºelimo rekodirati tako da ispitanike svrstamo 

u jedan od tri razreda: 1 niska primanja (do 599 KM), 2 srednja primanja 

(600-1.299 KM) i 3 visoka primanja (1.300 KM i vi²e). Sintaksa bi izgledala 

ovako: 

. recode primanja (min/4=1) (5/11=2) (12/max =3), gen (primanja_r) 

Dakle, u okviru naredbe recode smo prvo denisali tri nove kategorije i 

kriterije koje opservacija treba zadovoljoti da bi bila svrstana u jednu od ove 

tri kategorije. Opcija gen je posluºila da rekodirane vrijednosti spremimo 

unutar zasebne varijable primanja_r £ime smo izvornu varijablu primanja 

ostavili nepromijenjenom. 

Nakon toga ostaje jo² da novokreiranoj varijabli damo ²iri opis (label) i 

da svakoj kategoriji pridruºimo odgovaraju¢i opis (value label): 

. label variable primanja_r "Primanja (R)" 

. label define Primanja_r 1 "niska" 2 "srednja" 3 "visoka" 

. label values primanja_r Primanja_r 

U posljednjem koraku ¢emo tabelirati vrijednosti novokreirane varijable 

kako bi projerili da li smo £itav postupak uradili ispravno.


. tab primanja_r, missing 

Primanja 

(R) Freq. Percent Cum. 

niska 28 14.07 14.07 

srednja 85 42.71 56.78 

visoka 80 40.20 96.98 

. 6 3.02 100.00 

Total 199 100.00 

Output 1.9 

Ako novodobijene frekvencije odgovora (output 1.9) uporedimo sa prethodnim 

(output 1.8) vidimo da broj opservacija unutar kategorija korespondira 

sa onim ²to smo ºeljeli posti¢i. Samim tim zaklju£ujemo da je postupak 

rekodiranja uspje²no obavljen:

Dodatak A 

Variables Manager 

Dijalo²ki okvir Variables Manager moºemo pozvati tako ²to na toolbaru kliknemo 

na odgovaraju¢u ikonu (slika A.1). 

Slika A.1: Poloºaj ikone za Variables Manager na toolbaru 

Variables Manager (slika A.2) moºemo iskoristiti za promjenu imena varijabli 

(Name), dodavanje duºeg opisa varijablama (Label), dodjeljivanje opisa 

vrijednostima kategorijske varijable (Value Label), promjenu tipa pohrane 

varijable (Type) i format prikazivanja vrijednosti unutar varijable (Format). 

27

DODATAK A. VARIABLES MANAGER 28 

Slika A.2: Primarni prozor Variables Manager-a 

Sve opcije su direktne i dovoljno jasne same po sebi. Eventualne nejasno¢e 

mogu se javiti samo kod dodjeljivanja opisa vrijednostima kategorijske 

varijable. Zbog toga ¢emo £itav postupak objasniti u dva koraka. 

Korak 1: Denisanje seta sa opisom kategorija 

Na desnoj strani prozora Variables Manager (slika A.2), pored padaju¢eg 

menija Value Label nalazi se gumb Manage..., a klikom na njega dobijamo 

okvir Manage Value Labels (slika A.3). 

Slika A.3: Po£etni dijalo²ki okvir 

Klikom na gumb Create Label otvori¢e se prozor kao na slici A.4.


Slika A.4: Denisanje opisa za kategorije varijable spol 

U polje Label name upisujemo naziv opisnog seta (Spol u ovom slu£aju). 

U polje Value unosimo jednu po jednu broj£anu vrijednost kojoj zatim u polju 

Label dodjeljujemo tekstualni opis. Nakon ²to zavr²imo kliknemo na gumb 

Add. Po unosu svih vrijednosti i opisa kliknemo na gumb OK. 

Korak 2: Pridruºivanje opisa kategorija eljenoj varijabli 

Nakon ²to smo se vratili u prozor Variables Manager, potrebno je odabrati 

ºeljenu varijablu te iz padaju¢eg menija Value Label odabrati novokreirani 

opisni set i kliknuti na gumb Apply kako bi vrijednostima varijable pridruºili 

opise koji se nalaze u datom setu (slika A.5).


Slika A.5: Pridruºivanje opisnog seta Spol varijabli spol 

Kao ²to moºemo vidjeti sa slike A.6 za varijablu spol u koloni Value Label 

pojavio se naziv na²eg seta Spol. 

Slika A.6: Varijabli spol je pridruºen odgovaraju¢i opisni set £ime je 

postupak zavr²en

III 

Analiza validnosti mjernih skala 

5. ANALIZA VALIDNOSTI MJERNIH SKALA 

5.1. EKSPLORATIVNA I KONFIRMATIVNA FAKTORSKA ANALIZA 

Da bi provjerili validnost mjernih skala i konstrukata proveli smo faktorsku analizu. Pod 

faktorskom analizom podrazumjevamo statistički metod koji se upotrebljava da bi pronašli 

manji set neobserviranih varijabli (također se koristi izraz latentne varijable, faktori ili 

dimenzije) koje mogu „objasniti“ veze između većeg broja opserviranih varijabli (takođe 

se koristi izraz manifestne varijable). 

Faktorska analiza se primjenjuje za tri glavna zadatka. Prvi zadatak je identifikovanje 

dimenzija koje nisu odmah uočljive kroz proces sumiranja podataka (data summarization). 

Nakon što shvatimo i objasnimo ovako dobijene dimenzije, podatke možemo opisati sa 

mnogo manjim brojem koncepata nego da to činimo uz pomoć orginalnih individualnih 

varijabli. Drugi zadatak je redukcija podataka (data reduction) koji se nadovezuje na 

sumiranje podataka na način da se za svaku dimenziju (faktor) izračunava empirijska 

vrijednost (faktorski skor) koja zamjenjuje vrijednosti orginalno korištenih individualnih 

varijabli. Treći zadatak, za koji se može koristiti faktorska analiza, je testiranje apriornih 

hipoteza o strukturi i vezama između individualnih (manifestnih varijabli). 

U kontekstu ova tri zadatka možemo posmatrati dva potpuno različita pristupa faktorskoj 

analizi: eksplorativnu faktorsku analizu (EFA) i konfirmativnu faktorsku analizu (CFA). 

Ključne razlike između ova dva pristupa prikazane su u tabeli 22. 

Tabela 22 – Razlike između EFA i CFA 

EFA (Data-driven) 

CFA (Theory-driven) 

Restrikcije N/A Da 

Nestandardizirano rješenje N/A Da 

Standardiziranio rješenje Da Da 

Rotacija faktora Da N/A 

Faktorski skorovi Da N/A 

Testiranje hipoteza N/A Da 

Goodness-of-fit N/A Da 

Softverski paketi 

Izvor: Albright and Park (2009) 

Paketi opšte namjene (SPSS, 

STATA...) 

Mplus, LISREL, Amos, EQS, 

SAS CALIS 

112

III 


Eksplorativna faktorska analiza se koristi prvenstveno za identifikovanje faktora u 

situacijama kada istraživač nema a priori ideju o tome koji faktori postoje i koje 

manifestne varijable su indikatori eventualnih faktora. U tom smislu EFA ne stavlja 

nikakve restrikcije na podatke te se na bazi korelacija koje postoje između manifestnih 

varijabli matematski izvode faktori. Pri tome se pretpostavlja da svaki faktor utiče na svaku 

manifestnu varijablu (slika 7). Obično se kaže da je EFA pristup vođen podacima (data 

driven). Na slici 7 je prikazan EFA model sa dva faktora i osam manifestnih varijabli. 

Slika 7 – Eksplorativni faktorski model („oblique“ rotacija) sa 8 manifestnih varijabli 

Izvor: Brown (2006) 

S druge strane, konfirmativna faktorska analiza se prvenstveno koristi za testiranje a 

priori hipoteza o faktorskoj strukturi. Za razliku od EFA, istraživač u ovom pristupu ima 

predstavu o tome koji faktori postoje i koje manifestne varijable su indikatori svakog 

faktora. Istraživač u tom smislu stavlja značajne, ali smislene restrikcije na veze između 

opserviranih varijabli u faktorskom modelu (npr. ove restikcije se najčešće odnose na to da 

se pojedine varijable mogu učitavati na samo jedan faktor, a ne na sve faktore kao u EFA). 

Stoga se za CFA kaže da je to pristup vođen teorijom (theory driven). Na slici 8 je prikazan 

CFA model sa dva faktora gdje se prve četiri varijable učitavaju na prvi, a druge četiri na 

drugi faktor). 

113

III 


Slika 8 – Konfirmativni faktorski model sa 8 manifestnih varijabli 

Izvor: Brown (2006) 

114

UNIVERZITET U SARAJEVU 

EKONOMSKI FAKULTET U SARAJEVU 

Eksplorativna faktorska analiza 1 

Autor: 

prof. dr Emir Agić 

Sarajevo, 10. august 2017. godine 

1 

NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih 


1

Sadržaj 

1. Uvod ................................................................................................................................ 3 

2. Intuitivno objašnjenje EFA .......................................................................................... 3 

3. Ciljevi EFA ..................................................................................................................... 5 

4. Koraci unutar EFA ....................................................................................................... 5 

4.1. Ocjena prikladnosti podataka za EFA ...................................................................... 7 

4.2. Odabir pristupa izdvajanja faktora i metode estimacije ......................................... 12 

4.2.1. Razlaganje varijanse unutar varijable ............................................................. 12 

4.2.2. EFA pristup..................................................................................................... 13 

4.2.3. PCA pristup .................................................................................................... 14 

4.2.4. Ključne razlike između EFA i PCA ............................................................... 15 

4.2.5. Koji pristup koristiti? ...................................................................................... 16 

4.2.6. Metode estimacije ........................................................................................... 17 

4.3. Određivanje broja faktora ...................................................................................... 18 

4.4. Rotacija faktora ...................................................................................................... 25 

4.4.1. Zbog čega nam je potrebna faktorska rotacija? .............................................. 25 

4.4.2. Pojam rotacije faktora ..................................................................................... 25 

4.4.3. Vrste rotacije ................................................................................................... 26 

4.4.4. Koji metod rotacije izabrati? .......................................................................... 27 

4.5. Interpretacija i imenovanje faktora ........................................................................ 28 

4.6. Respecifkacija faktorskog modela ......................................................................... 29 

4.6.1. Kada je potrebno respecificirati faktorski model? .......................................... 29 

4.6.2. Šta podrazumjevamo pod respecifikacijom faktorskog modela? ................... 29 

4.6.3. Šta ako respecifikacija ne pomogne? .............................................................. 30 

4.7. Provjera pouzdanosti .............................................................................................. 32 

4.8. Upotreba faktora u drugim analizama .................................................................... 35 

4.8.1. Faktorski skorovi ............................................................................................ 35 

4.8.2. Sumarne skale ................................................................................................. 38 

5. Kako napisati sažetak analize .................................................................................... 40 

6. Prilozi ............................................................................................................................ 43 

References ................................................................................................................................ 44 

2

1. UVOD 

Eksplorativna faktorska analiza (engl. Exploratory factor analysis - EFA) se odnosi na skup 

statističkih tehnika za sažimanje podataka kojima se veći broj opserviranih varijabli predstavlja 

pomoću manjeg broja neopserviranih (latentnih) varijabli koje nazivamo faktorima. Same 

tehnike sažimanja podataka se baziraju na analizi obrazaca korelacija koje postoje između 

opserviranih varijabli. Upravo ta povezanost između opserviranih varijabli je osnovna ideja na 

kojoj počiva faktorska analiza, jer se pretpostavlja da varijable koje međusobno jako koreliraju 

u stvari mjere aspekte istog latentnog konstrukta. Takav skup međusobno povezanih 

opserviranih varijabli nazivamo faktorom. Drugim riječima, faktor u suštini predstavlja 

hipotetičku latentnu varijablu (konstrukt) koja objašnjava zašto određene opservirane varijable 

međusobno koreliraju i šta je najmanji zajednički sadržilac koji ih povezuje (Taylor, 2004, p. 1). 

Samim tim, EFA omogućava da informacije iz mnoštva opserviranih varijabli predstavimo 

pomoću manjeg broja faktora uz minimalan gubitak informacije (Burns & Burns, 2008; 

Zikmund, Babin, Carr, & Griffin, 2009). 

2. INTUITIVNO OBJAŠNJENJE EFA 

Da bi smo intuitivno razumjeli suštinu eksplorativne faktorske analize, poslužimo se sljedećim 

primjerom. 

Primjer 1 

Pretpostavimo da smo anketirali 200 studenata smjera Marketing kako bi utvrdili motive koji 

su ih opredijelili za odabir navedenog smjera. Upitnik za mjerenje motivacije za upis smjera se 

sastojao od šest tvrdnji mjerenih na petostepenoj Likertovoj skali predstavljenih u tabeli 1. 

Tabela 1 

Item 

Tvrdnja 

01 Uz poznavanje marketinga je lakše pronaći zaposlenje. 

02 Sa marketingom vjerujem da mogu imati bolja primanja. 

03 Ovaj smjer mi može pomoći da lakše pokrenem vlastiti biznis. 

04 U marketingu nema mnogo matematike 

05 Na ovom smjeru se najlakše dolazi do diplome. 

06 Ovaj smjer je lakši u odnosu na druge smjerove. 

Zamislimo da nas interesuje da saznamo kako motivi predstavljeni u tabeli 1 utiču na ostvareni 

uspjeh studenata mjeren prosjekom ocjena po završetku studiranja. Odgovor bi mogli pokušati 

dobiti korištenjem regresione analize gdje bi šest tvrdnji regresirali na prosjek ocjena. Međutim, 

vrlo je vjerovatno da bi u tako kreiranom regresionom modelu došlo do narušavanja 

pretpostavke o nepostojanju multikolinearnosti. Naime, o ako pogledamo sadržaj stavki iz 

upitnika, možemo očekivati da će neke od tvrdnji međusobno jako korelirati. Na primjer, vrlo 

je vjerovatno da će između tvrdnji “lakoća polaganja ispita” i “lakši u odnosu na druge 

smjerove” postojati znatna korelacija i preklapanje. 

Da bi provjerili ovu pretpostavku, izračunali smo korelacije između prethodno navedenih šest 

tvrdnji i predstavili ih u formi korelacione matrice unutar tabele 2. Obzirom da svaka varijabla 

3

sama sa sobom korelira perfektno, na dijagonali su vrijednosti korelacija jednake broju jedan. 

Korelacije u ćelijama iznad i ispod dijagonale su istovjetne za odgovarajući par varijabli. Zbog 

toga su predstavljeni samo koeficijenti u donjem dijelu matrice. 

Tabela 2 - Korelaciona matrica 

Lakoća 

zaposlenja 

Očekivana 

primanja 

Započinjanje 

vlastitog 

biznisa 

Nema 

matematike 

Lakoća 

polaganja 

ispita 

Lakši u 

odnosu 

na druge 

smjerove 

Lakoća zaposlenja 1.000 

Očekivana primanja .773 1.000 Faktor 1 

Započinjanje vlastitog 

biznisa 

.599 .688 1.000 

Nema matematike -.236 .052 .087 1.000 

Faktor 2 

Lakoća polaganja ispita .115 -.056 .012 .711 1.000 

Lakši u odnosu na druge 

smjerove 

-.105 .109 -.035 .812 .552 1.000 

Empirijski podaci iz korelacione matrice u tabeli 2 dodatno potvrđuju utisak da postoji 

preklapanje između pojedinih tvrdnji. Ako bolje osmotrimo obrasce korelacija unutar 

korelacione matrice možemo primijetiti da šest opserviranih varijabli možemo podijeliti u dvije, 

međusobno odvojene, grupe. U prvoj grupi se nalaze tvrdnje: “lakoća zaposlenja”, “očekivana 

primanja” i “započinjanje vlastitog biznisa”. Ove tvrdnje jako koreliraju jedna sa drugom. S 

druge strane, tri preostale tvrdnje: “nema matematike”, “lakoća polaganja ispita” i “lakši u 

odnosu na druge smjerove” također međusobno jako koreliraju. Ono što je posebno bitno uočiti 

je da tvrdnje iz prve grupe (itemi 1-3) vrlo slabo koreliraju sa varijablama iz druge grupe (itemi 

4-6). Sve ovo upućuje na zaključak da tvrdnje iz upitnika ne mjere šest različitih motiva već 

samo dva konstrukta (faktora) vezana za motivaciju pri upisu smjera. 

Ostaje nam još da pokušamo identifikovati i imenovati koja su to dva konstrukta ili faktora. To 

ćemo uraditi tako što ćemo utvrditi šta je najmanji zajednički sadržilac koji povezuje varijable 

koje međusobno koreliraju unutar identifikovanih konstrukata. U konkretnom slučaju, ono što 

se provlači kao zajednička nit za sadržaj itema 1-3 jesu očekivanja koja studenti imaju u 

pogledu karijere nakon završetka smjera. Iz tog razloga ovaj konstrukt ćemo nazavati “izgledi 

za karijeru”. Najmanji zajednički sadržilac za iteme 4-6 jesu percepcije vezane za lakoću 

završavanja odabranog smjera, pa ćemo ovaj konstrukt nazvati “pragmatična motivacija”. 

Identifikacijom i imenovanjem konstrukata kojima se mogu objasniti uočeni obrasci korelacija 

dobili smo faktorsko rješenje (engl. factor solution). U suštini, faktorsko rješenje u 

prethodnom primjeru su dvije nove latentne varijable koje u daljoj regresionoj analizi možemo 

iskoristiti kao zamjenu za šest originalno opserviranih varijabli. 

Prethodni primjer je dovoljno jednostavan da se ilustruje suština faktorske analize. Analizirali 

smo vizuelno korelacionu matricu, uočili obrasce koje smo interpretirali i došli do 

odgovarajućih zaključaka. Postavlja se pitanje zašto nam uopšte treba faktorska analiza kada 

smo sve uradili ručno. Odgovor je zbog toga što se u praksi susrećemo sa mnogo kompleksnijim 

obrascima korelacija u odnosu na onu koja je predstavljena u tabeli 2. Naime, sa povećanjem 

4

oja varijabli raste veličina korelacione matrice i kompleksnost međusobnih odnosa između 

varijabli pa vizuelno identifikovanje obrazaca korelacija postaje ekstremno težak ili nemoguć 

zadatak. 

Dakle, iz prethodno navedenog primjera možemo vidjeti da je eksplorativna faktorska analiza 

jedna vrsta heuristike koja se bazira na premisi da se opservirane varijable koje međusobno 

koreliraju i dijele zajedničku varijansu mogu svesti na manji broj neopserviranih (latentnih) 

varijabli koje nazivamo faktorima i koji u suštini predstavljaju hipotetske konstrukte. Ovi 

konstrukti nisu mjerljivi direktno, sami po sebi, već se izvode iz ocjena koje imamo za 

opservirane varijable (Yong & Pearce, 2013) (Yong & Pearce, 2013, p. 80). Zbog toga u 

kontekstu faktorske analize opservirane varijable zovemo još i manifestnim varijablama ili 

varijablama indikatorima. 

3. CILJEVI EFA 

Na osnovu do sada izloženog možemo identifikovati tri primarna cilja eksplorativne faktorske 

analize: 

● Identifikacija latentnih varijabli, odnosno faktora, koji objašnjavaju korelacije i varijansu 

sadržanu u većem broju opserviranih varijabli (Sarstedt & Mooi, 2014). Kod eksplorativne 

faktorske analize istraživač često nema a priori očekivanja u pogledu broja ili prirode 

faktora koji će biti otkriveni tokom analize. Zato se kaže da je EFA pristup vođen podacima 

(engl. data-driven approach). Kao što joj ime kaže, u suštini je riječ o eksplorativnoj analizi 

koja nam omogućuje da istražimo i eventualno identifikujemo glavne dimenzije na bazi 

kojih ćemo generirati teoriju (Williams, Brown, & Onsman, 2012). 

● Ispitivanje psihometrijskih karakteristika mjernih skala i demonstriranje njihove 

(uni)dimenzionalnosti (DeCoster, 1998; Osborne, 2015, p. 1). Pojednostavljeno rečeno, ovo 

znači da EFA koristimo kada želimo utvrditi koja pitanja iz upitnika možemo grupisati jer 

mjere isti konstrukt. Imajući na umu ovaj cilj, jasno je zašto je EFA često prvi korak kada 

se pravi skala za mjerenje konstrukta od interesa (Yong & Pearce, 2013). Naime, istraživač 

koji kreira upitnik za mjerenje novog konstrukta obično počinje s velikim brojem pitanja, 

odnosno pojedinačnih stavki skale. Zatim se uz pomoć faktorske analize te stavke 

prečišćavaju i sažimaju da bi se dobio manji broj usaglašenih podskala (Pallant, 2011). 

● Sažimanje podatka na način da se veze i obrasci unutar njih mogu lako interpretirati i 

razumjeti (Yong & Pearce, 2013, p. 79). Ukoliko mnoštvo opserviranih varijabli možemo 

predstaviti manjim brojem faktora bez većeg gubitka informacija postigli smo određenu 

ekonomiju opisa. To je u skladu sa pravilom štedljivosti (engl. parsimony rule) koje kaže 

da je objašnjenje koje uključuje manji broj varijabli bolje od onog koje uključuje veći broj 

varijabli. Sažimanjem podatka se smanjuje kompleksnost i time olakšava proces donošenja 

odluka (Zikmund et al., 2009). Iz ovog cilja proizlazi upotreba faktorske analize za 

reduciranje većeg broja opserviranih varijabli na manji broj latentnih varijabli kako bi se 

pojednostavila dalja analiza i adresirao problem multikolinearnosti (Williams et al., 2012). 

4. KORACI UNUTAR EFA 

Sama eksplorativna faktorska analiza je iterativni proces tokom kojeg analitičar prolazi kroz 

nekoliko koraka. 

5

1. Ocjena prikladnosti podataka za faktorsku analizu. U ovom koraku se provjerava da li 

uopšte ima smisla raditi faktorsku analizu i da li su ispunjene odgovarajuće pretpostavke. 

2. Odabir pristupa i metode estimacije. Suština ovog koraka je donošenju odluke o tome 

koji pristup faktorskoj analizi primijeniti i koji metod estimacije odabrati. Naime, iz 

narednog izlaganja ćemo vidjeti da eksplorativna faktorska analiza nije jedna tehnika, već 

generički naziv za nekoliko različitih tehnika estimacije koje imaju isti cilj, ali koje mogu 

dati donekle različita faktorska rješenja. 

3. Određivanje broja faktora za izdvajanje. U ovom koraku je potrebno donijeti odluku o 

optimalnom broju faktora kojima će se objasniti uočeni obrasci korelacija bez znatnog 

gubitka informacija. Iako je odluka o broju faktora u krajnjoj instanci subjektivna, postoji 

nekoliko kriterija kojima se istraživač može voditi kako bi bio siguran da je ispravno 

odabrao broj faktora koje treba zadržati za dalju analizu. 

4. Rotacija faktora. U idealnom faktorskom rješenju, svaki faktor je jako povezan sa tačno 

određenim skupom opserviranih varijabli i ne korelira sa drugim faktorima. U tom slučaju 

se lako mogu uočiti najmanji zajednički sadržioci koji povezuje varijable indikatore i 

imenovati faktori. Međutim, u praksi se rijetko desi da dobijemo idealno rješenje. Kako bi 

se olakšala mogućnost interpretacije radi se rotacija faktora. U ovom koraku analitičar mora 

donijeti odluku o tehnici rotacije koju će primijeniti. 

5. Tumačenje i imenovanje faktrora. Dobijenim faktorima je potrebno dodijeliti smislene 

nazive koji će “uhvatiti” suštinu konstrukta na koji se faktor odnosi. Dobro imenovani 

faktori bi trebali pružiti precizan opis konstrukta. 

6. Respecifikacija faktorskog rješenja. Nekada će se desiti da dobijeno faktorsko rješenje 

nije sasvim zadovoljavajuće. Na primjer, možda se desilo da se neke varijable indikatori 

istovremeno učitavaju na više faktora ili ne možemo identifikovati najmanji zajednički 

sadržilac koji bi omogućio imenovanje faktora i sl. Tada istraživač može odlučiti da ponovi 

analizu uz određene modifikacije. 

7. Provjera pouzdanosti. Nakon što smo identifikovali faktore, poželjno je provjeriti njihovu 

pouzdanost i validnost. Potpuno testiranje pouzdanosti i validnosti moguće je obaviti samo 

unutar okvira konfirmativne faktorske analize (CFA). Kad je riječ o EFA analitičari 

uobičajeno koriste Kronbahov alfa koeficijent kako bi ispitali pouzdanost dobijenog 

faktorskog rješenja. 

8. Upotreba faktora u drugim analizama. Nakon što smo završili sa EFA, moguće je da 

dobijene faktore želimo iskoristiti u drugim analizama. U ovom koraku je potrebno donijeti 

odluku o tome kako ćemo kreirati nove varijable koje će u daljim analizama predstavljati 

dobijene faktore. 

Kao što možemo primjetiti, EFA je kompleksna tehnika i unutar većine koraka imamo više 

opcija na raspolaganju. U daljem izlaganju ćemo na konkretnom primjeru ilustrovati kako uz 

pomoć State uraditi eksplorativnu faktorsku analizu. Primjer je ilustracija koja ima za cilj 

predstaviti uobičajeni proces eksplorativne faktorske analize. 

Primjer 2 

6

Da bi planirao odgovarajuću strategiju za privlačenje novih klijenata, menadžment je pokušao 

identifikovati faktore koji determinišu izbor potrošača kad je riječ o odabiru tržnog centra. Na 

petostepenoj Likertovoj skali mjerene su percepcije važnosti za 15 stavova koji su prikazani u 

tabeli 3. Pored toga zabilježen je i podatak o spolu ispitanika. Prikupljeni podaci su uneseni u 

datoteku pod nazivom izbor_tc2.dta. 

Tabela 3 – Upitnik za ispitivanje stavova pri izboru tržnog centra 

Molimo Vas da ocjenom od 1 do 5 označite stepen 

slaganja sa dole navedenim stavovima. 

Apsolutno se ne 

slažem 

Ne slažem se 

Niti se slažem 

niti se ne slažem 

Slažem se 

Apsolutno se 

slažem 

Važno je gdje se nalazi lokacija tržnog centra. 1 2 3 4 5 

Važno je da tržni centar raspolaže sa dovoljno parking prostora. 1 2 3 4 5 

Važno je da tržni centar često organizuje prodajne promocije 

(besplatne probe i sl.). 

7 

1 2 3 4 5 

Nije mi važno da tržni centar ima najpovoljnije cijene. (R) 1 2 3 4 5 

Bitno je da tržni centar često organizuje nagradne igre. 1 2 3 4 5 

Bitno mi je da tržni centar ima kompetentno osoblje. 1 2 3 4 5 

Meni je važno da tržni centar ima dovoljan broj blagajni. 1 2 3 4 5 

Važno mi je da u tržnom centru budem ljubazno primljen. 1 2 3 4 5 

Bitno mi je da tržni centar ima ugodnu atmosferu. 1 2 3 4 5 

Meni je važan vanjski izgled tržnog centra. 1 2 3 4 5 

Bitno mi je radno vrijeme tržnog centra. 1 2 3 4 5 

Bitno mi je da tržni centar ima uslužno osoblje. 1 2 3 4 5 

Meni je važno da je higijena unutar tržnog centra na 

zadovoljavajućem nivou. 

1 2 3 4 5 

Bitan mi je stajling i dekor unutar tržnog centra. 1 2 3 4 5 

Bitno mi je da unutar tržnog centra mogu naći raznolik asortiman 

proizvoda. 

Napomena: (R) označava reverzno postavljeno pitanje. 

1 2 3 4 5 

Potrebno je utvrditi: a) Da li se ovi stavovi mogu „grupisati“ kako bi se bolje razumjela 

očekivanja potrošača, b) Da li se navedeni stavovi mogu reducirati na manji broj faktora radi 

njihovog lakšeg korištenja u daljim analizama. 

U prilogu 1 se nalazi korelaciona matrica za ovaj skup podataka. Ako je pažljivo proučimo 

vidjećemo da da nije jednostavno uočiti obrasce korelacija na način na koji smo to uradili ranije 

u primjeru 1. Zbog toga ćemo upotrijebiti EFA da bi pronašli obrasce korelacija i dobili 

odgovore na postavljena pitanja. 

4.1. OCJENA PRIKLADNOSTI PODATAKA ZA EFA 

Na samom početku je potrebno provjeriti da li su ispunjene osnovne pretpostavke za korištenje 

eksplorativne faktorske analize. Potrebno je obratiti pažnju na sljedeće:

Slučajni uzorak. Ukoliko zaključke iz analize želimo generalizirati na širu populaciju, trebalo 

bi da su jedinice populacije u uzorak odabrane potpuno slučajno. 

Veličina uzorka. Za određivanje veličine uzorka se najčešće gleda omjer potrebnog broja 

opservacija u odnosu na broj varijabli koje koristimo u analizi. Uobičajeno se primjenjuje 

pravilo 10:1 koje kaže da bi broj validnih opservacija trebao biti deset puta veći od broja 

varijabli koje ubacujemo u analizu (Burns & Burns, 2008; Sarstedt & Mooi, 2014, 2014, p. 240; 

Yong & Pearce, 2013). Drugim riječima, ako za EFA koristimo 10 varijabli indikatora, 

minimalna veličina uzorka nakon što oduzmemo opservacije sa nedostajućim podacima bi 

trebala biti 10 (opservacija) x 10 (indikatora) = 100 opservacija. Broj opservacija u odnosu na 

broj varijabli nikad ne bi trebao biti manji od 5:1 (Burns & Burns, 2008; Yong & Pearce, 2013), 

a ako želimo biti sigurni da su izdvojeni faktori stabilni i da ih možemo validirati u ponovljenim 

istraživanjima onda se preporučuje omjer od čak 30:1 (Yong & Pearce, 2013). 

Obzirom da prethodno pravilo obično pruža samo grubu indikaciju u pogledu veličine uzorka, 

često se koristi i indikator zajedničke varijanse (engl. communality). Ovaj pojam ćemo 

detaljnije objasniti kasnije, a ovdje ćemo pomenuti da su MacCallum et al. (1999) dali nekoliko 

preporuka u vezi sa potrebnom veličinom uzorka u zavisnosti od iznosa zajedniče varijanse. 

Prema njima, ako sve varijable u analizi imaju communality > 0.6 uzorak može imati manje od 

100 opservacija. Ako je communality blizu 0.5 poželjno je imati uzorak veličine 100-200 

opservacija. Kada je communality za sve ili većinu varijabli < 0.5, ili imamo mali broj faktora 

mjerenih sa šest ili više varijabli, dovoljna veličina uzorka je između 100-200 opservacija. 

Međutim, ako u istoj situaciji imamo veliki broj faktora ili ako su faktori mjereni sa tri ili manje 

varijabli, preporučeno je imati uzorak veličine 300 opservacija. 

Vrste varijabli. Faktorska analiza je pogodna za kontinuirane varijable. Međutim, u praksi se 

često koriste i ordinalne varijable (podaci na Likertovoj skali i sl.). Korištenje ordinalnih 

varijabli nije problematično pod uslovom da takve skale imaju pet ili više podioka i da su 

razmaci između podioka jednaki (Sarstedt & Mooi, 2014). Postoje i metode estimacije koje su 

razvijene za kategorijske i dihotomne varijable ali one izlaze iz okvira ove knjige 2 . 

Između opserviranih varijabli postoji dovoljna poveznaost. Prethodno smo objasnili da se 

suština faktorske analize ogleda u prepoznavanju obrazaca korelacija koje postoje između 

opserviranih varijabli. Zato primjena faktorske analize ima smisla jedino kada opservirane 

varijable međusobno koreliraju u nekom omjeru. U principu, ako korelacije između varijabli 

ne prelaze 0.30 onda nema svrhe koristiti faktorsku analizu (Tabachnick & Fidell, 2007). Za 

precizniju provjeru ove pretpostavke na raspolaganju su dva indikatora. Prvi je Kaiser–Meyer– 

Olkin (KMO) pokazatelj adekvatnosti uzorka 3 . Njegova vrijednost se kreće u rasponu od 0 do 

1, gdje vrijednosti bliže jedinici ukazuju na veću kompaktnost obrazaca korelacija, a to opet 

znači da bi u faktorskoj analizi trebali dobiti međusobno različite i pouzdane faktore 

(Tabachnick & Fidell, 2007). U tabeli 4 se nalaze preporuke u pogledu pragova vezanih za ovaj 

indikator. 

2 

Ukoliko je neophodno koristiti dihotomne ili ordinalne varijable faktorska analiza se može obaviti korištenjem 

matrice sa polihoričnim korelacijama (engl. polychoric correlation matrix) umjesto podrazumjevane matrice sa 

Personovim korelacijama. Za takvu analizu je prvo potrebno genrisati pomenutu matricu korištenjem paketa 

polychoric. Nakon toga, analizu možemo uraditi upotrebom naredbe factormat koja će pripremljenu matricu sa 

polihoričnim korelacijama koristiti kao input za dalju analizu. Za više detalja pogledati: 

https://stats.idre.ucla.edu/stata/faq/how-can-i-perform-a-factor-analysis-with-categorical-or-categorical-andcontinuous-variables/ 

3 

Nekada se za ovaj pokazatelj koristi i skraćenica MSA (engl. Measure of sampling adequacy). 

8

Tabela 4 – Tumačenje KMO pokazatelja 

Vrijednost KMO 

pokazatelja 

Adekvatnost 

korelacija za EFA 

< 0.50 neprihvatljiva 

0.50-0.59 loša 

0.60-0.69 slaba 

0.70-0.79 prosječna 

0.80-0.89 vrlo dobra 

Izvor: Kaiser (1974) 

0.90 ≤ odlična 

Drugi indikator za provjeru prikladnosti podataka za faktorsku analizu je Bartlettov test 

sfericiteta kojim se testira nulta hipoteza da između opserviranih varijabli u populaciji nema 

korelacije. U većim uzorcima rezultat testa će gotovo uvijek biti signifikantan pa on nema istu 

specifičnu težinu kao prethodni indikator. Zbog toga se pri donošenju konačnog suda o tome 

da li su podaci prikladni za faktorsku analizu treba više osloniti na KMO pokazatelj (Sarstedt 

& Mooi, 2014). 

Ne postoji ekstremna multikolinearnost. 4 Obzirom da je neophodno da opservirane varijable 

u nekoj mjeri međusobno koreliraju, u EFA je postojanje umjerene multikolinearnosti čak 

poželjno (Hair, Black, Babin, Anderson, & Tatham, 2006). Međutim, nije poželjno da 

opservirane varijable koreliraju izrazito visoko (ekstremna multikolinearnost, r > 0.9) ili 

perfektno (singularnost r = 1.0), jer je tada teško procijeniti jedinstveni doprinos varijabli 

faktoru(Field, 2009). Jedan od načina na koji možemo provjeriti postojanje ekstremne 

multikolinearnosti je da izračunamo determinantu korelacione matrice. Ako je ona veća od 

0.00001, to je indikator da ne postoji ekstremna multikolinearnost (Field, 2009). U suprotnom, 

potrebno je provjeriti korelacionu matricu, identifikovati varijable koje međusobno jako 

koreliraju i eventualno razmotriti izbacivanje nekih od tih varijabli. Ekstremna 

multikolinearnost ne predstavlja problem ako za izdvajanje faktora koristimo pristup glavnih 

komponenti – PCA (Field, 2009). 

Opservacije su međusobno nezavisne. Eksplorativna faktorska analiza se ne može koristiti 

ako imamo povezane opservacije. Npr. ako smo iste ispitanike ankertirali više puta sa istim 

upitnikom. U takvim slučajevima u analizu bi unijeli „vještačke korelacije“ koje se ne javljaju 

zbog toga što u pozadini imamo latentne faktore, već zbog toga što su isti ispitanici odgovarali 

na ista pitanja više puta (Sarstedt & Mooi, 2014). 

Linearnost. Odnosi između opserviranih varijabli bi trebali biti linearni. Možemo je provjeriti 

ukoliko koristimo matricu dijagrama raspršenosti (engl. scatterplot matrix). Ova pretpostavka 

se u praksi rijetko provjerava. 

Ne postoje univarijantne netipične opservacije (outlieri). Ova pretpostavka se provjerava 

crtanjem boxplot-a za svaku indikatorsku varijablu. Obzirom da se EFA obično primjenjuje na 

Likertovim skalama kod njih po prirodi stvari teško možemo imati netpične vrijednosti. Na 

4 

9

primjer, odgovori na krajnjim podiocima petostepene Likertove skale se ne smatraju netipičnim 

vrijednostima pa se u tom slučaju pretpostavka ne provjerava. 

Međutim, kod Likertovih skala je potrebno obratiti pažnju na ispitanike koji nisu posvetili 

dovoljno vremena za popunjavanje upitnika (engl. unengaged respodents). Nezainteresovani 

ispitanici često će popuniti upitnik zaokružujući samo jedan podiok skale. Na primjer, na svaku 

stavku iz upitnika ispitanik će zaokružiti “5, 5, 5, 5…”. Mogući su i drugi obrasci jednoličnog 

odgovaranja. Ovakve ispitanike je moguće detektovati korištenjem reverzno postavljenih 

pitanja ili korištenjem tzv. zamki (engl. attention traps) 5 . Pod zamkama podrazumjevamo 

stavke u upitniku koje imaju za cilj da detektuju da li ispitank uopšte čita pitanja. Na primjer, 

ako prilikom davanja odgovora na niz tvrdnji iznenada naiđete na stavku: “Molimo Vas da ovu 

tvrdnju preskočite” ili “Molimo Vas za ovu stavku zaokružite broj 2”, riječ je o zamci kojom 

se nastoje uhvatiti nezainteresovani ispitanici koji odgovaraju mehanički. 

Univarijantna i multivarijantna normalnost. EFA ne postavlja stroge zahtjeve u pogledu 

pretpostavki o rasporedu varijabli (Leech et al., 2005). Univarijantna normalnost, koja se 

odnosi na normalnost rasporeda pojedinačnih varijabli indikatora, je bitna jedino ako netipične 

vrijednosti znatno utiču na korelacije između varijabli. To se u EFA rijetko dešava zbog prirode 

podataka (Likertove skale, obično veliki uzorci i sl.). Provjera univarijantne i multivarijantne 

normalnost je vrlo bitna jedino ako u narednom koraku odlučimo koristi maximum likelihood 

estimaciju. 

Primjer 2 - nastavak 

Za potrebe naše analize provjerićemo veličinu uzorka i da li su podaci pogodni za faktorsku 

analizu. Pretpostavke vezane za netipične vrijednosti i normalnost nećemo provjeravati 

obzirom da su podaci prikupljeni pomoću Likertove skale i obzirom da nećemo koristiti 

maximum likelihood metod estimacije. Kako je svaki ispitanik popunio upitnik samo jednom 

znamo i da je ispunjena pretpostavka o nezavisnosti. 

Da bi provjerili veličinu uzorka u našem primjeru, koristićemo naredbu summarize. 

. summarize 


-------------+-------------------------------------------------------- 

id | 0 

spol | 318 1.622642 .4854897 1 2 

lokacija | 332 4.376506 .9487418 1 5 

parking | 332 4.527108 .8875712 1 5 

promocije | 333 4.66967 .7315268 1 5 

-------------+-------------------------------------------------------- 

cijene | 331 1.761329 1.1936 1 5 

nag_igre | 328 4.542683 .9276626 1 5 

komp_osob | 328 4.469512 .8417528 1 5 

br_blagajni | 327 4.489297 .7826974 1 5 

ljubaznost | 328 4.756098 .5432032 1 5 

-------------+-------------------------------------------------------- 

atmosfera | 328 3.496951 1.094882 1 5 

izgled | 328 3.945122 .8761401 1 5 

rad_vrijeme | 327 4.143731 .8512795 1 5 

5 

Za više detalja pogledati: http://statwiki.kolobkreations.com/index.php?title=Data_screening 

10

usl_osob | 332 4.695783 .6077896 1 5 

higijena | 332 4.400602 .8366959 1 5 

-------------+-------------------------------------------------------- 

dekor | 332 3.960843 .9591206 1 5 

asortiman | 332 4.259036 .9060436 1 5 

U koloni “Obs” je prikazan broj opservacija po svakoj varijabli indikatoru. Broj varira od 327 

do 333. Ovo znači da je ukupna veličina uzorka 333 opservacije ali da po nekim varijablama 

imamo nedostajuće podatke što će u konačnici smanjiti veličinu dostupnog uzorka za analizu 

jer će iz analize biti elimisane sve opservacije koje po bilo kojoj varijabli imaju nedostajaće 

vrijednosti (tzv. listwise deletion). Već na osnovu ovog outputa vidimo da je sigurno da ćemo 

imati više od 10 opservacija po jednoj varijabli: 10 x 15 = 150 što je potrebna veličina uzorka 

uz omjer 10:1. 

U okviru outputa je data deskriptivna statistika, a kolone “Min” i “Max” ćemo iskoristiti da 

obavimo logičku kontrolu unesenih podataka. Vidimo da se za sve varijable vrijednosti nalaze 

u rasponu od 1 do 5 što odgovara rasponu petostepene Likertove skale, a na osnovu čega 

zaključujemo da pri unosu podataka nije bilo slučajnih omaški. 

Za provjeru prikladnosti podataka za faktorsku analizu koristićemo paket factortest. Ovaj paket 

ne dolazi sa osnovnom verzijom State i potrebno ga je prvo instalirati sa: 

. findit factortest 

Sama naredbe ima sljedeću sintaksu: 

factortest varlist 

gdje se varlist odnosi na spisak varijabli indikatora u faktorskoj analizi. U našem primjeru 

imamo petnaest varijabli indikatora (lokacija - asortiman), pa će biti: 

. factortest lokacija-asortiman 

Determinant of the correlation matrix 

Det = 0.011 

Bartlett test of sphericity 

Chi-square = 1413.617 

Degrees of freedom = 105 

p-value = 0.000 

H0: variables are not intercorrelated 

Kaiser-Meyer-Olkin Measure of Sampling Adequacy 

KMO = 0.816 

Na osnovu outputa vidimo da Kaiser-Meyer-Olkin mjera adekvatnosi uzorka iznosi 0.816, što 

je vrlo dobar rezultat na osnovu kojeg zaključujemo da je korelacijska matrica pogodna za 

faktorsku analizu. Bartlettov test sfericiteta χ 2 (105) = 1413.62, p = 0.000 je signifikantan što 

znači da možemo odbaciti nultu hipoteza da između opserviranih varijabli u populaciji nema 

korelacije. Determinanta korelacione matrice iznosi 0.011 i veća je od 0.00001 što implicira da 

11

unutar podataka ne postoji ekstremna multikolinearnost. Dakle, na osnovu svega možemo 

zaključiti da su podaci kojima raspolažemo prikladni za eksplorativnu faktorsku analizu. 

4.2. ODABIR PRISTUPA IZDVAJANJA FAKTORA I METODE ESTIMACIJE 

Generalno postoje dva pristupa koja se koriste da bi se izdvojili faktori. Prvi pristup je 

uobičajena eksplorativna faktorska analiza (EFA), a drugi je analiza glavnih komponenti 

(PCA). Iako oba metoda imaju isti cilj između EFA i PCA postoje važne konceptualne razlike. 

U nastavku su objašnjene specifičnosti oba prisupa. 

4.2.1. Razlaganje varijanse unutar varijable 

EFA i PCA se razlikuju u pogledu varijanse koja se uzima u obzir tokom same analize. Kod 

PCA pristupa se pri ekstrakciji faktora pretpostavlja da je varijansa unutar svake varijable 

zajednička varijansa koja se u potpunosti može objasniti izdvajanjem faktora. 6 Ova razlika je 

predstavljena na slici 1. 

Slika 1 – Razlika između PCA i EFA pristupa u pogledu varijanse koja ulazi u analizu 

Izvor: (Sarstedt & Mooi, 2014) 

Podsjetimo se da varijable koje međusobno koreliraju dijele dio zajedničke varijanse. Kako je 

osnovna ideja faktorske analize da grupišemo varijable koje međusobno jako koreliraju, bitno 

je utvrditi koliki iznos varijanse unutar svake varijable se dijeli sa ostalim varijablama u grupi. 

Dakle, ukupna varijansa (engl. total variance) unutar svake opservirane varijable koja ulazi u 

faktorsku analizu može se podijeliti na dvije komponente: 

● Zajedničku varijansu (engl. communality) koja predstavlja dio ukupne varijanse unutar 

varijable koju ta varijabla dijeli sa ostalim varijablama. Može se reći i da je to dio ukupne 

varijanse objašnjen izdvojenim faktorima. 

● Unikatnu varijansu (engl. uniqueness) koja je dio ukupne varijanse unutar varijable koji 

nije objašnjen korelacijama sa drugim varijablama, odnosno ekstrahovanim faktorima. 

Unikatna varijansa obuhvata specifičnu varijansu (engl. specific variance) koja je 

6 

Faktori se unutar PCA nazivaju komponentama, ali ćemo zbog konzistentnosti ostaviti naziv faktori. 

12

svojstvena samo datoj varijabli i varijansu koja nastaje zbog greške u mjerenju (engl. error 

variance). 

Kako u faktorsku analizu ulaze standardizovane varijable ukupna varijansa unutar svake 

varijable je jednaka broju 1, što znači da je: 

ukupna varijansa = zajednička varijansa + unikatna varijansa 

(1) (communality) (uniqueness) 

Dakle, što varijabla više korelira sa drugim varijablama njena zajednička varijansa će biti veća, 

a unikatna varijansa manja. Varijabla koja čitavu svoju varijansu dijeli sa drugim varijablama 

imaće communality = 1 i uniqueness = 0. S druge strane, ako varijabla slabije korelira sa drugim 

varijablama njena zajedniča varijansa će biti manja, a unikatna varijansa veća. Varijabla koja 

ni jedan dio svoje varijanse ne dijeli sa ostalim varijablama imaće communality = 0 i uniqueness 

= 1. 

Kod PCA pristupa se ne pravi razliku između zajedničke i unikatne varijanse. Prilikom 

ekstrakcije komponenti (faktora) u analizu ulazi sva varijansa svojstvena opserviranim 

varijablama (Tabachnick & Fidell, 2007) pri čemu se pretpostavlja da je ukupna varijansa 

jednaka zajedničkoj varijansi i da ne postoji jedinstvena varijansa (Fabrigar, Wegener, 

MacCallum, & Strahan, 1999). 

S druge strane, EFA uvažava činjenicu da svaka varijabla ima i unikatnu varijansu. Obzirom 

da se pravi distinkcija između zajedničke i unikatne varijanse, prije same ekstrakcije faktora se 

pokušava estimirati i eliminisati unikatna varijansa tako da se u samoj analizi izdvajanje faktora 

bazira samo na zajedničkoj varijansi (Tabachnick & Fidell, 2007). 

Pored toga što se razlikuju u pogledu varijansi koje ulaze u samu analizu, EFA i PCA se 

razlikuju i u pogledu kauzalne strukture, odnosno prirode veza između faktora i varijabli 

indikatora. U nastavku je objašnjena ova razlika. 

4.2.2. EFA pristup 

Kad je riječ o kauzalnoj strukturi, EFA pristup se bazira na modelu zajedničkih faktora (engl. 

common factor model) koji pretpostavlja da su korelacije između opserviranih varijabli 

posljedica postojanja jedne ili više latentnih varijabli koje vrše kauzalni uticaj na opservirane 

varijable ( Fabrigar et al., 1999; O'Rourke, Hatcher, & Stepanski, 2005). Primjer jedne takve 

kauzalne strukture je dat na slici 2. 

Slika 2 – Konceptualna šema modela zajedničkih faktora sa dva faktora i šest opserviranih 

varijabli 

13

Model zajedničkih faktora matematski se može predstaviti sljedećim izrazom: 

Y b F b F b F U 

i 

 

i 1 1 

 

i 2 2 

... 

ij j 

 

i 

gdje je 

Yi = standardizovana opservirana varijabla i 

bij = standardizovano učitavanje varijable i na faktor j 

Fj = zajednički faktori 

Ui = jedinstrveni faktor vezan za varijablu i 

Dakle, svaka opservirana varijabla unutar modela je linearna funkcija jednog ili više 

zajedničkih faktora i jedinstvenog faktora vezanog za datu varijablu. Zajednički faktori (engl. 

common factors) su neopservirane latentne varijable koje objašnjavaju dijeljenu varijansu 

unutar opserviranih varijabli. S druge strane, unikatni faktori (engl. unique factors) su 

neopservirane latentne varijable koje objašnjavaju unikatnu varijansu svake pojedinačne 

opservirane varijable koja preostane nakon što se u obzir uzmu korelacije između opserviranih 

varijabli (Fabrigar et al., 1999). Unikatni faktori ne koreliraju niti sa zajedničkim faktorima niti 

međusobno (Malhotra, 2010). 

4.2.3. PCA pristup 

S druge strane, kod PCA pristupa nemamo pretpostavku o kauzalnoj strukturi. PCA je 

jednostavno tehnika za sažimanje većeg broja opserviranih varijabli na manji broj komponenti 

koje obuhvataju većinu ukupne varijanse (O'Rourke et al., 2005). Primjer takve kauzalne 

strukture je predstavljen na slici 3. 

14

Slika 3 – Konceptualna šema modela glavnih komponenti sa dvije komponente i šest 

opserviranih varijabli 

Osnovna ideja PCA metode je pokušaj opisa varijacije unutar skupa opserviranih varijabli uz 

pomoć skupa izvedenih nekoreliranih varijabli, od kojih je svaka posebna linearna kombinacija 

originalno opserviranih varijabli. Drugim riječima, PCA je transformacija opserviranih varijabli 

Yi u nove varijable (komponente) Cp koje matematski možemo predstaviti kao: 

C b Y b Y b Y 

p 

 

p1 1 

 

p 2 2 

... 

pi i 

gdje je 

Cp = komponenta p 

Yi = standardizovana opserivarana varijabla i 

bpi = ponder uticaja opservirane varijable i na komponentu p 

Tokom PCA pokušava se utvrditi linearna kombinacija varijabli koja će pomoći da se iz 

opserviranih varijabli izvuče maksimalan iznos varijanse. Nove varijable (komponente) su 

izvedene prema opadajućem redoslijedu važnosti. Koeficijenti za prvu komponentu se izvode 

tako da maksimiziraju varijansu što je više moguće (Rabe-Hesketh & Everitt, 2004). Nakon 

toga se traži sljedeća linearna kombinacija koja će objasniti maksimalnu proporciju preostale 

varijanse. Proces se nastavlja dok se ne izvuče sva varijansa (Burns & Burns, 2008). 

4.2.4. Ključne razlike između EFA i PCA 

Dakle, dvije najvažnije konceptualne razlike između ova dva metoda tiču se teoretskih 

pretpostavki o kauzalnoj strukturi koja stoji u pozadini ova dva pristupa (engl. underlaying 

casual structure) i varijanse koja se koristi pri ektrakciji faktora što je sažeto u tabeli 5. 

Tabela 5 - EFA vs. PCA 

15

EFA 

- Kauzalna struktura postulira da faktori 

utiču na opservirane varijable (slika 2). 

- Pokušava objasniti što veći broj 

obrazaca korelacija sa što manjim 

brojem faktora. 

- Ukupna varijansa se dijeli na zajedničku 

i unikatnu. U analizi se koristi samo 

zajednička varijansa (slika 1). 

- Prikladnija za identifikovanje latentnih 

konstrukata 

PCA 

- Kauzalna struktura postulira da se 

opservirane varijable agregiraju u 

komponente (slika 3). 

- Pokušava ukupnu varijansu predstaviti 

sa manjim brojem komponenti uz 

minimalan gubitak informacije. 

- Ne pravi se razlika između zajedničke i 

unikatne varijanse. U analizi se koristi 

ukupna varijansa (slika 1). 

- Prikladnija za sažimanje podataka. 

4.2.5. Koji pristup koristiti? 

Među statističarima ne postoji jasan stav u pogledu toga koji pristup koristiti i kada. Na jednoj 

strani imamo one koji naglašavaju da PCA nije pravi metod faktorske analize i da ga u 

potpunosti treba izbjegavati. Drugi pak naglašavaju da između PCA i EFA ne postoji veća 

razlika jer će oba pristupa dati sličan krajnji rezultat ili da je u određenim situacijama PCA čak 

superiornija u odnosu na EFA (Costello & Osborne, 2005, p. 2). 

Generalno govoreći, EFA pristup ima bolje teoretsko uporište jer je se zasniva na realnijoj 

pretpostavci da unutar svake varijable postoji unikatna varijansa koja ne može biti objašnjena 

izdvojenim faktorima. Međutim, ta pretpostavka je ujedno i više restriktivna što nekad može 

dovesti do komplikacija tokom analize (Sarstedt & Mooi, 2014). S druge strane, PCA je 

matematski jednostavnija, što ne iznenađuje obzirom da je razvijena u vrijeme kada se analiza 

obavljala bez pomoći računara. Ona zato predstavlja dobar kompromis u pogledu smanjenja 

kompleksnih matematskih proračuna bez znatnog narušavanja validnosti dobijenih rezultata 

(Osborne, 2015, p. 1). 

Imajući u vidu sve navedeno, u literaturi se često može naći preporuka da je PCA poželjnije 

koristi ako je primarni cilj empirijsko sažimanje podataka. Drugim riječima, PCA je bolji izbor 

kada istraživač u daljoj analizi ne želi upotrijebiti sve originalno mjerene opservirane varijable 

ali još uvijek želi iskoristiti informaciju koju one sadrže (DeCoster, 1998). S druge strane, EFA 

je bolje koristi ako želimo identifikovati latentne konstrukte koji objašnjavaju obrasce 

korelacija između neopserviranih varijabli (Singh, 2007), odnosno kada se traži teoretsko 

uporište za za dobijene faktore (Tabachnick i Fidell, 2007). 

Gledano sa praktičnog aspekta, vrlo rijetko će se desiti da na istim podacima ove dvije tehnike 

daju suštinski različite rezultate (Drennan, 2009). Zato ne iznenađuje što se u praksi rješenja 

dobijena na bazi PCA vrlo malo razlikuju u odnosu na rješenja dobijena korištenjem EFA. Field 

(2009) navodi da se značajnije razlike mogu pojaviti ako imamo nizak communality (< 0.40) i 

u studijama sa relativno malim brojem opserviranih varijabli (< 20). 

Treba imati na umu i da će u uslovima kada postoji umjerena količina dijeljene varijanse i kada 

nema korelacija između faktora, oba metoda rezultirati istim rješenjem ali će PCA precijeniti 

postotak objašnjene varijanse (Costello & Osborne, 2005, p. 2). Uprkos ovome, činjenica je da 

16

se PCA češće koristi. Njenoj popularnosti nesumnjivo doprinosi i to što je to podrazumjevani 

metod ekstrakcije u mnogim popularnim statističkim softverskim paketima, uključujući SPSS 

i SAS (Costello & Osborne, 2005, p. 1). 

U konačnici, možemo zaključiti da postoje oprečna mišljenja koliko su bitne razlika između 

PCA i EFA. Iako se baziraju na različitoj logici, obje tehnike imaju slične ciljeve i daju slične 

rezultate. Razlike u rezultatima između EFA i PCA su obično nevažne ako imamo dovoljno 

veliki uzorak, odnosno ako je broj opservacija bar pet puta veći od broja opserviranih varijabli. 

(Dancey & Reidy, 2011) Zbog toga se u većini softverskih paketa ove dvije grupe tehnika 

kombinuju u jedan set rutina (Drennan, 2009). Također, rezultati iz obje analize se prezentiraju 

i interpretiraju na potpuno identičan način. Iz navedenih razloga neki istraživači u praksi često 

primjenjuju pragamtični pristup koji se ogleda u tome da se na istom setu podataka primjene 

obje tehnike kako bi se vidjelo koja daje bolje rješenje. 

4.2.6. Metode estimacije 

Nakon što se opredijelimo za generalni pristup izdvajanju faktora, potrebno je odabrati metod 

estimacije kojim će se procijeniti parametri modela. Procjena pondera (engl. weights ili 

loadings) koji pružaju najefektivniji sažetak orginalnog varijabiliteta je od posebnog interesa 

(Mazzocchi, 2008). U slučaju PCA potrebno je procijeniti samo pondere uticaja varijabli na 

komponente (engl. componet loadings). Ovi ponderi su na slici 3 predstavljeni koeficijentima 

bpi. Obzirom na matematsku jednostavnost PCA modela, navedene pondere je moguće 

estimirati samo na jedan način. U suštini, to znači da smo odabirom PCA pristupa već odabrali 

jedini mogući metod estimacije. 

Kod EFA pristupa, pored učitavanja varijabli na faktore (engl. factor loadings) predstavljenih 

na slici 2 sa koeficijentima bij, potrebno je procijeniti i iznos unikatne varijanse (Ui). Postoji 

više metoda estimacije koje možemo koristiti u tu svrhu. Metodi koji su dostupni unutar State 

prikazani su u tabeli 6. 

Tabela 6 - Metode estimacije u Stati 

Metoda estimacije Naredba u Sati Napomena 

Principal component analysis 

pca varlist 

Principal component factoring factor varlist, pcf Podrazumijevani metod u SPSS-u 

Principal factoring factor varlist, pf Podrazumijevani metod u Stati 

Principal factoring with iterated 

communalities 

Maximum likelihood factoring 

factor varlist, ipf 

factor varlist, ml 

Svaki metod estimacije se zasniva na različitim početnim pretpostavkama što može dovesti do 

različitih rezultata (Mazzocchi, 2008). Međutim, postoji vrlo malo informacija o relativnim 

prednostima i manama svake od ovih metoda. Costello i Osborne (2005) navode da je u 

akademskim člancima često teško utvrditi koji metod estimacije je tačno korišten i zašto. 

17

Dodatnu konfuziju imamo u pogledu terminologije, obzirom da za iste metode postoje različiti 

nazivi. 7 

Generalno se može reći da najveća razlika postoji između maximum likelihood factoring (MLF) 

u odnosu na ostale metode estimacije. Najveća prednost MLF-a je što omogućava izračunavanje 

indikatora reprezentativnosti modela (engl. goodness of fit) i testiranje signifikantnosti 

estimiranih parametara. Međutim, mana MLF-a je što zahtijeva ispunjenje pretpostavke o 

multivarijantnoj normalnosti. Ukoliko je data pretpostavka značajno narušena, MLF može dati 

iskrivljenje rezultate (Fabrigar et al., 1999). Ostale metode estimacije su znatno robusnije na 

narušavanje pretpostavki vezanih za normalnost. 

Ipak, iako će se estimirani parametri donekle razlikovati u zavisnosti od odabranog metoda 

estimacije, u većini slučajeva dobijena rješenja će suštinski biti ista ili vrlo slična (Fabrigar et 

al., 1999). Samim tim, istraživač se i ovdje može voditi pragmatičnim pristupom koji 

podrazumjeva da se isporba više metoda estimacije i odabere ona koja po mišljenju istraživača 

daje najbolje rezultate. 


U našem slučaju odabrali smo EFA pristup i Principal component factoring (pcf) metod 

estimacije. 

4.3. ODREĐIVANJE BROJA FAKTORA 

Nakon što odabremo metod estimacije, potrebno je donijeti odluku o broju faktora koje ćemo 

zadržati. Obzirom da je EFA iterativni proces koji se nastavlja sve dok se ne ”objasni” ukupna 

varijansa to znači da će se na kraju procesa izdvojiti onoliko faktora koliko smo imali 

opserviranih varijabli u analizi. 

Međutim, poenta čitave analize je da izdvojimo manji broj faktora koji će objasniti većinu 

varijanse bez gubitka korisnih informacija. Zbog toga u ovom koraku moramo donijeti odluku 

o tome koliki broj faktora izdvojiti i zadržati za interpretaciju. Jasno je da će biti potrebno 

praviti određeni kompromis. Ako izdvojimo veći broj faktora, proporcija “objašnjene” ukupne 

varijanse biće veća, ali s druge strane to može ići na uštrb pravila štedljivosti i ciljeva zbog 

kojih radimo faktorsku analizu. Jednostavno rečeno, nije poželjno izdvojiti ni previše (engl. 

overextraction), ni premalo (engl. underextraction) faktora jer obje situacije mogu imati loše 

posljedice na konačni rezultat. Naime, ako se izdvoji premalo faktora, onda je moguće je da 

nismo identifikovali sve bitne konstrukte. S druge strane, ako smo zadržali prevelik broj faktora 

interpretacija faktora postaje teška ili nemoguća. Zbog toga je potrebno naći odgovarajući 

balans. 

S obzirom na navedeno, ne iznenađuje što pojedini autori smatraju da je određivanje 

optimalnog broja faktora vjerovatno važnije od odabira pristupa i metode estimacije 

(Tabachnick & Fidell, 2007). Problem je što je odluka o broju faktora u krajnjoj istanci 

subjektivna. Istraživač je taj koji ima zadnju riječ o tome koliki broj faktora je optimalan. 

7 

Na primjer, ono što se unutar State naziva Principal component factoring u statističkom paketu SPSS se naziva 

Principal Component Analysis. Dakle, ako isti skup podataka analiziramo u Stati koristeći pcf metod ekstrakcije, 

dobićemo iste rezultate kao kad u SPSS-u koristimo pca metod estimacije. 

18

Ipak, imajući u vidu važnost ove odluke, razvijeno je nekoliko različitih procedura koje 

istraživačima pomažu pri određivanju optimalnog broja faktora. 

Kajzerov kriterij. Poznat je i pod nazivima K1 kriterij ili kriterij latentnog korijena (engl. 

Latent root criterion). Prema ovom kriteriju potrebno je zadržati sve faktore koji imaju 

karakterističnu vrijednost veću od 1. Pod karakterističnom vrijednošću (engl. eigenvalue) 

podrazumijevamo ukupnu varijansu svih varijabli objašnjenu datim faktorom. 

Da bi razumjeli ideju koja stoji u pozadini ovog kriterija, zamislimo da smo izabrali PCA 

pristup za izdvajanje faktora. Kod PCA pristupa, svaka varijabla u analizu unosi jednu jedinicu 

varijanse. Na primjer, ako u analizi koristimo 15 varijabli, ukupna varijansa koju treba 

“objasniti” biće jednaka broju 15. Imajući ovo u vidu, nema pretjeranog smisla zadržavati 

faktore koji objašnjavaju manje varijanse nego je uneseno sa pojedinačnom varijablom pa se 

stoga izdvajaju samo faktori koji imaju eigenvalue > 1. Iako je u većini softverskih paketa ovo 

podrazumijevani kriterij, u literaturi se nerijetko naglašava da je riječ o nepreciznoj proceduri 

povezanoj sa brojnim problemima (Fabrigar et al., 1999)(Fabrigar et al., 1999; Costello 

& Osborne, 2005). 

Dijagram prevoja (engl. Scree plot). Ova procedura koju je razvio Catell (1966) 

podrazumijeva crtanje dijagrama gdje su faktori predstavljeni na x-osi, a karakteristične 

vrijednosti faktora na y-osi, kao što je predstavljeno na slici 4. 

Slika 4 – Primjer dijagrama prevoja 

Na slici 4 možemo vidjeti ono o čemu smo do sada govorili — svaki naredni faktor “objašnjava” 

manje varijanse od prethodnog — pa se eigenvalue smanjuje sa svakim narednim izdvojenim 

faktorom. Na dijagramu se vizuelno traži tačka preloma (engl. point of inflexion), odnosno 

karkateristični “lakat” koji označava faktor nakon kojeg kriva na dijagramu postaje relativno 

horizontalna. Horizontalni dio krive govori da svaki naredni faktor objašnjava samo marginalne 

iznose varijanse u odnosu na faktore koji se nalaze prije tačke preloma i da je stoga riječ o 

irelevantnim faktorima. U literaturi ne postoji jasan konsenzus u pogledu toga kako tumačiti 

tačku preloma. Neki autori navode da treba zadržati onoliko faktora koliko indicira tačka 

preloma (Fabrigar et al., 1999; O'Rourke et al., 2005; Sarstedt & Mooi, 2014). Drugo i nešto 

češće mišljenje je da tačka koja se nalazi neposredno prije tačke preloma indicira broj faktora 

koji treba zadržati (Costello & Osborne, 2005)Hair et al., 2006, p. 120). 

19

Pored oprečnih savjeta u pogledu broja faktora koje treba zadržati na bazi tačke preloma, drugi 

bitan nedostatak je česta dvosmislenost dobijenog dijagrama. Nisu rijetke situacije da na 

dijagramu nije moguće jasno uočiti tačku preloma. U takvim situacijama odluka o broju faktora 

je vrlo subjektivna i istraživač se ne može u potpunosti osloniti na ovu proceduru. 

Paralelna analiza (engl. Parallel analysis). Horn (1965) je predložio paralelnu analizu (PA) 

kao dopunu Kajzerovog kriterija. Ova procedura se smatra zlatnim standardom za određivanje 

broja faktora (Braeken i Assen, 2016). Kod PA se stvarne karakteristične vrijednosti porede sa 

slučajno dobijenim karakterističnim vrijednostima koje se izračunavaju na bazi slučajno 

generisane matrice podataka iste veličine i istog broja varijabli (Hayton, Allen i Scarpello, 

2004). Tabachnick and Fidell (2007) opisuju da proces ima tri koraka. Prvo se generiše slučajni 

set podataka sa istim brojem varijabli i opservacija. Zatim se na tako definisanim slučajnim 

podacima ponavlja faktorska analiza i kod svakog ponavljanja se bilježe karakteristične 

vrijednosti. Na kraju se slučajno dobijene karakteristične vrijednosti uprosječe za svaki faktor 

i porede sa karakterističnim vrijednostima iz stvarnih podataka. Zadržavaju se samo faktori čije 

su stvarne karakteristične vrijednosti veće od onih koje su dobijene za slučajno generisane 

podatke. Dakle, PA uzima u obzir varijabilitet koji je rezultat specifičnosti uzorkovanja i može 

se posmatrati kao korekcija Kajzerovog kriterija jer pruža egzaktnu polaznu osnovu za 

eliminaciju faktora čija varijansa nije veća od one koja bi se očekivala kod nasumičnih podataka 

gdje ne postoje nikakve latentne dimenzije (Subotić, 2013). 

Međutim i pored toga što je PA najprecizniji pristup za utvrđivanje broja faktora ona se znatno 

slabije koristi u odnosu na pretodne dva pristupa. Osnovni razlog je to što PA dugo vremena 

nije bila dostupna u većini široko rasprostranjenih softverskih paketa za statističku obradu 

podataka (Williams et al., 2012). 

Procenat ekstrahovane varijanse. Suština ovog pristupa je u tome da zadržimo sve faktore 

koji “objašnjavaju” određeni postotak varijanse (npr. 5 ili 10%). Druga varijanta ovog kriterija 

se bazira na zadržavanju onoliko faktora koliko je potrebno da se objasni određeni kumulativni 

iznos varijanse. U društvenim naukama se obično uzima da je to najmanje 50% (Sarstedt 

& Mooi, 2014) ili 60% ukupne varijanse (Hair et al., 2006(Malhotra, 2010). Vidimo da su 

procenti koji se koriste kao kriterij arbitrarni pa je ovaj pristup često kritikovan zbog prevelike 

subjektivnosti (O'Rourke et al., 2005). 

Kriterij interpretabilnosti. Ovo je vjerovatno pristup koji je najviše u duhu faktorske analize. 

Njegova suština je u tome da se zadrže faktori koji se mogu smisleno tumačiti i opisati. 

(O'Rourke et al., 2005)) predlažu nekoliko kriterija koji nam mogu pomoći da se utvrdi da li su 

faktori interpretabilni: a) izvedeni faktor bi trebao biti povezan bar sa tri varijable indikatora, 

b) varijable indikatori koje su vezane za isti faktor bi trebale međusobno dijeliti isto 

konceptualno značenje i c) faktorsko rješenje nakon rotacije bi trebalo imati tzv. jednostavnu 

strukturu, što znači da se svaka varijabla indikator primarno učitava samo na jedan faktor. 

A priori kriterij. Suština ovog kriterija da istraživač unaprijed odredi broj faktora koje treba 

izdvojiti. Obično se koristi kada želimo replicirati rezultate prethodnih istraživanja i izdvojiti 

isti broj faktora koji su ranije otkriveni. Na primjer, ako znamo da je u prethodnim 

istraživanjima na bazi istog upitnika izdvojeno pet faktora, možemo se voditi time da i mi 

trebamo izdvojiti pet faktora. Većina statističkih paketa omogućava korisniku da specificira 

20

tačan broj faktora, što omogućava laku implementaciju ovog pristupa. 8 Ipak, situacije u kojima 

unaprijed znamo broj i karakteristike faktora zalaze u područje konfirmativne faktorske analize 

koju je metodološki ispravnije koristiti ako želimo validirati nalaze iz ranijih istraživanja 

(Sarstedt & Mooi, 2014). 

Obzirom na sve navedeno, postavlja se pitanje koji je pristup najbolje koristiti. U praksi 

istraživači najčešće kombinuju više kriterija kako bi dobili jasniju sliku o broju faktora koje 

treba zadržati. Obično se za dobijanje inicijalnog rješenja koristi Kajzerov kriterij. Zatim se 

gleda dijagram prevoja, procenat izdvojene varijanse i šta sugeriše paralelna analiza. U 

narednim koracima se za svako dobijeno rješenje utvrđuje interpretabilnost. Ukoliko ne postoji 

konsenzus jer svaki pristup sugeriše drugačije rješenje, onda se analiza ponavlja nekoliko puta. 

Pri tome se svaki put izdvaja različit broj faktora sve dok se ne dođe do zadovoljavajućeg 

rezultata i konačne odluke. 


U našem primjeru krenućemo sa Kajzerovim pristupom. Naredba za izdvajanje faktora je: 

factor varlist, mineigen(1) pcf 

gdje se varlist odnosi na varijable koje ubacujemo u analizu, opcija minegen(1) Stati daje 

instrukciju da izdvoji sve faktore sa karakterističnom vrijednošću većom od 1. Obzirom da smo 

se ranije odlučili za principal-component factor metod estimacije to smo u naredbi eksplicitno 

naveli korištenjem opcije pcf. U konkretnom slučaju biće 

. factor lokacija-asortiman, mineigen(1) pcf 

(obs=323) 

Factor analysis/correlation Number of obs = 323 

Method: principal-component factors Retained factors = 5 

Rotation: (unrotated) Number of params = 65 

-------------------------------------------------------------------------- 

Factor | Eigenvalue Difference Proportion Cumulative 

-------------+------------------------------------------------------------ 

Factor1 | 4.63347 3.09505 0.3089 0.3089 

Factor2 | 1.53842 0.15158 0.1026 0.4115 

Factor3 | 1.38684 0.26955 0.0925 0.5039 

Factor4 | 1.11729 0.06808 0.0745 0.5784 

Factor5 | 1.04922 0.24954 0.0699 0.6483 

Factor6 | 0.79968 0.05187 0.0533 0.7017 

Factor7 | 0.74781 0.08891 0.0499 0.7515 

Factor8 | 0.65890 0.05443 0.0439 0.7954 

Factor9 | 0.60447 0.09610 0.0403 0.8357 

Factor10 | 0.50837 0.02220 0.0339 0.8696 

Factor11 | 0.48617 0.02576 0.0324 0.9020 

Factor12 | 0.46042 0.04562 0.0307 0.9327 

Factor13 | 0.41479 0.09563 0.0277 0.9604 

Factor14 | 0.31916 0.04418 0.0213 0.9817 

Factor15 | 0.27498 . 0.0183 1.0000 

-------------------------------------------------------------------------- 

LR test: independent vs. saturated: chi2(105) = 1418.09 Prob>chi2 = 0.0000 

Factor loadings (pattern matrix) and unique variances 

8 

Na primjer, ako Stati želimo dati instrukciju da izdvoji n faktora, koristeći pricipal-component factor metod 

estimacije, naredba će biti: factor varlist, factor(5) pcf 

21

------------------------------------------------------------------------------- 

Variable | Factor1 Factor2 Factor3 Factor4 Factor5 | Uniqueness 

-------------+--------------------------------------------------+-------------- 

lokacija | 0.5523 -0.3748 0.6044 -0.0264 -0.0447 | 0.1865 

parking | 0.6242 -0.3354 0.5008 -0.0305 -0.1318 | 0.2288 

promocije | 0.4808 -0.4021 -0.1859 -0.0381 -0.0056 | 0.5711 

cijene | -0.3206 0.5572 0.4896 0.1697 0.0515 | 0.3155 

nag_igre | 0.4764 -0.5498 -0.3676 -0.0463 -0.0049 | 0.3334 

komp_osob | 0.6377 0.1358 -0.0674 0.3375 -0.1855 | 0.4220 

br_blagajni | 0.6625 0.0227 -0.1426 -0.0575 -0.2917 | 0.4518 

ljubaznost | 0.6576 0.2517 -0.1647 0.3949 -0.1778 | 0.2896 

atmosfera | 0.4302 0.3856 -0.1394 -0.3776 -0.2886 | 0.4210 

izgled | 0.5854 0.3346 -0.0493 -0.2503 0.0073 | 0.4802 

rad_vrijeme | 0.5814 -0.0302 0.4226 0.1709 0.3546 | 0.3274 

usl_osob | 0.6297 0.2359 -0.1140 0.4826 -0.0718 | 0.2968 

higijena | 0.6377 0.2434 0.0452 -0.3340 0.2294 | 0.3680 

dekor | 0.5582 0.2271 0.0225 -0.4480 0.1940 | 0.3979 

asortiman | 0.3455 0.0245 -0.3056 0.1747 0.7560 | 0.1845 

------------------------------------------------------------------------------- 

U prvom dijelu outputa, vidimo da je prema Kajezorovom kriteriju zadržano ukupno pet faktora 

kod kojih je eigenvalue > 1. U koloni “Proportion” vidimo relativni ponder svakog faktora u 

ukupnoj varijasni. Prvi faktor objašnjava 30,9% ukupne varijanse, drugi 10,3% itd. Pet 

izdvojenih faktora zajedno objašnjava 64,8% ukupne variajanse. U gornjem desnom uglu 

možemo vidjeti da krajnja veličina uzorka, nakon što su eliminisane sve opservacije koje imaju 

nedostajuće podatke po jednoj ili više varijabli, iznosi 323 opservacije. 

Drugi dio outputa pod nazivom „Factor loadings (pattern matrix) and unique variances“ 

predstavlja inicijalno nerotirano rješenje sa koeficijentima učitavanja varijabli indikatora na 

faktore. Učitavanja na faktor (engl. factor loadings) predstavljaju korelaciju između 

manifestne varijable i datog faktora. Veličina koeficijenta upućuje na važnost varijable pri 

definisanju dimenzionalnosti faktora. Negativna vrijednost indicira inverzni uticaj na faktor. 

Više riječi o ovom outputu će biti riječi na početku narednog koraka. 

Sada ćemo od State zatražiti dijagram prevoja: 

screeplot, yline(1) 

22

Slika 5 – Dijagram prevoja za podatke iz primjera 2 

Opcija yline(1) poslužila je da na dijagramu povućemo horizontalnu liniju kojoj odgovara 

eigenvalue = 1, odnosno ranije pomenuti Kajzerov kriterij. Možemo vidjeti da se posljednji 

veći pad, nakon kojeg krivudava linija postane ravnija, dešava na prelazu iz tačke 5 u tačku 6 

na x-osi. Samim tim tačka 6 bi predstavljala tačku preloma. Ako se vodimo time da treba 

izdvojiti onoliko faktora koliko ih ima prije tačke preloma, onda možemo zaključiti da nam 

dijagram prevoja sugeriše izdvajanje 5 faktora. 

Na kraju ćemo uraditi i paralelnu analizu (PA) za koju nam je potreban paket paran 9 . Ovaj paket 

se bazira na klasičnoj paralelnoj analizi (Horn 1965) i naknadno razvijenoj Monte Carlo 

nadogradnji (Dinno, 2009). Naredba je: 

. paran lokacija-asortiman, factor(pcf) iter(100) graph quietly seed(1) 

Opcija factor(pcf) se odnosi na metod estimacije i pristup koji koristimo 10 , iter(100) se odnosi 

na broj slučajno generisanih setova podataka, 11 graph je za dobijanje grafika, opcija quetly služi 

da “potisnemo” nepotrebni dio outputa (da Stata ne prikazuje dio rezultata koji se izračuna ali 

nam nije bitan za tumačenje) i na kraju seed(1) je opcija koja nam pomaže da repliciramo 

istovjetan output 12 . 

9 

Za više detalja pogledati: Dinno, Alexis (2009): Implementing Horn’s parallel analysis for principal component 

analysis and factor analysis. In The Stata Journal 9 (2), pp. 291–298. 

10 

Da nismo naveli ovu opciju, podrazumjevalo bi se da koristimo PCA. 

11 

Bez navođenja, podrazumjevani broj je 30. Veći broj rezultira većom preciznošću ali za velike skupove 

podataka može rezultirati dugim vremenom izračuna. 

12 

Naime, obzirom da Stata genriše slučajne setove, rezultat PA može u manjoj mjeri varirati od analize do analize. 

Opcija seed daje nalog Stati da uvijek koristi isti skup slučajno generisanih setova (u našem primjeru označenih 

sa brojem 1) kako bi se omogućila replikacija rezultata ako ponovimo komandu za PA na istom skupu podataka. 

23

Results of Horn's Parallel Analysis for principal components factors 

100 iterations, using the mean estimate 

-------------------------------------------------- 

Component Adjusted Unadjusted Estimated 

or Factor Eigenvalue Eigenvalue Bias 

-------------------------------------------------- 

1 3.3213835 4.6334689 1.3120854 

2 .24694682 1.538416 1.2914692 

3 .18858222 1.3868391 1.1982569 

4 -.01766087 1.1172929 1.1349537 

5 -.0358335 1.0492158 1.0850493 

6 -.25974195 .79967721 1.0594192 

7 -.27466194 .74781008 1.022472 

8 -.31743126 .65890033 .97633159 

9 -.35729036 .60447159 .96176195 

10 -.42242302 .50837348 .9307965 

11 -.39904981 .48617454 .88522434 

12 -.39549569 .46041884 .85591453 

13 -.40650338 .41479451 .82129788 

14 -.43008702 .31916459 .7492516 

15 -.44073359 .27498223 .71571583 

-------------------------------------------------- 

Criterion: retain adjusted factors > 0 

Prema Hornovom kriteriju trebali bi izdvojiti faktore za koje su nekorigovane karakteristične 

vrijednosti (kolona „Unadjusted Eigenvalue“) veće od nekorigovanih (kolona „Estimated 

Bias“). Output pokazuje da je to slučaj za prva tri faktora. Vrijednosti na bazi dobijenog outputa 

su grafički predstavljene na slici 6. 

Slika 6 – Rezultati paralelne analize 

Isprekidana linija (observed) je identična liniji koju smo ranije imali na dijagramu prevoja. 

Linija sa tačkicama (random) predstavlja dijagram prevoja za prosječne karakteristične 

24

vrijednosti dobijene za slučano generisane podatke. Korigovane karakteristične vrijednosti 

(adjusted) su predstavljene punom linijom. Hornov kriterij odgovara tačci koja se nalazi prije 

mjesta gdje linija sa korigovanim vrijednostima siječe horizontalnu liniju koja se nalazi na y = 

1, što je u ovom slučaju jednako broju 3 na x-osi. 

Dakle, doslovno tumačenje rezultata PA indicira da bi trebali zadržati tri faktora. Međutim, 

obratimo pažnju da je razlika između korigovanih i nekorigovanih vrijednosti za faktore 4 i 5 

izuzetno mala, što se vidi i na grafiku gdje se korigovana linija za vrijednosti na x-osi od 4 do 

5 gotovo poklapa sa horizontalnom linijom na y = 1. To implicira da je potrebno zadržati 

minimalno tri faktora ali uz mogućnost da se stvarni broj faktora može nalaziti u rasponu od 3 

do 5. 

Na osnovu svega možemo zaključiti da postoji konsenzus između Kajzerovog kriterija, 

dijagrama prevoja i paralelne analize u pogledu toga da je u redu inicijalno zadržati 5 faktora. 

Obzirom da tih 5 faktora objašnjava više od 60% varijanse možemo reći da je ispunjen i kriterij 

koji se tiče procenta ekstrahovane varijanse. U nastavku ćemo pokušati tumačiti 5 zadržanih 

faktora pa ćemo vidjeti da li je broj faktora optimalan i po kriteriju interpretabilnosti. 

4.4. ROTACIJA FAKTORA 

Nakon što smo odredili broj faktora, dobijene rezultate bi trebalo interpretirati. Korištenjem 

naredbe za estrakciju faktora prema Kajzerovom kriteriju Stata nam je u okviru ranijeg 

outputa 13 već dala rezultate rješenja za pet faktora. Međutim, iako inicijalno rješenje daje 

naznaku o vezi između varijabli indikatora i faktora, ono rijetko rezultira faktorima koje je lako 

interpretirati jer nerotirani faktori istovremeno koreliraju sa mnoštvom varijabli. 

4.4.1. Zbog čega nam je potrebna faktorska rotacija? 

Obično postoji nekoliko problema sa nerotiranim rješenjem. Prvo, u takvom rješenju se dobije 

da je prvi faktor ujedno i generalni faktor, što znači da se većina varijabli jako učitava na njega. 

Najčešće je to posljedica činjenice da su se podaci prikupljali anketiranjem čime se u analizu 

unosi određeni stepen "vještačkih" (engl. spurious) korelacija. Pri tumačenju nas interesuju 

odnosi između varijabli nakon što eliminišemo ove neželjene korelacije. Drugi problem je 

faktorska složenost (engl. factorial complexity) koja odražava činjenicu da se neke varijable 

učitavaju na dva ili više faktora. Treći problem je što se većina učitavanja obično nalazi u 

srednjem rasponu (između 0,50 i 0,70) pa je teško razlučiti koja varijabla pripada kojem faktoru 

(Norman & Streiner, 2003). Sve ovo otežava interpretaciju dobijenog rezultata, pa je se za 

prevazilaženje navedenih problema poželjno koristiti rotaciju faktora. 

4.4.2. Pojam rotacije faktora 

Sam termin "rotacija", se koristi kako bi se opisalo pomjeranje faktorskih osa na način da se što 

više približe grupama varijabli kao što je prikazano na slici 7. Nakon pomjeranja osa postiže se 

mnogo jasniji obrazac faktorskih učitavanja. Dakle, osnovni cilj rotacije je da se pokušaju dobiti 

čistiji rezultati faktorske analize koje istraživač može lakše interpretirati. 

13 

Pogledati dio outputa pod nazivom „Factor loadings (pattern matrix) and unique variances“ kojeg smo dobili u 

ranijem koraku. 

25

Slika 7 - Grafičko predstavljanje rotacije faktora 

Izvor: Field (2000) 

Ako pogledamo sliku 7 možemo uočiti da se nakon rotacije grupe varijabli indikatora koje su 

predstavljene kružićima nalaze mnogo bliže faktorskim osama. Prva grupa varijabli, koja se 

prije rotacije nalazila u gornjem desnom kvadrantu, će nakon rotacije imati mnogo jača 

učitavanja na faktor 2. Druga grupa varijabli, koja se prije rotacije nalazila u donjem desnom 

kvadrantu, će nakon rotacije imati mnogo jača učitavanja na faktor 1. 

4.4.3. Vrste rotacije 

Zavisno od ugla pod kojim se održava razmak između x i y-ose postoje dvije vrste rotacija. 

Ortogonalne (engl. orthogonal) rotacije rezultiraju faktorima koji međusobno ne koreliraju jer 

se prilikom rotacije između osa održava ugao od 90°. Kose (engl. oblique) rotacije dozvoljavaju 

da faktori u nekoj mjeri međusobno koreliraju obzirom da prilikom rotacije ugao između osa 

ne mora biti 90°. Unutar ove dvije generalne vrste postoji nekoliko algoritama za provođenje 

same rotacije. Stata ih nudi sedam i oni su predstavljeni unutar tabele 7. 

Tabela 7 - Prikaz različitih algoritama za rotacije unutar statističkog paketa Stata 

Rotacija* Vrsta Naredba u Stati Napomena 

Varimax Ortogonalna rotate Podrazumjevana rotacija u Stati 

Varimax sa Kajzerovom 

normalizacijom 

Ortogonalna rotate, kaiser Podrazumjevana rotacija u 

SPSS-u 

Quartimax Ortogonalna rotate, quartimax 

Equamax Ortogonalna rotate, equamax 

Oblimin Kosa rotate, oblimin 

Promax Kosa rotate, promax 

* Napomena: naredba rotate se koristi isključivo nakon naredbe factor. 

Ortogonalne rotacije su matematski jednostavnije i daju rješenja koja se lakše interpretiraju. 

Unutar ove kategorije najčešće se koristi Varimax rotacija koja predstavlja podrazumjevanu 

rotaciju u većini statističkih paketa. 

Međutim, u društvenim naukama su rijetke situacije kada u stvarnosti očekujemo da su faktori 

međusobno potpuno nezavisni i da uopšte ne koreliraju. Iako je rešenja dobijena uz pomoć 

26

kosih rotacija nekada teže protumačiti i opisati, smatra se da će one dati identičan ili bolji 

rezultat u odnosu na ortogonalne. Nema posebno preferiranog metoda kose rotacije. Iako su 

matematski algoritmi na kojima se baziraju različiti, sve metode iz ove kategorije daju slične 

rezultate (Osborne, 2015). 

4.4.4. Koji metod rotacije izabrati? 

Istraživača ništa ne sprječava da pokuša doći do rješenja koristeći nekoliko različitih metoda 

rotacije i da na kraju odabere onu metodu koja je rezultirala po njegovom mišljenju najboljim, 

odnosno najsmislenijim rješenjem. Pri tome se smatra da je rješenje koje daje tzv. jednostavnu 

strukturu ujedno i najbolje rješenje. Jednostavnu strukturu (engl. simple structure) imamo 

kada svaka varijabla indikator ima visoko učitavanje na samo jedan faktor, dok su njena 

učitavanja na ostale faktore vrlo niska < |.30| (Costello & Osborne, 2005). 

Bitno je napomenuti da sama rotacija ne mijenja osnovne aspekte analize. Na primjer, iako će 

karakteristične vrijednosti (engl. eigenvalues) biti drugačije, ukupno "objašnjena" varijansa i 

broj izdvojenih faktora će ostati isti. 

Primjer 2 - Nastavak 

U našem primjeru ćemo iskoristiti Varimax rotaciju sa Kajzerovom normalizacijom: 

. rotate, kaiser blank (.30) 



Rotation: orthogonal varimax (Kaiser on) Number of params = 65 

-------------------------------------------------------------------------- 

Factor | Variance Difference Proportion Cumulative 

-------------+------------------------------------------------------------ 

Factor1 | 2.31493 0.07231 0.1543 0.1543 

Factor2 | 2.24262 0.14515 0.1495 0.3038 

Factor3 | 2.09748 0.19531 0.1398 0.4437 

Factor4 | 1.90217 0.73414 0.1268 0.5705 

Factor5 | 1.16803 . 0.0779 0.6483 

-------------------------------------------------------------------------- 


27

Rotated factor loadings (pattern matrix) and unique variances 

------------------------------------------------------------------------------- 

Variable | Factor1 Factor2 Factor3 Factor4 Factor5 | Uniqueness 

-------------+--------------------------------------------------+-------------- 

lokacija | 0.8779 | 0.1865 

parking | 0.8089 | 0.2288 

promocije | 0.5784 | 0.5711 

cijene | -0.8248 | 0.3155 

nag_igre | 0.7851 | 0.3334 

komp_osob | 0.7025 | 0.4220 

br_blagajni | 0.4638 0.4059 0.3422 | 0.4518 

ljubaznost | 0.8040 | 0.2896 

atmosfera | 0.6743 | 0.4210 

izgled | 0.6523 | 0.4802 

rad_vrijeme | 0.6387 0.4116 | 0.3274 

usl_osob | 0.7998 | 0.2968 

higijena | 0.6972 | 0.3680 

dekor | 0.7248 | 0.3979 

asortiman | 0.8608 | 0.1845 

------------------------------------------------------------------------------- 

(blanks represent abs(loading) |0,30| (Burns & Burns, 

2008). 

Kad je riječ o imenovanju faktora bitno je napomenuti da je to subjektivni proces. Nekada je 

preporučljivo zamoliti više osoba da, nezavisno jedni od drugih, pokušaju imenovati faktore 

tako što će naći najmanje zajedničke sadržioce koji povezuju varijable indikatore. Ako su na 

taj način dobijeni nazivi međusobno slični onda možemo biti sigurni da su faktori pravilno 

imenovani (Huck, 2012). 

Primjer 2 -Nastavak 

Iz prethodno dobijenog outputa možemo vidjeti da se na faktor 1 učitavaju varijable 

kompetentnost osoblja, broj blagajni, ljubaznost i uslužnost osoblja. Najmanji zajednički 

sadržilac koji povezuje ove varijable su zaposlenici tržnog centra koji su u dodiru sa kupcima. 

Samim tim ovaj faktor ćemo nazvati “Osoblje”. Jedini eventualni izuzetak je varijabla broj 

blagajni. Ona se unakrsno učitava i na faktor 2 i nešto slabije na faktor 4. Pored toga, 

koeficijenti učitavanja za ovu varijablu su relativno niski. Obzirom da pomenuta varijabla ima 

otprilike jednako učitavanje na dva faktora, jasno je da se ona ne uklapa baš najbolje u 

faktorsko rješenje i da je kandidat za eliminaciju. 

28

Na faktor 2, pored već pomenute varijable broj blagajni, učitavaju se varijable atmosfera, 

vanjski izgled, higijena i dekor/stajling. Ovo su prvenstveno elementi estetskog doživljaja 

tržnog centra pa smo taj faktor odlučili da nazovemo “Izgled”. 

Faktor 3 je povezan sa tri varijable indikatora lokacija, parking i radno vrijeme. Sve tri varijable 

se odnose na elemente koji su vezani za pristupačnost tržnog centra kupcima pa ćemo ovaj 

faktor nazvati “Pogodnost pristupa”. 

Na faktor 4 se primarno učitavaju varijable cijene, promocije i nagradne igre. Sve tri varijable 

su povezane sa različitim novčanim benefitima koje kupci mogu ostvariti posjetom tržnom 

centru pa smo shodno tome ovaj faktor nazvali “Novčani benefiti”. Obratimo pažnju da je 

koeficijent učitavanja za varijablu cijene negativan. Ako se prisjetimo upitnika (tabela 3) to ne 

iznenađuje obzirom da je tvrdnja vezana za cijene bila negativno konotirana. Negativan 

predznak samo indicira da vrijednost varijable korelira u suprotnom smjeru u odnosu na ostale 

varijable koje se učitavaju na dati faktor. 

Konačno, na faktor 5 se učitava samo varijabla asortiman. Ovo implicira da je ta varijabla priča 

za sebe. Dakle, možemo zakljkučiti da je jedan od bitnih aspekata izbora tržnog centra 

vjerovatno i raznolikost asortimana, ali obzirom da je taj faktor predstavljen samo jednom 

varijablom, preporuka je da se ona izostavi iz faktorske analize. Ukoliko se ukaže potreba, 

varijablu asortiman uvijek možemo koristiti kao zasebnu varijablu u daljnim analizama. 

4.6. RESPECIFKACIJA FAKTORSKOG MODELA 

Ranije smo rekli da je optimalno rješenje ono koje ima jednostavnu strukturu, što znači da svaka 

varijabla ima jako učitavanje na samo jedan faktor i da varijable koje se učitavaju na isti faktor 

imaju isto konceptualno značenje. Također, poželjno je da svaki faktor ima najmanje tri 

varijable indikatora. 

4.6.1. Kada je potrebno respecificirati faktorski model? 

Međutim, nekada će se desiti da nakon rotacije imamo: a) varijable koje nemaju visoko 

učitavanje niti na jedan faktor, b) varijable koje imaju visok iznos unikatne varijanse 14 i c) 

varijable koje imaju unakrsna učitavnja (engl. cross-loading) na dva ili više faktora. Hair et al. 

(2006) predlažu da se u ovakvim situacijama razmotri respecifikacija modela koja može 

uključivati nekoliko opcija: 

1. Izbacivanje problematičnih varijabli iz analize. 

2. Korištenje alternativnog metoda rotacije. 

3. Smanjenje/povećanje broja zadržanih faktora. 

4. Odabir drugačijeg pristupa izdvajanju faktora ili metode estimacije. 

4.6.2. Šta podrazumjevamo pod respecifikacijom faktorskog modela? 

14 

Obično se smatra da varijabla ima visok iznos unikatne varijanse ako on prelazi 50% ukupne varijanse (Hair et 

al., 2006, p. 131) 

29

Pod pojmom respecifikacije faktorskog modela podrazumijevamo ponavljanje cjelokupne 

analize ali uz modifikacije. Na primjer, možemo pokušati izbaciti problematične varijable (one 

koje se unakrsno učitavaju, imaju nisko učitavanje ili stoje same za sebe) i ponoviti analizu da 

vidimo da li je problem riješen. 

Ponekad je potrebno uraditi više uzastopnih respecifikacija. Istraživač može koristiti 

pragmatični pristup, što znači da je moguće eksperimentisati sa različitim opcijama ili njihovim 

kombinacijama dok se ne dobije zadovoljavajući rezultat. Ukoliko istraživač smatra da je 

neophodno uraditi više modifikacija, najbolje je svaku obaviti zasebno. Na primjer, ako 

smatramo da je potrebno izbaciti više od jedne varijable preporučljivo je izbacivati ih jednu po 

jednu, uz ponavljanje analize nakon izbacivanja svake pojedinačne varijable. Bez obzira koje 

opcije koristilii i koliko respecifikacija uradili, krajnji cilj je da se dobije faktorsko rješenje koje 

ima empirijsko i konceptulano utemeljenje (Hair et al., 2006). 

4.6.3. Šta ako respecifikacija ne pomogne? 

Ukoliko nakon nekoliko ponovljenih respecifikacija imamo situaciju da se relativno veliki broj 

varijabli indikatora i dalje unakrsno učitava na više faktora, ili ako ne možemo naći najmanji 

zajednički sadržilac koji povezuje grupisane varijable, to implicira da vjerovatno postoji 

problem sa podacima. Problem se može javiti ukoliko je uzorak nedovoljne veličine i u tom 

slučaju je potrebno prikupiti još podataka (Costello & Osborne, 2005). Ukoliko veličina uzorka 

nije sporna, onda je vjerovatno da postoji problem sa sadržajnom validnošću pitanja koje 

ispitanici nisu razumjeli kada su odgovarali. U tom slučaju istraživač bi trebao odbaciti 

prikupljene podatke i istraživanje započeti od početka, tj. od ponovnog dizajniranja upitnika. 


U našem slučaju smo respecificirali inicijalno faktorsko rješenje tako što smo prvo izbacili 

varijablu asortiman koristeći naredbe: 

. factor lokacija-dekor, mineigen(1) pcf 

(output izostavljen) 

. rotate, varimax kaiser blank (0.30) 


Korištenje Kajzerovog kriterija u ponovljenoj analizi je rezultiralo zadržavanjem četiri faktora 

koja su u potpunosti odgovarala prethodno dobijenim i opisanim faktorima. Obzirom da je 

varijabla broj blagajni i dalje imala unakrsno učitavanje, odlučili smo da je izbacimo i 

ponovimo analizu još jedanput. Finalno rješenje je predstavljeno u okviru sljedećeg outputa: 

. factor lokacija-komp_osob ljubaznost-dekor, mineigen(1) pcf 

(obs=324) 



Rotation: (unrotated) Number of params = 46 

-------------------------------------------------------------------------- 

Factor | Eigenvalue Difference Proportion Cumulative 

-------------+------------------------------------------------------------ 

Factor1 | 4.15549 2.61630 0.3197 0.3197 

30

Factor2 | 1.53918 0.20694 0.1184 0.4381 

Factor3 | 1.33224 0.21955 0.1025 0.5405 

Factor4 | 1.11269 0.33763 0.0856 0.6261 

Factor5 | 0.77506 0.02244 0.0596 0.6857 

Factor6 | 0.75262 0.09563 0.0579 0.7436 

Factor7 | 0.65699 0.08108 0.0505 0.7942 

Factor8 | 0.57591 0.03126 0.0443 0.8385 

Factor9 | 0.54465 0.06765 0.0419 0.8804 

Factor10 | 0.47700 0.05994 0.0367 0.9171 

Factor11 | 0.41706 0.04696 0.0321 0.9491 

Factor12 | 0.37009 0.07909 0.0285 0.9776 

Factor13 | 0.29100 . 0.0224 1.0000 

-------------------------------------------------------------------------- 


(dio outputa izostavljen) 

Zatim smo uradili rotaciju: 

. rotate, varimax kaiser blank (0.30) 



Rotation: orthogonal varimax (Kaiser on) Number of params = 46 

-------------------------------------------------------------------------- 

Factor | Variance Difference Proportion Cumulative 

-------------+------------------------------------------------------------ 

Factor1 | 2.13787 0.01228 0.1645 0.1645 

Factor2 | 2.12559 0.05249 0.1635 0.3280 

Factor3 | 2.07310 0.27005 0.1595 0.4874 

Factor4 | 1.80305 . 0.1387 0.6261 

-------------------------------------------------------------------------- 


Rotated factor loadings (pattern matrix) and unique variances 

--------------------------------------------------------------------- 

Variable | Factor1 Factor2 Factor3 Factor4 | Uniqueness 

-------------+----------------------------------------+-------------- 

lokacija | 0.8704 | 0.2077 

parking | 0.8030 | 0.2708 

promocije | 0.5979 | 0.5543 

cijene | -0.8344 | 0.2983 

nag_igre | 0.7837 | 0.3433 

komp_osob | 0.6818 | 0.4424 

ljubaznost | 0.8009 | 0.2831 

atmosfera | 0.6583 | 0.5303 

izgled | 0.6629 | 0.4715 

rad_vrijeme | 0.6838 | 0.4222 

usl_osob | 0.8344 | 0.2533 

higijena | 0.7144 | 0.3887 

dekor | 0.7431 | 0.3946 

--------------------------------------------------------------------- 

(blanks represent abs(loading)

na iste faktore pa i njihovi nazivi ostaju isti. Ovako dobijeno krajnje rješenje objašnjava 62.7% 

ukupne varijanse što je sasvim zadovoljavajući postotak. 

4.7. PROVJERA POUZDANOSTI 

Nakon što smo identifikovali koje tvrdnje predstavljaju faktore, trebali bi provjeriti njihovu 

pouzdanost i validnost. Obzirom da se testiranje validnosti radi putem konfirmativne faktorske 

analize (CFA), u ovom koraku ćemo testirati samo pouzdanost primjenom Kronbahovog alfa 

koeficijenta kojim se mjeri interna konzistentnost skale. Koeficijent alfa varira u rasponu od 0 

do 1, gdje veće vrijednosti označavaju veću internu konzistentnost. U tabeli 8 su data ubičajena 

tumačenja dobijenog alfa koeficijenta. 

Tabela 8 – Vrijednosti i tumačenje Kronbahovog alfa koeficijenta 

Cronbach's 

Alpha 

≥ .9 

≥ .8 

≥ .7 

≥ .6 

≥ .5 

Interna 

konzistentnost 

Odlična 

Dobra 

Prihvatljiva 

Upitna 

Slaba 

< .5 Neprihvatljiva 

Izvor: George and Mallery (2003) 

U literaturi obično preporučuje da vrijednost ovog koeficijenta bude 0.7 ili veća. Preporuka se 

bazira na radu kojeg je objavio Nunnally (1978) u kojem je data sugestija da bi u ranim fazama 

istraživanja (npr. tokom razvoja skale) koeficijent alfa trebao biti minimalno 0.7 dok bi u 

primijenjenim istraživanjima trebao biti viši od 0.8 ili 0.9. Drugi istraživači smatraju da ovu 

generalnu preporuku treba imati u vidu ali da prihvatljiva visina koeficijenta zavisi od 

specifičnosti svake studije. Tako Hair et al. (2006) navode da se u eksplorativnim studijama 

vrjednosti veće od 0.6 mogu uzeti kao prihvatljive. Kod tumačenja i računanja Kronbahovog 

alfa koeficijenta kao mjere interne konzistentnosti trebamo obratiti pažnju na dvije stvari: 

Prvo, sa porastom broja itema unutar skale dolazi do inflacije vrijednosti izračunatog 

koeficijenta. Zato je za skale sa većim brojem stavki poželjno primijeniti strožije kriterije u 

pogledu visine dobijenog koeficijenta. Cortina (1993) je u svojoj studiji demonstrirao da skale 

koje imaju jako niske međukorelacije između itema (r < |.30|) mogu imati relativno visok 

koeficijent alfa (> 0.7) kako se broj itema približava 20. 

Drugo, istraživači trebaju biti oprezni ukoliko skala sadrži negativno konotirane tvrdnje jer one 

narušavaju internu konzistentnost. Zato ih je prije računanja Kronbah alfe koeficijenta potrebno 

rekodirati, odnosno “obrnuti” reverzno postavljena pitanja, tako da njihovi odgovori imaju isti 

smijer kao i odgovori na ostala pitanja koja čine istu skalu. 15 

15 

Stata obično zna prepoznati koja pitanja su negativno konotirana (smjer varijable na outputu je naznačen u 

koloni "Sign" sa + ili -). To znači da je svejedno da li koristimo rekodiranu ili originalnu varijablu kada 

32

Treće, alfa koeficijent nije pokazatelj unidimenzionalnosti skale. Naime, nisu rijetke situacije 

da se visoka alfa vrijednost interpretira kao potvrda toga da tvrdnje mjere jednu dimenziju 

konstrukta. Korištenje alfa koeficijenta u tu svrhu je pogrešno jer je moguće imati visoku 

vrijednost koeficijenta uprkos tome što skala ima više dimenzija (Cortina, 1993). 


Kronbahov alfa koeficijent u Stati možemo dobiti korištenjem naredbe: 

. alpha varlist, item casewise asis 

Opcija item pokazuje dodatni output na osnovu kojeg možemo vidjeti kako se mijenja 

Kronbahov alfa koeficijent ako izbacimo pojedinačnu varijablu. Stata podrazumjevano koristi 

pairwise opciju za tretiranje nedostajućih podataka. Ukoliko želimo koristi konzervativniji 

casewise pristup, što je podrazumjevani pristup u SPSS-u, onda tu opciju trebamo ekspicitno 

zatražiti. 

Stata automatski prepoznaje reverzno postavljena pitanja i pravi automatsku korekciju pri 

računanju Cronbach alpha keficijenta. Ipak, ako to želimo izbjeći potrebno je ukucati opciju 

asis. 

U našem primjeru, prvo ćemo izračunati pouzdanost za varijable koje su učitavaju na faktor 

“Pogodnost pristupa”: 

. alpha lokacija parking rad_vrijeme, item 

Test scale = mean(unstandardized items) 

average 

item-test item-rest interitem 

Item | Obs Sign correlation correlation covariance alpha 

-------------+----------------------------------------------------------------- 

lokacija | 332 + 0.8807 0.6931 .3266258 0.6031 

parking | 332 + 0.8527 0.6578 .3883341 0.6465 

rad_vrijeme | 327 + 0.7544 0.4945 .5796668 0.8144 

-------------+----------------------------------------------------------------- 

Test scale | .4322956 0.7770 

------------------------------------------------------------------------------- 

Najvažniji dio outputa je prikazan u zadnjem redu „Test scale“, zadnje kolone „alpha“. Tu 

možemo pročitati da ukupni Kronbahov alfa koeficijent za tri itema koja predstavljaju faktor 

iznosi 0.777. Na osnovu preporuka unutar tabele 8 zaključujemo da skala kojom se mjeri taj 

faktor ima prihvatljivu pouzdanost. 

U zadnjoj koloni, iznad ukupnog alfa koeficijenta, nalaze se vrijednosti koje pokazuje koliki bi 

bio novi ukupni alfa koeficijent ako bi izostavili datu varijablu. Na primjer, ukoliko bi iz skale 

izbacili varijablu radno vrijeme ukupni alfa koeficijent za preostale varijable bi porastao sa 

0.777 na 0.814. Na ovaj način možemo identifikovati varijable koje znatno narušavaju 

pouzdanost i eliminisati ih kako bi poboljšali pouzdanost skale. Naravno, treba biti oprezan i 

računamo pouzdanost jer bi trebali dobiti identičan rezultat. Međutim, u nekim drugim softverskim paketima to 

nije slučaj pa je potrebno uraditi rekodiranje. 

33

eliminisati samo one varijable čijim izbacivanjem će se ukupni alfa znatno popraviti. U našem 

primjeru, poboljšanje koje bi dobili izbacivanjem varijable radno vrijeme nije dovoljno da 

opravda njenu eliminaciju iz skale. 

Što se tiče ostatka outputa, pomenućemo kolonu “item-test correlation” koja pokazuje koliko 

svaka varijabla indikator korelira sa skalom. Međutim, korisniji pokazatelj se nalazi u koloni 

“item-rest correlation” 16 gdje možemo vidjeti koliko varijabla korelira sa skalom koja se 

izračunava na bazi preostalih varijabli. Poželjno je da taj koeficijent bude što veći. Varijable 

koje imaju nisku korelaciju vjerovatno ne mjere isti konstrukt kao ostale varijable. 

U nastavku ćemo izračunati pouzdanost za varijable kojima se mjere ostali faktori. Počećemo 

sa faktorom „Izgled“: 

. alpha dekor higijena izgled atmosfera, item 


average 



-------------+----------------------------------------------------------------- 

dekor | 332 + 0.7355 0.4650 .3038058 0.6094 

higijena | 332 + 0.7359 0.5186 .3068702 0.5843 

izgled | 328 + 0.7203 0.4976 .3173451 0.6051 

atmosfera | 328 + 0.7003 0.3846 .3380832 0.6890 

-------------+----------------------------------------------------------------- 

Test scale | .3165488 0.6860 

------------------------------------------------------------------------------- 

Vidimo da ukupni alfa koeficijent za “Izgled” iznosi 0.686. Prema kriterijima iz tabele 8 riječ 

je o skali upitne pouzdanosti. Međutim, obzirom da je koeficijent blizu granice od 0.7 i da se 

radio o eksplorativnoj studiji, smatramo da je pouzdanost ove skale u tom kontekstu 

zadovoljavajuća. 

Pouzdanost skale kojom se mjeri faktor „Osoblje“ iznosi: 

. alpha komp_osob ljubaznost usl_osob, item 


average 



-------------+----------------------------------------------------------------- 

komp_osob | 328 + 0.8420 0.5206 .2036996 0.7598 

ljubaznost | 328 + 0.7882 0.5962 .2506154 0.6356 

usl_osob | 332 + 0.8271 0.6275 .2035504 0.5772 

-------------+----------------------------------------------------------------- 

Test scale | .2192884 0.7343 

------------------------------------------------------------------------------- 

Na osnovu dobijenog outputa vidimo da varijable kojima se mjeri faktor “Osoblje” imaju 

prihvatljivu pouzdanost obzirom da ukupni alfa iznosi 0.734. 

16 

U SPSS-u se ovaj pokazatelj naziva Corrected Item-Total Correlation. 

34

Konačno, urađena je pouzdanost za faktor „Finansijski benefiti“: 

. alpha promocije cijene nag_igre, item 


average 



-------------+----------------------------------------------------------------- 

promocije | 333 + 0.5876 0.2853 .5236112 0.6280 

cijene | 331 - 0.8358 0.4710 .2389983 0.5109 

nag_igre | 328 + 0.7937 0.5257 .2531447 0.4110 

-------------+----------------------------------------------------------------- 

Test scale | .3381371 0.6278 

------------------------------------------------------------------------------- 

Output pokazuje da ukupni alfa koeficijent za “Finansijske benefite” iznosi 0.628 pa 

zaključujemo da je riječ o skali upitne pouzdanosti. Ukoliko bi u daljim istraživanjima željeli 

mjeriti ovaj konstrukt, morali bi poboljšati način na koji ga mjerimo. Ipak, obzirom da je riječ 

o eksplorativnoj studiji, možemo reći da je pouzdanost u tom kontekstu zadovoljavajuća. 

Također, obratimo pažnju da je Stata ispravno prepoznala da je tvrdnja koja se tiče cijena bila 

negativno konotirana (kolona “Sign”) i da je to uzeto u obzir prilikom izračunavanja 

pouzdanosti. 

4.8. UPOTREBA FAKTORA U DRUGIM ANALI ZAMA 

Sjetimo se da je jedan od ciljeva faktorske analize sažimanje podataka pri čemu veći broj 

varijabli indikatora pokušavamo reducirati na manji broj faktora. U suštini ovo znači da 

moramo kreirati nove varijable koje će u daljoj analizi predstavljati faktore. Istraživaču na 

raspolaganju stoje dvije opcije u pogledu toga kako identifikovane faktore može iskoristiti u 

daljim analizama: faktorski skorovi i sumarne skale. 

4.8.1. Faktorski skorovi 

Faktorski skor (engl. factor score) je linerana kombinacija varijabli indikatora optimalno 

ponderisanih na bazi faktorskih učitavanja. Postoji nekoliko različitih metoda za izračunavanje 

faktorskih skorova. Prva je metoda ponderisanog prosjeka (engl. weighted average method) 

gdje se faktorski skor za svakog ispitanika računa prema sljedećoj formuli: 

F W X W X W X 

i 

 

i 1 1 

 

i 2 2 

... 

ik k 

gdje je 

Fi = faktorski skor za faktor i 

Wi = ponderi (koji su jednaki faktorskim učitavanjima) 

Xk = varijable indikatori 

k = broj varijabli indikatora 

Dakle, ako prema ovoj metodi želimo izračunati faktorski skor za prvi faktor kao pondere ćemo 

iskoristiti faktorska učitavanja iz finalnog rješenja nakon rotacije: 

35

Fpogodnost 

_ pristupa 

0.87 lokacija 0.80 parking ... 0.19 dekor 

Ako u gornju formulu iz skupa podataka uvrstimo odgovore za prvog ispitanika dobićemo da 

njegov faktorski skor za prvi faktor iznosi: 

F 

_ 

0.87 4 0.80 5 ... 0.19 4 

pogodnost 

pristupa 

Na isti način možemo izračunati faktorske skorove za ostale identifikovane faktore. Nakon toga, 

čitav proces se ponavlja dok ne izračunamo faktorske skorove za svakog ispitanika. 

Metoda ponderisanog prosjeka je najjednostavniji način na koji možemo izračunati faktorske 

skorove. Ona nam pomaže da shvatimo osnovni princip po kojem se kreiraju faktorski skorovi, 

a koji se ogleda u tome da se pri njihovom izračunavanju u obzir uzima snaga učitavanja 

pojedinačnih varijabli na svaki faktor. Ipak, ovaj metod se u praksi rijetko upotrebljava (Field, 

2009) jer razlika u veličini faktorskih učitavanja može znatno varirati u zavisnosti od odabrane 

metode estimacije i vrste rotacije (DiStefano, Christine, Zhu, Min & Mîndrilă, & Diana, 2009). 

Umjesto ponderisanog prosjeka, obično se koristi jedan od tri rafiniranija metoda izračunavanja 

optimalnih pondera (Wi) u prethodno navedenoj formuli. 

Regresioni metod je obično podrazumjevani metod za izračunavnje faktorskih skorova u 

većini softverskih paketa uključujući i Statu. Osnovna prednost ovog metoda je što maksimizira 

validnost dobijenih skorova. Pojam validnosti se u ovom slučaju odnosi na obim u kojem će 

dobijeni faktorski skor korelirati sa faktorom kojeg predstavlja. Problem sa regresionim 

metodom je što korelacije mogu biti nejednoznačne (skor može korelirati sa drugim faktorima 

čak iako su dobijeni faktori teoretski ortogonalni), neprecizne (skorovi mogu međusobno 

korelirati čak iako faktori ne koreliraju) i pristrasne (dobijeni skor ne predstavljati stvarni 

faktorski skor) (DiStefano et al., 2009). 

Bartletov metod izračunava faktorske skorove uz najveću moguću nepristrasnost ali žrtvujući 

nešto od validnosti i preciznosti (DiStefano et al., 2009). 

Anderson-Rubinov metod osigurava najveću preciznost korelacija između dobijenih 

faktorskih skorova. Najprikladnije ga je koristiti kada dobijeni faktori teoretski međusobno ne 

koreliraju jer u tom slučaju ni dobijeni faktorski skorovi međusobno neće korelirati (Mazzochi, 

2008). Međutim, to dolazi na uštrb dodatno smanjene validnosti. Ovaj metod nije podržan u 

Stati. 

Dakle, svaki od ovih metoda ima svoje prednosti i nedostatke. 17 Bez obzira na razlike, osnovni 

princip kod svih metoda ostaje isti — varijable indikatori koje najviše koreliraju sa faktorom 

će pri izračunavanju faktorskog skora imati najveći ponder. 

Osnovna prednost korištenja faktorskih skorova ogleda se u tome što su usko povezani sa 

rezultatima same faktorske analize i preciznije predstavljaju dobijene faktore. Također, 

korištenje regresionih faktorskih skorova će najčešće rezultirati varijablama koje međusobno 

ne koreliraju, što može biti prednost ako se u daljim analizama želimo u potpunosti riješiti 

multikolinearnosti. 

17 

Za za više detalja pogledati: DiStefano et al. (2009) 

36

Osnovni nedostatak faktorskih skorova je vezan za činjenicu da njihova vrijednost može varirati 

u zavisnosti od toga koja metoda estimacije i rotacije je korištena. To može predstavljati 

problem ukoliko želimo replicirati rezultate u ponovljenim istraživanjima (DiStefano et al., 

2009; Howitt & Cramer, 2011). Pored ovoga, interpretiranje faktorskih skorova nije u 

potpunosti intuitivno jer sve varijable iz analize kroz pondere imaju uticaj na faktorski skor 

(Hair et al., 2006). 


Izračunavanje faktorskih skorova u Stati se obavlja korištenjem naredbe predict nakon završene 

faktorske analize: 

. predict fs_pristup fs_izgled fs_osoblje fs_benefiti 

(regression scoring assumed) 


Ovim smo Stati dali instrukciju da u skupu sa podacima kreira četiri nove varijable – fs_pristup, 

fs_izgled, fs_osoblje i fs_benefiti – unutar kojih će se nalazati faktorski skorovi svakog 

ispitanika izračunati korištenjem regresionog metoda. 18 Imena varijabli su proizvoljna, a prefiks 

fs smo odabrali da naznačimo da je riječ o varijablama koje sadrže faktorske skorove. 

Deskriprivna statistika za faktorske skorove: 

. tabstat fs_pristup fs_izgled fs_osoblje fs_benefiti, s(mean sd p50 count min max 

skew k) format(%9.3f) 

stats | fs_pri~p fs_izg~d fs_oso~e fs_ben~i 

---------+---------------------------------------- 

mean | -0.000 0.000 0.000 -0.000 

sd | 1.000 1.000 1.000 1.000 

p50 | 0.273 0.152 0.307 0.436 

N | 324.000 324.000 324.000 324.000 

min | -4.519 -4.297 -6.136 -4.341 

max | 1.412 2.697 2.225 1.969 

skewness | -1.639 -0.841 -2.045 -1.844 

kurtosis | 6.424 4.668 10.745 6.827 

-------------------------------------------------- 

Možemo uočiti da faktorski skorovi imaju prosjek vrlo blizu nule sa SD = 1. 

18 

Za izračunavanje faktorskih skorova korištenjem Bartletovog metoda morali bi upotrijebiti opciju barttlet: 

predict varlist, bartlett 

37

4.8.2. Sumarne skale 

Sumarnu skalu (engl. summated scale) ili kompozitni skor (engl. composite score) možemo 

definisati kao prosti prosjek varijabli indikatora koje imaju smisleno učitavanje na dati faktor: 19 

KS 

i 

gdje je 

X 

1 

X 

2 

... X 

k 

 

k 

KSi = kompozitni skor za faktor i 

Xk = varijable indikatori 

k = broj varijabli indikatora 

Na primjer, ako smo dobili da su varijable X1, X2, i X5 indikatori fakora 1, a ispitanik A po te tri 

varijable ima ocjene: 4, 5 i 3, onda će kompozitni skor za datog ispitanika A po faktoru 1 biti: 

(4 + 5 + 3) / 3 = 4. U nastavku se za ispitanika A izračunavaju kompozitni skorovi za ostale 

faktore, a onda se postupak ponavlja za ostale ispitanike. 20 

Osnovne prednosti korištenja sumarnih skala su jednostavnost, intuitivnost i lakoća repliciranja 

rezultata u ponovljenim istraživanjima. S druge strane, glavni nedostatak je što rezultirajuće 

varijable mogu u nekoj mjeri međusobno korelirati i što se zanemaruje činjenica da različite 

varijable mogu imati različite pondere sa kojima se učitavaju na faktor. Također, korištenje 

sumarnih skala zahtjeva detaljniju analizu aspekata pouzdanosti i validnosti (Hair et al., 2006). 

Ukoliko ti aspekti nisu zadovoljeni ne bi trebali formirati sumarne skale. 


Iako izračunavanje kompozitnih skorova za svakog ispitanika djeluje kao naporan zadatak, u 

Stati možemo iskoristiti komandu egen koje će pomoći da sve izračunamo automatski. Prvo 

ćemo izračunati kompozitne skorove za prva tri faktora: 

. egen ks_pristup = rmean(lokacija parking rad_vrijeme) 

(2 missing values generated) 

. egen ks_izgled = rmean(dekor higijena izgled atmosfera) 


. egen ks_osoblje = rmean(komp_osob ljubaznost usl_osob) 


19 

Nekada se koristi i prosti zbir. Međutim, računanjem prosjeka se olakšava interpretacija obzirom da će se 

novo dobijene vrijednosti nalaziti u rasponu originalne skale. Pored toga dobija se validnija vrijednost za 

ispitanike koji su preskočili odgovor na neku od tvrdnji. 

20 

Ako neka varijabla ima negativno učitavanje na faktor, prije izračunavanja kompozitnog skora može se 

"obrnuti" da ima isti smjer kao i ostale varijable koje se učitavaju na taj faktor. Time se olakšava interpretacija i 

poređenje dobijenih skorova za različite faktore. To se radi uz pomoć naredbe recode koja je objašnjena u 

ranijim materijalima. 

38

Ovim smo Stati dali instrukciju da u skupu sa podacima kreira tri nove varijable: ks_pristup, 

ks_izgled i ks_osoblje – unutar kojih će se nalazati kompozitni skorovi za svakog ispitanika. 

Obratimo pažnju da nam je ostalo još da izračunamo kompozitni skor za faktor „Finansijski 

benefiti“ kod kojeg je tvrdnja cijena bila negativno konotirana. Za razliku od ostalih tvrdnji, 

gdje veći broj na Likertovoj skali označava veće slaganje, kod tvrdnje cijena je situacija 

obrnuta. 

Ako neki item ima negativno učitavanje na faktor, prije izračunavanja kompozitnog skora 

poželjno ga je "obrnuti" da ima isti smjer kao i ostali itemi koje se učitavaju na taj faktor. 

Drugim riječima, trebamo rekodirati varijablu cijena tako da: a) vrijednost 1 (apsolutno se ne 

slažem) postane vrijednost 5 (aposlutno se slažem), vrijednost 2 (ne slažem se) postane 

vrijednost 4 (slažem se) itd. A to postižemo uz pomoć naredbe recode: 

. recode cijene (1=5) (2=4) (3=3) (4=2) (5=1), gen (cijene_r) 

(300 differences between cijene and cijene_r) 

Naredbom smo generirali novu varijablu koja se zove cijene_r i koja sadrži "ispravljene" ili 

"obrnute" vrijednosti orginalne varijable cijene, a koje idu u istom smijeru kao i vrijednosti 

ostalih varijabli koje se učitavaju na dati faktor. Ostalo nam je još samo da generiramo 

kompozitni skor: 

. egen ks_benefiti = rmean(promocije cijene_r nag_igre) 


Obratite pažnju da smo za izračunavanje kompozitnog skora koristili novokreiranu varijablu 

cijene_r. Deskriptivna statistika za kompozitne skorove biće: 

. tabstat ks_pristup ks_izgled ks_osoblje ks_benefiti, s(mean sd p50 count min max 

skew k) format(%9.3f) 

stats | ks_pri~p ks_izg~d ks_oso~e ks_ben~i 

---------+---------------------------------------- 

mean | 4.355 3.950 4.642 4.482 

sd | 0.745 0.678 0.546 0.734 

p50 | 4.667 4.000 5.000 4.667 

N | 333.000 332.000 332.000 333.000 

min | 1.000 1.000 1.000 1.000 

max | 5.000 5.000 5.000 5.000 

skewness | -2.016 -1.223 -2.552 -1.977 

kurtosis | 8.074 6.140 14.087 7.525 

-------------------------------------------------- 

Nakon što smo izračunali faktorske i kompozitne skorove, pogledajmo kako oni međusobno 

koreliraju: 

39

. correlate fs_pristup fs_izgled fs_osoblje fs_benefiti 

(obs=324) 

| fs_pri~p fs_izg~d fs_oso~e fs_ben~i 

-------------+------------------------------------ 

fs_pristup | 1.0000 

fs_izgled | 0.0000 1.0000 

fs_osoblje | -0.0000 -0.0000 1.0000 

fs_benefiti | -0.0000 0.0000 0.0000 1.0000 

Obratimo pažnju da varijable sa faktorskim skorovima međusobno ne koreliraju jer ne dijele 

zajedničku varijansu. 

. correlate ks_pristup ks_izgled ks_osoblje ks_benefiti 

(obs=332) 

| ks_pri~p ks_izg~d ks_oso~e ks_ben~i 

-------------+------------------------------------ 

ks_pristup | 1.0000 

ks_izgled | 0.3508 1.0000 

ks_osoblje | 0.3886 0.4558 1.0000 

ks_benefiti | 0.2697 0.2110 0.2641 1.0000 

S druge strane, varijable sa kompozitnim skorovima međusobno koreliraju u izvjesnoj mjeri 

obzirom da dijele jedan dio zajedničke varijanse. 

Na kraju ćemo napomenuti da smo u ovom primjeru izračunali i faktorske i kompozitne skorove 

kako bi ilustrovali postupak kao i njihove međusobne razlike. U stvarnoj analizi istraživač se 

treba odlučiti za jednu od ove dvije opcije imajući u vidu njihove prednosti, nedostatke i 

specifične ciljeve dalje analize. 

5. KAKO NAPISATI SAŽETAK ANALIZE 


Petnaest tvrdnji mjerenih na Petostepenoj likertovoj skali i vezanih za percepciju važnosti 

razloga koje kupci razmatraju pri odabiru tržnog centra analizirano je putem eksplorativne 

faktorske analize. Veličina uzorka sa kompletnim podacima (n = 323) je bila zadovoljavajuća 

sa omjerom od preko 21 ispitanika po varijabli. Kaiser-Meyer-Olkin mjera adekvatnosi uzorka 

iznosila je KMO = 0.816 što je više od minimalno preporučenih 0.6. Bartlettov test sfericiteta 

(χ2(105) = 1413.62, p = 0.000) je bio signifikantan, dok je determinata korelacione matrice 

iznosila 0.011. Imajući u vidu sve navedeno zaključeno je da su prikupljeni podaci prikladni za 

eksplorativnu faktorsku analizu. 

Inicijalna analiza je provedena na svih petnaest varijabli indikatora koristeći prinicpal 

component factoring metod estimacije. Vodeći se Kajzerovim kriterijom zadržano je pet faktora 

koji su imali karakterističnu vrijednost veću od 1. Ovih pet faktora je objašnjavalo 64.83% 

ukupne varijanse. Dijagram prevoja i rezultati paralelne analize su dodatno potvrdili odluku o 

zadržavanju pet faktora. 

Nakon Varimax rotacije sa Kajzerovom normalizacijom utvrđeno je da se varijable broj 

blagajni i raznolikost asortimana ne uklapaju dobro u inicijalno faktorsko rješenje. Varijabla 

40

oj blagajni je imala nisko i približno jednako unakrsno učitavanje na dva faktora, dok se 

sadržajem nije najbolje uklapala niti na jedan faktor. S druge strane, varijabla raznolikost 

asortimana je bila jedina varijabla koja se učitavala na peti faktor. Utvrđeno je i da ova varijabla 

dijeli veoma mali iznos zajedničke varijanse (18%) sa ostalim varijablama. Imajući u vidu 

preporuku da bi se latentni konstrukti trebali mjeriti sa bar tri indikatorske varijable, u prvom 

koraku smo eliminisali varijablu raznolikost asortimana. Nakon njene eliminacije, korištenje 

Kajzerovog kriterija u ponovljenoj analizi je rezultiralo zadržavanjem četiri faktora. Obzirom 

da se varijabla broj blagajni i dalje nije dobro uklapala u dobijeno rješenje ona je eliminisana 

u drugom koraku čime smo dobili finalno rješenje sa četiri faktora koja objašnjavaju 62.61% 

ukupne varijanse što je prikazano u tabeli 9. 

Tabela 9 – Faktorska učitavanja nakon Varimax rotacije sa Kajezerovom normalizacijom 

Item 

41 

Faktorska učitavanja 

1 2 3 4 Komunalitet 

Lokacija tržnog centra .870 .792 

Dovoljno parking prostora .803 .729 

Česte prodajne promocije (besplatne probe i sl.) .598 .446 

Najpovoljnije cijene (R) -.834 .702 

Česte nagradne igre .784 .657 

Kompetentno osoblje .682 .558 

Ljubazan prijem .801 .717 

Ugodna atmosfera .658 .470 

Vanjski izgled tržnog centra .663 .529 

Radno vrijeme tržnog centra .684 .578 

Uslužno osoblje .834 .747 

Zadovoljavajući nivo higijene .714 .611 

Stajling i dekor unutar tržnog centra .743 .605 

Karakteristične vrijednosti (Eigenvalues) 2.138 2.126 2.073 1.803 

% ukupne varijanse 16.45 16.35 15.95 13.87 

Napomena: KMO = 0.810; Batlett χ2(78) = 1179.91, p = 0.000; prikazana su samo faktorska učitavanja > |.30| 

Faktor 1 je nazvan “Pogodnost pristupa” i odnosi se stvari koje kupcima olakšavaju pristup 

tržnom centru kao što su: lokacija, parking i dužina radnog vremena. Faktor 2 se odnosi na 

“Izgled” tržnog centra koji se manifestuje preko atmosfere, izgleda, higijene i unutrašnjeg 

dekora. Faktor 3 smo nazvali “Osoblje” obzirom da se tvrdnje koje se učitavaju na taj faktor 

odnose na kompetentnost, ljubaznost i uslužnost osoblja koje je u dodiru sa kupcima. Faktor 4 

je imenovan “Novčani benefiti” jer povezuje tvrdnje koje se odnose na finansijske koristi koje 

kupci mogu ostvariti u tržnom centru kroz cijene, promocije i nagradne igre. 

Po završetku faktorske analize, provjerena je interna konzistentnost skale izračunavanjem 

Kronbah alfa koeficijenta. Imajući u vidu eksplorativni karakter studije, koeficijent alfa je bio 

zadovoljavajući. 

Na kraju su kreirani kompozitni skorovi na bazi prosjeka varijabli koje se primarno učitavaju 

na svaki od četiri faktora, gdje veći skor označava veću važnost faktora pri donošenju odluke o

izboru tržnog centra. Prije kreiranja skorova negativno konotirana tvrdnja vezana za cijene je 

rekodirana tako da njene vrijednosti imaju isti smjer kao i vrijednosti ostalih varijabli. 

Deskriptivna statistika i rezultati analize pouzdanosti su predstavljeni u tabeli 10. 

Tabela 10 – Deskriptivna statistika i rezultati analize pouzdanosti za četiri faktora izbora tržnog 

centra (n = 332) 

Broj itema M (SD) Skewness Kurtosis Cronbach’s α 

Pogodnost pristupa 3 4.36 (.75) -2.02 8.07 .777 

Izgled 4 3.95 (.68) -1.22 6.14 .686 

Osoblje 3 4.64 (.55) -2.55 14.09 .734 

Novčani benefiti 3 4.48 (.73) -1.98 7.53 .628 

Na osnovu rezultata u tabeli 10 možemo zaključiti da je interakcija sa zaposlenim osobljem 

najvažniji faktor kojeg kupci razmatraju pri izboru tržnog centra, dok je izgled najmanje bitan. 

Ipak, pri tumačenju važnosti trebamo biti oprezni obzirom da distribucije za sva četiri faktora 

znatno nakrivljene prema pozitivnim ocjenama i da su razlike u prosjecima vrlo male. 

42

6. PRILOZI 

Prilog 1 – Korelaciona matrica za petnaest indikatorskih varijabli 

. pwcorr lokacija-asortiman 

| lokacija parking promoc~e cijene nag_igre komp_o~b br_bla~i 

-------------+--------------------------------------------------------------- 

lokacija | 1.0000 

parking | 0.6868 1.0000 

promocije | 0.2322 0.3113 1.0000 

cijene | -0.1390 -0.1433 -0.2917 1.0000 

nag_igre | 0.2255 0.2701 0.3504 -0.4754 1.0000 

komp_osob | 0.2593 0.2956 0.1365 -0.1173 0.2851 1.0000 

br_blagajni | 0.2515 0.3448 0.2756 -0.2018 0.3177 0.4542 1.0000 

ljubaznost | 0.1915 0.2565 0.2614 -0.1248 0.1827 0.4452 0.4166 

atmosfera | 0.0692 0.1576 0.0860 -0.0706 0.0838 0.1774 0.3298 

izgled | 0.1838 0.2286 0.1753 -0.0727 0.1598 0.3336 0.3504 

rad_vrijeme | 0.4784 0.4295 0.1800 -0.0087 0.1751 0.3037 0.2537 

usl_osob | 0.1984 0.2808 0.2412 -0.1039 0.1701 0.4884 0.2628 

higijena | 0.2826 0.2976 0.2025 -0.0791 0.1817 0.2876 0.3482 

dekor | 0.2105 0.2479 0.1750 -0.1276 0.1374 0.2813 0.2731 

asortiman | 0.0146 0.0425 0.1661 -0.1399 0.2012 0.1561 0.1653 

| ljubaz~t atmosf~a izgled rad_vr~e usl_osob higijena dekor 

-------------+--------------------------------------------------------------- 

ljubaznost | 1.0000 

atmosfera | 0.2764 1.0000 

izgled | 0.3445 0.3441 1.0000 

rad_vrijeme | 0.2882 0.1248 0.2940 1.0000 

usl_osob | 0.6152 0.2369 0.2892 0.3033 1.0000 

higijena | 0.3214 0.3123 0.3997 0.3186 0.3235 1.0000 

dekor | 0.2516 0.2582 0.3895 0.2432 0.2283 0.4940 1.0000 

asortiman | 0.1812 0.0423 0.1673 0.2869 0.2149 0.2333 0.1647 

| asorti~n 

-------------+--------- 

asortiman | 1.0000 

43

References 

Burns, R., & Burns, R. (2008). Business research methods and statistics using SPSS. Los 

Angeles, London: SAGE. 

Cortina, J. M. (1993). What Is Coefficient alpha? An Examination of Theory and 

Applications. Journal of Applied Psychology, 78(1), 98–104. 

Costello, A. B., & Osborne, J. W. (2005). Best Practices in Exploratory Factor Analysis:: 

Four Recommendations for Getting the Most From Your Analysis. Practical Assessment, 

Research & Evaluation, 10(7), 1–9. 

Dancey, C. P., & Reidy, J. (2011). Statistics Without Maths for Psychology (5th ed.): Pearson 

Prentice Hall. 

DeCoster, J. (1998). Overview of Factor Analysis. Retrieved from http://www.stathelp.com/notes.html 

DiStefano, Christine, Zhu, Min & Mîndrilă, & Diana. (2009). Understanding and Using 

Factor Scores:: Considerations for the Applied Researcher. Practical Assessment, Research 

& Evaluation, 14(20). 

Drennan, R. D. Statistics for Archaeologists: A Common Sense Approach (2nd ed.). 

Interdisciplinary Contributions to Archaeology: Springer. 

Fabrigar, L. R., Wegener, D. T., MacCallum, R. C., & Strahan, E. J. (1999). Evaluating the 

use of exploratory factor analysis in psychological research. Psychological Methods, 4(3), 

272–299. https://doi.org/10.1037/1082-989X.4.3.272 

Field, A. (2009). Discovering Statistics Using SPSS: Introducing Statistical Methods (3rd 

ed.): SAGE Publications Ltd. 

George, D., & Mallery, P. (2003). SPSS for Windows step by step: A simple guide and 

reference, 11.0 update (4th ed.). Boston: A & B. 

Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. D. (2006). Multivariate 

Data Analysis (6th ed.): Pearson Prentice Hall. 

Howitt, D., & Cramer, D. (2011). Introduction to Statistics in Psychology (5th ed.): Pearson 

Prentice Hall. 

Huck, S. W. (2012). Reading Statistics and Research (6th ed.): Pearson Education, Inc. 

Malhotra, N. K. (2010). Marketing Reseaerch: An Applied Orientation (6th ed.): Prentice 

Hall. 

Mazzocchi, M. (2008). Statistics for marketing and consumer research. London: SAGE 

Publications Ltd. 

Norman, G. R., & Streiner, D. L. (2003). PDQ statistics (3rd ed.). PDQ series. Hamilton, 

Ont., London: B.C. Decker. 

Nunnally, J. C. (1978). Psychometric theory (2nd). New York: McGraw-Hill. 

O'Rourke, N., Hatcher, L., & Stepanski, E. J. (2005). A step-by-step approach to using SAS® 

for univariate & multivariate statistics (2. ed., 1. print). Cary, NC: SAS Inst. Retrieved 

from http://www.loc.gov/catdir/enhancements/fy0625/2005051062-d.html 

Osborne, J. W. (2015). What Is Rotating in Exploratory Factor Analysis? Practical 

Assessment, Research & Evaluation, 20(2), 1–7. 

Pallant, J. (2011). SPSS Priručnik za preživljavanje: Postupni vodič kroz analizu podataka 

pomoću SPSS-a (4th ed.): Mikro knjiga. 

Rabe-Hesketh, S., & Everitt, B. (2004). A handbook of statistical analyses using Stata (3rd 

ed.). Boca Raton Fla.: Chapman & Hall/CRC. 

44

Sarstedt, M., & Mooi, E. (2014). A concise guide to market research: The process, data, and 

methods using IBM SPSS Statistics (2nd ed. 2014). Springer Texts in Business and 

Economics. Berlin, Heidelberg, s.l.: Springer Berlin Heidelberg. Retrieved from 

http://www.guide-market-research.com/ 

Singh, K. (2007). Quantitative social research methods. Thousand Oaks, Calif., London: Sage 

Publications. 

Subotić, S. (2013). Pregled metoda za utvrđivanje broja faktora i komponenti (u EFA i PCA). 

Primenjena psihologija, 6(3), 203–229. 

Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics (5th ed.): Pearson 

Education, Inc. 

Taylor, A. (2004). A Brief Introduction to Factor Analysis. 

Williams, B., Brown, T., & Onsman, A. (2012). Exploratory factor analysis:: A five-step 

guide for novices. Australasian Journal of Paramedicine, 8(3), 1–13. 

Yong, A. G., & Pearce, S. (2013). A Beginner’s Guide to Factor Analysis:: Focusing on 

Exploratory Factor Analysis. Tutorials in Quantitative Methods for Psychology, 9(2), 79– 

94. 

Zikmund, W. G., Babin, B. J., Carr, J. C., & Griffin, M. (2009). Business Research Methods 

(8th ed.): Cengage Learning. 

45



Osnove inferencijalne statistike 1 

Autor: 


Sarajevo, 04. april 2017. godine 

1 



1

Sadržaj 

I OSNOVE INFERENCIJALNE STATISTIKE ............................................................................. 3 

1. Teoretske distribucije ................................................................................................... 3 

1.1. Pojmovno određenje teoretske distribucije .............................................................. 3 

1.2. Uobičajene teoretske distribucije ............................................................................. 4 

1.3. Procjena oblika distribucije ...................................................................................... 4 

1.4. Opservirana nasuprot teoretskoj distribuciji ............................................................ 5 

1.5. Upotreba teorestksih distribucija ............................................................................. 5 

2. Normalna distribucija i njene karakteristike ............................................................. 5 

3. Standardna normalna distribucija .............................................................................. 6 

3.1. Standardizacija podataka ......................................................................................... 7 

3.2. Standardna ili z-distribucija ..................................................................................... 9 

3.3. Standardna normalna distribucija i vjerovatnoća ..................................................... 9 

3.4. Područja ispod krive normalne distribucije ............................................................. 9 

3.5. Tablične vrijednosti za standardnu normalnu distribuciju ..................................... 10 

3.6. Kritične z-vrijednosti ............................................................................................. 12 

4. Primjena standardne normalne distribucije ............................................................. 14 

5. Sampling distribucija i standardna greška ............................................................... 18 

5.1. Greška mjerenja i uzorkovanja .............................................................................. 18 

5.2. Sampling distribucija ............................................................................................. 19 

5.3. Procjena standardne greške .................................................................................... 20 

6. Centralni granični teorem .......................................................................................... 21 

7. Estimacija i interval povjerenja ................................................................................. 23 

7.1. Preciznost estimacije .............................................................................................. 23 

7.2. Interval povjerenja ................................................................................................. 24 

8. Studentova t-distribucija ............................................................................................ 26 

8.1. Problem malog uzorka i primjene z-distribucije .................................................... 26 

8.2. Rješenje problema: t-distribucija ........................................................................... 26 

8.3. Statističke tablice za t-distribuciju ......................................................................... 27 

8.4. Standardna greška i interval povjerenja za t-distribuciju ....................................... 28 

9. Binomna distribucija................................................................................................... 29 

9.1. Karakteristike binomne distribucije ....................................................................... 29 

9.2. Aritmetička sredina i standardna devijacija binomne distribucije ......................... 33 

9.3. Normalna aproksimacija binomne distribucije ...................................................... 34 

9.4. Provjera preciznosti aproksimacije binomne distribucije ...................................... 36 

9.5. Sampling distribucija proporcije i standardna greška proporcije .......................... 36 

2

I 

OSNOVE INFERENCIJALNE STATISTIKE 

1. TEORETSKE DISTRIBUCIJE 

Teoretske distribucije su temelj na kojima počiva statistička teorija. U ovom kratkom uvodu 

objasnićemo šta podrazumijevamo pod teoretskom distribucijom, predstaviti neke od 

uobičajenih teoretskih distribucija i vidjeti u kakvom se odnosu nalaze sa empirijskim 

(opserviranim) distribucijama. 

1.1. POJMOVNO ODREĐENJE TEORETSKE DISTRIBUCIJE 

U poglavlju X smo dali pregled mjera centralne tendencije i disperzije kao načina opisivanja 

podataka i upoznali se sa pojmom distribucije frekvencija i relativne distribucije frekvencija. U 

bliskoj vezi sa relativnom distribucijom frekvencija je pojam teoretske distribucije. Teoretska 

distribucija ili distribucija vjerovatnoće (engl. probability distribution) je ništa drugo do 

relativna distribucija frekvencija za beskonačno veliki uzorak opservacija koja je opisana 

matematskom formulom. 

Na primjer, pretpostavimo da iz populacije slučajnim odabirom selektujemo ispitanike i 

bilježimo vrijednost njihovih mjesečnih primanja što je predstavljeno na slici 1. 

Slika 1 – Teoretska distribucija i kriva gustoće za mjesečna primanja 

Izvor: hipotetski podaci 

Kako se broj ispitanika povećava, tako se vrhovi stupaca na histogramu za neprekidnu varijablu 

"mjesečna primanja" sve više i više približavaju glatkoj krivoj na slici 1. Ova kriva se naziva 

krivom gustoće (engl. density curve) i opisuje oblik relativne distribucije frekvencija koji bi se 

teoretski trebao javiti za opservacije iz populacije koja je predmetom studije. 

3

1.2. UOBIČAJENE TEORETSKE DISTRIBUCIJE 

Statističari su identifikovali nekoliko uobičajenih distribucija vjerovatnoće. Na slici 2 su 

predstavljene samo neke od tih distribucija. Možemo primjetiti da između različitih distribucija 

postoje poveznice. Na primjer, vidimo da se pod određenim uslovima neke prekidne distribucije 

(binomna, hipergeometrijska i Posaonova) mogu aproksimirati normalnom distribucijom. Iz 

normalne distribucije se izvode: a) Studentova t-distribucija koja u odnosu na normalnu ima 

nešto više raspršene vrijednostima oko sredine, b) χ 2 (hi-kvadrat) distribucija koju dobijemo 

ako saberemo kvadrirane vrijednosti varijabli koje slijede normalnu distribuciju i c) log 

normalna distribucija koja se odnosi na raspodjelu slučajne varijable čije su logaritmaske 

vrijednosti normalno distribuirane. 2 

Slika 2 – Neke od uobičajenih teoretskih distribucija 

Izvor: Sean Owen 

Najpoznatija teoretska distribucija za kontinuirane varijable je normalna distribucija, dok je za 

diskretne (prekidne) varijable najpoznatija binomna distribucija. 

Iako dolaze u raznim oblicima, svim teoretskim distribucijama zajedničko je to da zbir 

vjerovatnoća ispod krive gustoće uvijek mora biti jednak 1. 

1.3. PROCJENA OBLIKA DISTRIBUCIJE 

Prije bilo kakve analize podataka, poželjno je da se upoznamo sa vlastitim podacima tako što 

ćemo ispitati oblik njihove distribucije. Procjena oblika distribucije (engl. distribution-fitting) 

podrazumjeva analizu distribucije frekvencija određene opservirane varijable kako bi se 

donijela odluka o tome koju teoretsku distribuciju prati data varijabla. Procjena se u praksi 

najčešće vrši na bazi uzorka i to na način da vizualno, ili uz pomoć sepcijaliziranog softvera, 

pokušamo utvrditi u kojoj mjeri se empirisjka distribucija frekvencija za podatke iz uzorka 

poklapa sa nekom od poznatih teoretskih distribucija. Odabir odgovarajuće teoretske 

distribucije je bitan iz razloga što nam omogućava smanjenje greški prilikom statističke analize, 

a samim tim i izbjegavanje pogrešnih zaključaka i donošenje loših odluka. 

2 

Više o međusobnoj povezanosti različitih teoretskih distribucija možete pročitati na: http://tinyurl.com/gnptgqw 

4

1.4. OPSERVIRANA NASUPROT TEORETSKOJ DISTRIBUCIJI 

Nakon što se identifikuje odgovarajuća teoretska distribucija, ona se može upotrijebiti kako bi 

se razumjeli opservirani obrasci unutar podataka. U tom kontekstu, možemo reći da opservirana 

distribucija frekvencija za slučajnu varijablu X pokazuje koliko puta se neka vrijednost 

pojavljuje unutar skupa podataka, a teoretska distribucija pokazuje koliko puta bi se ta 

vrijednost trebala pojaviti ukoliko slučajna varijabla X unutar populacije slijedi jednu od 

uobičajenih distribucija vjerovatnoće. 

1.5. UPOTREBA TEORESTKSIH DISTRIBUCIJA 

Već smo rekli da su teoretske distribucije temelj na kojima počiva statistička teorija. Bitnost 

njihove uloge proizilazi iz toga što su korisne za rješavanje mnogih poslovnih i drugih problema 

jer nam pomažu pri utvrđivanju vjerovatnoće da će se desiti događaj od interesa, da će se 

opservacija naći unutar određenog intervala i sl. Pored ovoga, teoretske distribucije 

omogućavaju da poredimo varijanse ili stvarne i očekivane frekvencije, kako bi utvrdili 

vjerovatnoću na osnovu koje možemo donijeti sud o tome da li dobijene razlike predstavljaju 

stvarni efekat ili su rezultat slučajnih fluktuacija prilikom uzorkovanja. Sa nekim od ovih 

primjena upoznaćemo se detaljnije na primjeru normalne distribucije. 

2. NORMALNA DISTRIBUCIJA I NJENE KARAKTERISTIKE 

Vjerovatno najvažnija teoretska distribucija u statistici je normalna distribucija. Naime, uočeno 

da prirodne varijacije za mnoge fenomene u prirodnim i društvenim naukama slijede normalnu 

distribuciju. Na primjer, ako izaberemo slučajni uzorak 100 osoba i na histogramu prikažemo 

njihove visine, vjerovatno je da će taj histogram slijediti oblik normalne distribucije. 

Normalna distribucija ima centralnu ulogu u statističkoj teoriji jer se na nju naslanja većina 

parametrijskih procedura uključujući i testove signifikantnosti. Matematski izraz za normalnu 

distribuciju glasi: 

f ( x) 

 

1 

e 

2 

2 

( x ) 

2 

2 

Ova prilično komplikovana formula opisuje krivu normalne distribucije. Obzirom da su π i e 

konstante, oblik krive normalne distribucije zavisi prvenstveno od aritmetička sredine (μ) i 

standardne devijacije (σ). Iz tog razloga normalna distribucija se često označava sa N(μ,σ), gdje 

N govori da se radi o normalnoj distribuciji. 

Primjer 2.1 

Pretpostavimo da smo na bazi uzorka prikupili podatke o prosječnim neto platama tokom jedne 

kalendarske godine u tri različite industrije. Nakon što su podaci obrađeni, ustanovljeno je da u 

industriji A imamo N(1000, 250), što znači da je prosječna plata 1.000 KM i da je standardna 

devijacija 250 KM. U industriji B je N(1000, 300), dok je u industriji C N(1000, 200). Dakle, 

5

prosječna primanja su identična u sve tri industrije ali je disperzija oko aritmetičke sredine 

drugačija. Pretpostavimo da imamo i industriju D gdje je N(1100, 200). Na slici 3 su prikazane 

ove četiri distribucije. 

Slika 3 – Distribucija plata unutar četiri industrije 

Ako pogledamo sliku 3 uočićemo da prethodna formula u suštini definiše porodicu krivih koje 

se razlikuju u pogledu disperzije (σ) i centralne tendencije (μ). U svim ostalim aspektima 

članovi porodice imaju iste karakteristike koje se ogledaju u sljedećem: 

1. Simetričnost. Proporcija vrijednosti koje se nalazi ispod aritmetičke sredine jednaka je 

proporciji vrijednosti koje se nalazi iznad aritmetičke sredine. 

2. Unimodalnost. Svaka normalna distribucija ima jedan maksimum i njegova vrijednost 

je identična vrijednosti aritmetičke sredine, medijane i moda. 

3. Oblik zvona. Vidimo da je većina vrijednosti koncentrisana oko aritmetičke sredine (μ) 

i primjetan je opadajući trend kako se krećemo prema krajevima distribucije. 

4. Normalna distribucija je asimptomska (engl. asymptotic) jer njeni krajevi nikada ne 

dotiču X osu. 

U stvarnosti se rijetko dešava da prikupljeni podaci imaju ovako savršenu distribuciju. 

Međutim, za praktičnu primjenu najčešće je dovoljno da opserivrana distribucija frekvencija 

približno slijedi teoretsku normalnu distribuciju jer će tada izračuni vjerovatnoće i rezultati 

testiranja hipoteza biti približno tačni. 

3. STANDARDNA NORMALNA DISTRIBUCIJA 

Normalna distribucija je detaljno izučena i bilo koja pojedinačna vrijednost ili opservacija 

unutar teoretske normalne distribucije ima tačno pridruženu vjerovatnoću. Međutim, prije nego 

predstavimo ove vjerovatnoće i njihove intervale potrebno je da se upoznamo sa konceptom 

standardizacije i standardne normalne distribucije. 

6

3.1. STANDARDIZACIJA PODATAKA 

Kada u obzir uzmemo da svaka varijabla čiji raspored slijedi normalnu distribuciju može imati 

različitu aritmetičku sredinu (μ) i standardnu devijaciju (σ), broj unikatnih normalnih 

distribucija postaje praktično beskonačan. Ovo može stvoriti problem ako želimo porediti 

vrijednosti između različitih distribucija. 

Primjer 3.1 

Pretpostavimo da su tri komercijalista, svaki na području svog kantona, tokom mjeseca 

ostvarila prihod od prodaje predstavljen u tabeli 1. Pored toga u tabeli je za svaki kanton data 

prosječna prodaja i njen varijabilitet za sve ostale komercijaliste koji rade za istu kompaniju. 

Tabela 1 – Usporedba prodajnog rezultata za trojicu komercijalista 

Komercijalista 

Rejon 

Ostvarena prodaja Prosječna prodaja Standardna 

komerc. u KM na rejonu u KM (μ) devijacija u KM (σ) 

A Kantnon Sarajevo 20.400 17.200 5.000 

B Posavski kanton 10.200 8.800 1.040 

C Tuzlanski kanton 12.700 13.300 4.000 

Ukoliko uporedimo ostvarenu prosječnu prodaju doći ćemo do zaključka da je u pogledu 

rezultata najbolji komercijalista A sa prodajnim rezultatom od 20.400 KM, dok je najlošiji 

komercijalista B koji je ostvario samo 10.200 KM. Međutim, ne smijemo zaboraviti da broj 

potencijalnih klijenata i njihova platežna sposobnost varira od kantona do kantona. Ovo se može 

vidjeti u tabeli 1 gdje je najveća prosječna prodaja svih komercijalista ostvarena u Kantonu 

Sarajevo, a najmanja u Posavskom kantonu. Obzirom na različite uslove koji karakterišu svaki 

kanton, nije pošteno direktno porediti prodajni rezultat i zaključiti da je komercijalista A duplo 

bolji od komercijaliste B. 

Na koji način ćemo onda napraviti usporedbu i saznati koji komercijalista je ostvario najbolji 

rezultat? 

Da bi mogli dati odgovor na postavljeno pitanje, moramo orginalne vrijednosti dobijene u 

različitim uslovima učniti međusobno uporedivim. Način na koji to možemo izvesti je da 

izvorne vrijednosti dobijene u različitim kantonima pretvorimo u vrijednosti izražene na 

zajedničkoj skali. Postupak kojim se dvije različite skale mogu svesti na zajedničku mjeru 

naziva se standardizacijom, a jedna od najčešće korištenih metoda standardizacije sastoji u 

tome da sve orginalne vrijednosti pretvorimo u vrijednosti izražene preko standardne devijacije: 

orginalna vrijednost prosjek 

standardna vrijednost ( z ) = 

standardna devijacija 

Ovakvom transformacijom smo dobili standardnu ili z-vrijednost (engl. z-score) koja nam 

govori koliko je orginalna vrijednost udaljena od prosjeka mjereno u jedinicama standardne 

devijacije. 

U slučaju primjera sa komercijalistima iskoristićemo podatke iz tabele 1 da izračunamo z- 

vrijednosti za svakog komercijalistu: 

7

z(komercijalista A) = (20.400 – 17.200)/5000 = +0,64 

z(komercijalista B) = (10.200 – 8.800)/1040 = +1,35 

z(komercijalista C) = (12.700 – 13.300)/4000 = −0,15 

Pozicija izračunatih vrijednosti unutar standardne normalne distribucije je prikazana na slici 4. 

Slika 4 – Standardizovane vrijednosti komercijalista 

Dakle, za komercijalistu A sa prosječnom prodajom od 20.400 KM standardizovana vrijednost 

iznosi z = +0,64 i to znači da se on unutar distribucije nalazi 0,64 standardnih devijacija iznad 

prosjeka ostalih komercijalista sa područja Kantona Sarajevo. Istovremeno, komercijalista B se 

nalazi 1,35 standardne devijacije iznad prosjeka ostalih komercijalista unutar Posavskog 

kantona. Ovo znači da je komercijalista B, kada se u obzir uzmu različiti uslovi poslovanja u 

ova dva knatona, u relativnom omjeru efikasniji od kolege A iz Kantona Sarajevo. Konačno, 

komercijalista C ima negativnu standardnu vrijednosti z = −0,15 što govori da se on nalazi nešto 

ispod prosjeka svojih kolega iz Tuzlanskog kantona. 

Primjer 3.2 

Pretpostavimo da su tokom istraživanja kupci zamoljeni da izraze preferencije prema marci A 

i da su dobijeni rezultati distribuirani sa N(5,2). U međuvremenu, proizvođač je napravio 

izmjene na proizvodu nakon čega je drugi tim istraživača ponovo mjerio preferencije potrošača. 

Igrom slučaja, oni su koristili drugačiju skalu kojom su zabilježili vrijednosti N(15,5). Da li su 

preferencije ispitanika koji je na prvoj skali imao ocjenu 7, a na drugoj skali ocjenu 22, veće 

prije ili nakon izmijena? Obzirom da dvije skale na kojima su mjerene preferencije očito imaju 

drugačija svojstva, teško je napraviti direktno poređenje. 

Zbog toga ćemo za uporedbu koristiti standardne vrijednosti. Ako orginalnu vrijednost prve 

skale konvertujemo u z-vrijednost dobićemo da je z = (7 − 5)/2 = +1.0. Ovo nam govori da se 

rezultat prvog mjerenja za odabranog ispitanika nalazi tačno jednu standardnu devijaciju iznad 

prosjeka uzorka. Ako je isti ispitanik u ponovljenom istraživanju na drugoj skali imao 22, 

standardna vrijednost će biti z = (22-15)/5 = +1.4, što upućuje na to da je modifikacija proizvoda 

iz njegove perspektive bila uspješna. 

8

Obratimo pažnju da z-vrijednosti ne govore ništa direktno o apsolutnim iznosima i da na osnovu 

njih možemo vršiti samo relativne uporedbe. Na primjer, možemo uporediti relativnu prodaju 

komercijalista na različitim područjima ili uporediti relativni iznos poreza kojeg je pojedinac 

platio 2001. sa onim iz 2016. godine, ali na osnovu z-vrijednosti ne možemo reći ništa o 

apsolutnom iznosu prodaje ili plaćenog poreza. 

3.2. STANDARDNA ILI Z-DISTRIBUCIJA 

Vrijednosti bilo koje normalno distribuirane varijable možemo pretvoriti u standardizovane 

vrijednosti korištenjem prethodno navedene formule. U tom slučaju, rezultirajuća distribucija 

se naziva se standardnom normalnom distribucijom ili z-distribucijom. Ona se označava sa 

N(0,1), što znači da ima prosjek 0 i standardnu devijaciju 1, kao što se može vidjeti na slici 4. 

Iako standardizacija omogućava kompariranje rezultata mjerenih na različitim skalama bitno je 

napomenuti da ona ne mijenja osnovne aspekte orginalne distribucije. Prvo, sve opservacije 

zadržavaju isti relativni položaj kao i u orginalnoj distribuciji. Samim tim i proporcije između 

njih ostaju identične. Drugo, oblik z-distibucije ostaje nepromjenjen. Ako je orginalna 

distribucija bila nesimetrična i z-distribucija će imati nesimetričan oblik. Ovo je bitno upamtiti 

jer nekada istraživači naprave grešku misleći da mogu „normalizovati" nesimetrično 

distribuiranu varijablu time što će je pretvoriti u z-vrijednosti, što nije tačno. 

Standardna normalna distribucija ima svojstva koja se mogu primjeniti na sve probleme u 

kojima varijabla ima normalan raspored što će biti ilustrovano u narednim sekcijama. 

3.3. STANDARDNA NORMALNA DISTRIBUCIJA I VJEROVATNOĆA 

Zašto je važna normalna distribucija? Statističari su iskoristili činjenicu da se preko prosjeka 

(μ) i standardne devijacije (σ) matematski može predstaviti oblik normalne distribucije kako bi 

izračunali vjerovatnoću pojave bilo koje numeričke vrijednosti unutar normalno distribuirane 

varijable. Drugim riječima, bilo koja pojedinačna vrijednost ili opservacija unutar teoretske 

normalne distribucije ima tačno pridruženu vjerovatnoću. Na bazi toga je izračunato koliki 

postotak od ukupnog broja vrijednosti ili opservacija se nalazi u određenim intervalima. Upravo 

ove dobro poznate vjerovatnoće su razlog zašto veliki broj statističkih testova podrazumjeva 

normalnu distribuciju. 

3.4. PODRUČJA ISPOD KRIVE NORMALNE DISTRIBUCIJE 

Primjer 3.2 

Da bi ilustrovali ove koncepte poslužimo se sa sljedećim primjerom. Pretpostavimo da je 

utvrđeno da iznos novca kojeg turisti potroše tokom sedmičnog boravka u jednom hotelskom 

kompleksu slijedi normalnu distribuciju sa prosjekom μ = 1.000 KM i standardnom devijacijom 

σ = 200 KM. Na slici 5 je grafički predstavljena ova distribucija. Ispod x-ose nalaze se izvorne 

vrijednosti u KM, standardizovane z-vrijednosti koje označavaju udaljenosti opservirane 

dnevne potrošnje od aritmetičke sredine izražen u broju standardnih devijacija i pridružene 

vjerovatnoće (p). Šta znače ove vjerovatnoće i kako ih interpretiramo? 

9

Slika 5 - Područja ispod krive normalne distribucije za varijablu sa μ = 1.000 KM i σ = 200 

KM 

Prvo, standardizovana vrijednost koja je jednaka aritmetičkoj sredini ima z = 0 i p = 0,50. 

Obzirom da je teoretska normalna distribucija unimodalna i savršeno simetrična, ovo znači da 

se 50% vrijednosti distribucije se nalazi ispod aritmetičke sredine, a 50% iznad aritmetičke 

sredine. Dakle, možemo reći da tokom boravka polovica turista potroši 1.000 KM ili manje, 

dok ostalih pola potroši 1.000 KM ili više. 

Drugo, najveći broj standardizovanih vrijednosti je koncentrisan oko aritmetičke sredine. 

Međutim, kako se od aritmetičke sredine krećemo prema krajevima distribucije vjerovatnoća 

da se pojavi vrijednost znatno različita od prosjeka opada. Tako na udaljenosti z = ±1 od 

prosjeka, vjerovatnoća pojave individualne vrijednosti iznosi p = 0,159. Ovo znači da će se 

15,9% opservacija na lijevoj strani distribucije nalaziti ispod −1 SD, dok će se 15,9% 

opservacija na desnoj strani distribucije nalaziti iznad +1 SD. Ukoliko zbrojimo ove dvije 

vrijednosti dobićemo da se 15,9% + 15,9% = 31,8% opservacija ili vrjednosti u normalnoj 

distribuciji nalazi izvan raspona od ±1 SD. Preostalih 100% − 31,8% = 68,2% opservacija će se 

nalaziti unutar površine koju čini raspon od −1 SD do +1 SD. Polovica od ovog broja, tj. 34,1% 

svih opservacija će se nalaziti između −1 SD i aritmetičke sredine, dok će se druga polovica 

nalaziti između aritmetičke sredine +1 SD. 

Treće, koristeći se istom računicom doći ćemo do zaključka da će se 95,6% svih vrijednosti 

normalne distribucije nalaziti unutar raspona od −2 SD do +2 SD, dok će ih se 99,8% nalaziti 

unutar raspona od −3 SD do +3 SD. 

3.5. TABLIČNE VRIJEDNOSTI ZA STANDARDNU NORMALNU DISTRIBUCIJU 

Statističari su utvrdili koliki procenat distribucije će se nalaziti između aritmetičke sredine i 

bilo koje z-vrijednosti. Tablice u kojima se nalaze ovakvi podaci obično se nalaze u dodatku 

10

svakog statističkog udžbenika. Kako je proporcija između dvije vrijednosti N(μ,σ) jednaka 

proporciji između korespondirajućih vrijednosti u N(0,1), možemo iskoristiti z-vrijednost da 

dobijemo proporciju koja se nalazi na bilo kojem položaju ispod krive normalne distribucije. 

Vratimo se na raniji primjer i uzmimo da je slučajno odabrani posjetilac tokom boravka u 

hotelskom kompleksu potrošio 1.256 KM. Njegova pozicija je unutar distribucije je prikazana 

na slici 6. Koliko turista je tokom boravka potrošilo više novca u odnosu na odabranog 

ispitanika? 

Slika 6 - Pozicija ispitanika sa orginalnom vrijednosti 1.256 KM i z = +1,28 

Kako bi dali odgovor na ovo pitanje moramo utvrditi proporciju turista koji imaju veće izdatke 

od 1.256 KM i koji se na slici 6 nalaze u osjenčenom području. U tu svrhu poslužićemo se 

statističkim tablicama za normalnu distribuciju i standardnim (z) vrijednostima. 

U tabeli 2 predstavljen je samo dio cjelokupne tablice za normalni raspored iz koje se čitaju z- 

vrijednosti i njima pridružene odgovarajuće proporcije. Tako vidimo da vrijednosti z = 0,00 

odgovara broj .50. Već znamo da z = 0 predstavlja prosjek standardne normalne distribucije, a 

proporcija .50 govori da 50% turista tokom sedmičnog boravka izdvaja manje od prosjeka koji 

iznosi 1.000 KM. 

Tabela 2 – Tablične z-vrijednosti 

z 0.00 0.01 0.02 ... .... 0.08 .... 

0.0 .5000 .4960 .4920 .4681 

0.1 .4602 .4562 .4522 .4286 

... 

1.2 .3849 .3869 .3888 .1003 

... 

Posjetilac koji sedmično troši 1.256 KM na usluge hotelskog kompleksa imaće standardizovanu 

vrijednost z = (167,7 − 119 ) / 38 = +1,28. Vrijednosti z = 1,28 u tablici odgovara broj .1003 

koji govori da 10% ostalih posjetilaca ima veće sedmične izdatke u odnosu na odabranog 

ispitanika. 

11

3.6. KRITIČNE Z-VRIJEDNOSTI 

U praksi se obično koriste nešto precizniji rasponi od prethodno navedenih "okruglih" 

vrijednosti kao što su ±2 ili ±3 SD. Standardizovane vrijednosti na osnovu kojih se definišu ti 

precizniji rasponi nazivaju se kritičnim vrijednostima (engl. critical values) i koriste se kod 

testova signifikantnosti. U tabeli 3 i na slici 7 su prikazane najčešće korištene kritične z- 

vrijednosti koje se označavaju sa zα gdje se α (alfa) odnosi na područje koje se nalazi na repu 

normalne distribucije (engl. tail area). Obzirom da je distribucija simetrična i da postoje dva 

repa, centralno područje se definiše kao 1−2α. 

Tabela 3 - Kritične z-vrijednosti za oba kraja distribucije 

α = tail area central area = 1 – 2α zα 

0.05 0.90 z.05 = ±1.645 

0.025 0.95 z.025 = ±1.96 

0.005 0.99 z.005 = ±2.58 

Sa slike 7 vidimo da će se 90% opservacija za bilo koju normalno distribuiranu varijablu 

nalaziti u rasponu ±1,645 standardne devijacije oko aritmetičke sredine. Zbog toga kažemo da 

kritična vijednost z = ±1,645 korespondira sa centralnim područjem 0,90. Ostalih 10% 

opservacija će se nalaziti na krajevima distribucije, i to 5% na lijevom i 5% na desnom repu. U 

primjeru sa izdacima turista, to bi značilo da se 90% svih zabilježenih vrijednosti kretalo u 

rasponu od 671 do 1.329 KM. Od preostalih vrijednosti njih 5% je bilo manje od 671 KM, dok 

je 5% bilo veće od 1.329 KM. Na sličan način tumačimo i ostale kritične vrijednosti. 

Slika 7 – Kritične z-vrijednosti za oba kraja distribucije 

U praksi nas često interesuju i kritične vrijednosti na samo jednom kraju standardne normalne 

distribucije. U tabeli 4 i na slikama 8 i 9 su date kritične vrijednosti kojima se odvaja 5%, 

odnosno 1% opservacija na jednom kraju distribucije. U ovom slučaju, centralno područje se 

definiše kao 1 − α. 

12

Tabela 4 - Kritične z-vrijednosti za jedan kraj distribucije 

α = tail area central area = 1 – α zα 

0.05 0.95 z.05 = ±1.645 

0.01 0.99 z.005 = ±2.325 

Ako se vratimo na prethodni primjer, vidimo da će se u normalnoj distribuciji 95% opservacija 

nalaziti ispred kritične vrijednosti z = +1,645, dok će se preostalih 5% opservacija nalaziti iza 

te kritične vrijednosti. Isto tako, 99% svih opservacija će se nalaziti ispred z = +2,325, a 1% iza 

te kritične vrijednosti (slika 8). 

Slika 8 - Kritične z-vrijednosti za desni kraj distribucije 

Na sličan način interpretiramo negativne kritične z-vrijednosti ako je riječ o lijevom kraju 

distribucije (slika 9). Na primjer, z = −1,645 je kritična vrijednost koja definiše granicu prije 

koje će se nalaziti 5% opservacija, dok će se preostalih 95% nalaziti iza date vrijednosti. 

Slika 9 - Kritične z-vrijednosti za lijevi kraj distribucije 

13

Obratimo pažnju da vrijednost z = ±1.645 koristimo i u situacijama kada nas istovremeno 

interesuju oba kraja distribucije (slika 7) ili kada nas interesuje samo jedan kraj distribucije 

(slike 8 i 9). U prvoj situaciji ta kritična vrijednost definiše α područje na koje otpada 10% 

opservacija na oba kraja distribucije, dok se u drugoj situaciji definiše α područje na koje otpada 

5% opservacija na jednom kraju distribucije. Ova distinkcija je bitna u kontekstu jednosmjernih 

i dvosmjernih testova signifikantnosti o kojima ćemo govoriti kasnije. 

4. PRIMJENA STANDARDNE NORMALNE DISTRIBUCIJE 

Standardizovane vrijednosti možemo iskoristiti i za definisanje granica unutar kojih će se 

slučajno odabrana opservacija nalaziti sa određenim stepenom sigurnosti. 

Primjer 4.1a 

Utvrđeno je da životni vijek određene marke automobilskih guma slijedi normalnu distribuciju 

sa aritmetičkom sredinom 50.000 kilometara i standardnom devijacijom od je 7.500 kilometara. 

Ukoliko smo kupili jednu takvu gumu kolika je vjerovatnoća da će njen životni vijek biti kraći 

od 35.000 kilometara? 

Prvo trebamo izračunati standardizovanu vrijednost za donju granicu koja nas interesuje: 

z = (35.000 − 50.000)/7.500 = −2 

Nakon što smo utvrdili da vrijednosti 35.000 km odgovara standardizovana vrijednost z = −2 

potrebno je unutar tablica utvrditi proporciju koja se nalazi ispod krive normalne distribucije u 

osjenčenom dijelu prikazanom na slici 10. Ukoliko nemamo tablice možemo iskoristiti sljedeću 

Stata naredbu da dobijemo traženu proporciju: 

. display normal(-2) 

.02275013 

Komanda nam prikazuje vrijednost kumulativne funkcije distribucije (engl. cumulative 

distribution function - CDF) za standardnu normalnu distribuciju procijenjenu u tačci z = −2, 

odnosno vjerovatnoću P[z < −2] 3 . Na slici 10 ova je vjerovatnoća predstavljena osjenčenom 

površinom ispod krive u rasponu od − ∞ (minus beskonačno) do z = −2. 

3 

Da smo željeli dobiti proporciju za površinu koja ispod normalne krive koja se nalazi iznad z = -2 koristili bi 

naredbu: display 1-normal(-2) 

14

Slika 10 – Proporcija automobilskih guma koje imaju životni vijek kraći od 35.000 km 

Dakle, vjerovatnoća da će životni vijek gume biti mani od 35.000 kilometara je manja od 2,3%. 

Primjer 4.1b 

Kolika je vjerovatnoća da će guma trajati između 35.000 i 45.000 kilometara? 

U ovom slučaju interesuje nas proporcija koja se nalazi između dvije tačke ispod krive normalne 

distribucije. Prvo je potrebno izračunati z-vrijednosti koje odgovaraju datim tačkama. Već 

ranije smo izračunali da vrijednosti 35.000 km odgovara z = −2, i da se 2,3% svih opservacija 

nalazi prije te tačke. Ostaje nam da izračunamo z-vrijednost za 45.000 km: 

z = (45.000 − 50.000)/7.500 = −0,67 

Proporcija opservacija koje se nalaze prije te tačke je: 

. display normal(-0.67) 

.2514289 

Vjerovatnoća da će životni vijek gume biti manji od 45.000 kilometara je 25,1%. 

Od ove vjerovatnoće je potrebno oduzeti vjerovatnoću da će životni vijek biti kraći od 35.000 

kilometara. Obzirom da od ranije imamo podatak o tome, biće: p = 0,2514289 − 0,02275013 = 

0,22867877 

15

Slika 11 – Proporcija automobilskih guma koje imaju životni vijek između 35.000 i 45.000 km 

Dakle, vjerovatnoća da će životni vijek gume biti između 35.000 i 45.000 kilometara iznosi 

22,9%. Ovoj vjerovatnoći odgovara osjenčena površina na slici 11. 

Primjer 4.1c 

Proizvođač želi odrediti garanciju za prodate gume. Za koju kilometražu treba dati garanciju 

ako želimo da stopa reklamacija ne bude veća od 3% (slika 12)? 

Slika 12 – Proporcija od 3% automobilskih guma na lijevom kraju distribucije 

U ovom slučaju imamo dvije nepoznanice z i x: 

z = (x − 50.000)/7.500 

Da bi odredili x moramo prvo odrediti z. Proporcija kilometraže između 50% (z = 0) i 3% (z = 

?) biće 0,50 − 0,03 = 0,47. Potrebnu z-vrijednost možemo potražiti unutar statističkih tablica. 

U tablicama bi trebali naći proporciju koja je najbliža 0,47, a zatim sa margina pročitati z- 

vrijednost koja odgovara toj proporciji. Drugi način je da iskoristimo naredbu unutar State: 

. display invnormal(0.03) 

-1.8807936 

16

Iz dobijenog outputa vidimo da je z = −1,88 i to nam govori da će samo 3% opservacija nalaziti 

prije ove standardne vrijednosti. Da bi standardnu pretvorili u orginalnu vrijednost (x) u 

prethodnu formulu ćemo ubaciti: 

−1,88 = (x − 50.000)/7.500 

x = 50.000 − 14.100 = 35.900 km 

Dakle, ukoliko proizvođač želi da stopa reklamacija bude ispod 3% potrebno je da garanciju za 

životni vijek guma postavi na 35.900 km. 

Primjer 4.2 

Pretpostavimo da je utvrđeno da prosječni mjesečni izdaci za hranu domaćinstava u populaciji 

slijede normalnu distribuciju N(700,100). U kojem rasponu će se nalaziti izdaci 95% 

domaćinstava? 

Da bi mogli reći koji je to raspon moramo znati granice izvan koji će se nalaziti preostalih 5% 

vrijednosti. Tih 5% utvrđujemo nalaženjem z-vrijednosti koja će „odsjeći" 2,5% opservacija na 

svakom kraju distribucije. Od ranije znamo da proporciji od 2,5% odgovara kritična vrijednost 

z = ±1.96. Dakle, možemo reći da će se mjesečni izdaci na hranu u 95% slučajeva nalaziti u 

intervalu od −1.96σ ispod prosjeka i +1.96σ iznad prosjeka, što možemo napisati kao: 

z = (X − μ)/σ 

±1.96 = (X − μ)/σ 

X − μ = ±1.96σ 

X = μ ± 1.96σ 

Naravno, u krajnjoj instanci interesuje nas potrošnja izražena u orginalnim jedinicama (KM) pa 

ćemo dobijene vrijednosti izražene u jedinicama standardne devijacije morati pretvoriti u 

orginalne vrijednosti. U našem primjeru, granice koje tražimo biće na: 

X1,2 = 700 ± 1.96 x 100 KM 

X1 = 700 – 196 =504 KM 

X2 = 70 + 196 = 896 KM 

Dakle, u 95% slučajeva mjesečni izdaci na hranu nalaziće se u rasponu od 504 KM do 896 KM. 

Ovo možemo reći i na sljedeći način: Ako bi iz populacije slučajno odabrali jedno domaćinstvo, 

možemo biti 95% sigurni da će se njegovi izdaci nalaziti negdje u rasponu od 504 KM do 896 

KM. 

Slika 13 – Raspon u kojem će se nalaziti 95% izdataka za hranu 

17

Ovdje je potrebno obratiti pažnju da smo pri izračunu raspona tačno znali koliki su prosječni 

izdaci na hranu unutar populacije (μ) i koliko iznosi standardna devijacija za populaciju (σ). 

Ono što smo pokušali utvrditi je raspon unutar kojeg će se nalaziti izdaci (X). Međutim šta se 

dešava ako ne znamo parametre populacije? O ovome će biti riječi u narednoj sekciji. 

5. SAMPLING DISTRIBUCIJA I STANDARDNA GREŠKA 

U dosadašnjem izlaganju oslanjali smo se na to da znamo parametre normalne distribucije. 

Međutim, u praksi ćemo vrlo rijetko imati situacije u kojima su nam poznate karakteristike 

populacije. Umjesto toga, sud o populaciji i procjenu parametara najčešće ćemo donositi na 

bazi uzorka. 

5.1. GREŠKA MJERENJA I UZORKOVANJA 

Primjer 5.1 

Pretpostavimo da želimo utvrditi prosječne mjesečne izdatke na kozmetičke proizvode u BiH i 

da smo prikupili podatke na bazi uzorka koji se sastojao od 25 slučajno odabranih ispitanica. 

Nakon što smo prikupili podatke, izračunali smo da prosječni izdaci iznose 79,2 KM. Da li 

možemo tvrditi da su ovo stvarni izdaci za kozmetičke proizvode u populaciji? Ne možemo, jer 

zbog greški mjerenja i uzorkovanja prosjek uzorka nikada u potpunosti neće odgovarati 

stvarnom prosjeku. 

Greška mjerenja (engl. measurement errors) nastaje ako ne mjerimo precizno ono što želimo. 

Najčešće se javlja kada mjerimo kompleksne pojave ili ako je riječ o osjetljivim pitanjima na 

koja ispitanik može namjerno dati pogrešan odgovor. U takvim situacijama procjenjeni 

parametri na bazi uzorka će se razlikovati od stvarnih parametara unutar populacije. 

Greška uzorkovanja (engl. sampling error) odnosi se na stepen u kojem se uzorak razlikuje 

od populacije koju predstavlja. Statistički gledano, greška uzorkovanja predstavlja razliku 

između nepoznatnog parametra u populaciji (μ) i njegove procjene (x̄ ̄) izračunate na bazi 

podataka u uzorku. 

Postoje tri potencijalna razloga zbog kojih dolazi do greške uzorkovanja: 

18

1. Greška okvira (engl. frame error) nastaje kada se populacija iz koje uzimamo uzorak 

razlikuje od stvarne populacije. Na primjer, ako smo anketiranje obavili putem online 

ankete moguće je da ispitanice koje koriste Internet imaju viša primanja i da zbog toga na 

kozmetiku izdvajaju više u odnosu na populaciju koja obuhvata i ispitanice koji ne koriste 

Internet. U takvom uzorku prosječni izdaci za kozmetičke preparate biće iznad stvarnog 

prosjeka populacije. 

2. Pristrasnost uzorka (engl. nonresponse error) se javlja ako tokom samog procesa odabira 

postoji tendencija da određeni ispitanici u uzorku budu više zastupljeni u odnosu na druge. 

Na primjer, ako je akentiranje obavljeno putem telefona moglo se desiti da je u uzorak ušlo 

više nezaposlenih žena jer su u momentu telefonskog poziva bile kod kuće. Prosječni izdaci 

u takvom uzorku će biti ispod stvarnog prosjeka u populaciji obzirom da nezaposlene 

ispitanice manje troše na kozmetiku. 

3. Slučajna greška (engl. random error) nastaje zbog samih fluktuacija tokom procesa 

uzorkovanja. Čak i kada smo primjenili adekvatan metod odabira uzorka, može se desiti da 

uzorak pukom slučajnošću obuhvati više ispitanica čija je potrošnja iznad ili ispod stvarnog 

prosjeka. 

Imajući u vidu postojanje grešaka vezanih za mjerenje i uzorkovanje, jasno je da na bazi uzorka 

nikada ne možemo potpuno precizno utvrditi vrijednost parametra u populaciji. Međutim, ono 

što možemo uraditi je da izračunamo raspon unutar kojeg će se parametar populacije nalaziti sa 

određenim stepenom sigurnosti. A da bi to mogli uraditi potrebno je da se prvo upoznamo sa 

konceptom sampling distribucije i standardne greške. 

5.2. SAMPLING DISTRIBUCIJA 

Kako bi ilustrovali koncept sampling distribucije, vratimo se na naš primjer vezan za izdvajanja 

na kozmetičke preparate i zamislimo da stvarni prosječni izdaci u populaciji iznose µ = 76 uz 

standardnu devijaciju σ = 15,5. Ova distribucija je prikazana u gornjem lijevom dijelu slike 14. 

Već znamo da smo na bazi uzorka dobili da je x̄ = 79,2 KM. Zatim pretpostavimo da smo 

ponovili proces uzorkovanja, slučajno odabrali novih 25 ispitanica i izračunali da njihova 

prosječna potrošnja iznosi x̄ = 74,1 KM. Zatim smo nastavili uzimati nove uzorke i za narednih 

pet uzoraka iste veličine dobili smo sljedeće rezultate: 78,1 KM, 80,2 KM, 75,5 KM, 73,9 KM 

i 69,4 KM. Prosjek svakog od ovih uzoraka predstavlja procjenu stvarnih izdataka u populaciji. 

Iako su neke od ovih procjena iznad, a neke ispod stvarnih izdataka, u većini slučajeva one su 

vrlo blizu stvarnog prosjeka (μ). 

Ako bi nastavili započeti proces uzorkovanja i dobijene prosjeke za veoma veliki broj uzoraka 

jednake veličine predstavili preko histograma, njihova distribucija frekvencija bi težila da 

obrazuje krivu. Takva kriva formirana na bazi aritmetičkih sredina uzoraka iste veličine uzetih 

iz iste populacije naziva se distribucijom aritmetičkih sredina uzoraka ili sampling 

distribucijom (engl. sampling distribution of the mean). 

19

Slika 14 – Distribucija aritmetičkih sredina za 1.000 uzoraka veličine n = 5, 10 i 25 ispitanika 

Na slici 14 su predstavljene tri sampling distribucije dobijene na bazi 1.000 uzoraka ali gdje je 

sama veličina pojedinačnih uzoraka bila različita. Primjećujemo da sampling distribucije imaju 

nekoliko svojstava: 

1. Sampling distribucije imaju normalan raspored. Ovo će biti tačno ukoliko distribucija 

populacije ima normalan raspored ili ako su uzorci koje uzimamo iz populacije dovoljno 

veliki. Činjenica da sa porastom veličine uzorka sampling distribucija teži da ima normalan 

raspored je izuzetno bitna i predstavlja osnovu na kojoj se bazira jedan od najvažnijih 

teorema u statistici – centralni granični teorem – o kojem će biti više riječi kasnije. 

2. Sampling distribucija ima svoju aritmetičku sredinu koju nazivamo opštim ili očekivanim 

prosjekom (engl. overall mean ili expected value of the mean). Očekivana vrijednost 

prosjeka biće jednaka prosjeku populacije ukoliko smo iz populacije uzeli dovoljno veliki 

broj uzoraka. Obzirom da u našem primjeru u sva tri slučaja (n = 5, 10, 25) uzeli veliki broj 

uzoraka (1.000) opšti prosjek je jednak prosjeku unutar populacije (μ = 76). 

3. Sampling distribucija ima svoju standardnu devijaciju koju nazivamo standardnom 

greškom (engl. standard error of the mean). Šta nam govori standardna greška? Kao što 

standardna devijacija pokazuje prosječnu razliku (devijaciju) između pojedinačne 

opservacije unutar distribucije i prosjeka distribucije, tako nam i standardna greška 

pokazuje kolika je razlika između prosjeka uzorka i opšteg prosjeka. Drugim riječima, 

standardna greška je mjera reprezentativnosti koja govori koliko možemo pogriješiti kada 

kažemo da prosjek uzorka predstavlja prosjek populacije. 

5.3. PROCJENA STANDARDNE GREŠKE 

Naravno, izdvajanje velikog broja uzoraka iste veličine iz populacije kako bi procijenili 

parametre populacije nije praktično. Najčešće imamo na raspolaganju samo jedan uzorak na 

osnovu kojeg moramo izvršiti procjenu i donijeti zaključke. A najbolja procjena koju možemo 

napraviti na bazi jednog uzorka je da pretpostavimo da i u populaciji prosječni izdaci iznose 

20

isto toliko. Međutim, koliku grešku možemo očekivati u našoj procjeni? Odnosno, kolika je 

standardna greška? 

Formula za izračunavanje standardne greške glasi: 

SE 

M 

SD 

 

n 

Iz formule uočavamo da veličina standardne greške zavisi od dvije stvari: 

a) Standardne devijacije. Ako vrijednosti opservacija u uzorku znatno variraju, moramo 

pretpostaviti da i vrijednosti unutar populacije znatno variraju. Zbog greške uzorkovanja 

ova pretpostavka može biti pogrešna ali se moramo osloniti na nju jer je to jedina 

informacija koju imamo. Dakle, što je veća standardna devijacija uzorka biće veća i 

standardna greška. 

b) Veličine uzorka. Obratimo pažnju da je varijabilitet prosječnih vrijednosti sampling 

distribucije manji nego varijabilitet izvornih vrijednosti unutar populacije (slika 14). 

Ovo je razumljivo, obzirom da u slučaju populacije imamo pojedinačne opservacije koje 

mogu imati znatna odstupanja od prosjeka. Međutim, pojedinačne ekstremne vrijednosti 

će biti "ublažene" unutar uzorka jer zajedno sa ostalim opservacijama ulaze u prosjek 

uzorka. Što je veći uzorak kojeg uzimamo iz populacije, ovo "ublaživanje" će biti veće 

i prosjek uzoraka će biti više koncentrisani oko stvarnog prosjeka populacije. Samim 

tim će i standardna greška biti manja. Ovo se jasno vidi na slici 14 gdje se standardna 

greška smanjuje (SE = 6,9, 4,9 i 3,1) sa povećanjem veličine uzorka (n = 5, 10, 25). 

Jednostavno rečeno, što imamo veći uzorak to će standardna greška biti manja. 

Obratimo pažnju i da se standardna greška ne smanjuje u direktnoj proporciji sa 

veličinom uzorka, nego u proporciji sa kvadratnim korijenom veličine uzorka. Ovo 

znači da ukoliko želimo prepoloviti standardnu grešku trebamo uzeti ne dvostruko, već 

četverostruko veći uzorak. 

6. CENTRALNI GRANIČNI TEOREM 

Mnogi testovi signifikantnosti počivaju na ideji normalne distribucije. Zato se često navodi 

pretpostavka o normalnosti distrubucije kao zahtjev koji je potrebno ispuniti ukoliko želimo da 

rezultati testova budu nepristrasni i validni. Ova pretpostavka je razumljiva obzirom da je iz 

dosadašnjeg izlaganja jasno da teoretska normalna distribucija omogućava da primjenimo 

dobro poznate vjerovatnoće na podatke koji slijede normalan raspored. 

Međutim, u praksi su česte situacije kada ne znamo ništa o tome kako je varijabla distribuirana 

u populaciji ili pretpostavljamo da njena distribucija znatno odstupa od normalnog rasporeda. 

Da li to znači da se u takvoj situaciji ne možemo osloniti na statističke testove? Srećom, 

odgovor je ne nužno. Naime, pretpostavka normalne distribucije ne odnosi se na normalnu 

distribuciju orginalnih podataka u uzorku, već na normalnu distribuciju aritmetičkih sredina 

uzoraka. Drugim riječima, ne traži se da orginalna varijabla ima normalan raspored već da 

sampling distribucija ima normalan raspored. 

21

Kako procijeniti da li sampling distribucija ima normalan raspored? Odgovor na to pitanje daje 

Centralni granični teorem (engl. Central limit theorem) koji kaže: 

"Za populaciju sa aritmetičkom sredinom μ i standardnom devijacijom σ, raspored 

aritmetičkih sredina svih prostih slučajnih uzoraka veličine n imaće približno normalan 

raspored pod pretpostavkom da imamo dovoljno veliki uzorak" 4 . 

U suštini ovo znači da će sampling distribucija slučajne varijable X uvijek imati normalnu 

raspodjelu ukoliko imamo dovoljno veliki uzorak, bez obzira na oblik orginalne distribucije 

podataka iz uzorka. Djelovanje Centralnog graničnog teorema je predstavljeno na slici 15. 

Slika 15 – Promjene oblika sampling distribucije sa porastm veličine uzoraka 

U praksi se postavlja pitanje šta se podrazumijeva pod dovoljno velikim uzorkom koji će 

osigurati da Centralni granični teorem rezultira sampling distribucijom sa normalnim 

rasporedom? 

Nema jednoznačnog odgovora na ovo pitanje. Ako varijabla od interesa u populaciji ima 

normalan raspored čak i uzorci male veličine (n < 10) će biti dovoljni da se osigura normalan 

raspored sampling distribucije. Ako varijabla u populaciji nema normalan raspored neki 

istraživači zastupaju stav da će već uzorci veličine 10 ili 12 opservacija biti dovoljni da se 

osigura normalnost sampling distribucije. Ipak, u literaturi se najčešće pod „dovoljno velikim 

uzorkom" podrazumijeva uzorak sa 30 ili više opservacija. Dakle, smatra se da će sampling 

distribucija uz uzorak veličine n ≥ 30 uvijek imati normalan raspored bez obzira na stvarni oblik 

distribucije u populaciji. 

Na slici 15 možemo da pratimo promjenu oblika sampling distribucije sa povećanjem veličine 

uzoraka. Kada varijabla u populaciji ima normalan raspored, čak i vrlo mali uzorci (n = 2) će 

rezultirati sampling distribucijom koja ima normalan raspored. U ostalim situacijama tako mali 

uzorci najčešće nisu zadovoljavajući. Ipak, sa porastom veličine uzorka ove razlike se smanjuju 

i već sa uzorkom veličine n = 30, imamo međusobno identične sampling distribucije koje slijede 

normalan raspored, bez obzira na oblik orginalne distribucije u populaciji. 

4 

Lind and Mason, Basic Statistics for Business and Economics, p. 227. 

22

7. ESTIMACIJA I INTERVAL POVJERENJA 

U velikom broju statističkih analiza, aritmetička sredina uzorka i standardna greška se koriste 

kao osnova na kojoj se gradi dalje statističko zaključivanje. Estimacija (engl. estimation) 

podrazumjeva upotrebu ovih mjera (statistike uzorka) kako bi se procijenila obilježja populacije 

(parametri). 

Primjer 7.1 

Zamislimo da menadžmentu kompanije koja se bavi proizvodnjom mliječnih proizvoda želimo 

dati preporuku o obimu proizvodnje i cijeni u narednom periodu. Kako bi izbjegli da preporuku 

dajemo na bazi nepotpunih informacija, prva stvar koju želimo saznati je koliko mjesečno 

potrošači izdvajaju na mliječne proizvode. Dakle, potrebno je da procijenimo iznos prosječne 

potrošnje u populaciji (μ). Obzirom da ne raspolažemo podacima za čitavu populaciju, 

zamislimo da smo na bazi slučajnog uzorka anketirali n = 100 ispitanika. Zatim smo na bazi 

podataka iz uzorka izračunali da prosječna potrošnja iznosi 98,6 KM uz standardnu devijaciju 

od 32,3 KM. Najbolje što sljedeće možemo uraditi je da pretpostavimo da će stvarna prosječna 

potrošnja u populaciji (μ) biti istovjetna procjeni koju smo dobili na bazi uzorka (x̄ ). Drugim 

riječima, iskoristićemo prosjek uzorka (x̄ ) za procjenu stvarne potrošnje u populaciji (μ). 

Pojedinačni brojevi koji smo izračunali na bazi podataka u uzorku i koje koristimo za procjenu 

parametara u populaciji predstavljaju tzv. tačkaste procjene (engl. point estimate). 

7.1. PRECIZNOST ESTIMACIJE 

Na osnovu izlaganja o sampling distribuciji znamo da će prosjek svakog uzorka (x̄ ) više ili 

manje odstupati od prosjeka populacije (μ). Samim tim, vjerovatno je i da tačkasta procjena 

nije u potpunosti tačna pa se postavlja pitanje koliko je ona zaista precizna? Drugim riječima, 

kada smo pretpostavili da je x̄ jednako μ koliko smo eventualno pogriješili? 

Na ovo pitanje odgovor nam daje standardna greška koja pruža informaciju o prosječnoj 

razlici (devijaciji) između očekivane vrijednosti (μ) i tačkaste procjene prosjeka na bazi uzorka 

(x̄ ). Odnosno, standardna greška nam govori o tome koliko možemo pogriještiti kada kažemo 

da je naša jedinična procjena jednaka stvarnoj vrijednosti u populaciji. Ako se vratimo na raniji 

primjer i izračunamo standardnu grešku dobićemo: 

SE = SD/√n = 32,3/√100 = 3,23 

Kako interpretiramo standardnu grešku? Zahvaljujući centralnom graničnom teoremu znamo 

da će u situaciji kada imamo dovoljno veliki uzorak sampling distribucija imati normalan 

raspored bez obzira na oblik distribucije u populaciji. Ovo saznanje smo iskoristili da sampling 

distribuciju za naš primjer predstavimo na slici 16. Obzirom da je standradna greška u stvari 

samo drugi naziv za standardnu devijaciju sampling distribucije, sve koncepte koje smo koristili 

ranije kada smo analizirali položaj pojedinačnih opservacija unutar normalne distribucije 

možemo primjeniti i ovdje. Jedina razlika je da u slučaju sampling distribucije više ne govorimo 

o položaju pojedinačnih opservacija već o položaju parametra populacije. 

23

Slika 16 – Sampling distribucija za x̄ = 98,6 i SE = 3,23 

Na primjer, ako se poslužimo znanjem o područjima ispod standardne normalne krive, onda 

znamo da će raspon od ±2 SE obuhvatiti vrijednosti između 98,6 − (2 x SE) = 92,14 i 98,6 + (2 

x SE) = 105,06 KM i da će se u tom rasponu nalaziti 95,6% svih opservacija. Isto tako će 

raspon od ±3 SE obuhvatiti vrijednosti koje se nalaze između 88,91 i 108,29 KM i u tom rasponu 

će se nalazit 99,8% svih opservacija. 

Dakle, sa 95,6%, odnosno sa 99,8% sigurnosti možemo tvrditi da će se stvarni prosjek 

populacije nalaziti negdje unutar tih raspona. To je ujedno i odgovor na naše pitanje o tome 

koliku grešku možemo očekivati kada kažemo da prosječna potrošnja iznosi 98,6 KM. Na bazi 

podataka iz uzorka najbolje što možemo reći je da se stvarna prosječna potrošnja u populaciji 

nalazi negdje između 92,14 KM i 105,06 KM (uz 4,4% mogućnost da smo pogriješili), odnosno 

između 88,91 i 108,29 KM (uz 0,2% mogućnost da smo pogriješili). 

7.2. INTERVAL POVJERENJA 

Granice unutar kojih sa određenim stepenom vjerovatnoće možemo očekivati da se nalazi 

parametar populacije nazivamo intervalom povjerenja (engl. confidence interval). Pri 

definisanju intervala povjerenja u praksi se najčešće koristimo uobičajenim "okruglim" 

rasponima kao što su 90%, 95% i 99% i odgovarajućim kritičnim z-vrijednostima. 

Pretpostavimo da u primjeru 7.1 vezanom za izdatke na mliječne proizvode želimo konstruisati 

interval povjerenja od 95%. U tom slučaju z = 1,96 siječe normalnu krivu sampling distribucije 

tako da površina ispod krive obuhvata 2,5% vrijednosti na lijevom i 2,5% vrijednosti na desnom 

kraju distribucije, dok će se u rasponu od −1,96 SE do +1,96 SE nalaziti 95% preostalih 

opservacija. Na osnovu toga možemo izvesti formulu za izračunavanje gornje i donje granice 

intervala povjerenja: 

z = (x̄ − μ) / SE 

±1,96 = (x̄ − μ) / SE 

±1,96 × SE = x̄ − μ 

μ = x̄ ± (1,96 × SE) 

x̄ − (1,96 × SE) ≤ μ ≤ x̄ + (1,96 × SE) 

24

ili 

98,6 − (3,23 x 1,96) ≤ μ ≤ 98,6 + (3,23 x 1,96) 

98,6 − 6,3 ≤ μ ≤ 98,6 + 6,3 

92,3 ≤ μ ≤ 104,9. 

Dakle, sa 95% sigurnošću možemo tvrditi da se stvarni mjesečni izdaci na mliječne proizvode 

nalaze u rasponu između 92,3 KM i 104,9 KM. Drugim riječima, ako bi prikupili podatke na 

bazi velikog broja uzoraka veličine n = 100, očekivali bi da njihov prosjek u 95% slučajeva 

bude između 92,3 KM i 104,9 KM. 

Primjer 7.2 

Ako želimo koristiti drugi interval povjerenja, potrebno je samo uzeti drugu kritičnu vrijednost. 

Na primjer, ako hoćemo biti 99% sigurni da se stvarni prosjek nalazi unutar intervala povjerenja 

trebamo koristiti standardnu vrijednost z = 2,58, koja siječe normalnu krivu tako da površina 

ispod krive obuhvata 0,5% opservacija na lijevom i 0,5% opservacija na desnom kraju 

distribucije pa će biti: 

x̄ − (2,58 × SE) ≤ μ ≤ x̄ + (2,58 × SE) 

98,6 − (3,23 × 2,58) ≤ μ ≤ 98,6 + (3,23 × 2,58) 

98,6 − 8,3 ≤ μ ≤ 98,6 + 8,3 

90,3 ≤ μ ≤ 106,9. 

Kako još možemo interpetirati interval povjerenja? U slučaju intervala povjerenja od 95% 

možemo reći: Ako bi iz populacije uzeli 100 uzoraka iste veličine i za svaki izračunali interval 

povjerenja, 95 tako dobijenih intervala bi sadržavalo stvarni prosjek populacije što je prikazano 

na slici 17. 

Slika 17 – Intervali povjerenja za 7 uzoraka iste veličine 

Na slici 17 vidimo 7 uzorka iste veličine uzetih iz iste populacije gdje x̄ označava aritmetičku 

sredinu datog uzorka a linija sa strjelicama na kraju predstavlja interval povjerenja od 95%. 

Stvarni prosjek u populaciji je označen vertikalnom linijom (μ). Prvo što uočavamo je da zbog 

fluktuacije uzorkovanja svaki uzorak ima različitu aritmetičku sredinu (x̄ ). Drugo, iako je većina 

intervala obuhvatila stvarni prosjek unutar populacije (crvene linije) u jednom slučaju se to nije 

25

desilo (zelena linija za x̄ 5). Da smo imali 100 uzoraka sa intervalom povjerenja 95%, u pet 

uzoraka mogli bi očekivati da se desi slična situacija kao za x̄ 5, gdje interval povjerenja ne bi 

obuhvatio istinski parametar populacije. 

8. STUDENTOVA T-DISTRIBUCIJA 

U dosadašnjem izlaganju smo govorili o primjeni normalne distribucije i z-vrijednosti da 

odredimo vjerovatnoće javljanja opservacije u određenom intervalu. Vjerovatnoće koje 

dobijemo na osnovu normalne distribucije su dovoljno precizne kada je poznata standardna 

devijacija unutar populacije ili kada imamo dvoljno veliki uzorak (n ≥ 30) koji će osigurati 

djelovanje Centralnog graničnog teorema. 

8.1. PROBLEM MALOG UZORKA I PRIMJENE Z-DISTRIBUCIJE 

Ukoliko ne znamo standardnu devijaciju populacije i imamo mali uzorak, ne možemo biti 

sigurni da će sampling distribucija u potpunosti pratiti lijepo oblikovanu normalnu krivu. 

Samim tim vjerovatnoće koje se baziraju na normalnoj distribuciji neće biti najpreciznije i 

moraju se uskladiti za velličinu uzorka iz dva razloga: Prvo, znamo da SD izračunata na bazi 

podataka iz uzorka predstavlja samo procjenu stvarne vrijednosti SD u populaciji. Kako formula 

za izračunavanje SD uzorka u denominatoru sadrži n – 1, procjena SD u populaciji će biti manje 

precizna kako se veličina uzorka smanjuje. Drugo, mali uzorak može uticati na preciznost SE 

jer njen izračun zavisi od SD. Krajnja posljedica je da će z-vrijednosti biti nedovoljno precizne 

za male uzorke. 

8.2. RJEŠENJE PROBLEMA: T-DISTRIBUCIJA 

Kako bi riješio ovaj problem statističar William Gosset, koji se potpisivao pod pseudonimom 

"Student" je kreirao tzv. t-distribuciju. Ova distribucija je po svemu slična normalnoj 

distribuciji osim što njen oblik zavisi i od veličine uzorka. U dovoljno velikim uzorcima t- 

distribucija je gotovo identična normalnoj z-distribuciji. Međutim, kako se veličina uzorka 

smanjuje ona postaje više spljoštena u sredini a deblja na krajevima. Ovo praktično znači da će 

u manjim uzorcima više opservacija biti dalje od aritmetičke sredine (slika 18). 

Slika 18 – Uporedba z i t distribucije 

26

Tačan oblik t-distribucije će zavisiti od broja stepena slobode (engl. degrees of freedom - df). 

Koncept stepena slobode nije jednostavan za razumjeti i njegovo objašnjavanje izlazi iz okvira 

ove knjige 5 . Bitno je zapamtiti da današnji softverski paketi broj stepena slobode izračunavaju 

automatski za većinu testova. U slučaju t-distribucije, broj stepena slobode jednak je veličini 

uzokra minus jedan (df = n − 1). 

Na slici 18 je dat prikaz t-distribucije za 2 (df = 3 −1) i 11 (df = 13 − 1) stepena slobode. 

Možemo primjetiti kako t-distribucija teži ka normalnoj distribuciji sa porastom veličine 

uzorka. Slična situacija se dešava i sa kritičnim t-vrijednostima koje sa povećanjem uzorka teže 

da se izjednače sa z-vrijednostima što se vidi u tabeli 5. 

Tabela 5 – Uobičajene kritične t-vrijednosti za oba kraja distribucije i uzroke različite veličine 

Studentove t-vrijednosti u 

zavisnosti od veličine uzorka 

Normalna z- 

vrijednost 

10 20 30 40 

Nivo povjerenja 

99% 3,17 2,85 2,75 2,70 2,58 

95% 2,23 2,09 2,04 2,02 1,96 

90% 1,81 1,72 1,70 1,68 1,64 

Dakle, osnovna prednost t-distribucije je što daje preciznije vjerovatnoće od z-distribucije kada: 

a) znamo da su vrijednosti varijable u populaciji normalno distribuirane ali ne znamo 

standardnu devijaciju i imamo mali uzorak (obično se definiše kao n < 30) i b) ne znamo ništa 

o populaciji, imamo mali uzorak (obično se definiše kao n < 30) ali podaci u uzorku slijede 

približno normalan raspored na osnovu kojeg možemo pretpostaviti da i vrijednosti u populaciji 

imaju normalnu distribuciju. 

Zbog svega navedenog se unutar softverskih paketa obično koristi t-distribucija. Svi zaključci 

na bazi velikih uzorka i t-distribucije će biti istovjetni onima do kojih bi došli korištenjem z- 

distribucije, dok će zaključci u manjim uzorcima biti precizniji u odnosu na one bazirane na z- 

distribuciji. 

8.3. STATISTIČKE TABLICE ZA T-DISTRIBUCIJU 

Statističke tablice za t-vrijednosti daju vjerovatnoću povezanu sa položajem pojedinačne 

opservacije unutar distribucije uz dati broj stepena slobode. Pored ovoga, u tablicama t- 

vrijednosti ćemo naći dva skupa vjerovatnoća, za jednosmjerne i dvosmjerne testove. Na 

primjer, ukoliko imamo uzorak veličine n = 12 i zainteresirani smo za p = 0,05, u tablici ćemo 

vidjeti da uz tu vjerovatnoću i dati broju stepena slobode (df = n − 1 = 11) kritična t-vrijednost 

za dvosmjerni test iznosi t = 2,201. Ova situacija je ilustrovana na slici 19. 

5 

Za vrlo dobro objašnjenje koncepta stepena slobode za one-sample t-test, hi-kvadrat test i regresionu analizu, 

pogledati blog post: 

http://blog.minitab.com/blog/statistics-and-quality-data-analysis/what-are-degrees-of-freedom-in-statistics 

27

Slika 19 – Kritične vrijednosti unutar t-distribucije za 11 stepana slobode između kojih se nalazi 

95% opservacija 

Sa slike 19 primjećujemo da t-vrijednost od ±2,201 vezana za df = 11 presijeca krivu tako da 

na krajevima ostaje 2,5% vrijednosti distribucije, što je u zbiru 5% koji odgovaraju vrijednosti 

p = 0,05. 

8.4. STANDARDNA GREŠKA I INTERVAL POVJERENJA ZA T-DISTRIBUCIJU 

Na isti način kao u slučaju z-distribucije, t-vrijednosti možemo iskoristiti da izračunamo 

standardnu grešku i interval povjerenja. Na primjer, pretpostavimo da smo za procjenu 

mjesečnih izdvajanja na mliječne proizvode umjesto uzorka veličine 100 ispitanika koristili 

uzorak veličine n = 12 ispitanika i da smo dobili da je aritmetička sredina 98,6 KM uz 

standardnu devijaciju 32,3 KM. U tom slučaju standardna greška bi bila: 

SE = SD/√n = 32,3/√12 = 9,32 KM 

Ovu vrijednost možemo iskoristiti za izračunavanje intervala povjerenja: 

95% CI = x̄ ± (kritična t-vrijednost × SE) 

Već znamo da tablična da kritična vrijednost za 95% interval povjerenja i df = 11 iznosi t = 

2,201. Stoga ćemo imati: 

95% CI = 98,6 KM ± (2,201 × 9,32 KM) 

= 98,6 KM ± 20,5 KM 

= od 78,1 KM do 119,1 KM. 

Dakle, sa 95% sigurnošću možemo tvrditi da će se stvarni prosjek popuacije nalaziti u rasponu 

između 78,1 KM i 119,1 KM. 

28

9. BINOMNA DISTRIBUCIJA 

Jedna od osnovnih teoretskih distribucija za diskontinuirane varijable je binomna distribucija 

(engl. binomial distribution). Njena upotreba je česta u procesima kontrole kvalitete, ispitivanju 

javnog mijenja, medicinskim istraživanjima, osiguranju i sl. Slučajna varijabla koja ima 

binomni raspored označava se sa B(n,p), gdje B govori da se radi o binomnoj distribuciji, a n i 

p su parametri te distribucije. Matematski izraz za binomnu distribuciju glasi: 

n ! 

x !( n x )! 

x 

nx 

P( x ) 

p (1 p) 

Njime se opisuje vjerovatnoća dobijanja ishoda (x) iz niza nezavisnih događaja (n), ako je u 

svakom događaju vjerovatnoća pojedinačnog ishoda jednaka (p). 

9.1. KARAKTERISTIKE BINOMNE DISTRIBUCIJE 

Da bi smo razumjeli šta ova formula znači, u nastavku ćemo predstaviti tri primjera upotrebe 

binomne distribucije. Ovi primjeri međusobno dijele nekoliko zajedničkih osobina koje ujedno 

predstavljaju i glavne karakteristike binomne distribucije. 

Primjer 9.1a 

Ukoliko isti novčić bacimo 10 puta zaredom kolika je vjerovatnoća da ćemo 7 puta dobiti 

pismo? 

Primjer 9.1b 

Pretpostavimo da je poznato da se u toku proizvodnog procesa javlja 2% neispravnih proizvoda. 

Ako smo odabrali slučajni uzorak od 25 proizvoda, kolika je vjerovatnoća da će uzorak 

sadržavati 3 ili više defektna proizvoda? 

Primjer 9.1c 

Ako od ranije znamo da u populaciji svih korisnika mobilnog Interneta njih 40% koristi 

provajderske usluge BH Telecom-a, kolika je vjerovatnoća da od 10 slučajno odabranih 

korisnika za anketiranje njih 7 ili više budu korisnici BH Telecom-a? 

Ono što je zajedničko u sva tri slučaja je sljedeće: 

1. Primjeri se odnose na događaje ili procese kod kojih je moguć jedan od dva ishoda koji se 

međusobno isključuju. Samim tim, ishod događaja će se bilježiti na binarnoj varijabli koja 

može uzeti jednu od dvije vrijednosti: 0 ili 1. 

2. U prvom primjeru sa bacanjem novčića ishod može biti: (0) glava ili (1) pismo. U drugom 

primjeru događaj se odnosi na sam izbor proizvoda u uzorak, a moguć je jedan od dva 

ishoda: (0) izabrani proizvod je ispravan ili (1) izabrani proizvod nije ispravan. U trećem 

primjeru, nakon odabira ispitanika u uzorak, moguć je samo jedan od dva rezultata: (0) 

odabrani korisnik ne koristi usluge BH Telecom-a i (1) odabrani korisnik koristi usluge BH 

Telecom-a. 

29

3. Dobijeni podaci se sumiraju brojanjem kako bi dobili ukupan broj ishoda (x). Tako ćemo 

prebrojati broj puta kada je palo pismo, broj neispravnih proizvoda ili broj korisnika BH 

Telecom-a koji su ušli u uzorak. Rezultat brojanja će biti cijeli broj, što je razlog zbog kojeg 

se binomna distribucija klasifikuje kao diskretna distribucija. 

4. Broj događaja (n) je fiksiran i poznat. Tako, unaprijed znamo da novčić bacamo 10 puta, da 

ćemo imati uzorak od 25 proizvoda i uzorak od 10 korisnika. 

5. Događaji su nezavisni. Ovo znači da ishod prethodnog događaja ne utiče na ishod sljedećeg 

ili bilo kojeg narednog događaja. Na primjer, ako je prilikom prvog bacanja novčića palo 

pismo, to ni na koji način ne utiče na ishod u bilo kojem narednom bacanju. 

6. Vjerovatnoća dobijanja pojedinačnog ishoda je istovjetna u svakom događaju. Ako imamo 

fer novčić vjerovatnoća da padne pismo iznosi p = 0,5. U slučaju kontrole kvalitete znamo 

da vjerovatnoća proizvodnje jednog neispravnog proizvoda iznosi p = 0,02. U zadnjem 

primjeru znamo da u populaciji svih korisnika mobilnog Interneta njih 40% koristi 

provajderske usluge BH Telecom-a. Samim tim vjerovatnoća da ćemo u uzorak odabrati 

korsinika BH Telecoma iznosi p = 0,4. 

Ovih pet karakteristika predstavlja ujedno i glavne uslove za primjenu binomne distribucije pa 

se kaže da će diskretna varijabla X (karakteristika 2), koja se odnosi na na zbir ishoda (0 ili 1) 

unutar konačnog broja n nezavisnih događaja (karakteristike 3 i 4), slijediti binomnu 

distribuciju ukoliko se vjerovatnoća dobijanja ishoda ne mijenja od događaja do događaja 

(karakteristika 5). 

Prethodnu formulu možemo iskoristiti da izračunamo vjerovatnoću za različite ishode (x) u 

naša tri primjera i da vizuelno predstavimo oblike binomne distribucije (slike 20, 21 i 22). 

Primjer 9.1a - rješenje 

U prvom primjeru smo 10 puta zaredom bacali novčić. Broj ishoda gdje smo dobili pismo (x) 

slijedi binomni raspored sa n = 10 i p = 0,5. Vjerovatnoća da dobijemo pismo sedam puta (x = 

7) iznosi 11,7% i izračunava se na sljedeći način: 

10! 

7 107 

P(7) 0,5 (1 0,5) 0,1171875 

7 !(10 7)! 

ili pomoću State: 

. display binomialp(10, 7, 0.5) 

.1171875 

Komanda daje vjerovatnoću da ćemo dobiti tačno 7 puta pismo P[x = 7] unutar binomne 

distribucije gdje je n = 10 i p = 0,50. 

Vjerovatnoću svih ostalih ishoda bacanja novčića možemo izračunati koristeći istu formulu, a 

ako bi dobijene vjerovatnoće predstavili grafički dobili bi binomnu distribuciju predstavljenu 

na slici 20. 

30

Slika 20 – Binomna distribucija za B(10, 0,5) 

Na slici 20 možemo primjetiti da ćemo najčešće imati rezultat u kojem će 10 bacanja rezultirati 

sa time da dobijemo pet puta pismo. Vjerovatnoća za da će se desiti upravo ovakav rezultat (x 

= 5) iznosi 24,6%. 

Primjer 9.1b - rješenje 

U drugom primjeru znamo da broj neispravnih proizvoda (x) slijedi binomnu distribuciju sa n 

= 25 i p = 0,02. Vjerovatnoća da uzorak neće sadržavati ni jedan neispravan proizvod biće: 

25! 

0 250 

P(0) 0,02 (1 0,02) 0,60346 

0!(25 0)! 

Na isti način računamo vjerovatnoću za 1, 2 i 3 neispravna proizvoda: 

25! 

1 251 

P(1) 0,02 (1 0,02) 0,3078 

1!(25 1)! 

25! 

2 252 

P(2) 0,02 (1 0,02) 0,0754 

2!(25 2)! 

25! 

3 253 

P(3) 0,02 (1 0,02) 0,0101 

3!(25 3)! 

Rezultati ishoda formiraju binomnu distriuciju koja je predstavljena na slici 21. 

31


Distribucija na slici 21 pokazuje da uzorak od 25 slučajno izabranih proizvoda u oko 60,4% 

slučajeva neće sadržavati ni jedan defektan proizvod, u oko 30,8% slučajeva će sadržavat jedan 

defektan proizvod, dok će u oko 7,5% slučajeva će sadržavati dva defektna proizvoda. 

Vjerovatnoća da će se u uzorku naći tri defektna proizvoda (x = 3) je manja od 1,3% i to je 

ujedno odgovor na ranije postavljeno pitanje. 

Primjer 9.1c - rješenje 

I konačno, vjerovatnoća izbora određenog broja korisnika BH Telecoma (x) u uzorak veličine 

(n = 10) iz populacije u kojoj znamo da je p = 0,4 je predstavljena na slici 22. 


Na slici 22 vidimo da vjerovatnoća da od 10 slučajno odabranih korisnika mobilnog Interneta 

njih sedam (x = 7) budu klijenti BH Telecoma iznosi 4,25%, što možemo provjeriti uz pomoć 

State: 


.04246733 

32

Na isti način možemo dobiti vjerovatnoće za 8, 9 i 10 korisnika koje iznose: 1,06%, 0,16% i 

0,01%. Ako zbrojimo ove vrijednosti dobićemo: P[x ≥ 7] = 4,25 + 1,06 + 0,16 + 0,01 = 5,48% 

što je odgovor na postavljeno pitanje. 

Alternativno, umjesto da izračunavamo i sabiremo vjerovatnoće pojedinačnih ishoda, mogli 

smo upotrijebiti naredbu: 

. display binomialtail(10, 7 ,0.4) 

.05476188 

Naredba prikazuje vjerovatnoću dobijanja 7 ili više pozitivnih ishoda P[x ≥ 7] u binomnoj 

distribuciji sa n = 10 i p = 0,40. 

Pretpostavimo da smo željeli izračunati vjerovatnoću da će uzorak obuhvatiti 6 ili manje 

korisnika BH Telecom-a. U tom slučaju upotrijebili bi naredbu: 

. display binomial(10, 6, 0.4) 

.94523812 

Naredba prikazuje vjerovatnoću dobijanja 6 ili manje pozitivnih ishoda P[x ≤ 6] u binomnoj 

distribuciji sa n = 10 i p = 0,40. 

Zadatak 9.1 

Student je izašao na test iz Marketing analitike. Test se sastoji od 10 pitanja unutar kojih su 

ponuđena četiri moguća odgovora (a, b, c i d). Obzirom da se nije spremao gradivo, student ne 

zna odgovor ni na jedno pitanje pa je odlučio da odgovore zaokruži „na sreću“. Kolika je 

vjerovatnoća da će odgovoriti tačno na 4 pitanja? Kolika je vjerovatnoća da će tačno odgovoriti 

na 5 ili više pitanja? Kolika je vjerovatnoća da će imati 3 ili manje tačnih odgovora? 

9.2. ARITMETIČKA SREDINA I STANDARDNA DEVIJACIJA BINOMNE 

DISTRIBUCIJE 

Aritmetička sredina (μ) i standardna devijacija (σ) binomne distribucije može se izračunati 

korištenjem sljedećih formula: 

μ = np 

σ = √(np(1 − p)) 

Čime u naša tri primjera dobijamo da je: 

Primjer 9.1a: μ = 25 × 0,02 = 0,5 σ = √(25 × 0.02 × (1 − 0,02)) = 0,49 

Primjer 9.1b: μ = 10 × 0,5 = 5 σ = √(10 × 0.5 × (1 − 0,5)) = 1,58 

Primjer 9.1c: μ = 10 × 0,4 = 4 σ = √(10 × 0.4 × (1 − 0,4)) = 1,55 

Aritmetička sredina u binomnoj distribuciji predstavlja očekivanu vrijednost ishoda (x). U 

slučaju sa odabirom proizvoda to bi značilo da u uzorku veličine 25 proizvoda u prosjeku 

možemo očekivati 0,5 nesipravnih proizvoda. Kako je nemoguće imati pola nesipravnog 

proizvoda, ovaj broj je poželjno zaokružiti. Ako pogledamo grafik na slici 21 vidimo da je 

33

vjerovatnije da se u uzorku neće naći ni jedan neispravan proizvod pa aritmetičku sredinu 

možemo zaokružiti na cjelobrojnu vrijednost μ = 0 i reći da u uzorku od 25 slučajno odabranih 

proizvoda, u prosjeku možemo očekivati da nema ni jedan neispravan proizvod. 

9.3. NORMALNA APROKSIMACIJA BINOMNE DISTRIBUCIJE 

U situacijama kada je broj događaja veliki teoretske distribucije za diskontinuirane varijable 

možemo aproksimirati pomoću normalne distribucije. Normalna distribucija će biti dobra 

zamjena za binomnu distribuciju ako je ispunjen jedan od sljedećih uslova: 

Ako je p = 0,5 ili vrlo blizu te vrijednosti. Kako se povećava razlika u vjerovatnoći između dva 

moguća ishoda, binomna distribucija postaje sve više i više asimetrična. Prethodni primjeri nam 

pokazuju da će binomna distribucija biti simetrična ako je p = 0,5 (slika 20). 

Binomne vjerovatnoće imaju barem približno simetričan raspored oko aritmetičke sredine. Ovaj 

zahtjev će biti ispunjen ako su očekivani ishod np i njegova inverzna vrijednost n(1−p) veći od 

broja 5. 

Iz drugog uslova je jasno da će simetričnost distribucije znatno zavisiti od veličine uzorka (n). 

Kako n raste, binomna distribucija se sve više približava normalnoj distribuciji. Kada je broj n 

veliki, a verovatnoća uspeha p nije ekstremno mala, oko 95% observacija slučajne varijable 

X~B(n, p) će se nalaziti unutar raspona od −2 do +2 standardne devijacije. 

Primjer 9.3 

Procijenjeno je da unutar uže gradske jezgre broj porodica koje nisu pretplatnici ni jedne 

kablovske televizije iznosi 10%. Uzet je slučajni uzorak od 100 porodica. Kolika je 

vjerovatnoća da će uzorak obuhvatiti tačno 12 porodica koje nisu pretplatnici kablovske 

televizije? 

Obratimo pažnju na to da je svih pet uslova za binomnu distribuciju ispunjeno. Međutim, ručno 

izračunavanje vjerovatnoće prema ranijoj formuli bi bilo izuzetno zahtjevno i nepraktično. 

Stoga ćemo prvo provjeriti da li su ispunjeni uslovi za aproksimaciju binomne distribucije. 

np = 100 × 0,10 = 10 

n(1−p) = 100 × (1 − 0,10) = 90 

Obzirom da je ispunjen uslov da su np > 5 i n(1−p) > 5 binomna distribucija može biti 

aproksimirana normalnom distribucijom koja ima aritmetičku sredinu μ = 10 i standardnu 

devijaciju σ = 3 (slika 23). 

34

Slika 23 – Normalna aproksimacija binomne distribucije kada je n = 100 i p = 0,10 

Da bi smo odgovorili na pitanje i izračunali vjerovatnoću, u nastavku možemo primijeniti sve 

ono što smo naučili kada smo govorili o normalnoj distribuciji. Potrebno je prvo izračunati 

standardizovanu vrijednost za x = 12, a zatim toj standardizovanoj vrijednosti pridružiti 

odgovarajuću vjerovatnoću iz tablica za z-distribuciju ili je izračunati koristeći statistički 

softver. Vjerovatnoća koju tražimo grafički je predstavljena površinom stupca za x = 12 na slici 

23. 

Obratimo samo pažnju na jedan mali detalj. Naime, obzirom da koristimo normalnu krivu za 

aproksimaciju binomne distribucije, vidimo da stupac za x = 12 počinje malo ranije na x = 11,5 

i završava na x = 12,5. Na osnovu toga zaključujemo da površini stupca x = 12 u okviru binomne 

distribucije, odgovara površina u rasponu od 11,5 do 12,5 ispod krive normalne distribucije, što 

je u stvari vjerovatnoća koja nas interesuje kako bi mogli dati odgovor na postavljeno pitanje 

(slika 24). 

Vrijednost u iznosu od 0,5 koju, u zavisnosti od vrste problema, moramo dodati ili oduzeti od 

odabrane vrijednosti (x) u situaciji kada diskretnu binomnu distribuciju aproksimiramo 

kontinuiranom normalnom distribucijom naziva se faktorom korekcije za kontinuitet (engl. 

continuity correction factor). Njegovo izračunavanje je važno ukoliko kalkulacije obavljamo 

ručno jer većina softverskih paketa ovu korekciju radi automatski. 

Dakle, površina stupca koji nas interesuje se izračunava: 

z -vrijednost za x = 11,5 biće: (11,5 − 10)/3 = 0,50 

z -vrijednost za x = 12,5 biće: (12,5 − 10)/3 = 0,83 

Odatle slijedi da je vjerovatnoća: 

P(0,50 ≤ z ≤ 0,83) = P(0,83) - P(0,50) 

= 0,7967 6 − 0,6914 7 

= 0,1053 

6 

P(0,83) = 0,7967 je vrijednost koju možemo naći u tablicama za z-distribuciju i govori da se 79,67% opservacija 

nalazi lijevo od z = 0,83. 

7 

P(0,50) = 0,6914 je vrijednost koju možemo naći u tablicama za z-distribuciju i govori da se 69,14% opservacija 

nalazi lijevo od z = 0,83. 

35

Slika 24 – Vjerovatnoća da će uzorak obuhvatiti tačno 12 porodica 

Dakle, vjerovatnoća da će naš uzorak obuhvatiti tačno 12 porodica koje nisu pretplatnici 

kablovkse televizije iznosi 10,53% i predstavljena je na slici 24. 

9.4. PROVJERA PRECIZNOSTI APROKSIMACIJE BINOMNE DISTRIBUCIJE 

Da bi provjerili koliko je precizna procijena dobijena na bazi aproksimacije iskoristićemo 

naredbu: 


.09878801 

Možemo vidjeti da se procjena koju smo dobili na bazi normalne aproksimacije (10,53%) 

donekle, ali ne previše, razlikuje od stvarne vjerovatnoće (9,88%). 

Zadatak 9.2a 

Koja je vjerovatnoća da u uzorku dobijemo 10 ili više porodica koje nisu pretplatnici kablovske 

televizije? 

Zadatak 9.2b 

Menadžer restorana je na bazi višegodišnjeg iskustva procijenio da se od ukupnog broja gostiju 

koji prvi put dođu u restoran, njih 70% vrati ponovo. Ako je tokom sedmice u restoranu ručalo 

80 gostiju, kolika je vjerovatnoća da će njih 60 ili više ponovo svratiti u restoran? 

9.5. SAMPLING DISTRIBUCIJA PROPORCIJE I STANDARDNA GREŠKA 

PROPORCIJE 

Vrlo često istraživači žele procijeniti procentualno učešće, odnosno proporciju, jedne kategorije 

u ukupnoj populaciji. Na primjer, može nas interesovati procjena proporcije ljudi koji 

konzumiraju određenu marku čokolade, koji posjeduju automobil i sl. Slično kao što smo kod 

normalne distribucije koristili sampling distribuciju aritmetičkih sredina uzorka i standardnu 

36

grešku i ovdje možemo upotrijebiti slične koncepte kako bi estimirali proporciju unutar 

populacije na bazi podataka iz uzorka. 

Sampling distribuciju proporcija (engl. sampling distribution of proportion) dobijamo tako 

što iz populacije uzimamo ponovljene slučajne uzorke iste veličine (n) i za svaki uzorak 

bilježimo proporciju pozitivnih ishoda (p̂ ). Generalni oblik sampling distribucije proporcija 

uzoraka ima oblik binomne distribucije. 

U slučaju da su ispunjeni odgovarajući uslovi, sampling distribuciju proporcije uzoraka 

možemo aproksimirati normalnom distribucijom. 

Primjer 9.5 

Pretpostavimo da proizvođač novog lijeka tvrdi da se nuspojave lijeka javljaju u 5% slučajeva. 

Da bi testirali ovu tvrdnju proizvođača, na bazi slučajnog uzorka prikupljeni su podaci od n = 

50 pacijenata koji su koristili lijek. Utvrđeno je da je 6 pacijenata imalo nuspojave što je 12% 

svih pacijenata u uzorku (p̂ = 0,12). Prije nego donesemo sud i zaključimo da je tvrdnja 

proizvođača neistinita moramo u obzir uzeti mogućnost da naša jedinična procjena posljedica 

nije u potpunosti tačna, obzirom da će zbog prirode uzorkovanja ona uvijek u nekoj mjeri 

odstupati od stvarne vrijednosti u populaciji. Dakle, potrebno je utvrditi koliko je naša procjena 

na bazi uzorka precizna, a to ćemo uraditi tako što ćemo konstruisati 95% interval povjerenja. 

Prije nego konstruišemo interval povjerenja potrebno je ispitati da li su ispunjene sljedeće 

pretpostavke: 

1. Uzorak (n) bi morao biti jednak ili manji od 5% svih ispitanika u populaciji (N). U našem 

slučaju, ako 50 pacijenata iz uzorka ne čini više od 5% svih pacijenata koji su uzeli lijek, 

uslov je ispunjen. 

2. Kako bi se osiguralo da sampling distribucija ima normalan raspored, uzorak (n) bi trebao 

biti dovoljno velik ili bi proporcija kategorije u uzroku (p̂ ) trebala biti blizu 0,5. Možemo 

reći da je ova pretpostavka ispunjena ako je ispunjen bilo koji od ova dva uslova: a) 

proizvod n x p̂ ≥ 5 ili b) proizvod n(1−p̂ ) ≥ 5. Za naše podatke proizvod je 50 × 0,12 = 6, 

dok je 50 × 0,88 = 44, tako da možemo smatrati da sampling distribucija ima normalan 

raspored. 

Obzirom da su obje pretpostavke ispunjene i da će sampling distribucija imati približno 

normalan raspored, ista logika koju smo primjenili ranije za konstruisanje intervala povjerenja 

oko aritmetičke sredine može se primjeniti i ovdje. Formula za određivanje granica 95% 

intervala povjerenja za proporciju glasi: 

95% CI = p̂ ± (1.96 × standardna greška) 

Standardna greška za proporciju se izračunava po sljedećoj formuli: 

SE 

ˆ p(1 ˆ p) 

n 

gdje se p̂ odnosi na proporciju kategorije unutar uzorka (6/50 = 0,12) , a n je veličina uzorka. 

37

Za uzorak od 50 slučajno odabranih pacijenata, biće: 

SE = √(0,12 × (1 − 0,12)/50 = √(0,12 × 0,88)/50) = 0,046 ili 4,6% 

Prema tome, 95% interval povjerenja za proporciju je: 

95% CI = p̂ ± (1.96 × SE) 

= 0,12 ± (1.96 × 0,046) 

= 0,12 ± 0,09 = od 0,03 do 0,21 

Sa 95% sigurnošću možemo tvrditi da će se stvarna proporcija pacijenata koji će iskusiti 

nuspojave od novog lijeka nalaziti negdje između 3% i 21%. Obzirom da ovaj interval 

povjerenja obuhvata 5%, tvrdnju proizvođača ne možemo odbaciti kao neistinitu. 

38



Testiranje hipoteza 1 

Autor: 



1 



1

Sadržaj 

I Testiranje hipoteza ........................................................................................................... 3 

1. Uvod ................................................................................................................................ 3 

2. Koraci ............................................................................................................................. 3 

2.1. Formulisanje statističke hipoteze ............................................................................. 4 

2.1.1. Nulta i alternativna hipoteza ............................................................................. 4 

2.1.2. Neusmjerene i usmjerene hipoteze ................................................................... 5 

2.2. Odabir statističkog testa ........................................................................................... 5 

2.2.1. Testovi za ispitivanje veza između varijabli ..................................................... 6 

2.2.2. Testovi za ispitivanje razlika između grupa ..................................................... 6 

2.3. Odabir kriterija odlučivanja i nivoa statističke značajnosti ..................................... 7 

2.4. Izračunavanje statistike testa .................................................................................... 8 

2.5. Donošenje odluke: kritično područje ..................................................................... 10 

2.6. Donošenje odluke: p-vrijednost ............................................................................. 12 

3. Greška prvog i drugog tipa ........................................................................................ 13 

3.1. Snaga testa ............................................................................................................. 13 

3.2. Odnos između greške tipa I, II i snage testa .......................................................... 15 

3.3. Odnos između snage testa, veličine uzorka i veličine efekta ................................. 16 

4. Najčešće pogreške vezane za testove signifikantnosti .............................................. 17 

4.1. Nivo značajnosti je arbitraran ................................................................................ 17 

4.2. Lažno pozitivni rezultati ........................................................................................ 17 

4.3. p-vrijednost nije isto što i rizik da napravimo grešku I tipa .................................. 18 

4.4. p-vrijednost nije vjerovatnoća dobijanja istog rezultata ........................................ 18 

4.5. p-vrijednost zavisi od veličine uzorka ................................................................... 19 

4.6. Statistička signifikantnost nije isto što i praktična signifikantnost ........................ 20 

5. Veličina efekta ............................................................................................................. 20 

2

I 

Testiranje hipoteza 

1. UVOD 

Pod testiranjem hipoteza podrazumjevamo statističke procedure kojima se testiraju različite 

tvrdnje koje se odnose na obilježja populacije - parametre. Uzmimo na primjer tvrdnju da 25% 

svih korisnika smart telefona u BiH posjeduje telefon marke Apple. Ovo je tvrdnja o parametru 

(proporciji) populacije (svi korisnici u BiH) za kategorijsku varijablu (marka smart telefona). 

S druge strane, tvrdnja da prosječna mjesečna neto plata u BiH iznosi 832 KM je isto tako 

tvrdnja o parametru (prosjeku) populacije (svi zaposleni u BiH) za metrijsku varijablu (neto 

plata). U oba slučaja tvrdimo da je parametar jednak nekoj vrijednosti. 

Dalje, ako kažemo da između godina školovanja i prosječne neto plate u BiH postoji uzajamna 

povezanost, onda imamo tvrdnju o parametru (koeficijentu korelacije) između dvije metrijske 

varijable (godine školovanja i prosječna neto plata) unutar jedne populacije (svi zaposleni u 

BiH). 

Kod testova koji se bave testiranjem razlika između grupa želimo testirati tvrdnje da se dvije 

ili više različitih populacija međusobno razlikuju u pogledu vrijednosti parametara za neku 

zavisnu varijablu. Na primjer, tvrdnja da se prosječna neto plata razlikuje između kantona je 

tvrdnja o razlici između parametara (prosjeka) unutar nekoliko populacija (kantoni) za zavisnu 

metrijsku varijablu (plata). 

2. KORACI 

Da bi ilustrovali sam postupak testiranja hipoteza, poslužićemo se jednostavnim primjerom. 

Primjer 2.1 

Pretpostavimo da, proizvođač tvrdi da je prosječni životni vijek baterija iznosi μ = 42 mjeseci 

sa σ = 9 mjeseci. Kako bi provjerili ovu tvrdnju, izdvojili smo slučajni uzorak od 30 baterija na 

bazi kojeg smo izračunali da prosječan životni vijek iznosi x̄ = 39 mjeseci. Da li ovaj rezultat 

osporava tvrdnju proizvođača? Obzirom da je prosjek dobijen na bazi uzorka, uvijek je moguće 

da je eventualna razlika između prosjeka uzorka i onoga što tvrdi proizvođač posljedica slučajne 

greške, odnosno varijacija svojstvenih uzorkovanju. Kolika je vjerovatnoća da je opservirana 

razlika posljedica slučajnosti ako stvarni prosječni životni vijek baterija zaista iznosi μ = 42 

mjeseci? 

Sama procedura testiranja hipoteza ima nekoliko koraka: 

1. Formulisanje statističke hipoteze 

2. Odabir statističkog testa 

3. Odabir nivoa značajnosti 

4. Izračunavanje statistike testa 

5. Donošenje odluke o prihvatanju ili odbacivanju hipoteze 

U nastavku ćemo proći kroz svaki od ovih koraka. 

3

2.1. FORMULISANJE STATISTIČKE HIPOTE ZE 

Statistička hipoteza je tvrdnja o obilježjima populacije (parametrima) u formi koja obično 

implicira razliku između grupa ili vezu između varijabli. 

Formulisanje statističke hipoteze polazi od istraživačkog problema u okviru kojeg je potrebno 

identifikovati tvrdnju o parametru populacije. Na primjer, u konkretnom slučaju jasno je da se 

tvrdnja odnosi na prosjek životnog vijeka baterije (µ) za koji proizvođač kaže da iznosi 42 

mjeseca. Kako bi testirali tvrdnju proizvođača moramo je uporediti sa nekom alternativom koja 

se u ovom slučaju odnosi na prosijek koji smo dobili na bazi uzorka i prema kojem životni vijek 

baterije iznosi 39 mjeseci. Dakle, u suštini testiramo postojanje razlika između prosjeka u dvije 

grupe: grupe koju predstavlja naš uzorak gdje je x̄ = 39 i grupe u kojoj je µ = 42, što bi prema 

tvrdnji proizvođača trebala biti vrijednost parametra u populaciji svih proizvedenih baterija. 

Iz ovog primjera uočavamo da se hipoteza uvijek odnosi na situaciju koja može biti ili istinita 

ili netačna. Dakle, postoje samo dvije alternative koje trebamo razmotriti kako bi provjerili datu 

hipotezu: 

H0: Prosječan životni vijek baterije iznosi 42 mjeseca (tvrdnja proizvođača) 

H1: Prosječan životni vijek baterije je različit od 42 mjeseca 

ili skraćeno napisano: 

H0: µ = 42 mjeseca 

H1: µ ≠ 42 mjeseca 

2.1.1. Nulta i alternativna hipoteza 

Ove dvije opcije oslikavaju ono što nazivamo nultom i alternativnom hipotezom. Nulta 

hipoteza (H0) je pretpostavka o tome da ne postoji: (a) veza između varijabli ili (b) razlika 

između grupa i smatramo je tačnom sve dok ne prikupimo dovoljno dokaza koji je opovrgavaju. 

Ona u suštini predstavlja standard ili referentnu vrijednost prema kojoj poredimo dokaze koji 

idu u prilog alternativnoj hipotezi. Veoma je važno napomenuti da nulta hipoteza ne može biti 

dokazana ili ne dokazana. Ona je ili istinita ili nije. Najviše što možemo reći jeste da li smo 

uspjeli naći dovoljno dokaza na osnovu kojih ćemo nultu hipotezu odbaciti ili zadržati. 

Alternativna hipoteza (H1) izražava postojanje veze između varijabli ili razlike između grupa 

i ona se prihvata ako se skupi dovoljno dokaza za odbacivanje nulte hipoteze. Alternativna 

hipoteza odražava ono što istraživač smatra da je istina. 

Pri formulisanju nulte i alternativne hipoteze treba imati na umu nekoliko stvari. 

Prvo, nulta i alternativna hipoteza ne smiju sadržavati nikakve informacije iz samog uzorka. 

Obratimo pažnju da smo pri formulaciji hipoteze koristili tvrdnju proizvođača (42 mjeseca), a 

ne podatke do kojih smo došli na bazi uzorka (39 mjeseci). 

Drugo, nulta hipoteza uvijek odražava status-quo situaciju. Drugim riječima, ukoliko se ne 

odbaci nulta hipoteza onda ne treba poduzimati nikakve dalje akcije. S druge strane, 

4

alternativna hipoteza odražava ono što istraživač smatra da je istina i na bazi čega bi mogli 

poduzeti odgovarajuće akcije. 

Treće, nulta hipoteza u sebi uvijek sadrži znak jednakosti. U slučaju kada testiramo vezu između 

dvije varijable nulta hipoteza pretpostavlja da je koeficijent korelacije između njih jednak nuli. 

Kada se radi o testiranju razlika, ova jednakost znači da između dvije grupe nema razlike. 

Drugim riječima, nulta hipoteza pretpostavlja da obje grupe u stvari pripadaju istoj populaciji, 

da stvarna razlika između njih ne postoji (jednaka je nuli) i da opservirana razlika između 

statistike uzorka (x̄ = 39) i parametra populacije (µ = 42) predstavlja samo rezultat slučajnosti 

nastao zbog greške uzorkovanja. 

2.1.2. Neusmjerene i usmjerene hipoteze 

Ako prilikom formulisanja hipoteza nismo specificirali da li očekujemo da je stvarni prosjek 

veći ili manji od tvrdnje proizvođača. Zbog toga smo koristili simbol "≠". U ovakvim 

slučajevima, kada nas jednostavno interesuje da li postoji razlika između grupa, kažemo da se 

radi o neusmjerenoj ili dvosmjernoj hipotezi (engl. two-tailed hypothesis). 

Alternativna hipoteza može sadržavati i dosta određenije predviđanje o ishodu analize koje 

možemo prestaviti sa simbolima "" i tada govorimo o usmjerenim hipotezama (engl. 

one-tailed hypothesis). Na primjer, ako unaprijed pretpostavimo da je stvarni životni vijek 

baterije manji od onoga što tvrdi proizvođač imali bi: 

H0: µ ≥ 42 mjeseca (tvrdnja proizvođača) 

H1: µ < 42 mjeseca 

Zašto je bitno razlikovati da li je riječ o dvosmjerno ili jednosmjerno formulisanoj hipotezi? 

Zbog toga što usmjerene hipoteze omogućavaju istraživaču da pri njihovom testiranju koristi 

usmjerene statističke testove (engl. one-tailed tests) koji imaju veću snagu da detektuju 

postojanje signifikantnih razlika između grupa ukoliko te razlike zaista postoje u odnosu na 

dvosmjerne statističke testove (engl. two-tailed tests). 

2.2. ODABIR STATISTIČKOG TESTA 

Testiranje hipoteza u osnovi podrazumjeva primjenu odgovarajućeg statističkog testa na bazi 

čijeg rezultata prihvatamo ili odbacujemo hipotezu. Statistički test je matematska procedura 

ili formula koju koristimo da analiziramo podatke prikupljene na bazi uzorka kako bi donijeli 

odluku da li je hipoteza o parametrima populacije istinita ili ne. Statistički testovi se baziraju 

na istim konceptualnim osnovama o kojima smo govorili u prethodnom poglavlju X i koji se 

odnose na teoretske distribucije, standardizovane vrijednosti, standardne greške i intervale 

povjerenja. 

Obzirom da korištenje pogrešnog testa može dovesti do potpuno pogrešnih zaključaka 

istraživanja, izbor adekvatnog testa za analiziranje prikupljenih podataka je od krucijalne 

važnosti. Generalno govoreći, statističke testove možemo podijeliti u dvije generalne grupe: a) 

Testovi kojima se testira veza između varijabli i b) Testovi kojima se testiraju razlike između 

grupa. 

5

2.2.1. Testovi za ispitivanje veza između varijabli 

Kod testova kojima se testira veza između varijabli imamo situaciju da unutar iste populacije 

želimo testirati tvrdnju da postoji veza između dvije ili više varijabli. Utvrđivanje 

signifikantnosti koeficijenta korelacije je vjerovatno najpoznatiji test kojim se testira tvrdnja o 

vezi između varijabli. Testovi koji se bave korelacijama će biti detaljnije obrađeni u zasebnom 

poglavlju X. 

2.2.2. Testovi za ispitivanje razlika između grupa 

Kod testova kojima s testira razlika želimo utvrditi da li se dvije ili više različitih populacija 

međusobno razlikuju prema određenom parametru. Obzirom da postoji široka lepeza dostupnih 

testova za ispitivanje razlika, istraživač se često suočava sa dilemom koji test koristiti u datoj 

situaciji. Da bi izabrali adekvatan statistički test za testiranje razlika moramo razmotriti 

nekoliko različitih aspekata samog istraživačkog problema. Ovi aspekti se odnose na: a) broj 

grupa između kojih testiramo razlike, b) vrstu povezanosti između grupa i c) tip zavisne 

varijable. U skladu sa navedenim aspektima kreirana je tabela 1 sa preporukama za odabir 

odgovarajućeg testa. 

Tabela 1 – Kriteriji za odabir testa 

Tip 

zavisne 

varijable 

Jedna 

grupa 

(one-sample 

tests) 

Testovi za testiranje razlika 

između dvije grupe 

(two-sample tests) 

Nezavisne 

grupe 

Povezane 

grupe 

Testovi za testiranje razlika 

između tri ili više grupa 

(k-sample tests) 

Nezavisne 

grupe 

Povezane 

grupe 

Neparametarski 

testovi 

Nominalna 

Ordinalna 

Binomni 

test ili χ 2 test 

proporcije 

χ 2 test 

proporcije 

χ2 test 

nezavisnosti 

Mann- 

Whitney U 

test 

McNemar 

test 

Wilcoxonov 

test 

χ2 test 

nezavisnosti 

Kruskal- 

Wallis test 

Cochran Q 

test 

Friedman 

test 

Parametarski 

testovi 

Kontinuira 

na 

z ili t-test na 

bazi jednog 

uzorka 

Nezavisni t- 

test 

Zavisni t-test 

Jednofaktorska 

ANOVA 

ANOVA sa 

ponovljenim 

mjerenjima 

Prvo trebamo utvrditi tip zavisne varijable, tj. da li je riječ o kategorijalnoj (nominalna, 

ordinalna) ili kontinuiranoj (intervalna, racio) zavisnoj varijabli. U kontekstu statističkih 

testova za testiranje razlika između grupa, nezavisna varijabla 8 je ona varijabla na osnovu koje 

se formiraju grupe između kojih se testiraju razlike. S druge strane, zavisna varijabla 

predstavlja kriterij po kojem se vrši testiranje razlika između grupa definisanih pomoću 

nezavisne varijable. 

8 

Često se naziva i eksperimentalna varijabla ili prediktor. 

6

Na primjer, ako nas interesuje razlika u prosječnoj neto plati između muškaraca i žena, 

nezavisna varijabla će biti spol (varijabla na osnovu koje su formirane grupe), a zavisna 

varijabla će biti prosječna neto plata (varijabla koja sadrži kriterij za testiranje). 

Iznimka po ovom pitanju su one-sample testovi koji su specifični po tome što nemamo 

nezavisnu varijablu na osnovu koje možemo definisati grupe već samo kriterij po kojem se vrši 

testiranje. 

U zavisnosti od toga kako je mjerene zavisna varijabla testove možemo podijeliti na 

parametarske i neparametarske testove. Neparametarki testovi su testovi koji se primarno 

primjenjuju kada je zavisna varijabla nominalnog ili ordinalnog tipa. S druge strane 

parametarske testove primjenjujemo kada je zavisna varijabla metrijskog tipa i kada su 

ispunjene određene pretpostavke o čemu ćemo govoriti kasnije. 

Drugo što trebamo utvrditi je broj grupa za koje testiramo razlike. U tom kontekstu govorimo 

o testovima na bazi jednog, dva ili više uzoraka. Ovdje pojam "uzorak" treba shvatiti uslovno. 

Kad kažemo test na bazi jednog uzorka (engl. one-sample test) to samo znači da u uzorku 

nemamo podatke za dvije ili više grupa već samo za jednu. Oni se koriste u situacijama kada 

želimo testirati hipotezu da se statistika našeg uzorka, za koji imamo pojedinačne opservacije 

unutar baze podataka, signifikantno ne razlikuje u odnosu na: a) statistiku drugog uzorka za 

koji nemamo pojedinačne opservacije unutar naše baze podataka ili b) stvarne ili hipotetičke 

parametre populacije. 

Treće, u slučaju kada imamo dvije ili više grupa trebamo utvrditi da li je riječ o nezavisnim ili 

zavisnim grupama. Nezavisne grupe javljaju se u situaciji kada mjerenje u jednoj grupi nije 

moglo imati nikakvog uticaja na mjerenje u drugim grupama. Na primjer, visina prosječne neto 

plate koja je izmjerena za žene ne zavisi od visine plate koja je izmjerena za muškarce obzirom 

da su ovo dvije odvojene grupe. Zavisne grupe najčešće srećemo u situacijama kada je 

mjerenje obavljeno dva puta na istim ispitanicima pa rezultat u ponovljenom mjerenju može 

zavisiti od prethodno dobijenog rezultata Na primjer, ako smo mjerili performanse prodajnih 

predstavnika prije treninga i nakon treninga, grupe se formiraju na bazi samog mjerenja ali su 

ispitanici isti. 

Primjer 2.1 - nastavak 

U našem primjeru sa prosječnim vijekom trajanja baterija, cilj nam je ispitati da li postoji razlika 

između pretpostavljene aritmetičke sredine populacije i aritmetičke sredine uzorka. Obzirom 

da u uzorku nemamo nezavisnu varijablu na osnovu koje možemo formirati grupe i da nam je 

cilj provjeriti da li se statistika našeg uzorka (x̄ = 39) signifikantno razlikuje od pretpostavljenog 

parametra populacije (µ = 45), jasno je da se radi o one-sample testu. Kriterij (životni vijek 

baterije) po kojem testiramo razliku je metrijskog tipa, što upućuje na zaključak da u tabeli 1 

trebamo odabrati one-sample z-test ili t-test. 9 

2.3. ODABIR KRITERIJA ODLUČIVANJA I NIVOA STATISTIČKE ZNAČAJNOSTI 

Tokom prethodnih izglaganja već smo nekoliko puta pominjali da se testiranje hipoteza odnosi 

na provjeru tvrdnji o parametrima populacije i da prilikom testiranja utvrđujemo da li je veza 

9 

Preciznije rečeno, t-test možemo koristititi bez obzira na veličinu uzorka, dok bi z-test trebali koristiti samo ako 

je uzorak jednak ili veći od 30. 

7

između varijabli, odnosno razlika između grupa, statistički signifikantna. U primjeru koji se 

odnosi na životni vijek baterije ispostavilo se da prosječan životni vijek baterije u uzorku iznosi 

39 mjeseci, što je manje od 42 mjeseca koliko iznosi životni vijek prema tvrdnji proizvođača. 

Da li samo na bazi ove razlike možemo reći da je tvrdnja proizvođača netačana? Ne baš. 

Kada smo govorili o sampling distribuciji vidjeli smo da će se aritmetička sredina uzorka u 

nekoj mjeri uvijek razlikovati u odnosu na stvarnu aritmetičku sredinu populacije. Obzirom da 

je prosjek x̄ = 39 dobijen na bazi uzorka, uvijek je moguće da je on rezultat slučajnosti. Možda 

se jednostavno desilo da je naš uzorak obuhvatio primjerke baterija čiji je životni vijek znatno 

ispod ili iznad stvarnog prosjeka. 

Zbog toga se postavlja pitanje kolika je vjerovatnoća da je razlika koju smo utvrdili na bazi 

uzorka rezultat slučajnosti zbog fluktuacija svojstvenih procesu uzorkovanja? Da li se dobijeni 

rezultat može očekivati relativno često ili je riječ o rezultatu koji je zaista različit i neočekivan? 

Drugim riječima, da li utvrđena razlika predstavlja stvarni efekt koji nezavisna varijabla ima na 

zavisnu varijablu ili je razlika samo dio uobičajene varijacije koja se javlja zbog greške 

uzorkovanja? 

Da bi smo dali odgovor na ova pitanja moramo unaprijed specificirati kriterij odlučivanja 

(engl. decision rule) koji koristimo za prihvatanje ili odbacivanje nulte hipoteze. Ovaj kriterij 

se u procesu testiranja hipoteza naziva nivoom statističke značajnosti (α) i definiše se kao 

rizik koji smo spremni prihvatiti da odbacimo nultu hipotezu ako je ona zaista istinita. 

U društvenim naukama se kao standard za odbacivanje nulte hipoteze uzima to da vjerovatnoća 

slučajnog javljanja opservirane razlike iznosi manje od 1 prema 20, pod pretpostavkom da je 

nulta hipoteza zaista tačna. Drugim riječima, ako utvrdimo da je vjerovatnoća dobijanja nekog 

rezultata manja od 5% (p < 0.05), odbacićemo nultu hipotezu i zaključiti da se opservirani 

rezultat na bazi uzroka zaista razlikuje od očekivane vrijednosti unutar populacije. 

U direktnoj vezi sa nivoom statističke značajnosti nalaze se kritične vrijednosti koje smo 

koristili da definišemo intervale povjerenja unutar standardne normalne distribucije 11 . Svaka 

od navedenih kritičnih vrijednosti ima pridruženu p-vrijednost, a njihov međusobni odnos 

vidjećemo u narednoj sekciji. 

2.4. IZRAČUNAVANJE STATISTIKE TESTA 

Sljedeći korak je da izračunamo stvarnu vjerovatnoću i uporedimo je sa odabranim kriterijem 

odlučivanja, odnosno nivoom statističke značajnosti. Drugim riječima, u kontekstu ranijeg 

primjera interesuje nas da utvrdimo kolika je vjerovatnoća da na bazi slučajnog uzorka 

dobijemo prosjek od 39 mjeseci, ako je stvarni prosjek u populaciji 42 mjeseci. 

Primjer 2.1 – nastavak 

Za dobijanje odgovora na ovo pitanje poslužićemo se karkateristikama sampling distribucije. 

Naime, osnovna ideja testa bazira se na tome da vidimo da li naš uzorak dolazi iste populacije 

u kojoj je stvarni prosjek u populaciji μ = 42. Ako je to slučaj onda bi se prosjek uzorka (39 

mjeseci) unutar sampling distribucije trebao nalaziti u intervalu povjerenja od 95%, što 

11 

Vidi tabele sa kritičnim z-vrijednostima u poglavlju: "Osnove inferencijalne statistike“, podnaslov „Normalna 

distribucija i vjerovatnoća". 

8

odgovara odabranom nivou statičke značajnosti od 5% (α = 0,05). Dakle, test na osnovu kojeg 

testiramo hipotezu svodi se na izračunanje z-vrijednosti i poređenje te vrijednosti sa kritičnom 

vrijednošću koja u slučaju 95% intervala povjerenja iznosi z = ± 1,96. Ovo je prikazano na slici 

1. 

Numerička vrijednost koju dobijemo na bazi statističkog testa se naziva statistikom testa (engl. 

test statistic). Izračunava se na bazi podataka iz uzorka i služi nam da odredimo da li treba 

zadržati ili odbaciti nultu hipotezu. 

Slika 1 – Sampling distribucija je osnova na kojoj počiva testiranje hipoteza 

Podsjetimo se da sampling distribuciju dobijamo tako što iz populacije nastavljamo uzimati 

uzorke iste veličine i mjeriti njihove prosjeke. Centralni granični teorem kaže da će u većim 

uzorcima (n > 30) ovi prosjeci biti simetrično distribuirani oko prosjeka populacije koji u našem 

primjeru iznosi 42 mjeseci. Prosječna varijacija tako izračunatih aritmetičkih sredina uzoraka 

bila bi jednaka standardnoj grešci. Obzirom da je nepraktično uzimati veći broj uzorka, 

standardnu grešku možemo procijeniti i na bazi ranije date formule pa ćemo u našem primjeru 

imati da je: 

SE = σ/√n 

SE = 9/√30 = 1,64317 

Nakon što odstupanje prosjeka uzorka od prosjeka populacije podijelimo sa standardnom 

greškom dobićemo: 

Statistika testa zα/2 = (x̄ − μ)/SE 

Statistika testa z.025 = (39 − 42)/1,64317 ≈ −1,83 

U konkretnom slučaju, dobijena z-vrijednost od −1,83 predstavlja rezultat z-testa na bazi jednog 

uzorka i govori koliko je dobijeni prosjek na bazi uzorka daleko od očekivanog prosjeka na 

standarnoj normalnoj distribuciji. Ovu vrijednost je u narednom koraku potrebno uporediti sa 

kritičnom z-vrijednošću koja korespondira odabranom kriteriju odlučivanja, odnosno nivou 

statističke signifikantnosti. 

9

2.5. DONOŠENJE ODLUKE: KRITIČNO PODRUČJE 

Ostalo nam je još da vidimo koje z-vrijednosti snažno upućuju na to da je istinita alternativna, 

a ne nulta hipoteza. Kritično područje (engl. critical region) se odnosi na vrijednosti statistike 

testa za koje ne prihvaćamo nultu hipotezu H0. Kritično područje je u direktnoj je vezi sa 

odabranim nivoom statističke signifiknantosti α i time da li smo formulisali usmjerenu ili 

neusmjerenu hipotezu. 

Slika 2 – Distribucija statistike testa i kritična područja 

Obratimo pažnju da na slici 2 postoje tri vrste kritičnog područja: 

1. Lijevo usmjereno, kada odbacujemo H0 ako je statistika testa manja ili jednaka kritičnoj 

vrijednosti koja se nalazi na lijevom kraju distribucije vjerovatnoće; 

2. Desno usmjereno, kada odbacujemo H0 ako je statistika testa veća ili jednaka kritičnoj 

vrijednosti koja se nalazi na desnom kraju distribucije vjerovatnoće; 

3. Dvosmjerno, kada odbacujemo H0 ako je statistika testa veća ili jednaka od kritične 

vrijednosti koja se nalazi na desnom kraju distribucije vjerovatnoće, odnosno ako je 

statistika testa manja ili jednaka od kritične vrijednosti koja se nalazi na lijevom kraju 

distribucije vjerovatnoće. 


Obzirom da smo u našem primjeru formulisali neusmjerenu hipotezu, ukupni alpha nivo 

moramo podijeliti na dva kraja teoretske distribucije, jer nivou statističke signifikantnosti od α 

= 0,05 odgovara dvosmjerno kritično područje i kritična vrijednost od z.025 = −1.96. 

Dobijena statistika testa z = −1,83 je veća od kritične vrijednosti z = −1,96 i nalazi se unutar 

intervala povjerenja od 95%. Dakle, pri odabranom nivou statističke značajnosti od 5% 

nemamo dovoljno dokaza da možemo odbaciti nultu hipotezu. Drugim riječima, tokom 

testiranja dobili smo rezultat koji ukazuje na to da je prosjek uzorka (39) vjerovatno dio iste 

populacije u kojoj je μ = 42. Rezultat je prikazan na slici 3. 

10

Slika 3 – Distribucija aritmetičkih sredina uzoraka za životni vijek baterije i uzorke veličine n 

= 30 

Obratimo pažnju da smo testirali neusmjerenu hipotezu. Šta bi se desilo da smo unaprijed 

pretpostavili da proizvođač obmanjuje potrošače i da je stvarni prosječni vijek baterije manji 

od onoga što proizvođač tvrdi? Drugim riječima, da smo testirali jednosmjernu hipotezu: 

H0: µ ≥ 42 mjeseca 

H1: µ < 42 mjeseca 

Postupak izračunavanja i vrijednost statistike testa bi bila ista kao i ranije, ali bi se promijenilo 

kritično područje. Obzirom da se čitavo kritično područje sada nalazi samo na jednom kraju 

distribucije vjerovatnoće, kod usmjerene hipoteze nivou statističke signifikantnosti od α = 0,05 

odgovarala bi kritična vrijednost z.05 = −1,645. Samim tim, dobijena statistika testa bi se našla 

u kritičnom području jer je −1,83 > −1,645 pa bi mogli odbaciti nultu i prihvatiti alternativnu 

hipotezu. 

Slika 4 – Distribucija aritmetičkih sredina uzoraka za životni vijek baterije i uzorke veličine n 

= 30 

Ako pogledamo sliku 4, vidimo da kritično područje počinje lijevo od vrijednosti 39,30 kojoj 

odgovara standardizovana vrijednost z = −1,645. Obzirom da se dobijeni rezultat x̄ = 39 i 

11

pridružena mu vrijednost z = −1,83 nalazi u kritičnom području imali bi dovoljno dokaza da 

odbacimo nultu i prihvatimo alternativnu hipotezu. 

2.6. DONOŠENJE ODLUKE: P-VRIJEDNOST 

Nivo statističke značajnosti koji koristimo za prihvatanje ili odbacivanje nulte hipoteze može 

se izraziti i preko p-vrijednosti. Naime, umjesto da izračunatu statistiku testa upoređujemo sa 

tabličnim vrijednostima, uz pomoć softverskih paketa možemo direktno saznati u kojem 

stepenu se ona slaže sa nultom hipotezom. U tehničkom smislu, softver će izračunati statistiku 

testa i upariti je sa odgovarajućom vjerovatnoćom za datu teoretsku distribuciju (z, t, F itd.) i 

ispisati p-vrijednost. 

U tom kontekstu, p-vrijednost nije ništa drugo nego pokazatelj koji govori kolika je 

vjerovatnoća da je opservirana statistika testa, izračunata na bazi uzorka, različita od one koju 

bi imali pod pretpostavkom da je nulta hipoteza istinita. 


Dakle, ranije izračunatoj vrijednosti testa z = −1,83 odgovara p-vrijednost od 0,067. Ovo znači 

da pod pretpostavkom da je nulta hipoteza tačna, vjerovatnoća da je opservirana razlika rezultat 

slučajnosti iznosi 6,7%. Iako je riječ o relativno maloj vjerovatnoći (p = 0,067), ona je još uvijek 

veća od unaprijed prihvaćenog rizika (α = 0,05) pod kojim smo spremni odbaciti nultu hipotezu 

ako je ona zaista istinita. Zbog toga zaključujemo da nemamo dovoljno dokaza da odbacimo 

nultu hipotezu. 

Međutim, da smo formulisali jednosmjernu hipotezu, dobijenu p-vrijednost trebali bi 

prepoloviti pa bi imali p = 0,034 što je manje od α = 0,05. U tom slučaju bi nultu hipotezu mogli 

odbaciti sa rizikom od 3,4%. 

Metod prikaza rezultata testa preko p-vrijednosti je postao popularan iz razloga što većina 

softverskih paketa rezultate testiranja hipoteza prijavljuje preko p-vrijednosti. Time se 

istraživaču omogućava da na jednostavan način uporedi dobijenu p-vrijednost sa unaprijed 

prihvaćenim nivoom rizika, te da odluku o prihvatanju hipoteze donese na bazi jednostavne 

uporedbe ta dva broja. U slučaju kada je p-vrijednost manja od prihvaćenog nivoa rizika koji 

se obično definiše kao α = 0,05 hipoteza se prihvata. U suprotnom se odbacuje. 

12

3. GREŠKA PRVOG I DRUGOG TIPA 

Obzirom da je u proces testiranja hipoteza uvijek uključena probabilistička komponenta 

moguće je napraviti dvije vrste greški prikazane u tabeli 2. 

Tabela 2 – Moguće greške pri testiranju hipoteza 

Priroda stvari 

H0 je istinita 

H1 je istinita 

Prihvatili H0 

Ispravna odluka 

Greška II tipa 

Vjerovatnoća = β 

Odluka 

Prihvatili H1 

Greška I tipa 

Vjerovatnoća = α 

Ispravna odluka 

Snaga P = 1 - β 

Greška prvog tipa (označava se sa α) označava situaciju kada smo odbacili nultu hipotezu 

koja je u stvarnosti istinita. Drugim riječima, grešku prvog tipa smo napravili ako dobijemo 

statistički signifikantan rezultat testiranja u situaciji kada stvarni efekt ne postoji. U našem 

primjeru to bi značilo da prosječni životni vijek baterije nije manji od očekivanog, a mi smo 

došli do zaključka da jeste. Vodeći se tim pogrešnim zaključkom, odlučili bi uvesti izmjene u 

proizvodni proces i poboljšati kontrolu kvalitete praveći nepotrebne troškove. 

Greška drugog tipa (označava se sa β) javlja se kada ne uspijemo odbaciti neistinitu nultu 

hipotezu. Drugim riječima, grešku drugog tipa smo napravili ako smo došli do zaključka da 

rezultat testa nije statistički signifikantan u situaciji kad on to u stvarnosti jeste. U našem 

primjeru, to bi značilo da je prosječan životni vijek baterije zaista različit od očekivanog ali mi 

to nismo uspjeli utvrditi (tj. nismo imali dovoljno dokaza da odbacimo nultu hipotezu). 

3.1. SNAGA TESTA 

Koncept koji je usko povezan sa greškom drugog tipa je snaga testa. U statističkom smislu 

snaga testa (engl. power) predstavlja vjerovatnoću da ćemo odbaciti nultu hipotezu ako ona 

zaista nije istinita, odnosno da ćemo uspjeti detektovati efekat koji postoji kao statistički 

značajan. 


Za ilustraciju snage testa poslužićemo se ranijim primjerom gdje smo testirali: 

H0: µ0 ≥ 42 mjeseca 

H1: µ0 < 42 mjeseca 

Ako kao kriterij odlučivanja koristimo nivo statističke značajnosti α = 0,05, onda je za 

odbacivanje nulte hipoteze potrebno da statistika testa bude z < -1.645 12 . U tom slučaju možemo 

napisati: 

12 

Obzirom da je hipoteza jednosmjerna čitavo kritično područje (α) locirano je na gornjem kraju H 0 distribucije. 

U slučaju dvosmjerne hipoteze vrijednosti u kritičnom području bi imale vjerovatnoću jednaku α/2 pod H 0. 

13

z 

x 

SE 

0 

−1,645 = (x − 42)/1,643 

x = 42 − 1,645 × 1,643 

x = 42 − 2,703 

x = 39,297 

Vrijednost x = 39,30 predstavlja granicu za odbacivanje H0 uz nivo rizika da smo napravili 

grešku prvog tipa u iznosu od α = 0,05 . Ukoliko se aritmetička sredina (x̄ ) uzorka nalazi lijevo 

od od ove granice rezultat jednosmjernog testa biće statistički signifikantan, što je situacija koju 

imamo na slici 5a gdje se prosjek (x̄ = 39) nalazi u kritičnoj zoni, lijevo od granice (x = 39,30). 

Sada ćemo izračunati z-statistiku pod pretpostavkom da je istinita alternativna hipoteza tj. da je 

µ1 = 39 mjeseci: 

x 1 39,297 39 

z 0,181 

SE 1,643 

Dakle, pod pretpostavkom da je alternativna hipoteza istinita, ranije definisana vrijednost x = 

39,30 će od aritmetičke sredine sampling distribucije (µ1 = 39) biti udaljena z = +0,181 

standardnu devijaciju. Dobijenoj z-vrijednosti odgovara p = 0,4286. 

Slika 5 – Greške tipa I, II i snage testa uz α = 0,05 

Ako pogledamo sliku 5b to znači da će se 43% opservacija unutar sampling distribucije nalaziti 

u neosjenčenom dijelu desno iza vrijednosti x = 39,30. Obzirom da pretpostavljamo da je 

alternativna hipoteza istinita, taj neosjenčeni dio slike 5b predstavlja vjerovatnoću da 

14

napravimo grešku drugog tipa β i zaključimo da nema razlike između µ1 = 39 i µ0 = 42 kada u 

stvarnosti ta razlika postoji. 

Shodno ovome, ostalih 57% opservacija će se nalaziti u osjenčenom dijelu lijevo od x = 39,30. 

Osjenčeni dio slike 5b predstavlja snagu testa (P). Kako se aritmetička sredina x̄ = 39 nalazi u 

osjenčenom dijelu, test je imao dovoljnu snagu da detektuje tu razliku i dobili smo signifikantan 

rezultat uz nivo rizika α = 0,05. 

3.2. ODNOS IZMEĐU GREŠKE TIPA I, II I SNAGE TESTA 

Vjerovatnoća da napravimo grešku prvog tipa je obrnuto proporcionalna vjerovatnoći da 

napravimo grešku drugog tipa za uzorak fiksne veličine. Drugim riječima, ako smanjujemo 

rizik da napravimo grešku prvog tipa, povećavamo rizik da napravimo grešku drugog tipa i 

obratno. 

Da bi smo ilustrovali ovaj odnos zamislimo da smo prethodnu hipotezu željeli testirati uz nivo 

rizika α = 0,01. U tom slučaju, kritična zrijednost za odbacivanje nulte hipoteze morala bi biti 

manja od z < −2.325. Granica za odbacivanje nulte hipoteze nalazi se na: 

x = 42 − 2,325 × 1,643 = 38,18 

Ova granica je predstavljena na slici 6. Za razliku od prethodnog testa, sada se aritmetička 

sredina uzorka x̄ = 39 nalazi desno od granice, u neosjenečenom dijelu slike 6a. Samim tim, 

rezultat jednosmjernog testa nije signifikantan i uz nivo rizika α = 0,01 ne možemo odbaciti 

nultu hipotezu da je µ ≥ 42 mjeseca. 

Slika 6 – Greške tipa I, II i snage testa uz α = 0,01 

Ako pretpostavimo da je alternativna hipoteza istinita, z-statistika će iznositi: 

15

X 1 38,18 39 

z 0,499 

SE 1,643 

Što znači da će se granica x = 38,18 na slici 6b nalaziti lijevo od µ1 = 39. Sa slike 6b vidimo da 

se snaga testa smanjila i da iznosi približno 31%, dok se vjerovatnoća da smo napravili grešku 

drugog tipa povećala i iznosi 69%. Obzirom da je snaga testa manja, osjenčeni dio na slici 6b 

ne obuhvata µ1 = 39 pa test nije imao dovoljnu snagu da uz nivo rizika α = 0,01 razliku između 

µ1 = 39 i µ0 = 42 detektuje kao signifikantnu. 

Dakle, u situaciji kada se veličina uzorka (n) ne mijenja pokušaj smanjenja jedne, automatski 

povećava rizik od da druge vrstu greške. Drugim riječima, ako smanjujemo nivo rizika da 

napravimo grešku prvog tipa koji je predstavljen osjenčenim područjem α, smanjuje se i snaga 

testa koja je predstavljena osjenčenim područjem P = 1 − β. Istovremeno se povećava rizik da 

napravimo grešku drugog tipa (β). 

3.3. ODNOS IZMEĐU SNAGE TESTA, VELIČINE UZORKA I VELIČINE EFEKTA 

Proces testiranja hipoteza istraživaču daje mogućnost da kontroliše rizik greške prvog tipa je se 

nivo rizika (α) unaprijed fiksira na neku malu vrijednost. Ukoliko smo unaprijed fiksirali rizik 

greške prvog tipa na α = 0,05, onda grešku drugog tipa možemo smanjiti jedino ako povećamo 

veličinu uzorka. Ovo proizilazi iz činjenice da je standardna greška jednaka σ/√n. Samim tim, 

kako raste n smanjuje se SE. 

Uticaj veličine uzorka na snagu testa je prikazan na slici 7a. Vidimo da sa porastom veličine 

uzorka (n = 1, 3 i 7) dolazi do povećanja snage testa (P = 0,26, 0,53 i 0,84) iako razlika između 

prosjeka uzorka i pretpostavljenog prosjeka populacije ostaje ista (d = 1). Do povećanja snage 

testa dolazi jer veći uzorak omogućava precizniju procjenu parametara čime se preklapanje 

između dvije distribucije smanjuje. 

Slika 7 – Uticaj uzorka (n) i veličine efekta (d) na snagu testa 

Na slici 7b prikazan je uticaj veličine efekta (d), kojim se mjeri razlika između prosjeka uzorka 

(x̄ ) i pretpostavljenog prosjeka populacije (µ), na snagu testa. Što je izmjerena razlika veća, 

lakše ju je detektovati pa će i snaga testa biti veća. 

16

4. NAJČEŠĆE POGREŠKE VEZANE ZA TESTOVE SIGNIFIKANTNOSTI 

U prethodnom izlaganju upoznali smo se sa osnovnim statističkim konceptima vezanim za 

testiranje hipoteza. Vidjeli smo da je suština logike testiranja hipoteza bazirana na tome da se 

utvrdi kolika je vjerovatnoća da se opservirana razlika ili efekat javio kao rezultat slučajnosti 

pod pretpostavkom da je nulta hipoteza istinita. Kada se ispostavi da je ta vjerovatnoća dovoljno 

mala, nulta hipoteza se odbacuje i zaključujemo kako je dobijena razlika statistički 

signifikantna. Dakle, termin "statistički signifikantan" označava prvenstveno vjerovatnoću da 

je neka tvrdnja istinita i u nastavku ćemo se osvrnuti na često pogrešna shvatanja značenja 

termina "statističke signifikantnosti" i skrenuti pažnju na loše prakse kod provođenja testova 

signifkantnosti. 

4.1. NIVO ZNAČAJNOSTI JE ARBITRARAN 

Već smo rekli da se kao standard za odbacivanje nulte hipoteze uzima to da vjerovatnoća 

slučajnog javljanja opservirane razlike iznosi p < 0,05, što znači da rizik da ćemo odbaciti 

istinitu nultu hipotezu iznosi manje od 5%. Međutim, ovaj nivo od 5% je u potpunosti 

arbitraran. Na primjer, ako test pokaže p = 0,06 to još uvijek znači da vjerovatnoća da je 

opservirana razlika rezultat slučajnosti iznosi 6%. Rizik da ćemo odbaciti istinitu nultu hipotezu 

u tom slučaju je 6%, što nije mnogo više od uobičajenih 5%. Iz tog razloga, ponekad se u praksi, 

posebno u istraživanjima koja nemaju akademski već poslovni karakter, prihvata odbacivanje 

nulte hipoteze uz nivo statističke signifikantnosti od p < 0,10. 

4.2. LAŽNO POZITIVNI REZULTATI 

Potrebno je imati na umu šta se dešava kada radimo veliki broj testova. Na primjer, ako smo uz 

nivo rizika α = 0,05 proveli 100 testova koji su pokazali da postoji statistički signifikantan 

rezultat, vjerovatnoća je da se kod njih 5 javio lažno pozitivan rezultat. 

U praksi nije rijedak slučaj da naiđemo na istraživanja u kojima se se razlike testirale za svako 

pitanje iz marketinške skale koja broji nekoliko desetina pojedinačnih item-a. Najčešće se takva 

testiranja odnose na razlike u odgovorima između grupa formiranih na bazi demografskih 

varijabli kao što su spol, visina dohodka, radni status, stručna sprema i sl. Sasvim je očekivano 

da će se u takvoj situaciji desiti da se kod nekih pitanja javi "lažna" statistička signifikantnost. 

Što skala ima više pitanja, takvih lažno pozitivnih rezultata je sve više. Problem je što istraživač 

ne može reći koji rezultati su lažno pozitivni, osim što treba biti svjestan da ih ima. 

Zbog toga je poželjno da se pri testiranju hipoteza vodimo teorijom i da testiranje unaprijed 

ograničimo na varijable i grupe ispitanika koje su od stvarnog interesa za ciljeve istraživanja. 

Također, najbolji način da utvrdimo da li je riječ o lažno pozitivnom rezultatu bio bi da 

ponovimo istraživanje na novom uzorku i vidimo da li ćemo dobiti isti rezultat. Ako se ispostavi 

da je nešto statistički signifikantno u dvije odvojene studije, onda je vjerovatno riječ o stvarnom 

efektu. Kako je u praksi često nepraktično ponavljati istraživanje, možemo se upotrijebiti i tzv. 

"split-half" tehnika gdje se ispitanici iz uzorka slučajnim odabirom podijele u dva poduzorka u 

kojima se zatim obave zasebna testiranja. Ukoliko se ispostavi da je test statistički signifikantan 

u oba poduzorka možemo biti sigurniji da smo detektovali stvarni efekat. Jedini problem javlja 

se u slučaju kada nemamo dovoljno veliki broj ispitanika jer se dijeljenjem ukupnog uzorka 

smanjuje snaga testa. 

17

4.3. P-VRIJEDNOST NIJE ISTO ŠTO I RIZIK DA NAPRAVIMO GREŠKU I TIPA 

Čest je slučaj da se p-vrijednost pogrešno interpetira kao vjerovatnoća da smo odbacili tačnu 

nultu hipotezu, tj. vjerovatnoća da smo napravili grešku prvog tipa. Ovakva interpretacija 

pogrešna iz razloga što p-vrijednost ništa ne govori o stvarnoj istinitosti nulte hipoteze jer se 

pri izračunavanju p-vrijednosti pretpostavlja da je ona istinita i da je svaka razlika rezultat 

fluktucija koje nastaju zbog same prirode uzorkovanja. U stvarnosti ne možemo znati da li je 

nulta hipoteza istinita ili nije. Mi samo polazimo od pretpostavke da jeste. 

Teško je precizno utvrditi koliko iznosi stvarna greška da smo odbacili istinitu nultu hipotezu 

(α). Provodeći simulacije Sellke i ostali (2001) su došli do zaključka da uz p = 0,05 vjerovatnoća 

da je odbačena zaista istinita nulta hipoteza (α) iznosi najmanje 23%, a uobičajeno je bliža 50%. 

Istovremeno uz p = 0,01 vjerovatnoća da je napravljena greška prvog tipa (α) iznosi najmanje 

7%, odnosno uobičajeno je bliža 15%. 

4.4. P-VRIJEDNOST NIJE VJEROVATNOĆA DOBIJANJA ISTOG REZULTATA 

Nisu rijetke situacije kada istraživači interpretiraju dobijenu p-vrijednost kao vjerovatnoću da 

će se dobiti isti rezultat ako ponovimo istraživanje. Da bi objasnili zašto je ovakvo tumačenje 

pogrešno uzmimo da imamo sljedeću hipotezu: 

H0: prosječna plata u BiH je ≤ 800 KM 

H1: prosječna plata u BiH je > 800 KM. 

Da bi testirali navedenu hipotezu, pretpostavimo da smo na bazi slučajnog uzorka prikupili 

podatke i izračunali da je prosječna plata 900 KM. Zatim smo primjenili odgovarajući statistički 

test kako bi provjerili da li je razlika između prosjeka uzorka (900 KM) statistički signifikantna 

u odnosu na pretpostavljeni prosjek populacije (800 KM). Kao rezultat testa smo dobili da je p 

= 0,04999. S obzirom na to, odbacujemo nultu hipotezu jer je rezultat statistički signifikantan. 

Ako bi ponovili istraživanje na istovjetan način (iz populacije uzeli novi slučajni uzorak iste 

veličine) kolika je šansa da bi ponovo odbacili nultu hipotezu jer bi rezultat bio statistički 

signifikantan? Odgovor nije 95%, kako bi mnogi pretpostavili, već znatno manjih 50%. Da bi 

vidjeli zašto je to tako, pogledajmo sliku 8. 

18

Slika 8 – Vjerovatnoća da ponovo dobijemo signifikantan rezultat ako je rezultat u prvoj studiji 

bio signifikantan 

Na desnoj strani slike 8 je prikazan oblik distribucije ako je prosječna plata u populaciji zaista 

900 KM i ako njen raspored slijedi normalnu dsitribuciju. Kad uzimamo uzorak iz takve 

populacije, njegov prosjek će se nalaziti ili lijevo ili desno od aritmetičke sredine (H1) koja 

iznosi 900 KM. U 50% slučajeva će prosjek uzorka biti lijevo u plavom području, u ostalih 50% 

slučajeva će biti desno u neosjenčenom dijelu. 

Obzirom da u ponovljenom istraživanju opet testiramo H0 koja kaže da je plata ≤ 800 KM, ako 

se desi da prosjek uzorka bude u plavom području onda nećemo imati dovoljno dokaza da 

odbacimo H0. Dakle, vjerovatnoća da se će se aritmetička sredina drugog uzorka iste veličine 

nalaziti u plavom području, i da nećemo uspjeti ponovo odbaciti nultu hipotezu, iznosi 50%. 

4.5. P-VRIJEDNOST ZAVISI OD VELIČINE UZORKA 

Kada smo govorili o snazi testa vidjeli smo da dobijena statistika testa, a preko nje i p- 

vrijednost, zavisi od tri faktora: 1) opservirane razlike između aritmetičkih sredina, 2) 

standardne greške i 3) veličine uzorka. Promjena bilo koje od ove tri vrijednosti može uticati 

na promjenu statističke signifikantnosti. Posebno je važno obratiti pažnju na uticaj koji ima 

veličina uzorka. 


Da bi ilustrovali uticaj veličine uzorka vratimo se na primjer u kojem smo testirali hipotezu da 

je: 

H0: µ = 42 mjeseca 

H1: µ ≠ 42 mjeseca 

U tom primjeru smo na uzorku veličine n = 30 izračunali da statistika testa iznosi z = −1.82574 

i da toj vrijednosti odgovara vjerovatnoća p = 0,06724 na osnovu čega smo zaključili da rezultat 

nije signifikantan na nivou p < 0,05. 

Pogledajmo šta bi se desilo da smo imali uzorak veličine n = 100: 

19

z = (x̄ − μ)/σ/√n 

z = (39 − 42)/9/√100 

z = −3/0,9 

z = −3,33333 (p = 0,00086) 

Iako je razlika za koju smo proveli test ostala ista (3 mjeseca) rezultat je sada visoko statistički 

signifikantan. 

4.6. STATISTIČKA SIGNIFIKANTNOST NIJE ISTO ŠTO I PRAKTIČNA 

SIGNIFIKANTNOST 

Statistička signifikantnost se odnosi na vjerovatnoću da je detektovani efekat rezultat 

slučajnosti, pod pretpostavkom da je nulta hipoteza tačna. Međutim, statistička signifikantnost 

često ne mora imati mnogo veze sa praktičnom signifikantnošću. 


Da bi smo ilustrovali šta ovo znači pretpostavimo da smo u prethodnom primjeru imali uzorak 

veličine n = 100.000 i da je prosjek u uzorku umjesto dobijenih 39 bio 41,9 mjeseci. Statistika 

testa i pripadajuća p-vrijednost bi iznosila: 

z = (M − μ)/σ/ √n 

z = (41,9 − 42)/9/√100.000 

z = −0,1/0,02846 

z = −3,51364 (p = 0,00044) 

Iako je razlika za koju smo proveli test znatno manja (0,1 mjeseci) rezultat je sada statistički 

signifikantan sa visokim nivoom statističke signifikantnosti. Jednostavno, u situacijama kada 

imamo veliki uzorak i trivjalne razlike koje nemaju nikakvu praktičnu vrijednost mogu biti 

statistički signifikantne. S druge strane, u situacijama kada imamo mali uzorak, razlike koje su 

sa praktičnog aspekta bitne mogu biti statistički nesignifikantne. 

U kontekstu primjera sa životnim vijekom baterije, moramo se upitati kakav praktični značaj 

ima statistički signifikantna razlika između pretpostavljne i opservirane aritmetičke sredine? 

Na primjer, ako smo dobili statistički signifikantan rezultat koji kaže da je očekivani životni 

vijek baterije kraći za 3 mjeseca da li takav nalaz osigurava opravdanost poduzimanja 

odgovarajućih akcija? Ukoliko je odgovor pozitivan, onda pored statističke govorimo i 

praktičnoj signifikantnosti. 

5. VELIČINA EFEKTA 

Obzirom na raširenost prethodno navedenih pogreški vezanih za interpretaciju rezultata testova 

signifikantnosti, nisu rijetke situacije da se končani zaključci testiranja hipoteza ne shvataju u 

pravom kontekstu. 

Kako bi se bar u nekoj mjeri prevazišla ova ograničenja predloženo je da se pored same 

statistike testa i p-vrijednosti izračunava i veličina efekta. Pojednostavljeno rečeno, pod 

veličinom efekta (engl. effect size) se podrazumjeva niz indikatora kojima se pokušava utvrditi 

20

da li je statistički signifikantna razlika ili korelacija dovoljno velika da bi imala praktično 

značenje. 

Kad je riječ o mjerenju jačine korelacije, najpoznatiji indikatori kojim se izražava veličina 

efekta su Pearsonov koeficijent korelacije (r) i koeficijent determinacije (R 2 ). S druge strane, 

kod mjerenja veličine efekta za razliku između dvije grupe često se koristi Kohenov indikator 

(d). U slučaju da imamo više od dvije grupe, veličinu efekata možemo izmjeriti sa parcijalnim 

kvadriranim eta indikatorom (η 2 ). U tabeli 3 je dat prikaz odnosa između d, r i R 2 indikatora 

veličine efekta. 

Tabela 3 – Indikatori veličine efekta 

Cohenov standard d Procenat 

r R 2 

preklapanja 

2.0 18,9 .707 .500 

1.9 20,6 .689 .474 

1.8 22,6 .669 .448 

1.7 24,6 .648 .419 

1.6 26,9 .625 .390 

1.5 29,3 .600 .360 

1.4 31,9 .573 .329 

1.3 34,7 .545 .297 

1.2 37,8 .514 .265 

1.1 41,1 .482 .232 

1.0 44,6 .447 .200 

0.9 48,4 .410 .168 

Veliki efekat 0.8 52,6 .371 .138 

0.7 57,0 .330 .109 

0.6 61,8 .287 .083 

Srednji efekat 0.5 67,0 .243 .059 

0.4 72,6 .196 .038 

0.3 78,7 .148 .022 

Mali efekat 0.2 85,3 .100 .010 

0.1 92,3 .050 .002 

0.0 100 .000 .000 

Iz tabele 3 možemo primjetiti nekoliko stvari: 

Prvo, Cohen (1988) veličinu efekta definiše kao malu ako je d = .2 ili r = |.100|, srednju ako je 

d = .5 ili r = |.243| i veliku ako je d = .8 ili r = |.371|. 

Drugo, veličina efekta se može izraziti i kao "procenat preklapanja" između dvije distribucije. 

Tako na primjer za veličinu efekta od d = .5 preklapanje između dvije distribucije iznosi 67%. 

Treće, indikator d se može pretvoriti u indikator r i obrnuto. Na primjer, ako je d = .5, onda je 

r = |.243|. 

Četvrto, koeficijent determinacije (R 2 ) pokazuje postotak varijanse zavisne varijable koji je 

objašnjen nezavisnom varijablom. Na primjer, ako smo testirali razliku između prosječnih 

primanja za muškarce i žene i dobili da je d = .5, to znači da se 5,9% varijabiliteta prosječnih 

primanja može objasniti spolom ispitanika. 

21

Veličina efekta se računa na sljedeći način: 

gdje je 

Cohenov d = (x̄ grupa1 - xḡrupa2) / SDzajednička 

SD 

zajednička 

 

( SD SD ) 

2 2 

grupa 1 grupa 2 

2 

Cohenov d možemo pretvoriti u koeficijent korelacije na koristeći se formulom: 

r = d / √(d2 + 4) 

Na primjer, pretpostavimo da smo dvije grupe potrošača uporedili u pogledu toga koliko puta 

mjesečno kupuju proizvod A i da smo dobili da prosjek za prvu grupu iznosi 7 komada (SD = 

3) a da za drugu grupu iznosi 9 komada (SD = 3). U tom slučaju veličina efekta iznosi d = .667 

odnosno r = .316. 

22



Parametarski testovi za testiranje razlika između 

grupa 1 

Autor: 



1 



1

Sadržaj 

I Parametarski testovi za testiranje razlika ..................................................................... 4 

1. Uvod ................................................................................................................................ 4 

2. Pretpostavke za primjenu parametarskih testova ..................................................... 4 

2.1. Normalnost ............................................................................................................. 5 

2.2. Ne postoje netipične opservacije ............................................................................. 5 

2.3. Homogenost varijanse .............................................................................................. 5 

2.4. Tip zavisne varijable ................................................................................................ 6 

2.5. Nezavisnost .............................................................................................................. 6 

2.6. Slučajni uzorak ......................................................................................................... 7 

2.7. Aritmetička sredina je adekvatan pokazatelj centralne tendencije .......................... 7 

2.8. Alternative parametarskim testovima ...................................................................... 8 

3. Parametarski testovi za jednu grupu .......................................................................... 8 

3.1. t-test na bazi jednog uzorka ..................................................................................... 8 

3.1.1. Provjera pretpostavki ........................................................................................ 9 

3.1.2. Izračunavanje statistike testa uz pomoć formule ............................................ 10 

3.1.3. Izračunavanje statistike testa uz pomoć State ................................................. 10 

3.1.4. Kako napisati rezultat testa ............................................................................. 11 

3.1.5. Dodatni primjeri i zadaci ................................................................................ 11 

4. Parametarski testovi za dvije grupe .......................................................................... 13 

4.1. Nezavisni t-test ....................................................................................................... 13 

4.1.1. Provjera pretpostavki ...................................................................................... 14 

4.1.2. Izračunavanje statistike testa uz pomoć formule ............................................ 15 




4.2. Zavisni t-test ........................................................................................................... 17 


4.2.2. Izračunavanje statistike testa pomoću formule ............................................... 19 

4.2.3. Izračunavanje statistike testa pomoću State ................................................... 19 



5. Parametarski testovi za tri ili više grupa .................................................................. 20 

5.1. Analiza varijanse (ANOVA).................................................................................. 20 

5.1.1. Zašto nam treba analiza varijanse? ................................................................. 20 

5.1.2. ANOVA bez State .......................................................................................... 21 

5.1.3. ANOVA uz pomoć State ................................................................................ 25 



5.1.6. Post Hoc testovi .............................................................................................. 26 

2



5.2. Analiza varijanse sa ponovljenim mjerenjima (RM ANOVA) .............................. 28 

5.2.1. RM ANOVA bez State ................................................................................... 29 

5.2.2. RM ANOVA uz pomoć State ......................................................................... 31 


3

I 

Parametarski testovi za testiranje razlika 

1. UVOD 

Parametarskim testovima se procjenjuju vrijednosti nepoznatih parametara populacije kao što 

su aritmetička sredina, varijansa i kovarijansa. Samim tim, ovi testovi su vezani za zavisne 

varijable kontinuiranog tipa. Selekcija odgovarajućeg parametarskog testa zavisi od broja grupa 

između kojih se vrši testiranje razlika kao i od toga da li je riječ o međusobno nezavisnim ili 

zavisnim grupama, što je obrađeno u poglavlju „Testiranje hipoteza“ (vidjeti tabelu „Kriteriji 

za odabir testa“). 

2. PRETPOSTAVKE ZA PRIMJENU PARAMETARSKIH TESTOVA 

Bitno je imati na umu da se parametarski testovi baziraju na odgovarajućim pretpostavkama 

vezanim za populaciju iz koje je dobijen uzorak na kojem se vrši testiranje. Pod 

pretpostavkama (engl. assumptions) podrazumjevamo određene uslove koji moraju biti 

ispunjeni da bi se mogli osloniti na rezultate dobijene na bazi testova. U nekim slučajevima 

neispunjavanje pretpostavki ne mora nužno dovesti do pogrešnog zaključka. U drugim 

slučajevima narušavanje pretpostavki može u potpunosti obezvrijediti smisao analize. Iz tog 

razloga je vrlo bitno da osiguramo ispunjenje pretpostavki koje određena statististička 

procedura zahtjeva. U svakom istraživačkom radu uobičajeno je da se navede da li je ispitana 

ispunjenost pretpostavki koje su svojstvene analizama koje su korištene i do kakvih je 

zaključaka došlo u vezi toga. Ukoliko neka pretpostavka nije ispunjena potrebno je navesti šta 

je urađeno u vezi sa tim. Na primjer, kada nisu ispunjene neke od pretpostavki za primjenu 

parametarskih testova moguće je koristiti neparametarske testove koji se baziraju na manjem 

broju pretpostavki. 

U tabeli 1 je data usporedba osnovnih pretpostavki koje je potrebno ispuniti da bi zaključci do 

kojih dođemo na bazi parametarskih testova signifikantnosti bili validni. U nastavku je 

objašnjeno značenje navedenih pretpostavki. 

Tabela 1 – Pretpostavke koje moraju biti ispunjene da bi se primijenio odgovarajući 

parametarski test 

Zavisna 

varijabla 

Netipične 

vrijednosti 

Normalnost 

Homogenost 

varijanse 

Nezavisnost 

Sfernost 

Slučajni 

uzorak 

One-sample t-test kontin. da* da** da* da da 

Nezavisni t-test kontin. da* da*** da* da da 

Zavisni t-test kontin. da* da* da 

ANOVA kontin. da* da da* da da 

ANOVA sa ponav. kontin. da* da* da*** da 

Napomena: * Samo ako je veličina uzorka manja od n < 30; ** Samo ukoliko je poznata varijansa uzorka ili 

populacije u odnosu na koju se vrši usporedba; *** Samo ako softverski paket ne pruža mogućnost korekcije. 

4

2.1. NORMALNOST 

Ova pretpostavka znači da bi distribucija aritmetičkih sredina uzoraka (sampling distribucija) 

trebala imati normalnu raspodjelu. Narušavanje ove pretpostavke posebno je problematično 

kada imamo mali uzorak unutar kojeg orginalni podaci znatno odstupaju od normalne 

distribucije. U takvoj situaciji je vrlo vjerovatno da podaci ne slijedi normalnu raspodjelu ni u 

populaciji, a kako se zbog veličine uzorka se ne možemo osloniti na djelovanje Centralnog 

graničnog teorema onda je bolje je primjeniti neparametarski test. 

Obratimo pažnju da se normalnost ne odnosi na distribuciju zavisne varijable u uzorku, već na 

sampling distribuciju. Sjetimo se da Centralni granični teorem kaže da će sampling distribucija 

imati normalnu raspodjelu ukoliko imamo dovoljno veliki uzorak, bez obzira na oblik orginalne 

distribucije podataka iz uzorka. Dakle, parametarske testove možemo primjeniti čak i ako 

orginalni podaci nemaju normalnu distribuciju sve dok imamo dovoljno veliki uzorak. Šta se u 

datom slučaju podrazumijeva pod dovoljno velikim uzorkom možemo vidjeti u tabeli 2. 

Tabela 2 – Potrebna veličina uzorka ukoliko orginalni podaci u uzorku nemaju normalnu 

raspodjelu 

Parametarski test 

Veličina uzorka 

t-test na bazi jednog uzorka > 20 

t-test sa dva uzorka 

> 15 u svakoj grupi 

Jednofaktorska ANOVA > 15 ako imamo do 9 grupa ili > 20 ako imamo 10-12 grupa 

Izvor: Minitab 

Šta ako imamo manji uzorak? Ukoliko smo sigurni da podaci u populaciji za datu zavisnu 

varijablu slijede normalnu distribuciju i distribucija aritmetičkih sredina uzorka će biti 

normlana za uzorak bilo koje veličine. Ako pak ne znamo kako je varijabla od interesa 

distribuirana u populaciji onda je bolje primjeniti neki od alternativnih neparametarskih testova. 

Pretpostavku normalnosti provjeravamo putem histograma frekvencija i pomoću Shapiro-Wilk 

testa. Pogledati primjer 3.1 u narednoj sekciji kao ilustraciju postupka provjere ove 

pretpostavke. 

2.2. NE POSTOJE NETIPIČNE OPSERVACIJE 

Pod netipičnim opservacijama (engl. outliers) podrazumijevamo opservacije kod kojih se 

vrijednosti zavisne varijable znatno različitu od ostalih opservacija u uzorku. Ispunjenost ove 

pretpostavke je posebno bitna ukoliko raspolažemo sa uzorkom manje veličine. Netpipične 

vrijednosti možemo detektovati uz pomoć boxplot-a. 

2.3. HOMOGENOST VARIJANSE 

Ova pretpostavka se odnosi na to da bi grupe trebale imati jednaku varijansu. Drugim riječima, 

raspršenost opservacija bi trebala biti jednaka u svim grupama (slika 1). 

5

Slika 1 – Različita varijansa 

Izvor: Hipotetski podaci 

Nekada je neispunjavanje ove pretpostavke značilo potrebu primjene neparametarskih testova. 

Međutim, većina današnjih softverskih statističkih paketa automatski vrši korekciju dobijene 

statistike testa na način da ona bude validna čak i u situaciji kada je pretpostavka o homogenosti 

varijanse narušena. 

2.4. TIP ZAVISNE VARIJABLE 

Za sve parametarske tehnike podrazumjeva se da je zavisna varijabla kontinuiranog tipa i da je 

mjerena na intervalnoj ili proporcionalnoj skali. 

2.5. NEZAVISNOST 

Neki testovi podrazumijevaju da su opservacije ili grupe nezavisne jedna od druge. Na primjer, 

ako smo na bazi slučajnog uzorka mjerili ostvareni profit preduzeća u dvije države, sasvim je 

izvjesno da izmjerena visina profita u zemlji A ne zavisi od toga kako su poslovala preduzeća 

u zemlji B. 

Međutim, šta se dešava ako smo unutar iste grupe preduzeća mjerili profit na kraju dvije 

poslovne godine i želimo testirati da li je razlika u prosijeku signifikantna? Dio ovako 

prikupljenih podataka može izgledati kako je prikazanu u tabeli 3. 

Tabela 3 – Podaci o visini ostvarenog profita za četiri kompanije 

Naziv 2015 2016 

Firma A 10.234 KM 11.489 KM 

Firma B 86.908 KM 95.324 KM 

Firma C 23.006 KM 18.358 KM 

Firma D 47.056 KM 46.963 KM 

Vidimo da su u posmatranom periodu neke kompanije ostvarile više, a neke manje profita. Ono 

što je bitno uočiti jeste da imamo dva ponovljena mjerenja na istim subjektima i da zbog toga 

6

možemo očekivati korelaciju između 2015. i 2016. godine. Drugim riječima, ukoliko je firma 

ostvarila veći profit u 2015. možemo očekivati da će i u 2016. godini profit u toj firmi biti visok. 

Samim tim, ostvareni rezultat u 2016. godini zavisi od rezultata u 2015. godini i kažemo da 

opservacije nisu nezavisne. 

2.6. SLUČAJNI UZORAK 

Svi parametarski i neparametarski testovi značajnosti se baziraju na pretpostavci da su jedinice 

populacije u uzorak izabrane potpuno slučajno. 

2.7. ARITMETIČKA SREDINA JE ADEKVATAN POKAZATELJ CENTRALNE 

TENDENCIJE 

Činjenica da centralni granični teorem omogućava da primjenimo parametarski test u situaciji 

kada imamo veliki uzorak, ne znači nužno da to trebamo uvijek i uraditi. Naime, u situacijama 

kada medijana sa ekonomskog aspekta bolje reprezentuje centar distribucije poželjnije je 

primjeniti neki od neparametarskih testova. 

Na primjer, pretpostavimo da želimo testirati hipotezu da se prosječni dohodak domaćinstava 

u 2016. nije promijenio u odnosu na 2015. godinu. Obzirom da dohodak ima jako nakrivljenu 

distribuciju većina podataka je koncentrisana na lijevoj strani distribucije sa dugačkim repom 

koji se pruža prema desnom kraju (slika 2). Ovaj rep oslikava činjenicu da postoje domaćinstva 

čiji dohodak znatno odskače od prosjeka populacije. Ako se broj takvih domaćinstava povećao 

u 2016. godini, to će pomjeriti aritmetičku sredinu udesno i parametarski test može pokazati da 

postoji statistički signifikantna razlika. Na osnovu toga ćemo zaključiti da je došlo do promjene 

dohotka, što je tačno ako prihvatimo da je aritmetička sredina najbolji pokazatelj centralne 

tendencije i da oslikava realnu sliku. 

Slika 2 – Histogram dohotka domaćinstava u 2015 i 2106 godini 

Izvor: Hipotetski podaci 

Međutim, uvećanje bogatstva nekolicine milionera ne znači nužno da je i ostatak populacije 

iskusio povećanje dohotka. Ako pogledamo sliku 2, vidimo da obični građani ne žive bolje i da 

se medijana nije promijenila. 

7

Dakle, u situaciji kada aritmetička sredina nije najbolji opis realne situacije, nekada je bolje 

primjeniti neparametarski test. Posebno ako imamo nesimetričnu distribuciju čiji je lijevi kraj 

ograničen nulom ili kada dobijeni rezultat može znatno zavisiti od nekoliko ekstremnih 

vrijednosti unutar uzorka. 

2.8. ALTERNATIVE PARAMETARSKIM TESTOVIMA 

Ukoliko raspolažemo metrijskim podacima ali je narušena jedna ili više pretpostavki za 

primjenu parametarskih testova, neophodno je koristiti neku od neparametarskih alternativa za 

ordinalne varijable prikazanih u tabeli 4. 

Tabela 4 – Neparametarske alternative parametarskim testovima 

Parametarski test 

Nezavisni t-test 

Zavisni t-test 

Jednofaktorska ANOVA 

Jednofaktorska ANOVA sa 

ponovljenim mjerenjima 

Alternativni neparametarski test 

Mann-Whitney U test 

Wilcoxon test 

Kruskal-Wallis test 

Friedman test 

Neparametarski testovi se uglavnom baziraju na proceduri rangiranja opserviranih vrijednosti 

zavisne varijable po veličini, a zatim na poređenju novodobijenih rangova. Na taj način se 

neutrališe problem uticaja netipičnih vrijednosti, a sama raspodjela distribucije i homogenost 

varijanse prestaju imati bitnu ulogu. Ovi testovi su obrađeni u narednom poglavlju. 

3. PARAMETARSKI TESTOVI ZA JEDNU GRUPU 

3.1. T-TEST NA BAZI JEDNOG U ZORKA 

T-test na bazi jednog uzorka (engl. One sample t-test) se koristi u situaciji kada želimo testirati 

hipotezu o razlici između aritmetičke sredine jednog uzorka (x̄ 1) i aritmetičke sredine populacije 

(µ) ili drugog uzorka za koji nemamo podatke (x̄ 2). Statistika testa sa (n − 1) stepena slobode 

se izračunava po formuli: 

x 

t 0 

gdje je SE SD 

SE 

n 

U principu, t-test na bazi jednog uzorka je gotovo identičan z-testu na bazi jednog uzorka kojeg 

smo ranije detaljno obradili kroz primjer sa životnim vijekom baterija. Jedina razlika ogleda se 

u tome što t-test daje validniji rezultat ako imamo uzorak sa manje od 30 ispitanika. Iz tog 

razloga je u većini softverskih paketa implementiran samo t-test. 

Primjer 3.1 

Procijenjeno je da mjesečna potrošnja vode po stanaru u kantonu Sarajevo iznosi 3,46 m 3 . 

Prilikom mjerenja uobičajeno je da se potrošnja vode za cijelu zgradu očitava na jednom brojilu 

8

a zatim dijeli prema broju stanara. Istraživačka pretpostavka je da domaćinstva sa individualnim 

vodomjerima više štede kako bi platila samo onoliko koliko zaista potroše. Kako bi se provjerila 

ova pretpostavka, na bazi slučajnog uzorka odabrano je 25 stanova sa ugrađenim individualnim 

vodomjerima i mjerena je njihova mjesečna potrošnja vode. Utvrđeno je da potrošnja iznosi 

2,80 m 3 uz standardnu devijaciju 1,03 m 3 . Podaci su spremljeni u datoteku vodomjeri_ks.dta 

(varijabla potrosnja). Da li možemo zaključiti da uvođenje individualnih vodomjera smanjuje 

mjesečnu potrošnju vode? 

Dakle, interesuje nas da li je prosječna mjesečna potrošnja vode za 25 slučajno odabranih 

stanova sa individualnim vodomjerom manja u odnosu na prosječnu mjesečna potrošnja vode 

u populaciji. S obzirom na to, testiramo sljedeću usmjerenu hipotezu: 

H0: µ ≥ 3,46 m 3 

H1: µ < 3,46 m 3 

3.1.1. Provjera pretpostavki 

Međutim, prije nego provedemo test, obzirom da imamo manji uzorak (n < 30) potrebno je 

ispitati da li zavisna varijabla ima približno normalan raspored. Ovo možemo uraditi preko 

histograma frekvencija i provođenjem formalnog Shapiro-Wilk testa za ispitivanje normalnosti 

distribucije. 

. histogram potrosnja, normal 

Histogram pokazuje raspored zavisne varijable (potrosnja) koji slijedi približno normalnu 

distribuciju. 

. swilk potrosnja 

Shapiro-Wilk W test for normal data 

Variable | Obs W V z Prob>z 

-------------+-------------------------------------------------- 

potrosnja | 25 0.98230 0.492 -1.451 0.92659 

9

Opservaciju o ispunjenju pretpostavke o normalnosti je potvrdio i Shapiro-Wilk test koji je 

nesignifikantan (p > 0,05),što znači da ne možemo tvrditi da raspored zavisne varijable odstupa 

znatno od normalne distribucije. 

Pretpostavku o nepostojanju netipičnih vrijednosti ćemo provjeriti tako što ćemo nacrtati 

boxplot: 

. graph box potrosnja 

Boxplot ne prikazuje postojanje netipičnih opservacija pa zaključujemo da je pretpostavka 

ispunjena. 

T-test na bazi jednog uzorka zahtjeva da je varijansa u uzorku otprilike jednaka varijansi u 

populaciji ukoliko imamo taj podatak. Ukoliko varijansa populacije nije poznata, možemo je 

procijeniti jedino na bazi uzorka pa ovu pretpostavku nije moguće testirati u našem primjeru. 

3.1.2. Izračunavanje statistike testa uz pomoć formule 

Statistiku testa možemo izračunati ručno korištenjem formule: 

x 0 2,80 3,46 0,66 

t 3,20 

SE 1,03 0,206 

25 

Ako bi konsultovali statističke tablice vidjeli bi da je dobijena statistika testa t = −3,20 za dati 

broj stepena slobode (25 − 1 = 24) signifikantna uz p < 0,05 na osnovu čega možemo odbaciti 


3.1.3. Izračunavanje statistike testa uz pomoć State 

Testiranje hipoteze možemo uraditi i uz pomoć State. Naredba za provođenje t-testa na bazi 

jednog uzorka glasi: 

ttest zavisna_varijabla == vrijednost aritmetičke sredine populacije 

10

U našem primjeru zavisna varijabla je mjesečna potrošnja vode (potrosnja), a vrijednost 

aritmetičke sredine u populaciji iznosi µ = 3,46 pa će biti: 

. ttest potrosnja == 3.46 

Output testa je prikazan u tabeli 5. 

Tabela 5 – Rezultati one-sample t-testa za primjer 3.1 

One-sample t test 

------------------------------------------------------------------------------ 

Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] 

---------+-------------------------------------------------------------------- 

potros~a | 25 2.8024 .2068963 1.034482 2.375387 3.229413 

------------------------------------------------------------------------------ 

mean = mean(potrosnja) t = -3.1784 

Ho: mean = 3.46 degrees of freedom = 24 

Ha: mean < 3.46 Ha: mean != 3.46 Ha: mean > 3.46 

Pr(T < t) = 0.0020 Pr(|T| > |t|) = 0.0040 Pr(T > t) = 0.9980 

Output testa sadrži informacije o broju opservacija (Obs), prosjeku unutar uzorka (Mean), 

standardnoj grešci (Std. Err.), standardnoj devijaciji (St. Dev.), 95% intervalu povjerenja (Conf. 

Interval) i rezultate samog testa (t) sa stepenima slobode (degrees of freedom). Obzirom da smo 

postavili usmjerenu hipotezu (µ < 3,46 m 3 ) p-vrijednost čitamo iz prve kolone (Ha: mean < 

3.46). Dobili smo da je p = 0,002 i kako je to manje od potrebnih p < 0,05 možemo zaključiti 

da postoji statistički signifikantna razlika između potrošnje vode u domaćinstvima sa i bez 

vodomjera. 

3.1.4. Kako napisati rezultat testa 

Prosječna mjesečna potrošnja vode u domaćinstvima u Kantonu Sarajevo sa ugrađenim 

vodomjerima (M = 2,80, SD = 1,03) je manja u odnosu na prosječnu mjesečnu potrošnju vode 

ostalih domaćinstva u Kantonu Sarajevo koja iznosi 3,46 m 3 . Jednosmjerni t-test na bazi jednog 

uzorka je potvrdio da je razlika statistički signifikantna, t(24) = −3,18, p < 0,001. 

3.1.5. Dodatni primjeri i zadaci 

Primjer 3.2 

Obzirom da se zbog dotrajale infrastrukture jedan dio vode gubi tokom samog transporta, 

zainteresovani smo da utvrdimo da li je ugradnja vodomjera pomogla da se smanji prosječna 

potrošnja vode u starijim gradskim naseljima. Ako je od ranije poznato da prosječna potrošnja 

vode u takvim naseljima iznosi 3,61 m 3 po stanaru, da li na osnovu našeg uzorka u kojem je od 

ukupno 25 stanova njih 10 bilo locirano u starijim zgradama možemo ustvrditi da su vodomjeri 

doprinijeli smanjenju potrošnje u zgradama starogradnje? Podatak o tome da li je riječ o starijoj 

ili novijoj zgradi nalazi se unutar varijable novogradnja (novgrad), gdje je 0 = starogradnja, a 1 

= novogradnja. 

Testiramo sljedeću usmjerenu hipotezu: 

11

H0: µ ≥ 3,61 m 3 

H1: µ < 3,61 m 3 

Obzirom da nas interesuje uporedba samo za novogradnju, komanda ima sljedeću sintaksu: 

. ttest potrosnja == 3.61 if novgrad == 0 

Rezultati su dati u okviru tabele 6. 



------------------------------------------------------------------------------ 


---------+-------------------------------------------------------------------- 

potros~a | 10 3.221 .3004088 .949976 2.541428 3.900572 

------------------------------------------------------------------------------ 

mean = mean(potrosnja) t = -1.2949 



Pr(T < t) = 0.1138 Pr(|T| > |t|) = 0.2276 Pr(T > t) = 0.8862 

Prosječna mjesečna potrošnja vode u domaćinstvima sa ugrađenim vodomjerima lociranim 

starim gradskim naseljima unutar Kantona Sarajevo (M = 3,22, SD = 0,95) je manja u odnosu 

na prosječnu mjesečnu potrošnju vode ostalih domaćinstva u starim naseljima koja iznosi 3,61 

m 3 . Jednosmjerni t-test na bazi jednog uzorka nije potvrdio da je uočena razlika statistički 

signifikantna, t(9) = −1,30, p = 0,11. 

Primjer 3.3 

U sličnom istraživanju provedenom na bazi slučajnog uzorka u Zeničko-dobojskom kantonu 

utvrđeno je da prosječna potrošnja vode u domaćinstvima sa ugrađenim vodomjerima iznosi 

2,44 m 3 po stanaru. Da li između dobijenog rezultata u Kantonu Sarajevo i Zeničko-dobojskog 

kantona postoji statistički signifikantna razlika? 

Obzirom da nismo pretpostavili u kojem Kantonu očekujemo veću ili manju potrošnju vode jer 

nas prvenstveno interesuje utvrđivanje signifikantnosti uočene razlike, testiraćemo dvosmjernu 

hipotezu: 

H0: µ = 2,44 m 3 

H1: µ ≠ 2,44 m 3 

Kako vrijednost aritmetičke sredine u populaciji iznosi µ = 2,44 komanda je: 

. ttest potrosnja == 2.44 



12


------------------------------------------------------------------------------ 


---------+-------------------------------------------------------------------- 

potros~a | 25 2.8024 .2068963 1.034482 2.375387 3.229413 

------------------------------------------------------------------------------ 

mean = mean(potrosnja) t = 1.7516 



Pr(T < t) = 0.9537 Pr(|T| > |t|) = 0.0926 Pr(T > t) = 0.0463 

Prosječna mjesečna potrošnja vode u domaćinstvima sa ugrađenim vodomjerima u Kantonu 

Sarajevo (M = 2,80, SD = 1,03) je veća u odnosu na prosječnu mjesečnu potrošnju vode u 

domaćinstvima sa ugrađenim vodomjerima u Zeničko-dobojskom kantonu koja iznosi 2,44 m 3 . 

Dvosmjerni t-test na bazi jednog uzorka nije potvrdio da je uočena razlika statistički 

signifikantna, t(24) = −1,75, p = 0,09. 

Zadatak 3.1 

U Tuzlanskom kantonu je provedeno slično istraživanje. Podaci su spremljeni u datoteku 

vodomjeri_tk.dta (varijabla potrosnja). Ukoliko je poznato da prosječna potrošnja vode po 

stanaru u Tuzlanskom kantonu iznosi 3,56 m 3 testirajte da li je uvođenje individualnih 

vodomjera u domaćinstvima rezultiralo smanjenjem mjesečne potrošnje vode u tom kantonu. 

4. PARAMETARSKI TESTOVI ZA DVIJE GRUPE 

4.1. NEZAVISNI T-TEST 

Nezavisni t-test (engl. independent samples t-test) se koristi da ispitamo da li postoji statistički 

signifikantna razlika između aritmetičkih sredina dvije nezavisne grupe. Dakle, u okviru ovog 

testa imamo nezavisnu varijablu dihotomnog tipa kojom se identifikuju grupe i zavisnu 

varijablu metrijskog tipa. 

Teorija na kojoj se zasniva nezavisni t-test u principu nije mnogo drugačija od onoga sa čim 

smo se upoznali kod z i t-testova na bazi jednog uzorka. Razlika je u tome što sada imamo 

podatke o aritmetičkoj sredini iz dvije grupe (x̄ 1 i x̄ 2) za koje pretpostavljamo da dolaze iz dvije 

različite populacije i gdje testiramo nultu hipotezu da između aritmetičkih sredina te dvije 

populacije nema razlike: µ1 = µ2. Ukoliko nemamo dovoljno dokaza da odbacimo nultu 

hipotezu, onda ne možemo tvrditi da postoji razlika između grupa. Drugim riječima, smatra se 

da su grupe dio iste populacije. 

Statistika testa sa (n − 2) stepena slobode se izračunava po formuli: 

x 

2 

x 

1 

t gdje je SE D SE 2 SE 

2 

1 

 

2 

SE 

D 

13

SED označava standardnu grešku razlike između aritmetičkih sredina dvije grupe (engl. 

standard error of difference of means), a SE1 i SE2 su standardne greške unutar prve i druge 

grupe. 

Primjer 4.1 

Distributer razmišlja o tome da li je prilikom uvođenja nove marke kafe na tržište potrošačima 

na mjestu prodaje potrebno ponuditi na probu besplatne uzorke kafe (varijabla uzorci). Kako bi 

se riješila dilema, slučajno je odabrano dvadeset prodavnica. U njih 10 je nova kafa ponuđena 

uz besplatne uzorke (uzorci = 0) dok u ostalih 10 nisu korištena nikakva sredstva unapređenja 

prodaje (uzorci = 1). Zabilježena je broj prodatih pakovanja nove kafe na kraju mjeseca 

(prodaja). Podaci su spremljeni u datoteku kafa.dta, a deskriptivna statistika je predstavljena u 

okviru tabele 8. 

Tabela 8 – Mjesečna prodaja pakovanja kafe (u kom) u prodavnicama sa i bez probnih uzoraka 

. tabstat prodaja, s(n mean, median, sd, semean, skew) by(uzorci) format(%9.2f) 

Summary for variables: prodaja 

by categories of: uzorci 

uzorci | N mean p50 sd se(mean) skewness 

------------+------------------------------------------------------------ 

bez uzoraka | 10.00 69.20 72.50 36.94 11.68 -0.10 

sa uzorcima | 10.00 79.40 84.00 33.45 10.58 -0.25 

------------+------------------------------------------------------------ 

Total | 20.00 74.30 78.00 34.70 7.76 -0.20 

------------------------------------------------------------------------- 

Testiramo nultu hipotezu da ne postoji razlika između prosječne prodaje nove marke kafe 

unutar prodavnice u kojima su korišteni besplatni uzorci kafe i onih u kojima nije bilo 

besplatnih uzoraka: 

H0: µ1 - µ2 = 0 

H1: µ1 - µ2 ≠ 0 


Prije nego testiramo navedenu hipotezu potrebno je provjeriti da li su ispunjene pretpostavke 

nezavisnog t-testa. Obzirom da prodaja kafe u jednoj prodavnici ne zavisi od viisine prodaje u 

drugoj prodavnici znamo da je ispunjena pretpostavka o nezavisnosti opservacija. Međutim, 

obzirom da ne raspolažemo uzorkom sa n ≥ 30 prodavnica, potrebno je ispitati pretpostavku 

normalnosti, provjeriti da li postoje netipične vrijednosti i da li su varijanse unutar grupa 

međusobno jednake. 

Pretpostavku normalnosti provjerili smo primjenom Saphiro-Wilk testa 2 . Rezultat testa je bio 

nesignifikantan (p > 0,05) što znači da je pretpostavka ispunjena i da dsitribucija zavisne 

varijable ne odstupa znatno od normalne distribucije. 

2 

Naredba: swilk prodaja 

14

Kao i ranije, pretpostavku o netipičnim vrijednostima provjerili smo pomoću boxplot-a 3 . Na 

osnovu dobijenog grafika zaključili da je pretpostavka ispunjena i da nisu detektovane netipične 

opservacije. 

Konačno, pretpostavku o homogenosti varijanse provjeravamo korištenjem tzv. variance-ratio 

testa: 

. sdtest prodaja, by(uzorci) 

Rezultati su prikazani u tabeli 9. 

Tabela 9 – Rezultati variance-ratio testa za primjer 4.1 

Variance ratio test 

------------------------------------------------------------------------------ 

Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] 

---------+-------------------------------------------------------------------- 

bez uzor | 10 69.2 11.68266 36.9438 42.772 95.628 

sa uzorc | 10 79.4 10.57901 33.45378 55.46861 103.3314 

---------+-------------------------------------------------------------------- 

combined | 20 74.3 7.7589 34.69885 58.06044 90.53956 

------------------------------------------------------------------------------ 

ratio = sd(bez uzor) / sd(sa uzorc) f = 1.2195 

Ho: ratio = 1 degrees of freedom = 9, 9 

Ha: ratio < 1 Ha: ratio != 1 Ha: ratio > 1 

Pr(F < f) = 0.6138 2*Pr(F > f) = 0.7723 Pr(F > f) = 0.3862 

Ispod tabele 9 gledamo srednju kolonu (Ha: ratio != 1) u kojoj je prikazana vjerovatnoća da 

dvije grupe (prodavnice sa uzorkom i bez uzorka) imaju različite varijanse. Obzirom da je p = 

0,772 zaključujemo da je test nesignifikantan i da je ispunjena pretpostavka o homogenosti 

varijanse. 

4.1.2. Izračunavanje statistike testa uz pomoć formule 


x 

2 

x 

1 

79,4 69,2 10,2 

t 0,65 

SED 

2 2 

11,68 10,58 248,36 

Ukoliko bi provjerili u tablicama vidjeli bi da dobijena statistika testa t = −3,20 za dati broj 

stepena slobode (20 − 2 = 18) nije signifikantna uz p < 0,05 na osnovu čega možemo odbaciti 



Testiranje hipoteze možemo uraditi i uz pomoć State. Naredba za provođenje nezavisnog t-testa 

glasi: 

ttest zavisna_varijabla, by(nezavisna_varijabla) unequal 

3 

Naredba: graph box prodaja, by(uzorci) 

15

gdje se opcija unequal koristi u slučaju kada nije ispunjena pretpostavka o homogenosti 

varijanse i govori Stati da koriguje broj stepena slobode kako bi se očuvala validnost testa. 

U našem primjeru smo konstatovali da je pretpostavka o homogenosti varijanse ispunjena tako 

da će biti: 

. ttest prodaja, by(uzorci) 

Rezultati testa su predstavljeni u tabeli 10. 

Tabela 10 – Rezultati nezavisnog t-testa za primjer 4.1 

Two-sample t test with equal variances 

------------------------------------------------------------------------------ 

Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] 

---------+-------------------------------------------------------------------- 

bez uzor | 10 69.2 11.68266 36.9438 42.772 95.628 

sa uzorc | 10 79.4 10.57901 33.45378 55.46861 103.3314 

---------+-------------------------------------------------------------------- 

combined | 20 74.3 7.7589 34.69885 58.06044 90.53956 

---------+-------------------------------------------------------------------- 

diff | -10.2 15.76071 -43.31202 22.91202 

------------------------------------------------------------------------------ 

diff = mean(bez uzor) - mean(sa uzorc) t = -0.6472 

Ho: diff = 0 degrees of freedom = 18 

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 

Pr(T < t) = 0.2628 Pr(|T| > |t|) = 0.5257 Pr(T > t) = 0.7372 

Output sadrži deskriptivnu statistiku i rezultate testa. Vidimo podatak o broju opservacija (Obs), 

prosječnoj prodaji u prodavnicama sa i bez uzoraka (Mean), prosječnoj razlici između te dvije 

grupe (diff = −10,2), standardnoj devijaciji (Std. Dev.), standardnoj grešci (Std. Err.) i 95% 

intervalu povjerenja za prodaju unutar grupa i zabilježenu razliku. U donjem dijelu tabele 

predstavljeni su rezultati testa. Obzirom da smo postavili neusmjerenu hipotezu p-vrijednost 

čitamo iz srednje kolone (Ha: mean(diff) != 0). Obzirom da je p = 0,53 i da je to manje od 

potrebnih p < 0,05 možemo zaključiti da ne postoji statistički signifikantna razlika između 

prodaje ostvarene u prodavnicama sa i bez uzoraka. Drugim riječima, ne možemo tvrditi da 

razlika nije jednaka nuli. 


Istraživanje je pokazalo da je u prodavnicama u kojima nije bilo besplatnih uzoraka zabilježena 

manja prosječna prodaja tokom mjeseca (M = 69,2, SD = 36,94) u odnosu na prodavnice u 

kojima je nova kafa nuđena uz besplatne uzorke (M = 79,40, SD = 33,45). Navedena razlika 

nije statistički signifikantna, t(18) = −0,65, p = 0,53. 

16


Zadatak 4.1 

Proizvođač konditorskih proizvoda želi saznati da li postoji razlika u preferencijama između 

muškaraca i žena (varijabla spol) u pogledu nove marke čokolade. Na bazi slučajnog uzorka 

odabrano je 30 ispitanika koji su zamoljeni da na skali od 1 do 10 izraze svoje preferencije 

prema novoj čokoladi. Na skali ocjena 1 označava potpunu averziju a ocjena 10 potpuno 

preferiranje. Podaci su spremljeni u datoteku pod nazivom cokolada.dta. 

4.2. ZAVISNI T-TEST 

Zavisni ili upareni t-test (engl. paired samples t-test) se koristi da ispitamo da li postoji 

statistički signifikantna razlika između aritmetičkih sredina dvije direktno povezane grupe. 

Direktna povezanost se najčešće javlja ako prikupljanje podataka vršimo u dva navrata pa 

imamo ponovljena mjerenja na istoj grupi ispitanika. Također, povezanost se javlja i kada u 

okviru ekperimentalnog dizajna imamo uparene opservacije gdje je svaki ispitanik iz 

eksperimentalne grupe je uparen sa drugim ispitanikom sličnih karkateristika iz kontrolne 

grupe. 

Primjena nezavisnog t-testa u takvim situacijama ne bi bila prikladna jer bi narušili 

pretpostavku o nezavisnosti opservacija. Problem se rješava tako da izračunamo razliku između 

svakog para opservacija (d1, d2 ... dn). Ovako dobijene razlike su međusobno nezavisne što 

omogućava primijenu statitstike koja je ekvivalentna t-testu na bazi jednog uzorka sa (n − 1) 

stepena slobode: 

d 

s 

t gdje je SE 

d 

SE 

n 

Primjer 4.2 

Marketing odjeljenje vjeruje da novi POS displej (engl. point-of-sale display) ima opipljiv 

efekat na povećanje prodaje kod onih kupaca koji inicijalno nisu imali namjeru kupiti određeni 

tip proizvoda izložen na samom displeju. Prije donošenja konačne odluke o uvođenju novog 

displeja u sve prodavnice, napravljen je eksperiment kako bi se utvrdilo da li postoji ekonomska 

opravdanost za donošenje takve odluke. Slučajno je odabrano 10 prodavnica koje pripadaju 

istom distributerskom lancu i mjeren je ostvareni mjesečni prihod od prodaje proizvoda 

izloženih na starom (april) i novom POS displeju (maj). Ostali uslovi unutar prodavnica se nisu 

promijenili. Na bazi ranijeg iskustva poznato je da prodaja unutar prodavnica nije podložna 

sezonskim oscilacijama tokom dva izabrana mjeseca. Podaci su spremljeni u datoteku pos.dta. 

Prvo smo izračunali razliku u prodaji unutar istih prodavnica (d), zatim smo dobijene podatke 

predstavili u tabeli 11. Na kraju smo izračunali prosjek i standaradnu devijaciju za dobijenu 

razliku. 

17

Tabela 11 – Prodaja (u KM) prije i nakon uvođenja novog POS displeja 

. gen d = maj - april 

. list, abbreviate(11) separator (10) 

+---------------------------------+ 

| prodavnica maj april d | 

|---------------------------------| 

1. | 1 198 235 -37 | 

2. | 2 632 445 187 | 

3. | 3 769 701 68 | 

4. | 4 930 1025 -95 | 

5. | 5 766 651 115 | 

6. | 6 888 805 83 | 

7. | 7 566 455 111 | 

8. | 8 314 254 60 | 

9. | 9 1310 1224 86 | 

10. | 10 1479 1452 27 | 

+---------------------------------+ 

. summarize d 


-------------+-------------------------------------------------------- 

d | 10 60.5 79.96145 -95 187 

Iako na prvi pogleda djeluje neuobičajeno da u tabeli mjesec maj ide prije aprila, ovakav 

redoslijed ima svoje opravdanje u slučaju kada radimo zavisni test unutar State. Naime, da bi 

dobili ispravne rezultate testa neophodno je da se vrijednosti prvog mjerenja oduzmu od 

vrijednosti drugog mjerenja, pa se zbog toga opservacije vezane za mjesec maj nalaze u koloni 

prije opservacija za mjesec april. 

Nulta hipoteza glasi da ne postoji razlika između prosječne prodaje prodavnica prije i nakon 

postavljanja novog POS displeja, odnosno: 

H0: µd = 0 

H1: µd ≠ 0 


Obzirom da je zavisna varijabla metrijskog tipa, prije izračunavanja statistike testa potrebno je 

još provjeriti pretpostavke o normalnosti i nepostojanju netipičnih opservacija. Pretpostavku o 

homogenosti varijanse nije potrebno provjeravati jer distribucija individualnih vrijednosti po 

grupama (maj i april) nije relevantna, jer je sam test jedino bitno kako izgleda distribucija razlika 

(d). 

Pretpostavka normalnosti u slučaju zavisnog testa odnosi se na to da distribucija razlika između 

dvije grupe (d) treba imati normalan raspored. U slučaju kada raspolažemo sa uzorkom veličine 

n ≥ 30, možemo se osloniti na Centralni granični teorem i smatrati da je pretpostavka ispunjena. 

U konkretnom primjeru, imamo manji uzorak (n = 10) pa je pretpostavku bilo potrebno testirati 

18

primjenom Saphiro-Wilk testa 4 . Statistika testa W = 0,948 je bila nesignifiknantna sa p = 0,647 

na osnovu čega smo zaključili da je pretpostavka ispunjena. 

Pretpostavku o nepostojanju netipičnih vrijednosti smo provjerili tako što smo nacrtali boxplot 5 

na bazi kojeg smo konstatovali da nisu detektovane netipične opservacije i da je pretpostavka 

ispunjena. 

4.2.2. Izračunavanje statistike testa pomoću formule 


Ukoliko bi provjerili u tablicama vidjeli bi da dobijena statistika testa t = 2,39 za dati broj 

stepena slobode (10 − 1 = 9) statistički signifikantna uz p < 0,05 na osnovu čega možemo 

odbaciti nultu hipotezu. 

4.2.3. Izračunavanje statistike testa pomoću State 

Testiranje hipoteze možemo uraditi i uz pomoć State. Naredba za provođenje zavisnog t-testa 

glasi: 

ttest druga_varijabla == prva_varijabla 

U našem primjeru drugo mjerenje je obavljeno u maju a prvo u aprilu, pa ćemo imati: 

. ttest maj == april 

Rezultati testa su prikazani u tabeli 12. 

Tabela 12 – Rezultati zavisnog t-testa za primjer 4.2 

Paired t test 

------------------------------------------------------------------------------ 


---------+-------------------------------------------------------------------- 

maj | 10 785.2 125.9317 398.231 500.3227 1070.077 

april | 10 724.7 128.8074 407.3249 433.3173 1016.083 

---------+-------------------------------------------------------------------- 

diff | 10 60.5 25.28603 79.96145 3.299025 117.701 

------------------------------------------------------------------------------ 

mean(diff) = mean(maj - april) t = 2.3926 

Ho: mean(diff) = 0 degrees of freedom = 9 

Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0 

Pr(T < t) = 0.9798 Pr(|T| > |t|) = 0.0404 Pr(T > t) = 0.0202 

4 

Naredba: swilk d 

5 

Naredba: graph box d 

19

Output sadrži deskriptivnu statistiku i rezultate testa. Vidimo podatak o broju opservacija (Obs), 

prosječnoj prodaji u 10 prodavnica u maju i aprilu (Mean), prosječnoj razlici između ta dva 

mjeseca (d̄ = 60,5 KM), standardnoj devijaciji SD = 79,96, standardnoj grešci SE = 25,29 i 95% 

intervalu povjerenja. U donjem dijelu tabele predstavljeni su rezultati testa. Obzirom da smo 

postavili neusmjerenu hipotezu čitamo srednju kolonu (Ha: mean(diff) != 0) u kojoj je 

prikazana statistička značajnost testa. Obzirom da je p = 0,04 i da je to manje od potrebnih p < 

0,05 možemo zaključiti da postoji statistički signifikantna razlika između prodaje ostvarene u 

maju i aprilu. 


Eksperiment je pokazao da je tokom mjeseca aprila, kada je u prodavnicama bio postavljen stari 

POS displej, zabilježen manji prihod od prodaje (M = 724,7, SD = 407,3) u odnosu na mjesec 

maj, kada je u prodavnicama bio postavljen novi POS displej (M = 785,2, SD = 398,2). 

Navedena razlika je statistički signifikantna, t(9) = 2,39, p = 0,04. 


Zadatak 4.2 

Pretpostavimo da marketing odjeljenje vjeruje da novo pakovanje proizvoda ima opipljiv efekat 

na povećanje prodaje (prodaja) kod onih kupaca koji inicijalno nisu imali namjeru kupiti 

određeni tip proizvoda. Trideset slučajno odabranih ispitanika je zamoljeno da na skali od 1 do 

10 izrazi svoje preferencije prema starom pakovanju (staro) i novom pakovanju (novo). Na skali 

ocjena 1 označava potpunu averziju a ocjena 10 potpuno prefereiranje. Podaci su spremljeni u 

datoteku pakovanje.dta. Da li treba uvesti novo pakovanje proizvoda? 

5. PARAMETARSKI TESTOVI ZA TRI ILI VIŠE GRUPA 

5.1. ANALIZA VARIJANSE (ANOVA) 

Jednofaktorska analiza varijanse (engl. One way ANOVA) je parametarska statistička tehnika 

koja se upotrebljava kada želimo provjeriti da li postoji statistički signifikantna razlika između 

aritmetičkih sredina tri ili više nezavisnih grupa za koje se pretpostavlja da dolaze iz različitih 

populacija. 

ANOVA je logična ekstenzija nezavisnog t-testa i omogućava nam da testiramo nultu hipotezu 

da između aritmetičkih sredina grupa koje dolaze iz više različitih populacija nema razlike: µ1 

= µ2 = µ3 = ... = µn. Ukoliko nemamo dovoljno dokaza da odbacimo nultu hipotezu, onda ne 

možemo tvrditi da postoji razlika između grupa. Drugim riječima, smatra se da su grupe dio 

iste populacije. 

5.1.1. Zašto nam treba analiza varijanse? 

Postavlja se pitanje zbog čega nam treba novi test za situacije kada imamo 3 ili više grupa. 

Zašto jednostavno ne bi koristili nezavisni t-test nekoliko puta, na način da prvo poredimo grupe 

1 i 2, zatim grupe 2 i 3, i na kraju grupe 1 i 3? 

20

Sjetimo se da prije samog testiranja hipoteza postavljamo nivo rizika α koji smo spremni 

prihvatiti da napravimo grešku prvog tipa (odbacimo nultu hipotezu ako je ona zaista istinita). 

Ako radimo jedan t-test za koji smo odredili da je α = 0,05 u tom slučaju navedeni rizik iznosi 

5%. Međutim, šta se dešava ako za istu zavisnu varijablu radimo seriju t-testova? Tada dolazi 

do inflacije rizika i vjerovatnoća da počinimo grešku prvog tipa više neće biti 5% nego veća. 

Vjerovatnoća da napravimo bar jednu grešku prvog tipa u situaciji kada provodimo više testova 

na istim podacima naziva se tzv. "familywise" greškom (oznaka: αFW). Ukoliko su opservacije 

međusobno nezavisne i ako u svakom ponovljenom testu na istim podacima koristimo isti nivo 

statističke značajnosti, onda se αFW može izračunati kao: 

αFW = 1 − (1 − α) k 

gdje se k odnosi na broj ponovljenih testova. 

Na primjer, ako ćemo na istim podacima uraditi tri testa kako bi komparirali tri grupe uz α = 

0,05 onda familywise greška iznosi: 

αFW = 1 − (1 − 0,5) 3 = 1 − (0,95) 3 = 0,14 

Što znači da je vjerovatnoća da napravimo bar jednu grešku prvog tipa više nije 5% nego 14%. 

Upravo zbog toga što dolazi do inflacije greške prvog tipa nije primjereno koristiti t-test kada 

imamo više od dvije grupe. 

5.1.2. ANOVA bez State 

Tehnika izračunavanja statistike testa kod ANOVE donekle se razlikuje od onoga što smo imali 

do sada. Kao i kod t-testa, nezavisna varijabla ima ulogu kontrolisanog faktora i njeni nivoi se 

koriste da bi se definisale grupe između kojih se vrši usporedba. Međutim, kao što možemo 

vidjeti na slici 3, sama analiza se zasniva na razlaganju ukupne varijanse na sastavne 

komponente: 

a) varijansu između grupa objašnjenu modelom, odnosno uticajem kontrolisanog faktora 

(engl. between-group variance - SSB) 

b) neobjašnjenu varijansu unutar grupa koja nastaje pod uticajem nekontrolisanih faktora i 

slučajne greške (within-group variance - SSW). 

21

Slika 3 – Analiza varijanse 

Primjer 5.1 

Da bi ilustrovali čitav koncept zamislimo da su turisti ocjenjivali kvalitet hrane u tri različita 

hotela na istoj destinaciji. Na bazi slučajnog izbora anketirana su četiri posjetioca iz svakog 

hotela i njihove ocjene su predstavljene u tabeli 13. Da li je razlika između prosječnih ocjena 

statistički signifikantna? 

Tabela 13 – Ocjene kvaliteta hrane za tri različita hotela po završetku posjete 

hotel A hotel B hotel C 

6 8 1 

4 10 2 

3 4 1 

3 5 1 

x̄ 1 = 4 x̄ 2 = 6,75 x̄ 3 = 1,25 Opšti prosjek (x̿ G) 

SD 1 = 1,414 SD 2 = 2,754 SD 3 = 0,5 x̿ G = (x̄ 1 + x̄ 1 + x̄ 1)/3 

Varijansa 1 = SD 1 

2 

= 2 Varijansa 2 = SD 2 

2 

= 7,583 Varijansa3 = SD 3 

2 

= 0,25 x̿ G = 4 

Testiramo nultu hipotezu da ne postoji razlika između prosječne ocjene tri hotela: 

H0: µ1 − µ2 − µ3 = 0 

H1: µ1 − µ2 − µ3 ≠ 0 

Podaci iz tabele 13 su vizuelno predstavljeni na slici 4. 

22

Slika 4 – Analiza varijanse 

Na slici 4 brojevi 1 do 12 predstavljaju ispitanike. Opšti prosjek (engl. grand mean) je 

predstavljen horizontalnom isprekidanom linijom. Prosjeci svake od grupa su predstavljeni 

punom crvenom horizontalnom linijom. Vertikalna pozicija svakog ispitanika je detrminisana 

ocjenom koju je dao odgovarajućem hotelu. Varijansa unutar grupa predstavljena je punom 

plavom linijom, dok je razlika između prosjeka grupe i opšteg prosjeka predstavljena 

isprekidanom crvenom vertikalnom linijom. 

Prvo ćemo izračunati ukupnu varijansu (SST). Ona predstavlja ukupni varijabilitet, odnosno 

odstupanje pojedinih opservacija (ocjena) od opšteg prosjeka. Izračunava se tako što 

kvadriramo i saberemo odstupanje svake pojedinačne ocjene od opšteg prosjeka (x̿ G): 

SS ( x x ) 2 (6 4) 2 ... (1 4) 2 90 

T ij G 

Zatim ćemo izračunati varijansu između grupa (SSB) kojom se mjeri međusobna različitost 

grupa. Ova varijansa predstavlja dio ukupnog varijabiliteta objašnjenog nezavisnom 

varijablom. Često se naziva i varijansom objašnjenom modelom (SSM). Računa se tako da 

razliku između prosjeka svake grupe (x̄ j) i opšteg prosjeka (x̿ G) kvadriramo i pomnožimo sa 

brojem opservacija (n) unutar grupe: 

SS n ( x x ) 2 4 (4 4) 2 ... 4 (1,25 4) 2 60,5 

B j G 

Pojedinačna varijansa unutar grupe (SSgrupa) mjeri različitost unutar grupa i računa se tako 

što razlike između svake pojedine opservacije (ocjene) i prosjeka grupe kvadriramo i saberemo: 

2 2 

SS hotel 1 

(6 4) ... (3 4) 6 

2 2 

SS hotel 

SS hotel 

2 

(8 6,75) ... (5 6,75) 22,75 

2 2 

3 

(1 1,25) ... (1 1,25) 0,75 

23

Konačno, varijansa unutar grupa (SSW) predstavlja dio ukupne varijanse koji se ne može 

objasniti nezavisnom varijablom ili modelom. Izračunava se tako što saberemo prethodno 

izračunate varijanse unutar grupa: 

SS ( x x ) 6 22,75 0,75 29,5 

W ij j 

Ili tako što od ukupne varijanse (SST) oduzmemo varijansu između grupa (SSB): 

SSW SST SS 

B 

90 60,5 29,5 

Varijansa unutar grupa se naziva još i rezidulanom varijansom (SS R ili SS error ) jer se pretpostavlja da 

se javlja kao posljedica slučajne greške, odnosno varijacija svojstvenih samom uzorkovanju. 

Sve dobijene vrijednosti možemo sumarno predstaviti u tabeli 14. 

Tabela 14 – Sumarna tabela za prikaz rezultata analize varijanse 

Izvor 

varijanse 

Suma 

kvadrata 

broj 

stepena 

slobode* 

Između grupa SSB k − 1 

Unutar grupa SSW n − k 

Ukupno SST = SSB + SSW n − 1 

Procijenjena varijansa 

(srednje kvadratno 

odstupanje) 

SS 

B 

MSB = 

k 1 

SSW 

MSW = 

n k 

* gdje je k = broj grupa (kategorija nezavisne varijable) i n = broj opservacija (veličina uzorka) 

F odnos 

F = 

MS 

MS 

Sama statistika testa se izračunava kao količnik procijenjene varijanse između grupa (MSB – 

objašnjene varijanse) i procijenjene varijanse unutar grupa (MSW – neobjašnjene varijanse). 

Dobijeni rezultat slijedi F distribuciju sa (k -1, n - k) stepena slobode koja se koristi da bi se 

provjerilo da li postoji statistički signifikantna razlika između grupa. 

U konkretnom primjeru vezanom za ocjenjivanje kvaliteta hrane u hotelima, izračunate 

vrijednosti su predstavljene u tabeli 15. 

Tabela 15 – Statistika testa za primjer sa hotelima 

Izvor 

varijanse 

Suma 

kvadrata 

broj 

stepena 

slobode 

Procjenjena vrijansa 


odstupanje) 

F odnos 

Između grupa SSB = 60,5 3 − 1 = 2 MSB = 30,25 9,22 

Unutar grupa SSW = 29,5 12 − 3 = 9 MSW = 3,28 

Ukupno SST = 90 12 − 1 = 11 

Ukoliko bi provjerili u statističkim tablicama vidjeli bi da je statistika testa F = 9,22 za dati broj 

stepena slobode signifikantna uz p < 0,05 na osnovu čega možemo odbaciti nultu hipotezu i 

zaključiti da se prosječne ocjene kvaliteta hrane u tri posmatrana hotela međusobno razlikuju. 

B 

W 

24

Ovaj jednostavni primjer smo koristili da ilustrujemo logiku koja stoji u pozadini analize 

varijanse i da pokažemo kako se ANOVA može izračunati ručno. Primjer je jednostavan jer 

smo imali mali broj opservacija i nismo obraćali mnogo pažnje na pretpostavke. U nastavku 

ćemo na drugom primjeru vidjeti kako analizu varijanse možemo uraditi pomoću State. 

5.1.3. ANOVA uz pomoć State 

Primjer 5.2 

Zamislimo da proizvođač keksa marke A želi ispitati kako pozicija proizvoda na polici (pozicija) 

utiče na ostvareni obim prodaje (prodaja). Sa menadžerom supermarketa dogovoreno je da se 

provede eksperiment koji uključuje stavljanje keksa marke A na tri različite pozicije: nivo 

koljena (70 cm), nivo ruke (120 cm) i nivo očiju (170 cm). Eksperiment je podrazumijevao da 

se pozicija proizvoda mijenja svakih 8 dana kako bi se kontrolisale oscilacije u prodaji 

svojstvene različitim danima u sedmici. Tokom cjelokupnog posmatranog perioda nije bilo 

promijene cijena konkurentskih proizvoda, posebnih promotivnih aktivnosti i sl. Prikupljeni 

podaci su spremljeni u datoteku keks.dta, deskriptivna statistika je dobijena uz pomoć 

odgovarajuće naredbe i predstavljena u tabeli 16. 

. tabstat prodaja, s(n mean, median, sd) by(pozicija) format(%9.3g) 

Tabela 16 – Prodaja pakovanja keksa marke A (u kom) tokom osam dana i u zavisnosti od 

pozicije na polici 

Summary for variables: prodaja 

by categories of: pozicija 

pozicija | N mean p50 sd 

---------+---------------------------------------- 

koljena | 8 81 81 3.63 

ruka | 8 90.9 90.5 2.64 

oči | 8 84.6 85 4.6 

---------+---------------------------------------- 

Total | 24 85.5 86 5.47 

-------------------------------------------------- 

Iz tabele 9 vidimo da je najveća prosječna prodaja zabilježena u intervalu kada je proizvod na 

polici bio u visini ruke a najmanja u intervalu kada je proizvod bio postavljen u visini koljena. 

Testiramo nultu hipotezu da su uočene razlike statistički nesignifikantne i da su rezultat 

slučajnih varijacija, odnosno da je: 

H0: µ1 − µ2 − µ3 = 0 

H1: µ1 − µ2 − µ3 ≠ 0 


Jednofaktorska analiza varijanse zahtijeva ispunjenost opštih pretpostavki koje se odnose na 

parametarske statističke testove. Ako uzmemo da na bazi prethodnog iskustva menadžer zna da 

prodaja keksa marke A u populaciji slijedi normalnu distribuciji (što je potvrđeno 

nesignifikantnim rezultatom Shapiro-Wilk testa), ostaje nam da ispitamo pretpostavke o 

nepostojanju netipičnih vrijednosti i pretpostavku o homogenosti varijanse. Pretpostavku o 

25

netipičnim vrijednostima smo provjerili uz pomoć boxplota-a i na kojem nisu detektovane 

netipične opservacije. Test o homogenosti varijanse će biti provjeren tokom same analize. 


Statistika za ANOVA test se računa uz pomoć naredbe: 

oneway zavisna_varijabla nezavisna_varijabla, sidak bonferroni scheffe 

gdje se opcije opcije bonferroni, scheffe i sidak, odnose na Post Hoc testove o čemu će biti riječi 

kasnije. 

Dakle, u našem primjeru konkretna naredba će biti: 

. oneway prodaja pozicija 

U tabeli 17 se nalaze rezultati testa. 

Tabela 17 – Rezultati ANOVA testa za primjer 5.2 

Analysis of Variance 

Source SS df MS F Prob > F 

------------------------------------------------------------------------ 

Between groups 399.25 2 199.625 14.52 0.0001 

Within groups 288.75 21 13.75 

------------------------------------------------------------------------ 

Total 688 23 29.9130435 

Bartlett's test for equal variances: chi2(2) = 1.9313 Prob>chi2 = 0.381 

Ispod ANOVA tabele nalazi se red sa rezultatima Bartletovog testa koji pokazuje da je 

ispunjena pretpostavka o homogenosti varijanse jer je test nesignifikantan, χ2 = 1,931 uz p = 

0,381. Ostatak dobijenog outputa sadrži identične elemente koji su predstavljeni u tabelama 7 

i 8 kada smo ANOVA test računali ručno. Na osnovu F statistike testa i pridružene p-vrijednosti 

zaključujemo da je analiza varijanse potvrdila da postoje značajne razlike između grupa (F = 

14,52, p < 0,001). 

5.1.6. Post Hoc testovi 

Ovdje je potrebno napomenuti da je ANOVA tzv. omnibus test jer pruža samo podatak o tome 

da li je eksperimentalna maninpulacija imala efekta, odnosno da li postoje statistički značajne 

razlike između grupa ili ne. U slučaju otkrivanja postojanja signifikantnog efekta ANOVA nam 

ne govori o tome koje se grupe međusobno razlikuju. U takvim slučajevima provode se tzv. 

Post Hoc testovi koji za cilj imaju da ispitaju sve kombinacije između različitih nivoa 

eksperimentalne varijable (u našem slučaju je to pozicija proizvoda na polici). 

U suštini Post Hoc testovi se oslanjaju na provođenje niza t-testova kako bi se utvrdilo između 

kojih grupa postoji statistički značajna razlika, s tim da se različitim metodama pokušava 

kontrolisati infalacija greški prvog tipa. Stata nudi sljedeće Post Hoc testove: 

26

Bonferronijev test se često upotrebljava jer je jednostavan za izračunati i fleksibilan u smislu 

da ne zahtijeva ispunjavanje dodatnih pretpostavki. S druge strane test je vrlo konzervativan, 

što znači da ima dobru kontrolu nad greškom I tipa ali i manju snagu da detektuje razlike između 

grupa kao statistički signikantne, čime se povećava rizik od greške II tipa. 

Scheffe test je isto vrlo popularan i fleksibilan. Posebno je koristan kada se prave kompleksne 

komparacije između više grupa istovremeno. Međutim, važi za jedan od najkonzervativinih 

testova sa vrlo visokim rzikom greške II tipa. Pogodan je za situacije kada su grupe nejednake 

veličine. 

Sidakov test se zasniva na jednostavnoj korekciji Bonferronijeve formule kojom se pokušava 

povećati snaga testa uz istovremeno zadržavanje fleksibilnosti. 

U nastavku je prikazan output za našu analizu gdje je odabran Bonferronijev post hoc test: 

. oneway prodaja pozicija, bonferroni 

Tabela 18 – Rezultati Bonferronijevog post-hoc testa za primjer 4.2 

Comparison of prodaja by pozicija 

(Bonferroni) 

Row Mean-| 

Col Mean | koljena ruka 

---------+---------------------- 

ruka | 9.875 

| 0.000 

| 

oči | 3.625 -6.25 

| 0.192 0.009 

Output testa pokazuje da statistički signifikantna razlika postoji između pozicije keksa u visini 

ruke i visini koljena (p < 0,001), kao i između pozicije u visini očiju i visini ruke (p = 0,009). 

Međutim, signifikantna razlika nije detektovana između pozicija u visini očiju i visine ruke (p 

= 0,192). 


Jednofaktorska analiza varijanse (ANOVA) je potvrdila da se prosječan obim prodaje statistički 

signifikantno razlikuje u zavisnosti od pozicije proizvoda na polici, F(2, 21) = 14,52, p < 0,001. 

Bonferronijev post hoc test je pokazao da je prosječan obim prodaje proizvoda postavljenog u 

visini ruke (M = 90,9, SD = 2,64) statistički signifikantno veći u odnosu na obim prodaje 

proizvoda postavljenog u visini očiju (M = 84,6, SD = 4,60, p = 0,009) i visini koljena (M = 

81, SD = 3,63, p < 0,001). Statistički signifikantna razlika nije detektovana između pozicija u 

visini očiju i visini ruke (p = 0,192). 


Zadatak 5.1 

Oglašavačka agencija želi testirati tri različita dizajna billboard oglasa za novi smart phone 

(dizajn): svjedočanstvo poznate osobe (dizajn = 1), informativni oglas baziran na tehničkim 

27

specifikacijama (dizajn = 2) i emocionalni oglas sa apelom na ponos (dizajn = 3). Svaki od 

oglasa je prikazan zasebnoj grupi slučajno odabranih ispitanika koji su zamoljeni da ocijene 

privlačnost oglasa (atrakt) na skali od 1 do 10. Na skali ocjena 1 označava najnižu privlačnost 

dok ocjena 10 označava izrazito visoku privlačnost. Podaci su srpemljeni u datoteku 

billboard.dta. 

5.2. ANALIZA VARIJANSE SA PONOVLJENIM MJERENJIMA (RM ANOVA) 

Jednofaktorska analiza varijanse sa ponovljenim mjerenjima (engl. One-way ANOVA with 

repeated measures ili skraćeno RM ANOVA) se koristi za ispitivanje postojanja razlika između 

aritmetičkih sredina dobijenih u tri ili više ponovljenih mjerenja. Sama mjerenja obavljaju se: 

a) sukcesivno na istim subjektima ali u različitim uslovima kao što su vremenski periodi, 

geografske lokacije, ekperimentalne intervencije i sl. ili b) u situaciji kada je svaki ispitanik iz 

jedne grupe uparen sa drugim ispitanikom sličnih karakteristika u drugoj grupi (tzv. matched 

pairs design). RM ANOVA je omnibus test i govori da li postoji opšta razlika između grupa, 

ali ne i između kojih konkretno grupa se ta razlika javlja. 

RM ANOVA se zasniva na razlaganju ukupne varijanse (engl. total variance – SST) na sljedeće 

komponente: 

1. varijansu između subjekata (engl. between-subject variance – SSB) 

2. varijansu unutar subjekata (engl. within-subject variance – SSW) koja se sastoji od: 

a) varijanse objašnjene modelom, odnosno uticajem kontrolisanog faktora (engl. 

between treatment variance – SSM) 

b) neobjašnjene varijanse koja nastaje pod uticajem nekontrolisanih faktora (engl. 

error variance – SSR). 

Obzirom da se RM ANOVA test primjenjuje u situacijama kada se na istim subjektima 

obavljaju višestruka mjerenja, nije nužno da su opservacije nezavisne jedne od drugih. 

Međutim, RM ANOVA zahtjeva ispunjavanje dodatne pretpostavke o sfernosti (engl. 

sphericity). Ova pretpostavka se odnosi na to da varijansa razlika između svih kombinacija 

povezanih grupa mora biti jednaka. Narušavanje sfernosti ima za posljedicu dobijanje 

precijenjene F statistike čime se povećava rizik da smo napravili grešku prvog tipa (tj. da smo 

detektovali signifikantan rezultat iako on u stvarnosti ne postoji). Uobičajeno se za testiranje 

ove pretpostavke koristi Mauchleyev test koji nažalost nije implementiran u Statu. 

Primjer 5.3 

Marketing agencija želi testirati tri različita dizajna bilbord oglasa za novi smart phone: 

svjedočanstvo poznate osobe, informativni oglas baziran na tehničkim specifikacijama i 

emocionalni oglas sa apelom na ponos. Grupi od 30 slučano odabranih ispitanika je prvo 

prikazan oglas sa svjedočanstvom poznate osobe (oglas1) i zamoljeni su da ocijene privlačnost 

oglasa na skali od 1 do 10, gdje ocjena 1 označava najnižu privlačnost dok ocjena 10 označava 

najvišu privlačnost. Nakon što su ocijenili prvi oglas ispitanici su zamoljeni da na isti način 

ocijene drugi (oglas2), a zatim i treći oglas (oglas3). Podaci su spremljeni u datoteku 

billboard_rm_wide.dta i prestavljeni u tabeli 19. 

28

Tabela 19 – Podaci organizovani u tzv. širokom formatu 

. list, separator (10) 

+-------------------------------+ 

| id oglas1 oglas2 oglas3 | 

|-------------------------------| 

1. | 1 7 3 7 | 

2. | 2 8 3 7 | 

3. | 3 8 1 5 | 

4. | 4 5 3 7 | 

5. | 5 5 3 3 | 

6. | 6 6 3 4 | 

7. | 7 7 2 6 | 

8. | 8 5 3 6 | 

9. | 9 7 2 8 | 

10. | 10 8 4 5 | 

+-------------------------------+ 

Ovakav način organizacije podataka gdje se svaki ispitanik (id) pojavljuje jednom i gdje su 

vrijednosti mjerenja spremljene kao zasebne varijable (oglas1, oglas2 i oglas3) naziva se tzv. 

širokim formatom podataka (engl. wide data format). 

Deskriptivna statistika je prikazana u tabeli 20. 

Tabela 20 – Deskriptivna statistika za primjer sa bilbordima 

. tabstat oglas1 oglas2 oglas3, s(mean median sd) format(%9.2f) 

stats | oglas1 oglas2 oglas3 

---------+------------------------------ 

mean | 6.60 2.70 5.80 

p50 | 7.00 3.00 6.00 

sd | 1.26 0.82 1.55 

---------------------------------------- 

Vidimo da je najbolje ocijenjen prvi a najlošije drugi oglas. Testiramo hipotezu da su uočene 

razlike rezultat slučajnih varijacija, odnosno da je: 

H0: µD1 − µD2 − µD3 = 0 

H1: µD1 − µD2 − µD3 ≠ 0 

5.2.1. RM ANOVA bez State 

Prvo smo izračunali opšti prosijek koji iznosi: 

x̿G = (6,6 + 2,7 + 5,8)/3 = 5,03. 

Ukupnu varijansu (SST) izračunavamo na isti način kao kod jednofaktorske analize varijanse, 

tako što kvadriramo i saberemo odstupanje svake pojedinačne ocjene od opšteg prosjeka (x̿G): 

SS ( x x ) 2 (7 4,2) 2 ... (5 4) 2 127 

T i G 

29

Varijansa unutar subjekata (SSW) predstavlja dio ukupne varijanse koji je svojstven samim 

ispitanicima. Ovo je i ključna razlika u odnosu na jednofaktorski ANOVA test. Naime kod 

ponovljenih mjerenja ne baratamo više varijansom unutar grupa već varijansom unutar 

subjekata, obzirom da kategorije nezavisne varijable predstavljaju opetovana mjerenja vezana 

za istog ispitanika. Ova varijansa se izračunava tako što razlike između ponovljenih ocjena 

datog subjekta i njegovog prosjeka kvadriramo i saberemo. 

Na primjer, prosječna ocjena prvog ispitanika iz našeg uzorka iznosi: 

x̄ subjekt1 = (oglas1 + oglas2 + oglas3)/3 = (7 + 3 + 7)/3 = 5,67 

Varijansa unutar prvog ispitanika će biti: 

SSsubjekt1 = (oglas1 − 5,67) 2 + (oglas2 - 5,67) 2 + (oglas3 − 5,67) 2 

= (7 − 5,67) 2 + (3 − 5,67) 2 + (7 − 5,67) 2 

= 10,67 

Na isti način se računa varijansa unutar ostalih ispitanika. 

Nakon što sve pojedinačne varijanse saberemo dobićemo da je: 

SSW = SSsubjekt1 + SSsubjekt2 + ... + SSsubjekt10 = 112,67 

Varijansa objašnjena modelom (SSM) predstavlja dio varijanse koji je objašnjen razlikama 

između nivoa nezavisne varijable (različitim dizajnima oglasa). Računa se slično kao i kod 

jednofaktorske analize varijanse, na način da razlike između prosjeka u svakom mjerenju (x̄ j) i 

opšteg prosijeka (x̿G) kvadriramo i pomnožimo sa brojem opservacija (n) unutar svakog 

mjerenja: 

SS n ( x x ) 2 10 (6,6 5) 2 ... 10 (5,8 5) 2 84,9 

M j G 

Varijansa koja nije objašnjena modelom (SSR) odnosi se na varijabilitet unutar subjekata 

koji je izazvan eksternim faktorima a ne samim eksperimentom. Do sada smo izračunali da 

ukupni varijabilitet unutar subjekata iznosi 112,7 i da se 84,9 jedinica tog varibaliteta može 

objasniti eksperimentom. Najlakši način da dobijemo rezidualni varijabilitet koji nije objašnjen 

eksperimentom je da izračunamo razliku između ta dva varijabliteta: 

SSR = SSW − SSM = 112,7 − 84,9 = 27,8 

Ako od ukupne varijanse oduzmemo varijansu unutar subjekata, ono što preostane je varijansa 

vezana za individualne razlike između subjekata (SSB): 

SSB = SST − SSW = 127 − 112,67 = 14,33 

U kontekstu našeg primjera ovo bi se odnosilo na činjenicu da neki ispitanici generalno imaju 

tendenciju da daju niže ili više ocjene. Na primjer, ako pogledamo output 1 možemo uočiti da 

je ispitanik pod rednim brojem 5 sva tri oglasa ocijenio sa nešto nižim ocjenama pa će i prosijek 

njegovih ocjena biti niži u odnosu na ostale ispitanike. U skladu s tim, 14,33 predstavlja iznos 

ukupne varijanse koji možemo objasniti ovakvim individualnim razlikama između ispitanika. 

30

Sve dobijene vrijednosti možemo sumarno predstavitina način prikazan u tabeli 21. 

Tabela 21 – Sumarna tabela za prikaz rezultata analize varijanse sa ponovljenim mjerenjima 

Izvor 

varijanse 

Između 

subjekata 

Eksperimentalna 

varijabla 

Suma 

kvadrata 

broj 

stepena 

slobode* 

SS B n − 1 MS B = 

SS M k − 1 MS M = 

Procijenjena varijansa 


odstupanje) 

SS B 

n 1 

SS M 

k 1 

SS 

R 

Rezidual SS R (k − 1)(n − 1) MS R = 

( k 1) ( n 1) 

Ukupno SS T = SS B + SS M + SS R n − 1 

* gdje je k = broj kategorija nezavisne varijable i n = broj subjekata (veličina uzorka) 

F odnos 

MS 

F = 

MS 

MS 

F = 

MS 

B 

R 

M 

R 

Sama statistika testa se izračunava kao količnik procijenjene varijanse između grupa (MSB – 

objašnjena varijansa) i procijenjene varijanse unutar grupa (MSW – neobjašnjena varijansa). 

Dobijeni rezultat slijedi F distribuciju sa (k -1, n - k) stepena slobode koja se koristi da bi se 

provjerilo da li postoji statistički signifikantna razlika između grupa. 

U konkretnom primjeru vezanom za ocjenjivanje dizajna oglasa, izračunate vrijednosti su 

predstavljene u tabeli 22. 

Tabela 22 – Statistika testa za primjer sa bilbordima 

Izvor varijanse Suma kvadrata 

broj stepena 

slobode 

Procjenjena vrijansa 


odstupanje) 

F odnos 

Između grupa SS B = 14,3 10 − 1 = 9 MS B = 1,59 F = 1,03 

eksperiment SS M = 84,9 3 − 1 = 2 MS M = 42,45 F = 27,5 

rezidual SS R = 27,8 9 × 2 = 18 MS R = 1,54 

Ukupno SS T = 127 30 − 1 = 29 

Ukoliko bi provjerili u statističkim tablicama vidjeli bi da je statistika testa F = 27,5 za dati broj 

stepena slobode signifikantna uz p < 0,05 na osnovu čega možemo odbaciti nultu hipotezu i 

zaključiti da se prosječne ocjene kvaliteta hrane u tri posmatrana hotela međusobno razlikuju. 

5.2.2. RM ANOVA uz pomoć State 

Da bi unutar State mogli provesti analizu varijanse sa ponovljenim mjerenjima podaci moraju 

biti organizovani na poseban način koji je prikazan u tabeli 23. Ovakav način organizacije 

podataka gdje se ispitanik pojavljuje više puta i gdje su vrijednosti mjerenja spremljene unutar 

jedne varijable (oglas) naziva se tzv. dugačkim formatom podataka (engl. long data format). 

U slučaju da imamo podatke u širokom formatu a želimo ih prebaciti u dugački format, 

iskoristićemo naredbu reshape: 

31

. reshape long oglas, i(id) j(dizajn) 

Naziv varijable u koju će biti pohranjene vrijednosti ponovljenih mjerenja u dugačkom formatu 

(u gornjoj naredbi to je varijabla oglas) mora biti identičan nazivima varijabli u širokom formatu 

samo bez numeričke oznake (u našem primjeru to su varijable oglas1-3). Opcija 

i(naziv_varijable) služi da se označi varijabla kojom se identifikuju ispitanici. U konkretnom 

slučaju to je varijabla id. Opcija j(naziv_varijable) kreira novu varijablu kojom se identifikuju 

ponovljena mjerenja ili vremenski periodi kada su ta mjerenja obavljena. U našem primjeru 

novokreirana varijabla se naziva dizajn i odnosi se na sukcesivno prikazivanje tri različita 

dizajna oglasa. 

Tabela 23 – Podaci organizovani u tzv. dugačkom formatu 

. list, separator(3) 

+---------------------+ 

| id dizajn oglas | 

|---------------------| 

1. | 1 1 7 | 

2. | 1 2 3 | 

3. | 1 3 7 | 

|---------------------| 

4. | 2 1 8 | 

5. | 2 2 3 | 

6. | 2 3 7 | 

|---------------------| 

7. | 3 1 8 | 

8. | 3 2 1 | 

9. | 3 3 5 | 

|---------------------| 

10. | 4 1 5 | 

11. | 4 2 3 | 

12. | 4 3 7 | 

|---------------------| 

13. | 5 1 5 | 

14. | 5 2 3 | 

15. | 5 3 3 | 

|---------------------| 

16. | 6 1 6 | 

17. | 6 2 3 | 

18. | 6 3 4 | 

|---------------------| 

19. | 7 1 7 | 

20. | 7 2 2 | 

21. | 7 3 6 | 

|---------------------| 

22. | 8 1 5 | 

23. | 8 2 3 | 

24. | 8 3 6 | 

|---------------------| 

25. | 9 1 7 | 

26. | 9 2 2 | 

27. | 9 3 8 | 

|---------------------| 

28. | 10 1 8 | 

29. | 10 2 4 | 

30. | 10 3 5 | 

+---------------------+ 

32

Nakon što smo podatke pripremili u odgovarajući format, sam test ima sljedeću sintaksu: 

. anova oglas id dizajn, repeated(dizajn) 

Dobijeni rezultat je organizovan u dva odvojena outputa. Prvi dio odnosi se na rezultat testa i 

predstavljen je u tabeli 24, dok se drugi odnosi na korekciju statistike testa ukoliko pretpostavka 

o sfernosti nije ispunjena i predstavljen je u tabeli 25. 

Tabela 24 – Rezultat RM ANOVA testa koji tumačimo ukoliko je pretpostavka o sfernosti 

ispunjena 

Number of obs = 30 R-squared = 0.7810 

Root MSE = 1.24276 Adj R-squared = 0.6472 

Source | Partial SS df MS F Prob > F 

-----------+---------------------------------------------------- 

Model | 99.1666667 11 9.01515152 5.84 0.0005 

| 

id | 14.3 9 1.58888889 1.03 0.4550 

dizajn | 84.8666667 2 42.4333333 27.47 0.0000 

| 

Residual | 27.8 18 1.54444444 

-----------+---------------------------------------------------- 

Total | 126.966667 29 4.37816092 

Tabela 24 prikazuje rezultat za situacije kada je pretpostavka o sfernosti ispunjena. Ukupna 

varijansa je razložena na iste komponente do kojih smo došli kada smo računali test ručno. 

Varijansa u redu označenim sa "id" odnosi se na iznos ukupne varijanse objašnjen razlikama 

između samih subjekata (SSB), "dizajn" se odnosi na iznos ukupne varijanse objašnjene 

modelom, odnosno faktorom "dizajn oglasa" (SSM) i "Residual" se odnosi na neobjašnjenu 

varijansu (SSR). Kada saberemo ove tri komponete dobijamo iznos ukupne varijanse. Stata daje 

još jedan red "Model" koji odnosi na ukupnu objašnjenu varijansu koju dobijamo ako saberemo 

komponete SSM i SSB. Rezultat testa je signifikantan što možemo vidjeti na osnovu vrijednosti 

testa koji se nalazi na presjeku reda "dizajn" i kolone "Prob > F" koji iznosi 0,0000 što je manje 

od p < 0,001. 

Tabela 25 – Output RM testa koji tumačimo ukoliko pretpostavka o sfernosti nije ispunjena 

Between-subjects error term: id 

Levels: 10 

Lowest b.s.e. variable: id 

Repeated variable: dizajn 

(9 df) 

Huynh-Feldt epsilon = 1.2583 

*Huynh-Feldt epsilon reset to 1.0000 

Greenhouse-Geisser epsilon = 0.9847 

Box's conservative epsilon = 0.5000 

------------ Prob > F ------------ 

Source | df F Regular H-F G-G Box 

-----------+---------------------------------------------------- 

dizajn | 2 27.47 0.0000 0.0000 0.0000 0.0005 

Residual | 18 

---------------------------------------------------------------- 

33

Unutar tabele 25 nalaze se korekcioni faktori koje možemo upotrijebiti ukoliko je pretpostavka 

o sfernosti narušena kako bi dobili validan rezultat testa. Korekcioni faktori se upotrebljavaju 

kako bi se korigovao broj stepena slobode koji se koristi za izračunavanje F statistike. U 

gornjem desnom dijelu tabele navedeni su faktori korekcije izračunati prema tri različite 

metode, dok se u donjem dijelu tabele nalaze korigovane vrijednosti F statistike koje dobijamo 

nakon primjene korekcionih faktora. Od navedenih korekcionih faktora najkonzervativniji je 

Boxov epsilon i ukoliko je "Prob > F" za taj korekcioni faktor signifikantan nema potrebe da 

razmatramo ostale korekcione faktore. 

U konkretnom primjeru vidimo da je rezultat testa i nakon primjene Boxovog korekcionog 

faktora signifikantan. Ovo se poklapa sa rezultatom testa kojeg smo dobili unutar outputa 4, pa 

na osnovu F statistike testa i pridružene p-vrijednosti zaključujemo da je analiza varijanse 

potvrdila da postoje značajne razlike između grupa (F = 27,47, p < 0,001). 


Rezultati jednofaktorskog ANOVA testa sa ponovljenim mjerenjima provedenog na uzorku od 

10 slučajno odabranih ispitanika pokazuju da postoji statistički signifikantna razlika između 

prosječne ocjene privlačnosti billboard-a zavisno od vrste dizajna samog oglasa, F(2, 18), p < 

0,001. 

34



Neparametarski testovi za testiranje razlika 

između grupa 1 

Autor: 



1 



1

Sadržaj 

I Neparametarski testovi za testiranje razlika ................................................................. 4 

1. Uvod ................................................................................................................................ 4 

2. Pretpostavke za primjenu neparametarskih testova ................................................. 4 

3. Neparametarski testovi za jednu grupu ...................................................................... 5 

3.1. Binomni test ............................................................................................................. 5 

3.1.1. Izračunavanje statistike testa pomoću formule ................................................. 5 

3.1.2. Izračunavanje statistike testa pomoću State ..................................................... 6 

3.1.3. Kako napisati rezultat testa ............................................................................... 7 

4. Hi-kvadrat test proporcije ............................................................................................ 7 

4.1.1. Izračunavanje statistike testa pomoću formule ................................................. 8 

4.1.2. Izračunavanje statistike testa pomoću State ..................................................... 8 


5. Neparametarski testovi za dvije grupe ...................................................................... 10 

5.1. Hi-kvadrat test nezavisnosti ................................................................................... 10 




5.2. Mann-Whitney U test ............................................................................................. 13 

5.2.1. Izračunavanje statistike testa pomoću formule kada je n < 20 ....................... 14 

5.2.2. Izračunavanje statistike testa pomoću formule kada je n > 20 ....................... 14 




5.3. McNemar test ......................................................................................................... 16 




5.4. Wilcoxonov test rangiranih predznaka .................................................................. 18 



6. Neparametarski testovi za tri ili više grupa .............................................................. 20 

6.1. Kruskal-Wallis test ................................................................................................. 20 


6.1.2. Dunnov post-hoc test ...................................................................................... 22 


6.2. Cochranov Q test .................................................................................................... 22 


6.2.2. Post-hoc testovi............................................................................................... 24 


2

6.3. Friedman test .......................................................................................................... 24 


6.3.2. Post-hoc testovi............................................................................................... 26 


3

I 

Neparametarski testovi za testiranje razlika 

1. UVOD 

Osnovna karakteristika neparametarskih testova je da oni ne zahtevaju ispunjenost pretpostavki 

vezanih za homogenost varijanse, normalnost ili poznavanje oblika distribucije unutar 

populacije. Obzirom na to neparametarski testovi se često zovu i testovima bez raspodjele (engl. 

distribution-free tests). Selekcija odgovarajućeg neparametarskog testa zavisi od broja grupa 

između kojih se vrši testiranje razlika kao i od toga da li je riječ o međusobno nezavisnim ili 

zavisnim grupama, što je obrađeno u poglavlju „Testiranje hipoteza“ (vidjeti tabelu „Kriteriji 

za odabir testa“). 

2. PRETPOSTAVKE ZA PRIMJENU NEPARAMETARSKIH TESTOVA 

U tabeli 1 je data usporedba osnovnih pretpostavki koje je potrebno ispuniti da bi zaključci do 

kojih dođemo na bazi testova signifikantnosti bili validni. 

Tabela 1 – Pretpostavke koje moraju biti ispunjene da bi se primijenio odgovarajući test 

Tip zavisne varijable Nezavisnost Slučajni uzorak 

Binomni test dihotomna - da 

Hi-kvadrat propor. dihotomna/nominalna - da 

Hi-kvadrat test nez. nominalna/ordinalna da da 

Mann-Whitney U ordinalna/kontinuirana da da 

McNemar test dihotomna ne da 

Wilcoxon test ordinalna/kontinuirana ne da 

Kruskal-Wallis ordinalna/kontinuirana da da 

Cochran Q dihotomna ne da 

Friedman ordinalna/kontinuirana ne da 

Od svih ranije pomenutih pretpostavki vezanih za parametarske testove, jedino pretpostavka o 

tome da su ispitanici izabrani na bazi slučajnog uzorka jednako važi za neparametarske testove. 

Ukoliko je ova pretpostavka narušena, postoji mogućnost da će dobijeni rezultati testiranja biti 

pristrasni i da doneseni zaključci neće biti validni. Također, neki testovi zahtjevaju ispunjenje 

pretpostavke o nezavisnosti opservacija. 

Obzirom da neparametarski testovi postavljaju manje zahtjeva u pogledu pretpostavki, 

postavlja se pitanje zašto ih uvijek ne koristimo, pa čak i onda kada imamo metrijske podatke? 

Prvi bitan nedostatak neparametarskih testova je u tome što oni imaju manju snagu da detektuju 

signifikantne razlike između grupa ukoliko one zaista postoje. Samim tim češće će se desiti da 

napravimo grešku drugog tipa i ne odbacimo nultu hipotezu kada je ona pogrešna. Drugo, 

neparametarski testovi primjenjeni na metrijske podatke često zahtjevaju da modifikujemo 

hipoteze jer se pri testiranju tvrdnji o prosjeku ne oslanjaju na aritmetičku sredinu već na 

medijanu i rangove. Samim tim neparametarski testovi ne daju odgovore na ista pitanja kao 

parametarski testovi. 

4

Zbog svega navedenog, uvijek je bolje primijeniti parametarski u odnosu na naparametarski 

statistički test ako je zavisna varijabla metrijskog tipa, imamo dovoljno velik uzorak i smatramo 

da je aritmetička sredina zadovoljavajući pokazatelj centralne tendencije. 

3. NEPARAMETARSKI TESTOVI ZA JEDNU GRUPU 

3.1. BINOMNI TEST 

Binomni test se koristi za testiranje razlike između proporcije jedne kategorije dihotomne 

varijable u uzorku i pretpostavljene ili prethodno poznate proporcije drugog uzorka ili 

populacije (π). Posebno je pogodan u slučaju kada raspolažemo sa uzorcima male veličine. 

Statistika testa se izračunava korištenjem formule za binomnu distribuciju kako bi izračunali 

vjerovatnoću dobijanja proporcije u uzroku. Zatim se testira nulta hipoteza da se dobijena 

proporcija ne razlikuje od očekivane proporcije. 

Primjer 3.1 

Istraživanje preferencija prema mineralnim vodama obavljeno je na prigodnom uzoraku kojeg 

čini 199 ispitanika iz BiH. Pretpostavimo da je u sličnom istraživanju u Hrvatskoj u uzorku bilo 

60% žena. Da li se postotak žena iz BiH uzorka (mv.dta) statistički značajno razlikuje u odnosu 

na Hrvatski uzorak? 

Pogledajmo prvo proporciju žena u uzorku iz BiH: 

. tab spol, missing 

Tabela 1 – Proporcija ispitanika prema spolu 

Spol | Freq. Percent Cum. 

------------+----------------------------------- 

Muški | 62 31.16 31.16 

Ženski | 134 67.34 98.49 

. | 3 1.51 100.00 

------------+----------------------------------- 

Total | 199 100.00 

Vidimo da je u BiH uzorku procenat žena veći (67,34 %) u odnosu na očekivanih 60%. Kako 

bi utvrdili da li je ova razlika statistički značajna provešćemo binomni test. 

H0: πženski ≤ 0,60 

H1: πženski > 0,60 


Statistiku testa možemo izračunamo ručno koristeći isti postupak koji smo opisali kada smo se 

bavili sa vjerovatnoćom odabira pretplatnika kablovske televizije u uzorak (pogledati raniji 

primjer vezan za normalnu aproksimaciju binomne distribucije u poglavlju Osnovi 

inferencijalne statistike). 

5


Postoje dva načina da izračunamo statistiku testa pomoću State. 

Prvo, možemo se poslužiti ranijom formulom za binomnu distribuciju (za više detalja pogledati 

poglavlje „Osnovi inferencijalne statistike“). Broj žena (x) u uzorku slijedi binomnu distribuciju 

sa n = 196 (veličina uzorka umanjena za tri ispitanika koja nisu navela spol) i p = 0,60 

(vjerovatnoća odabira žene na bazi podataka iz Hrvatskog uzorka). Koristeći se ranijom 

naredbom, možemo dobiti vjerovatnoću da u uzorak uđe 134 ili više žena ako je p = 0,60: 

. display binomialtail(196, 134, 0.60) 

.00951517 

Dakle, vjerovatnoća je P[x ≥ 134] = 0,0095 što je manje od potrebnih p < 0,05, na osnovu čega 

možemo odbaciti nultu hipotezu da je razlika u proporcijama rezultat slučajnih fluktuacija 

svojstvenih uzorkovanju. 

Drugi način je da unutar State iskoristimo naredbu za binomni test. U tom slučaju, varijabla od 

interesa mora biti spremljena u formi 0/1, a test se uvijek odnosi na proporciju za kategoriju sa 

oznakom 1. Provjerimo kako je kodirana varijabla spol unutar skupa sa podacima: 

. codebook spol 

type: numeric (byte) 

label: Spol 

range: [1,2] units: 1 

unique values: 2 missing .: 3/199 

tabulation: Freq. Numeric Label 

62 1 Muški 

134 2 Ženski 

3 . 

Uočavamo da je varijabla spol kodirana tako da se oznaka 1 odnosi na muškarce, dok se 2 

odnosi na žene. Varijablu je dakle potrebno prvo rekodirati na sljedeći način: 

. recode spol (1=0) (2=1) 

(spol: 196 changes made) 

Zatim smo dodijelili nove opise kategorijama unutar varijable spol: 

. label define Spol 0 "Muški" 1 "Ženski", replace 

Sam test smo uradili koristeći naredbu: 

. bitest spol=.60 

gdje je .60 pretpostavljna proporcija u odnosu na koju testiramo opserviranu proporciju za 

kategoriju sa oznakom 1 (žene) unutar varijable spol. 

Rezultat testa je prikazan u tabeli 2. 

6

Tabela 2 – Output binomnog testa za primjer 3.1 

Variable | N Observed k Expected k Assumed p Observed p 

-------------+------------------------------------------------------------ 

spol | 196 134 117.6 0.60000 0.68367 

Pr(k >= 134) 

= 0.009515 (one-sided test) 

Pr(k = 134). Nivo statističke značajnosti za ovaj primjer iznosi p = 0,0095 što je 

manje od uobičajenog kriterija p < 0,05, pa možemo odbaciti nultu hipotezu. Drugim riječima, 

proporcija žena u BiH uzorku se značajno razlikuje od proporcije žena u Hrvatskom uzorku. 


Tokom istraživanja utvrđeno je da je proporcija žena u BiH uzorku (67,3%) veća od one u 

Hrvatskom uzorku (60,0%). Jednosmjerni binomni test je pokazao da je ova razlika statistički 

signifikantna sa p < 0,01. 

4. HI-KVADRAT TEST PROPORCIJE 

Hi-kvadrat test (χ 2 ) proporcije (engl. Chi-square test) se koristi kada želimo testirati razlike 

između proporcija kategorija u uzorku i pretpostavljenih ili prethodno poznatih proporcija 

drugog uzorka ili populacije. Za razliku od binomnog testa kojeg možemo korisiti samo sa 

dihotomnim varijablama (dvije kategorije), χ 2 test možemo koristiti i kada raspolažemo sa 

nominalnim varijablama (dvije ili više više kategorija). Pored uobičajenih pretpostavki 

neparametarskih testova (nezavisnost opservacija i slučajni uzorak), χ 2 test proporcije zahtjeva 

da u svakoj kategoriji nominalne varijable imamo bar 5 opservacija. 

χ 2 test proporcije se često označava i kao test kvaliteta podudaranja (engl. goodnessof-fit 

test), obzirom da se pomoću njega testira podudaranje opserviranih i teoretski pretpostavljenih 

vrijednosti. Drugim riječima, testira se u kojoj mjeri opservirana distribucija prati 

pretpostavljenu distribuciju populacije. Statistika testa sa (k − 1) stepena slobode se izračunava 

prema formuli: 

2 ( Oi 

E ) 

 

E 

i 

2 

i 

gdje se k unutar stepena slobode odnosi na broj kategorija varijable od interesa, O označava 

opservirane frekvencije, a E očekivane frekvencije. 

7

Primjer 4.1 

U istraživanju koje se ticalo posjeta novootvorenom butiku utvrđeno je da prema starosnoj 

strukturi imamo 33 % ispitanika u dobi 18-30 godina, 29% ispitanika u dobi 31-45 godina i 39 

% ispitanika u dobi 46-60 godina, što je predstavljeno na outputu 1. Da li možemo reći da su 

ove tri starosne grupe ravnomjerno zastupljene u uzorku? Podaci su spremljeni unutar varijable 

dob u datoteci butik.dta, a opservirane frekvencije su prikazane u tabeli 3. 

. tab dob 

Tabela 3 – Proporcija ispitanika prema starosnoj dobi 

dob | Freq. Percent Cum. 

------------+----------------------------------- 

18-30 god. | 7 33.33 33.33 

31-45 god. | 6 28.57 61.90 

46-60 god. | 8 38.10 100.00 

------------+----------------------------------- 

Total | 21 100.00 

Ako pogledamo opservirane vrijednosti jasno je da one međusobno nisu identične. Međutim, 

kao i uvijek kada je riječ o uzorcima, ono što nas interesuje jeste da li su te opservirane razlike 

posljedica varijacije svojstvene uzorkovanju ili predstavljaju stvarni efekat. Dakle testiramo 

hipotezu: 

H0: π1 = π2 = π3 

H1: π1 ≠ π2 ≠ π3 


Iz ranijeg outputa možemo videti da su opservirane frekvencije (O): 7, 6 i 8. Ukoliko je nulta 

hipoteza tačna i ako su ispitanici u populaciji zaista ravnomjerno distribuirani onda će 

očekivane frekvencije (E) biti: 7, 7 i 7. 

Obzirom da je pretpostavka da u svakoj kategoriji imamo bar 5 opservacija ispunjena (što se 

vidi unutar kolone Freq.), statistiku testa ćemo izrčaunati kao: 

2 2 2 2 

2 ( O E ) (7 7) (6 7) (8 7) 

0,29 

E 7 7 7 

Ako bi provjerili u statističkim tablicama vidjeli bi da je statistika testa χ 2 = 0,29 za dati broj 

stepena slobode (3 − 1 = 2) nesignifikantna uz p > 0,05 na osnovu čega zaključujemo da ne 

možemo odbaciti nultu hipotezu. 


Da bi uz pomoć State izračunali χ 2 test proporcije, prvo moramo pronaći i instalirati paket csgof: 

. findit csgof 

8

Zatim ćemo za provođenje testa ukucati sljedeću naredbu: 

. csgof dob 

Rezultati su predstavljeni u tabeli 4. 

Tabela 4 – Rezultat hi-kvadrat testa proporcije za primjer 4.1 

+-------------------------------------------+ 

| dob expperc expfreq obsfreq | 

|-------------------------------------------| 

| 18-30 god. 33.33333 7 7 | 

| 31-45 god. 33.33333 7 6 | 

| 46-60 god. 33.33333 7 8 | 

+-------------------------------------------+ 

chisq(2) is .29, p = .8669 

Vidimo da smo dobili identičan rezultat kao i kada smo test računali putem formule χ 2 (2) = 0,29 

i da je statistika testa nesignifikantna uz p = 0,867 na osnovu čega zaključujemo da ne možemo 

odbaciti nultu hipotezu. 

Primjer 4.2 

Ako u ukupnoj populaciji (18-60 godina) ima otprilike 4 miliona ljudi, od čega 1,04 miliona 

otpada na osobe u dobi 18-30 godina (26%), 1,4 miliona na osobe u dobi od 31-45 godina (35%) 

i 1,56 miliona na osobe u dobi 46-60 godina (39%), da li možemo tvrditi da je naš uzorak 

reprezentativan u pogledu starosne strukture? 

Da bi dali odgovor na ovo pitanje, koristićemo opciju expperc pomoću koje ćemo specificirati 

očekivane proporcije: 

. csgof dob, expperc(26 35 39) 

Output sa rezultatima ovog testa se nalazi u tabeli 5. 

Tabela 5 – Rezultat hi-kvadrat testa proporcije za primjer 4.2 

+------------------------------------------+ 

| dob expperc expfreq obsfreq | 

|------------------------------------------| 

| 18-30 god. 26 5.46 7 | 

| 31-45 god. 35 7.35 6 | 

| 46-60 god. 39 8.19 8 | 

+------------------------------------------+ 

chisq(2) is .69, p = .7094 

Dobijeni output pokazuje očekivanu proporciju (expperc), očekivanu frekvenciju (expfreq) i 

opserviranu frekvenciju (obsfreq). Ispod tabele je prikazana statistika testa koja je 

nesignifikantna jer je p > 0,05. 

9


Analiza je pokazala da između opserviranih proporcija starosnih grupa unutar uzorka i 

očekivanih proporcija starosnih grupa u populaciji nema statistički značajne razlike χ 2 (2) = 

0,69, p = 0,71. Na osnovu toga zaključujemo da se proporcije unutar uzorka ne razlikuju 

statistički značajno od očekivanih proporcija u populaciji i da je stoga naš uzorak 

reprezentativan u pogledu starosne strukture. 

5. NEPARAMETARSKI TESTOVI ZA DVIJE GRUPE 

5.1. HI-KVADRAT TEST NEZAVISNOSTI 

Hi-kvadrat (χ 2 ) test nezavisnosti (engl. Chi-square test of independence) se koristi u 

slučajevima kada želimo utvrditi da li su dvije kategorijalne varijable međusobno povezane. 

Iako se prvenstveno koristi za nominalne, moguće ga je primijeniti i za ordinalne varijable. 

Bazira se na analizi opserviranih i očekivanih frekvencija unutar tabele kontigencije koja se 

dobije kada se kategorije jedne varijable ukrste sa kategorijama druge varijable. Konvencija je 

da unutar tabele kontigencije redovi predstavljaju kategorije nezavisne varijable, dok se u 

kolonama nalaze kategorije zavisne varijable. 

Statistika testa uz (R − 1) × (C − 1) stepena slobode se izračunava po formuli: 

 

2 

( Oi 

E 

2 ij 

) 

 

i 

E 

ij 

gdje se Oij odnosi na broj opservacija koje se unutar tabele kontigencije nalaze u ij ćeliji, Eij se 

odnosi na očekivani broj opservacija koje bi se trebale nalaziti u ij ćeliji ukoliko je nulta 

hipoteza tačna i računa se kao: 

Ri 

C 

j 

Eij 

 

N 

gdje je R = zbir za i-ti red, C = zbir za j-tu kolonu kolona i N = ukupni zbir. 

Konačan rezultat χ 2 testa obuhvata i dodatnu ,,korekciju neprekidnosti prema Yatesu" (engl. 

Yates' Correction for Continuity), koja se sastoji u tome da se za 0,5 smanji svaka opažena 

frekvencija koja je veća od očekivane, a za 0,5 poveća svaka opažena frekvencija koja je manja 

od očekivane. Drugim riječima, između očekivane i opažene frekvencije razlika se smanjuje 

za 0,5. 

Pored uobičajenih pretpostavki neparametarskih testova (nezavisnost opservacija i slučajni 

uzorak), ovaj test zahtjeva da u svakoj ćeliji tabele kontigencije imamo bar 5 opservacija. 

Primjer 5.1 

Ispitanicima je postavljeno pitanje da li će posjetiti novootvoreni butik dizajnerske odjeće 

(posjeta). Pored toga zabilježen je i pol ispitanika (spol). Da li pol ispitanika ima uticaj na 

odluku o posjeti butiku? Podaci su spremljeni u datoteku butik2.dta. 

10

Obzirom da je u ovom slučaju sasvim jasno da varijabla spol igra ulogu nezavisne varijable, 

tabela kontigencije će imati sljedeću strukturu: 

. tab spol posjeta 

Tabela 6 – Tabela kontigencije sa opserviranim frekvencijama za primjer 5.1 

| posjeta 

spol | posjetiće neće posj | Total 

-----------+----------------------+---------- 

muško | 9 13 | 22 

žensko | 15 5 | 20 

-----------+----------------------+---------- 

Total | 24 18 | 42 

Testiramo sljedeću hipotezu: 

H0: Između spola ispitanika i namjeravane posjete ne postoji povezanost 

H1: Između spola ispitanika i namjeravane posjete postoji povezanost 


Iz ranijeg outputa možemo videti da su opservirane frekvencije (O): 9, 13, 15 i 5. Prvo ćemo 

izračunati očekivane frekvencije (Eij): 

E 

E 

E 

E 

11 

12 

21 

22 

R1 C 

1 

22 24 

12,57 

N 42 

R1 C 

2 

22 18 

9,43 

N 42 

R2 C 

1 

20 24 

11,43 

N 42 

R2 C 

2 

20 18 

8,57 

N 42 

Izračunato možemo provjeriti tako da uz pomoć opcije expected zatražimo da Stata izlista 

podatak o očekivanim frekvencijama: 

. tab spol posjeta, expected 

11

Tabela 7 – Tabela kontigencije sa očekivanim frekvencijama za primjer 5.1 

+--------------------+ 

| Key | 

|--------------------| 

| frequency | 

| expected frequency | 

+--------------------+ 

| posjeta 


-----------+----------------------+---------- 

muško | 9 13 | 22 

| 12.6 9.4 | 22.0 

-----------+----------------------+---------- 

žensko | 15 5 | 20 

| 11.4 8.6 | 20.0 

-----------+----------------------+---------- 

Total | 24 18 | 42 

| 24.0 18.0 | 42.0 

Na osnovu dobijenog output-a možemo potvrditi da su očekivane frekvencije koje smo 

izračunali ručno istovjetne onima koje je izračunala Stata. 

Nakon što imamo očekivane frekvencije, uz pomoć prethodno navede formule možemo ručno 

izračunati statistiku testa sa jednim stepenom slobode: 

2 ( O E ) (9 12,57) (13 9,43) (15 11,43) (5 8,57) 

 

E 12,57 9,43 11,43 8,57 

2 2 2 2 2 

i i 

 

i 

i 

4,97 


Statistiku testa možemo izračunati i pomoću State korištenjem naredbe: 

. tab spol posjeta, column nofreq chi2 

Output sa rezultatima prikazan je u tabeli 8. 

Tabela 8 – Rezultat nezavisnog hi-kvadrat testa za primjer 5.1 

| posjeta 


-----------+----------------------+---------- 

muško | 37.50 72.22 | 52.38 

žensko | 62.50 27.78 | 47.62 

-----------+----------------------+---------- 

Total | 100.00 100.00 | 100.00 

Pearson chi2(1) = 4.9716 Pr = 0.026 

Iza naredbe tab smo naveli prvo nezavisnu varijablu (spol) zatim zavisnu varijablu (posjeta). 

Pored toga koristili smo opcije column (da bi dobili proporcije po kolonama), nofreq (da bi 

izbjegli prikazivanje opserviranih frekvencija) i chi2 (kako bi tražili da Stata izračuna statistiku 

testa). Iz dobijenog outputa vidimo da je 37,5% muškaraca, odnosno 62,5% žena reklo da 

12

namjerava posjetiti novi butik. Rezultati testa pokazuju da je ova razlika statistički signifikantna 

(p < 0,05). 


Dobijeni rezultati sugerišu da žene u većem postotku (62,5%) izražavaju namjeru da posjete 

novi butik dizajnerske odjeće u odnosu na muškarce (37,5%). Rezultati testa potvrđuju da je 

uočena povezanost između pola i namjere statistički signifikantna, χ 2 (1) = 4,97, p = 0,026. 

5.2. MANN-WHITNEY U TEST 

Mann-Whitney U test (takođe poznat i kao Wilcoxon test sume rangova) služi za testiranje 

razilika između dvije nezavisne grupe i primjenjuje se u situaciji kada je zavisna varijabla 

mjerena na ordinalnom nivou. Može se koristiti i kao neparametarska alternativa nezavisnom 

t-testu kako bi se testirala razlika između prosjeka dvije grupe u situaciji kada nisu ispunjene 

pretpostavke za primjenu parametarskog testa. U tom slučaju vrijednosti metrijske zavisne 

varijable se pretvaraju u rangove. Nakon što se orginalni podaci pretvore u rangove oblik 

distribucije zavisne varijable više nije bitan. Analiza se zatim nastavlja na samim rangovima, a 

ne na orginalnim podacima. 

U literaturi se često navodi da se test može koristiti i za poređenje medijane dvaju grupa. 

Međutim, u tom slučaju distribucije u obje grupe moraju imati isti oblik. Za provjeru oblika 

distribucije možemo koristiti histogram frekvencija. Ako se potvrdi da distribucija vrijednosti 

zavisne varijable ima isti oblik u obje grupe test možemo iskoristiti da kompariramo medijane 

i testiramo hipotezu H0: MdnA = MdnB. U protivnom, test možemo korsititi samo za poređenje 

sredine rangova (engl. mean ranks). 

Mann-Whitney U test zahtijeva ispunjenost uobičajenih pretpostavki koje se odnose na 

neparametarske testove, obrazloženih na početku poglavlja. 

Primjer 5.2 

Pretpostavimo da je putem specijalno dizajniranog upitnika mjerena popularnost dvije marke 

satova (sat). Ukupno deset ispitanika (id) je učestvovalo u istraživanju i njihove zbirne ocjene 

su predstavljene u tabeli 8 (varijabla ocjena). Podaci su spremljeni u datoteku satovi.dta. Da li 

postoji razlika u popularnosti između satova marke A i B? 

Tabela 8 – Ocjene ispitanika za dvije marke satova 

Marka A (n1 = 5 opservacija) 

Marka B (n2 = 5 opservacija) 

Ispitanik (id) Ocjena Rang Ispitanik (id) Ocjena Rang 

1 32 3,5 6 56 7 

2 44 5 7 47 6 

3 32 3,5 8 75 8 

4 18 1 9 88 9 

5 99 10 10 25 2 

Zbir R1= 23 Zbir R2 = 32 

13

Hipoteza koju testiramo je: 

H0: Nema razlike u popularnosti između satova marke A i B (rangovi u jednoj grupi neće 

biti sistematski viši ili manji nego u drugoj grupi). 

H1: Postoji razlika u popularnosti između satova marke A i B (rangovi u jednoj grupi će 

biti sistematski viši ili niži nego u drugoj grupi). 

5.2.1. Izračunavanje statistike testa pomoću formule kada je n < 20 

Prvi korak koji trebamo uraditi je da dobijene ocjene posmatramo zajedno i poredamo od 

najmanje ka najvećoj bez obzira da li pripadaju grupi A ili B. 

U datoj situaciji ocjeni sa najnižom vrijednošću (18) je dodijeljen rang 1, dok je ocjeni sa 

najvećom vrijednošću (99) dodijeljen rang 5. Po istom principu su dodijeljeni ostali rangovi 

unutar tog raspona. Kada imamo dva ili više istovjetnih rangova za njih kažemo da su povezani 

(engl. tied rank). Na primjer, u tabeli 8 imamo dvije iste ocjene (32) i njima su pridruženi 

povezani rangovi koji su prosjek treće i četvrte pozicije (3 + 4)/2 = 3,5. 

Predstavljanjem orginalnih podatka putem rangova zaobilazi se problem upotrebe podataka koji 

narušavaju parametarske pretpostavke. Na primjer, u gornjem primjeru vidimo da je jedna 

posljedica rangiranja to što se izbjegava uticaj ekstremnih vrijednosti. Čak i da je smo umjesto 

vrijednosti 99 imali orginalnu vrijednost koja je znatno iznad tog broja, njen rang se ne bi 

promijenio. 

U drugom koraku, dobijene rangove treba sabrati kako bi se dobio njihov zbir. Ako grupe imaju 

jednake distribucije i njihove sume rangova bi trebale biti slične. U našem primjeru, jedna grupa 

ima nižu sumu rangova pa postoji razlog za sumnju da su distribucije različite. 

Konačno, sama statistika testa se izračunava po formuli: 

n1( n1 

1) 5 (5 1) 

U 

1 

n1n2 R1 

5 5 23 12 

2 2 

n2( n2 

1) 5 (5 1) 

U 

2 

n1n2 R2 

5 5 32 3 

2 2 

gdje je n1 i n2 = broj opservacija u grupi 1 i 2, R1 i R2 = zbir rangova u grupi 1 i 2 

Za testiranje hipoteze uzimamo manje U, koje je u ovom slučaju U = 3. Ako bi u statističkim 

tablicama za U distribuciju potražili vrijednost za n1 = n2 = 5 vidjeli bi da za dvosmjerni test i 

α = 0,05 kritična U vrijednost iznosi 2. Obzirom da je naše izračunato U = 3 i da je veće od 

kritične vrijednosti, zaključak bi bio da ne možemo odbaciti nultu hipotezu. 

5.2.2. Izračunavanje statistike testa pomoću formule kada je n > 20 

Ovdje je potrebno napomenuti da u statističkim tablicama za U distribuciju uobičajeno postoje 

kritične vrijednosti za situacije u kojima veličina grupa nije veća od n > 20. Šta uraditi ako 

statistiku testa računamo ručno, a u jednoj ili obje grupe imamo n > 20 opservacija? U tom 

14

slučaju sampling distribucija za U se približava normalnoj distribuciji sa aritmetičkom 

sredinom i standardnom devijacijom: 

 

 

U 

U 

n1n2 

 

2 

 

( n1)( n2)( n1 n2 

1) 

12 

Statistiku testa zatim možemo izračunati prema formuli: 

U 

z 

 

U 

U 


Statistika testa unutar State se računa uz pomoć naredbe: 

rankusm zavisna_varijabla, by(nezavisna_varijabla) 

U našem primjeru će biti: 

. ranksum ocjena, by(sat) 

Output sa rezultatom je prikazan u tabeli 9. 

Tabela 9 – Rezultat Mann-Whitney U testa za primjer 5.2 

Two-sample Wilcoxon rank-sum (Mann-Whitney) test 

sat | obs rank sum expected 

-------------+--------------------------------- 

A | 5 23 27.5 

B | 5 32 27.5 

-------------+--------------------------------- 

combined | 10 55 55 

unadjusted variance 22.92 

adjustment for ties -0.14 

---------- 

adjusted variance 22.78 

Ho: ocjena(sat==A) = ocjena(sat==B) 

z = -0.943 

Prob > |z| = 0.3457 

Output sadrži rezultate testa iz kojih vidimo da je p = 0,346. Samim tim nemamo dovoljno 

dokaza da odbacimo nultu hipotezu i ustvrdimo da između ocjena popularnosti za satove marke 

A i B postoji statistički signifikantna razlika. 

15


Mann-Whitney test pokazuje da između ocjena popularnosti satova marke A i marke B ne 

postoji statistički signifikantna razlika, z = −0,94, p = 0,35. 


Zadatak 5.1 

Ispitanicima je pružena mogućnost da iz istog cjenovnog razreda isprobaju 3 različite marke 

tableta (A, B i C) i rangiraju ih prema svojim preferencijama. Tablet kojeg najviše preferiaju 

označen je sa 1, a onaj kojeg najmanje preferiraju sa 5. Varijabla rangA1 sadrži rang (1 do 5) 

koji je svaki ispitanik dodijelio tabletu marke A. Pored toga zabilježen je pol ispitanika (spol). 

Podaci su spremljeni u datoteku tableti.dta. Da li postoji razlika između muškaraca i žena u 

pogledu rangiranja tableta marke A? 

5.3. MCNEMAR TEST 

McNemmar test se koristi za poređenje proporcija između dvije međusobno povezane 

dihotomne varijable. Bazira se na analizi proporcija unutar tabele kontigencije koja sadrži 

dihotomnu varijablu mjerenu u dva vremenska presjeka. 

Primjer 5.3 

Na sajmu automobila organizovan je eksperiment. Slučajno je odabrano 30 posjetilaca sajma 

koji su obilazili izložbene štandove i koji ranije nisu probali automobil marke A. Svakom od 

odabranih ispitanika prvo je postavljeno pitanje da li bi kupio automobil marke A, bez da ga 

proba? Dakle, samo na bazi izgleda (dizajn, tehničke specifikacije i sl.). Odogovor ispitanika je 

zabilježen (varijabla prije). Zatim je svakom ispitaniku ponuđena testna vožnja automobilom 

A, nakon čega mu je postavljeno pitanje da li je nakon probe promjenio mišljenje i da li bi kupio 

automobil marke A. Ponovo je zabilježen odogovor ispitanika (varijabla poslije). Podaci su 

spremljeni u datoteku automobil.dta. Koliko ispitanika je nakon probe promijenilo mišljenje? 

Da li je rezultat testne vožnje statistički signifikantan? 

Prvo ćemo napraviti krostabelaciju odgovora prije i nakon probne vožnje. 

. tab prije poslije 

Tabela 10 – Krostabelacija namjere o kupovini prije i poslije probne vožnje 

| poslije 

prije | ne bih ku kupio bih | Total 

-------------+----------------------+---------- 

ne bih kupio | 13 8 | 21 

kupio bih | 3 6 | 9 

-------------+----------------------+---------- 

Total | 16 14 | 30 

16

Prije probe 21 ispitanik je rekao da ne bi kupio dati automobil. Međutim, vidimo da je nakon 

probe taj broj pao na 16 ispitanika što znači da je 5 ispitanika promijenilo mišljenje. Da li je 

ova razlika statistički signifikantna? 

Testiramo sljedeću hipotezu: 

H0: Nema razlike u kupovnoj namjeri potrošača prije i nakon testne vožnje. 

H1: Postoji razlika u kupovnoj namjeri potrošača prije i nakon testne vožnje. 


Statistika testa sa jednim stepenom slobode se izračunava prema formuli: 

2 2 

2 ( B C 

) (8 3) 25 

2,27 

B C 8 3 11 

gdje se B i C odnosi na broj neusklađenih parova, koji se unutar tabele kontigencije nalaze u 

drugoj i trećoj ćeliji (kada redoslijed ćelija posmatramo s lijeva na desno). 


Da bi statistiku testa izračunali pomoću State korsitimo naredbu: 

. mcci A B C D 

gdje A, B, C i D predstavljaju brojeve u ćelijama tabele kontigencije, kada redoslijed ćelija 

posmatramo s lijeva na desno. 

U našem primjeru naredba će glasiti: 

. mcci 13 8 3 6 


Tabela 11 – Rezultat McNemmar testa za primjer 5.3 

| Controls | 

Cases | Exposed Unexposed | Total 

-----------------+------------------------+------------ 

Exposed | 13 8 | 21 

Unexposed | 3 6 | 9 

-----------------+------------------------+------------ 

Total | 16 14 | 30 

McNemar's chi2(1) = 2.27 Prob > chi2 = 0.1317 

Exact McNemar significance probability = 0.2266 

Vidimo da je statistika testa istovjetna rezultatu kojeg smo dobili kada smo test računali ručno. 

Rezultat nije statistički signifikantan jer je p = 0,13. Pored toga, Stata je izračunala i vrijednost 

tzv. Exact testa koji nema pridruženu statistiku testa već je direktno prikazana samo p- 

vrijednost. Za testiranje hipoteze je preporučeno koristiti navedenu p-vrijednost ako je ukupan 

17

oj neusklađenih parova < 20. U našem slučaju taj broj iznosi 8 + 3 = 11 i manji je od 20 pa 

ćemo u izvještaju napisati da dobijena razlika nije signifikantna uz p = 0,23. 


Na bazi slučajnog uzorka odabrano je 30 ispitanika koji su učestvovali u ekperimentu s ciljem 

da se ispitaju kupovne namjere potrošača prema automobilu marke A. Na osnovu provedenog 

dvosmjernog McNemar testa nije utvrđeno postojanje statistički signifikantne razlike između 

kupovnih namjera prije i nakon testne vožnje, χ 2 (1) = 2.27, p = 0,23. 

5.4. WILCOXONOV TEST RANGIRANIH PREDZN AKA 

Wilcoxonov test rangiranih predznaka (engl. Wilcoxon Signed Ranks Test) se koristi kako bi 

se uporedile vrijednosti zavisne varijable dobijene u dva ponovljena mjerenja na istoj grupi 

ispitanika. Koristi se ako je zavisna varijabla mjerena na ordinalnom nivou ili ako imamo 

zavisnu varijablu metrijskog tipa a nisu ispunjene pretpostavke za primjenu zavisnog t-testa. 

Test ne zahtjeva ispunjenost pretpostavke o nezavisnosti ali ima dodatnu pretpostavku koja 

zahtjeva da distribucija uparenih razlika ima simetričan oblik. Ova pretpostavka je obično 

ispunjena ako distribucije u oba mjerenja imaju sličan oblik. Na primjer, ako imamo dvije jako 

nakrivljene distribucije koje se razlikuju prvenstveno u pogledu lokacije aritmetičke sredine, 

distribucija uparenih razlika će biti simetrično raspoređena oko 0 i pogodna za primjenu ovog 

testa. Također, pretpostavka je najčešće ispunjena u situaciji kada imamo ponovljeno mjerenje 

na istoj grupi ispitanika. U slučaju da ova pretpostavka nije ispunjena bolje je primijeniti manje 

efikasni ali u tom slučaju prikladniji Test predznaka (engl. Sign test). 

Primjer 5.4 


tableta (A, B i C) i rangiraju ih prema svojim preferencijama. Tablet kojeg najviše preferiraju 

označen je sa 1, a onaj kojeg najmanje preferiraju sa 5. Varijabla rangA1 sadrži rang (1 do 5) 

koji je svaki ispitanik dodijelio tabletu marke A. 

Zamislimo da je nakon probe ispitanicima rečeno da na tablet marke A kupac dobija dužu 

garanciju u odnosu na ostala dva modela. Nakon ovoga ispitanici su zamoljeni da ponovo 

rangiraju sva tri tableta. Varijabla [rangA2] sadrži rang (1 do 5) koji je svaki ispitanik dodijelio 

tabletu A u ponovljenom rangiranju. Podaci su spremljeni u datoteku tableti.dta. Da li je 

pružanje dodatne informacije značajno uticalo na preferencije ispitanika? 

Prvo ćemo vidjeti kako su ispitanici rangirali tablet A prije, a kako nakon dobijanja informacije 

o trajanju garancije. 

. tab rangA1 

18

Tabela 12 – Rangiranje tableta marke A prije davanja informacije o dužini garancije 

rangA1 | Freq. Percent Cum. 

-----------------+----------------------------------- 

prvi izbor | 7 14.00 14.00 

drugi izbor | 12 24.00 38.00 

treći izbor | 16 32.00 70.00 

četvrti izbor | 11 22.00 92.00 

posljednji izbor | 4 8.00 100.00 

-----------------+----------------------------------- 

Total | 50 100.00 

. tab rangA2 

Tabela 13 – Rangiranje tableta marke A poslije davanja informacije o dužini garancije 

rangA2 | Freq. Percent Cum. 

-----------------+----------------------------------- 

prvi izbor | 9 18.00 18.00 

drugi izbor | 14 28.00 46.00 

treći izbor | 18 36.00 82.00 

četvrti izbor | 7 14.00 96.00 

posljednji izbor | 2 4.00 100.00 

-----------------+----------------------------------- 

Total | 50 100.00 

Vidimo da je došlo do promjene preferencija ispitanika jer je tablet A prije pružanja informacije 

o garanciji bio u prva tri izbora kod 70% ispitanika, dok je nakon toga tablet A bio u prva tri 

izbora kod 82% ispitanika. Da li je ova promjena statistički signifikantna? 


H0: Nema razlike u prefrencijama prije i nakon pružanja dodatne informacije (rangovi 

razlika između dvije grupe neće imati tendenciju da budu pozitivni ili negativni). 

H1: Postoji razlika u prefrencijama prije i nakon pružanja dodatne informacije (rangovi 

razlika između dvije grupe će sistematski biti pozitivni ili negativni). 


Wilcoxonov test rangiranih predznaka ima sljedeću sintaksu: 

signrank prvo_mjerenje = drugo_mjerenje 

U konkretnom primjeru to znači da je naredba: 

. signrank rangA1 = rangA2 

Output sa rezultatom je dat u tabeli 14. 

19

Tabela 14 – Rezultat Wilcoxonovog testa rangiranih predznaka za primjer 5.4 

Wilcoxon signed-rank test 

sign | obs sum ranks expected 

-------------+--------------------------------- 

positive | 18 691 487.5 

negative | 8 284 487.5 

zero | 24 300 300 

-------------+--------------------------------- 

all | 50 1275 1275 

unadjusted variance 10731.25 

adjustment for ties -222.63 

adjustment for zeros -1225.00 

---------- 

adjusted variance 9283.63 

Ho: rangA1 = rangA2 

z = 2.112 

Prob > |z| = 0.0347 

Output testa je organizovan u dva dijela. U tabeli je dat prikaz pozitivnih rangova (broj 

ispitanika koji su izrazili veće preferencije u drugom mjerenju), negativnih rangova (broj 

ispitanika koji su izrazili manje preferencije u drugom mjerenju) i neutralnih rangova (broj 

ispitanika koji su izrazili iste preferencije u drugom mjerenju). Možemo primijetiti da je 18 

ispitanika izrazilo veće preferencije nakon što su dobili informaciju o garanciji, 8 ih je izrazilo 

manje preferencije, dok se kod 24 ispitanika preferencije nisu promijenile. Tabela daje i podatak 

o opseriviranom zbiru pozitivnih i negativnih rangova (sum ranks), kao i o očekivanom zbiru 

(expected) ako je nulta hipoteza istinita. 

Ispod tabele se nalaze rezultati testiranja hipoteze iz kojih vidimo da je rezultat statistički 

signifikantan sa p = 0,035. 


Wilcoxonov test rangiranih predznaka pokazuje da produženje garancije rezultira statistički 

signifikantnim pozitivnim promjenama u preferencijama potrošača, z = 2,11, p = 0,035. 

6. NEPARAMETARSKI TESTOVI ZA TRI ILI VIŠE GRUPA 

6.1. KRUSKAL-WALLIS TEST 

Kruskal-Wallis test je generalizirana verzija Mann-Whitney testa koja se koristi ako imamo tri 

ili više nezavisnih grupa i kada je zavisna varijabla mjerena na ordinalnoj skali. Može se 

koristiti i kao neparametarska alternativa za jednofaktorsku analizu varijanse (ANOVA). 

Ako je ispunjena pretpostavka da distribucije u svim grupama imaju približno isti oblik, test se 

može iskoristiti za poređenje medijane unutar tri ili više grupa i testiranje hipoteze da je H0: 

MdnA = MdnB = ... = MdnN. U protivnom, test možemo koristiti samo za poređenje sredine 

rangova (engl. mean ranks) između grupa. 

20

Primjer 6.1 


tableta (A, B i C) i rangiraju ih prema svojim preferencijama. Tablet kojeg najviše preferiraju 

označen je sa 1, a onaj kojeg najmanje preferiraju sa 5. Podaci su spremljeni u datoteku 

tableti.dta. Varijabla rangA1 sadrži rang (1 do 5) koji je svaki ispitanik dodijelio tabletu marke 

A. Da li postoji razlika između tri dobne skupine (dob) u pogledu rangiranja tableta A? 


H0: Nema razlike u preferencijama između tri dobne skupine (rangovi u jednoj grupi neće 

biti sistematski viši ili manji nego u drugim grupama). 

H1: Postoji razlika u u preferencijama između tri dobne skupine (rangovi će u bar jednoj 

grupi biti sistematski viši ili manji nego u drugim grupama). 


Statistika testa se izračunava pomoću naredbe: 

. dunntest zavisna_varijabla, by(nezavisna_varijabla) 

U našem primjeru će biti: 

. dunntest rangA1, by(dob) 


Tabela 15 – Rezultat Kruskal-Wallis testa za primjer 6.1 

Kruskal-Wallis equality-of-populations rank test 

+-----------------------------------+ 

| dob | Obs | Rank Sum | 

|------------------+-----+----------| 

| do 25 godina | 18 | 348.00 | 

| 26-50 godina | 19 | 480.50 | 

| 50 godina i više | 13 | 446.50 | 

+-----------------------------------+ 

chi-squared = 8.012 with 2 d.f. 

probability = 0.0182 

chi-squared with ties = 

probability = 0.0141 

8.525 with 2 d.f. 

Output prikazuje zbir rangova unutar svake dobne skupine. Ispod tabele su data dva različita 

rezultata. Prvi rezultat se interpretira ukoliko unutar zavisne varijable nemamo povezane 

rangove (engl. tied ranks). 14 Obzirom da u našim podacima imamo više situacija gdje se javljaju 

14 

Sa ovim terminom smo se susreli kada smo računali Mann-Whitney test. Podsjetimo se da su rangovi povezani 

ukoliko dvije ili više opservacija unutar zavisne varijable imaju identične rangove. Npr. ako su dva ispitanika rekla 

da im je tablet marke A prvi izbor kažemo da unutar zavisne varijable imamo povezane rangove. 

21

povezani rangovi, čitamo drugi red sa rezultatima iz kojeg vidimo da je test signifikantan sa p 

= 0,014. 

6.1.2. Dunnov post-hoc test 

Kruskal-Wallis test je omnibus test koji govori da li postoje statistički značajne razlike ali ne 

govori između kojih konkretno grupa se te razlike javljaju. Da bi smo to utvrdili možemo 

iskoristiti Dunnov post-hoc test kojeg je prvo potrebno pronaći i instalirati sa naredbom: 

. findit dunntest 

Zatim ćemo ukucati: 

. dunntest rangA1, by(dob) 


Tabela 16 – Rezultat Kruskal-Wallis za primjer 6.1 

Dunn's Pairwise Comparison of rangA1 by dob 

(No adjustment) 

Col Mean-| 

Row Mean | do 25 go 26-50 go 

---------+---------------------- 

26-50 go | -1.281331 

| 0.1000 

| 

50 godin | -2.918594 -1.780438 

| 0.0018 0.0375 

Na osnovu testa možemo zaključiti da statistički značajna razlika postoji između najstarije 

dobne skupine (50 godina i više) u odnosu na ostale dvije starosne skupine. Razlika između 

prve (do 25 godina) i druge skupine (26-50 godina) nije statistički signifikantna jer je p = 0,10. 


Za 50 slučajno odabranih ispitanika prikupljeni su podaci o preferencijama prema tabletu marke 

A. Kruskal-Wallis test je potvrdio da između tri dobne skupine (n = 18, 19 i 13) postoje 

statistički značajne razlike u preferencijama prema tabletu marke A, χ 2 (2) = 8,53, p = 0,014. 

Dunnetov post hoc test pokazuje da su preferencije unutar skupine starosti do 25 godina 

statistički signifikantno manje u odnosu na grupe 26-50 godina (D = −1,28, p = 0,10) i 50+ 

godina (D = −2,92, p = 0,002). Istovremeno, preferencije unutar srednje grupe starosti 26-50 

godina su statistički signifikantno manje od preferencija unutar najstarije 50+ grupe (D = −1,78, 

p = 0,038). 

6.2. COCHRANOV Q TEST 

Cochranov Q test se koristi za poređenje proporcija dihotomne varijable unutar tri ili više 

povezanih mjerenja. Sama mjerenja obavljaju se: a) sukcesivno na istim subjektima ali u 

različitim uslovima ili b) u situaciji kada je svaki ispitanik iz jedne grupe uparen sa drugim 

22

ispitanicima sličnih karakteristika u ostalim grupama, što je slučaj kod tzv. matched pairs 

design-a. 

Može se posmatrati kao alternativa za RM ANOVA test u situaciji kada je zavisna varijabla 

dihotomnog tipa i kao svojevrsna ekstenzija McNemar testa za testiranje zavisnih uzoraka. 

Pored uobičajene pretpostavke koja se tiče slučajnog odabira ispitanika, sam uzorak bi trebao 

biti odgovarajuće veličine. Uobičajeno pravilo je da bi proizvod broja ispitanika (n) 

pomnoženog sa brojem ponovljenih mjerenja (k) trebao biti veći ili jednak od 24 kako bi mogli 

tvrditi da imamo dovoljno velik uzorak. 

Primjer 6.2 

Kako bi ispitao adekvatnost ogašavačkih plakata, istraživač marketinga je proveo eksperiment. 

Slučajnim odabirom izdvojeno je 30 ispitanika. Svakom ispitaniku pokazana su tri različita 

oglašavačka plakata (poster 1-3) koje su ispitanici ocjenjivali kao dobre (=0) ili kao loše (=1). 

Podaci su premljeni unutar datoteke poster.dta 15 . Da li postoji statistički značajna razlika 

između broja ispitanika koji su svaki od ova tri oglašavačka plakata ocjenili kao loš (=1)? 

Testiramo hipotezu: 

H0: Proporcija loših ocjena je jednaka u svim grupama. 

H1: Proporcija loših ocjena se razlikuje između grupa. 


Prvo ćemo provjeriti adekvatnost veličine uzorka i da li je n x k ≥ 24. Obzirom da imamo 30 × 

3 = 90 ≥ 24 zaključujemo da je uzorak adekvatne veličine. 

Da bi unutar State proveli analizu potrebno je instalirati paket cochran: 

. ssc install cochran 

Sama naredba za izračunavanje statistike testa glasi: 

. cochran poster1-poster3, detail 


Tabela 17 – Rezultat Cochran Q testa za primjer 6.2 

Test for equality of proportions of nonzero 

outcomes in matched samples (Cochran's Q): 

Variable | Proportion Count 

-------------+---------------------- 

poster1 | .6666667 20 

poster2 | .3666667 11 

poster3 | .6333333 19 

------------------------------------ 

15 

Iz knjige Marketing Research with SPSS 

23

Number of obs = 30 

Cochran's chi2(2) = 6.636364 

Prob > chi2 = 0.0362 

Prvi dio outputa osnosi se na broj loših ocjena (=1) unutar svakog ponovljenog mjerenja. 

Vidimo da najviše loših ocjena ima prvi plakat (count = 20), zatim treći plakat (count = 19), 

dok najmanje loših ocjena ima drugi plakat (count = 11). 

Drugi dio otuputa prikazuje da je p = 0,036 na osnovu čega zaključujemo da postoji statistički 

značajna razlika u proporciji loših ocjena koje su dobila tri različita oglašivačka plakata. 

6.2.2. Post-hoc testovi 

Cochranov Q je omnibus test koji govori da li generalno postoje statistički značajne razlike ali 

ne i između kojih konkretno grupa se te razlike javljaju. Nažalost, Stata ne nudi post-hoc testove 

na bazi kojih bi se to utvrdilo. Na bazi prethodnog outputa možemo pretpostaviti da je drugi 

plakat (poster2) različit u odnosu na druga dva postera jer je dobio znatno manje negativnih 

ocjena u odnosu na ostala dva plakata. 


Trideset slučajno odabranih ispitanika učestvovalo je u ocjenjivanju oglašavačkih plakata. 

Rezultati Cochranovog Q testa su potvrdili da postoji statistički značajna razlika između 

proporcija pozitivnih ocjena koje su dobila tri različita plakata, Cochranov χ 2 (2) = 6,63, p = 

0,036. 

6.3. FRIEDMAN TEST 

Friedmanov test je neparametarski ekvivalent ANOVA testa sa ponovljenim mjerenjima i 

koristi se za ispitivanje postojanja razlika između rangova dobijenih u tri ili više ponovljenih 

mjerenja. Mjerenja se obavljaju na istim subjektima ali u različitim uslovima. Dobijeni rezultati 

mjerenja se rangiraju, a izračunavanje statistike testa se temelji na tako dobijenim rangovima. 

Friedman test je omnibus test jer indicira da li postoji opšta razlika između grupa, ali ne i između 

kojih konkretno grupa se ta razlika javlja. 

Primjer 6.3 

Marketing analitičar želi uporediti relativnu efektivnost oglašavanja putem direktne pošte 

(dposta), časopisa (casopis) i novina (novine). Slučajno je odabrano 12 naseljenih mjesta koja 

su tokom godine kroz tri kampanje bila izložene navedenim vrstama oglašavanja. Zabilježen je 

procenat naruđbi tokom svake od tri kampanje oglašavanja. Podaci su spremljeni u datoteku 

oglas.dta i prikazani u okviru tabele 18. Da li postoji statistički značajna razlika između ova tri 

tipa oglašavanja? 

. list, noobs separator (12) 

24

Tabela 18 – Procent realizovanih naruđbi tokom trajanja tri različite oglašavačke kampanje 

+--------------------------------+ 

| id dposta casopis novine | 

|--------------------------------| 

| 1 7.2 10.1 15.7 | 

| 2 9.4 8.2 18.3 | 

| 3 4.3 5.1 11.2 | 

| 4 11.3 6.5 19 | 

| 5 3.3 8.7 9.2 | 

| 6 4.2 6 10.5 | 

| 7 5.9 12.3 8.7 | 

| 8 6.2 11.1 14.3 | 

| 9 4.3 6 3.1 | 

| 10 10 12.1 18.8 | 

| 11 2.2 6.3 5.7 | 

| 12 6.3 4.3 20.2 | 

+--------------------------------+ 

Deskriptivna statistika prikazana je u okviru tabele 19: 

. tabstat dposta casopis novine, s(p50, mean, sd) 

Tabela 19 – Prosječan procent realizovanih naruđbi tokom tri oglašavačke kampanje 

stats | dposta casopis novine 

---------+------------------------------ 

p50 | 6.05 7.35 12.75 

mean | 6.216667 8.058333 12.89167 

sd | 2.819037 2.780601 5.657892 

---------------------------------------- 

Iako je zavisna varijabla metrijskog tipa, nedovoljno veliki uzorak (n = 12) i standardna 

devijacija koja je znatno veća u slučaju novina, upućuju na to da trebamo korisititi Friedmanov 

test a ne RM ANOVU. Testiramo hipotezu: 

H0: Nema razlike u reakcijama potrošača na tri različite vrste oglašavanja (rangovi u jednoj 

kampanji neće biti sistematski viši ili manji nego u drugim kampanjama). 

H1: Postoji razlika u reakcijama potrošača na tri različite vrste oglašavanja (rangovi će u 

bar jednoj kampanji biti sistematski viši ili manji nego u drugim kampanjama). 


Friedmanov test ne dolazi u osnovnoj verziji State pa ga je potrebno naći sa naredbom findit 

friedman (nakon što se pojave rezultati pretrage klinuti na paket snb2 i zatim na opciju install). 

Nakon toga je potrebno pripremiti podatke za analizu. 

Prvo, u slučaju da imamo opservacije sa nedostajućim vrijednostima, potrebno ih je izbaciti 

prije same analize. U protivnom će Stata izbaciti poruku o grešci. To možemo uraditi tako što 

ćemo ukucati: 

. drop if dposta ==. |casopis ==. | novine ==. 


25

U našem slučaju nismo imali nedostajuće podatke pa je Stata javila da nije obrisana ni jedna 

opservacija. 

Drugo, prije provedbe samog testa u Stati je potrebno podatke prebaciti u tzv. transponovani 

oblik. Transponovanje ćemo uraditi upotrebom komande xpose. Međutim, prije toga je u 

memoriji potrebno zadržati samo varijable koje sadrže rezultate mjerenja (u ovom primjeru: 

dposta, casopis i novine) i izbaciti sve ostale varijable (u ovom primjeru je to samo varijabla: 

id). Dakle, kucamo: 

. drop id 

. xpose, clear 

. list 

Tabela 20 – Transponovani podaci 

+--------------------------------------------------------------------------------+ 

| v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 | 

|--------------------------------------------------------------------------------| 

1. | 7.2 9.4 4.3 11.3 3.3 4.2 5.9 6.2 4.3 10 2.2 6.3 | 

2. | 10.1 8.2 5.1 6.5 8.7 6 12.3 11.1 6 12.1 6.3 4.3 | 

3. | 15.7 18.3 11.2 19 9.2 10.5 8.7 14.3 3.1 18.8 5.7 20.2 | 

+--------------------------------------------------------------------------------+ 

Nakon što smo izvršili naredbu xpose primjetimo da je Stata podatke pretvorila u transponovani 

oblik i da imamo onoliko varijabli (v1-v12) koliko smo imali ispitanika. Nakon toga sam test 

ćemo provesti sa naredbom: 

. friedman v1-v12 

Friedman = 10.6667 

Kendall = 0.4444 

P-value = 0.0048 

Friedmanova hi-kvadrat statistika testa ima vrijednost 10,67 i statistički je signifikantna uz p < 

0,01. Na osnovu toga možemo odbaciti nultu hipotezu da je srednja vrijednost rangova u tri 

oglašavačke kampanje bila jednaka. Kendallov koeficijent pokazuje koliko su ocjene date od 

strane različitih ispitanika međusobno saglasne. Vrijednost ovog koeficijenta se kreće u rasponu 

od 0 (nema saglasnosti) do 1 (potpuna saglasnost). 

6.3.2. Post-hoc testovi 

Friedmanov test je omnibus test koji govori da li generalno postoje statistički značajne razlike 

u ponovljenim ili uparenim mjerenjima ali ne i između kojih mjerenja se te razlike javljaju. 

Nažalost, Stata ne nudi post-hoc testove na bazi kojih bi se to utvrdilo. Na bazi tabele 19 

možemo pretpostaviti da je oglašavačka kampanja koja se provela putem novina dala bolje 

rezultate jer je tu prosječan procent naruđbi prilično veći u odnosu na rezultate ostvarene tokom 

trajanja druge dvije kampanje. 


Rezultati Freidmanovog testa provedenog na uzorku od 12 slučajno odabranih naseljenih mjesta 

pokazuju da postoji statistički signifikantna razlika između zabilježenih reakcija ispitanika u 

zavisnosti od vrste korištenog oglašavanja, χ 2 (2) = 44,26, p < 0,001. 

26

Marketing analitika: Regresiona analiza 1 


15. 04. 2015. (ver. 1.11) 



autora.

Sadrºaj 

1 Regresiona analiza 2 

1.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 

1.2 Osnovni statisti£ki koncepti prostog regresionog modela . . . 2 

1.2.1 Procjena regresionih parametara . . . . . . . . . . . . 7 

1.2.2 Testiranje signikantnosti regresionih koecijenata . . 13 

1.3 Kori²tenje regresionog modela za predvižanje vrijednosti zavisne 

varijable . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

1.4 Intervali procjene unutar regresionog modela . . . . . . . . . . 16 

1.5 Reprezentativnost regresionog modela . . . . . . . . . . . . . 17 

1.6 Vi²estruki regresioni model . . . . . . . . . . . . . . . . . . . 20 

1.6.1 Procjena parametara vi²estrukog regresionog modela . 23 

1.6.2 Testiranje signikantnosti regresionih koecijenata . . 25 

1.6.3 Standardizovani regresioni koecijenti . . . . . . . . . 25 

1

Poglavlje 1 

Regresiona analiza 

1.1 Uvod 

Regresiona analiza je statisti£ka tehnika kojom se modelira veza izmežu zavisne 

varijable i jedne ili vi²e nezavisnih varijabli. Ukoliko modeliramo vezu 

izmežu zavisne varijable y i jedne nezavisne varijable x, govorimo o prostoj 

linearnoj regresiji. U slu£ajevima kada imamo vi²e nezavisnih varijabli 

koje uti£u na zavisnu varijablu y govorimo o vi²estrukoj linearnoj regresiji. 

Regresiona analiza je vjerovatno naj£e²¢e kori²tena tehnika u ekonomskim i 

poslovnim istraºivanjima i moºe se koristiti za : 

1. Predvižanje ishoda tj. procijenu vrijednosti zavisne varijable na bazi 

izabranih vrijednosti nezavisnih varijabli. 

2. Utvrživanje postojanja i snage veze izmežu zavisne varijable i nezavisnih 

varijabli. 

3. Obja²njenje varijabiliteta zavisne varijable pomo¢u nezavisnih varijabli. 

1.2 Osnovni statisti£ki koncepti prostog regresionog 

modela 

Da bi stekli ispravnu predstavu o su²tini regresione analize požimo od jednostavnog 

primjera. Pretpostavimo da ºelimo utvrditi koliko iskustvo ko- 

2

POGLAVLJE 1. REGRESIONA ANALIZA 3 

mericajliste uti£e na ostvareni obim prodaje. Metodom slu£ajnog uzorka 

odabrano je 50 komercijalista koji putem aktivnosti li£ne prodaje na terenu 

distribuiraju proizvode kompanije. Prikupljeni podaci su spremljeni u datoteku 

sales50 alt.dta. Deskriptivna statistika predstavljena je na outputu 

1.1. 

. summarize prod gisk 

Variable Obs Mean Std. Dev. Min Max 

Output 1.1 

prod 50 16.88394 4.206842 7.913408 25.03742 

gisk 50 14.4 5.996598 1 25 

Varijabla prod (prodaja) se odnosi na iznos realizovane prodaje tokom 

zadnjeg mjeseca izraºen u 000 KM, dok se varijabla gisk (godine iskustva) 

odnosi na iskustvo koje pojedina£ni komercijalista ima na poslovima prodaje. 

Prosjek mjese£ne prodaje za svih 50 komercijalista iz uzorka iznosi 16.883,94 

KM (obzirom da je vrijednost prodaje izraºena u 000 KM, iznos u tabeli 

trebamo pomnoºiti sa 1.000 da bi dobili stvarnu vrijednost). Minimalno 

ostvarena prodaja je 7.913,41 KM, dok je iznos najvi²e ostvarene prodaje 

bio 25.037,42 KM. Raspon godina iskustva kre¢e se od 1 do 25 godina sa 

prosjekom od 14,4 godine. 

Opservirane vrijednosti za prvih i zadnjih pet prodajnih predstavnika 

moºemo dobiti sa: 

. list prod gisk if id45, separator(5) 

prod 

gisk 

1. 14.71799 12 

2. 14.47563 15 

3. 13.13771 19 

4. 17.58048 23 

5. 16.74326 19 

46. 14.73048 15 

47. 18.95334 11 

48. 12.71036 10 

49. 18.86257 17 

50. 18.23663 18 

Output 1.2


Iz outputa 1.2 vidimo da prvi komercijalista ima dvanaestogodi²nje iskustvo 

i da je ostvario prodaju u vrijednosti od 14.717,99 KM, drugi komercijalista 

ima petnaestogi²nje iskustvo i prodaju od 14.475,53 KM, itd. Kako 

u uzorku imamo 50 opservacija, parovi (x 1 , y 1 ), (x 2 , y 2 ), ... (x 50 , y 50 ) £ine 

emprijske ta£ke koje gra£ki moºemo predstaviti na histogramu rasipanja. 

. scatter prod gisk 

Slika 1.1 

Ako detaljnije osmotrimo sliku 1.1 moºemo uo£iti da se sa rastom iskustva 

pove¢ava i tendencija da je komercijalista ostvario ve¢u prodaju. Ako bi 

na dijagramu ºeljeli gra£ki sumirati uo£enu povezanost izmežu prodaje i 

iskustva, bilo bi dovoljno da povu£emo pravu liniju koja ¢e oslikati uo£eni 

pozitivni trend. Prava kojom opisujemo vezu izmežu dvije varijable naziva 

se linijom regresije i matematski se predstavlja sa: 

y = β 0 + β 1 x (1.1)


Formula 1.1 se naziva regresionom jedna£inom i predstavlja prosti regresioni 

model 1 gdje y ozna£ava zavisnu slu£ajnu 2 varijablu koju ºelimo 

procijeniti ili objasniti, x je nezavisna varijabla ili prediktor, β 0 se odnosi na 

presjek ili konstantu, dok β 1 predstavlja nagib regresione linije. Presjek je 

ta£ka u kojoj regresiona linija sije£e y-osu kada je x = 0. Nagib regresione 

linije govori koliko ¢e se promijeniti vrijednost zavisne varijable y kada se 

vrijednost nezavisne varijable x promijeni za jednu jedinicu. Ako je nagib 

linije pozitivan (β 1 > 0), tada sa porastom vrijednosti nezavine varijable 

x, u populaciji raste prosje£na vrijednost zavisne varijable y. Ako je nagib 

negativan (β 1 < 0), tada sa porastom vrijednosti nezavisne varijable x, u 

populaciji opada prosje£na vrijednost zavisne varijable y. U slu£aju kada je 

β 1 = 0, promjena unutar x ne uti£e na promjenu y, pa se kaºe da ne postoji 

linearna veza izmežu zavisne i nezavisne varijable. 

U na²em primjeru, prod (obim prodaje) je zavisna slu£ajna varijabla y, 

dok je gisk (godine iskustva) nezavisna varijabla x, pa regresioni model matematski 

moºemo iskazati kao: 

prod = β 0 + β 1 gisk (1.2) 

Prisjetimo se da smo ranije rekli da je statisti£ki model poku²aj opisivanja 

odnosa koji postoje izmežu varijabli u formi matematskih jedna£ina. U 

datom slu£aju, uz pomo¢ regresione jedna£ine poku²avamo modelirati odnos 

izmežu prodaje i godina iskustva. Pri tome polazimo od pretpostavke da su 

godine iskustva bitan faktor koji uti£e na obim prodaje. Da bi utvrdili u kojoj 

mjeri se ispoljava taj uticaj, potrebno je procijenti vrijednosti parametara 

β 0 i β 1 . Ipak, prije nego prežemo na samu procjenu, moramo skrenuti paºnju 

na jo² ne²to. Naime, ukoliko bi vrijednost zavisne varijable y bila odrežena 

isklju£ivo vrijedno²¢u nezavisne varijable x, te ukoliko bi obje varijable bili u 

mogu¢nosti izmjeriti bez ikakve gre²ke, onda bi vrijednosti predvižene modelom 

bile identi£ne empirijskim vrijednostima. Gra£ki gledano, obzirom 

da bi ostvarena prodaja zavisila isklju£ivo od iskustva prodava£a, sve empirijske 

ta£ake na dijagramu rasipanja nalazile bi se na regresionoj liniji. Tada 

bi izmežu y i x postojala funkcionalna veza. 3 

1 U ekonomiji se umjesto statisti£ki model £esto kaºe ekonometrijski model. Iako je terminologija 

razli£ita, misli se na istu stvar. 

2 Kaºemo da je zavisna varijabla slu£ajna zato ²to su njenje vrijednosti nepoznate prije 

odabira jedinica u uzorak i utvrživanja iznosa prodaje za svaku jedinicu koja je u²la u 

uzorak. 

3 Funkcionalna veza je strogo deterministi£ka veza ²to zna£i da ako znamo vrijednost neza-


Mežutim, ovakve situacije u dru²tvenim naukama gotovo da ne postoje. 

Obzirom da je stvarnost kompleksnija od regresionog modela, pored iskustva 

prodava£a na obim prodaje ¢e uticati i mnogi drugi faktori koje nismo 

uklju£ili u model. Zato ne¢emo imati funkcionalnu, ve¢ stohasti£ku vezu. 

Zbog prirode stohasti£ke veze jasno je da se sve opservacije ne¢e nalaziti na 

zami²ljenoj regresionoj liniji ve¢ se javiti raspr²enost, odnosno ve¢a ili manja 

odstupanja empirijskih ta£aka od regresione linije. 4 

Od £ega ¢e zavistiti varijacije vrijednosti zavisne varijable y oko regresione 

linije? Varijacije ¢e zavisiti prvenstveno od slu£ajne gre²ke. Slu£ajna 

gre²ka ε, se odnosi na sve ostale faktore koje djeluju na vrijednost zavisne 

varijable, a koji nisu uklju£eni u regresioni model. 5 Iz tog razloga, prosti 

regresioni model za populaciju izraºen jedna£inom 1.1 moramo pro²iriti tako 

da bude: 

y = β 0 + β 1 x + ε (1.3) 

Regresioni model predstavljen jedna£inom 1.3 se sastoji od dva dijela: 

same regresione linije (engl. non-random part) i slu£ajne gre²ke ε (engl. 

random part). Slu£ajna gre²ka predstavlja jedinu slu£ajnu komponentu u 

modelu, a samim tim je i jedini izvor slu£ajnih odstupanja vrijednosti zavisne 

varijable y. Zbog postojanja slu£ajne gre²ke, stvarna vrijednost y unutar populacije 

za datu vrijednost x bi¢e jednaka prosje£noj vrijednosti y uve¢anoj 

za vrijednosti slu£ajne gre²ke ε. 

Posljedica slu£ajnih varijacija svojstvenih zavisnoj varijabli ogleda se u 

tome da ¢e regresioni model biti istinit samo u prosjeku. Na primjer, ako 

znamo koliko godina iskustva dati komercijalista ima u prodaji, mogli bi upovisne 

varijable, onda vrlo precizno moºemo izra£unati ta£nu vrijednost zavisne varijable. 

Na primjer, veza izmežu mase i zapremine vode je deterministi£kog tipa. 

4 Obzirom da pojedina£ne opservacije y variraju oko op²teg prosjeka y za dato x, onda 

govorimo o uslovnoj varijansi σ 2 kojom se mjeri raspr²enost stvarnih vrijednosti zavisne 

varijable y oko njihovog prosjeka µ y|x . 

5 U na²em primjeru, neki od faktora koji pored iskustva prodava£a mogu uticati na obim 

prodaje, a koje nismo uklju£ili u model su: cijene, karaktersitike proizvoda, prodajni 

region i sl. Slu£ajna gre²ka obuhvata i bilo koji nepredvidivi elemenat ljudskog pona²anja. 

ƒak i ako bi znali sve varijable koje uti£u na prodaju nekog proizvoda to ne bi bilo 

dovoljno da perfektno precizno predvidimo obim prodaje jer u pona²anju pojedinaca 

uvijek postoji odrežena doza slu£ajnosti koja se ne moºe racionalno objasniti. Takožer, 

slu£ajna gre²ka obuhvata gre²ku aproksimacije koja se javlja zbog toga ²to je linerana 

veza samo aproksimacija stvarnosti.


trijebiti na² model da predvidimo njegov o£ekivani obim prodaje. Mežutim, 

predvižanje uz pomo¢ modela je korisno samo za opis onoga ²to se de²ava 

u populaciji, kada u obzir uzmemo sve prodajne predstavnike koji imaju isti 

broj godina iskustva kao i prodava£ koji nas interesuje. Stvarna vrijednost 

prodaje za konkretnog prodava£a naj£e²¢e ¢e odstupiti od prosje£ne vrijednosti 

predvižene modelom za populaciju kao cjelinu. 

1.2.1 Procjena regresionih parametara 

Vratimo se sada na procjenu parametara. Prosti regresioni model predstavljen 

jedna£inom 1.3 je teoretski model koji opisuje pretpostavljenu linearnu 

vezu izmežu y i x unutar populacije. Vrijednosti parametara β 0 , β 1 i ε su 

nepoznate i potrebno ih procijeniti pomo¢u podataka koje imamo u uzorku. 

Cilj je prona¢i vrijednosti parametara koji najbolje opisuju vezu izmežu varijabli 

y i x. Gra£ki gledano, na dijagramu rasipanja je potrebno povu¢i 

regresionu liniju koja bi bila najbliºe empirijskim ta£kama. Mežutim, kako 

se zbog prisustva slu£ajne gre²ke javlja raspr²enost, regresionu liniju koja 

opisuje linearnu vezu izmežu dvije varijable moºemo povu¢i na razli£ite na- 

£ine. Na slici 1.2 su predstavljene samo tri od velikog broja mogu¢ih linija 

kojima moºemo opisati uo£eni trend. Svaka od ovih linija ima razli£ite presjeke 

i nagibe, a samim tim i razli£ite parametre. Postavlja se pitanje kako 

na¢i parametre linije koja ¢e najbolje opisati uo£eni trend?


Slika 1.2 

Kako bi se izbjegla subjektivnost pri povla£enju linije, odnosno da bi od 

vi²e mogu¢ih linija izabrali onu koja najbolje reprezentuje podatke, statisti£ari 

se koriste estimatorima. Estimator je matematska metoda, pravilo 

ili formula, koje nam govori kako da upotrijebimo podatke iz uzorka da bi 

dobili procjenu parametara. Estimatori se vrjednuju po tri karakteristike: 

Nepristarsnosti, konzistentnosti i ekasnosti. 

Za estimator kaºemo da je nepristrasan procjenitelj parametra populacije 

ako je njegova o£ekivana vrijednost jednaka tom parametru. O£ekivana 

vrijednost ne zna£i da ¢e procjenjeni parametar uvijek biti jednak onom u 

populaciji. Ako zamislimo da iz populacije izvla£imo vi²e uzoraka, u nekim 

uzorcima procijenjeni parametar ¢e biti precijenjen, u drugima potcijenjen 

u odnosu na stvarnu vrijednost u populaciji. Mežutim, u prosjeku, kada 

se uzmu u obzir sve dobijene procjene parametara u nizu od n uzorka uzetih 

iz populacije, procijenjena vrijednost parametra u slu£aju nepristrasnog 

estimatora bi¢e jednaka onom u populaciji. 

Druga poºeljna karakteristika estimatora je konzistentnost. Estimator


je konzistentan procjenitelj parametra populacije ako sa rastom veli£ine 

uzorka pristrasnost procjene postaje manja. Vaºno je napomenuti da su 

konzistentni estimatori uvijek nepristrasni. 

Kona£no, estimator je ekasan ako je to nepristrasni procjenitelj sa najmanjom 

varijansom. Naime, mogu¢e je da postoji vi²e estimatora koji su 

nepristrasni procjenitelji za dati parametar. U tom slu£aju daje se prednost 

onom estimatoru £ija je distribucija u najve¢oj mjeri koncentrisana oko 

parametra populacije koji se procjenjuje. Za vi²e detalja pogledati [3, pp. 

275-280]. 

Estimator koji se naj£e²¢e koristi kad je u pitanju procjena parametara 

regresionog modela je metoda najmanjih kvadrata (engl. ordinary least 

square principle - OLS). Su²tina ove metode sastoji se u procjeni parametara 

regresione jedna£ine putem minimiziranja sume kvadrata vertikalnih odstupanja 

izmežu empirijske vrijednosti zavisne varijable i njene predvižene 

vrijednosti. Ovdje ne¢emo ulaziti u matematske detalje samog postupka 

jer ¢emo kalkulacije prepustiti softverskom paketu. Pomenu¢emo samo da 

¢e OLS metod estimacije dati najbolje linearne nepristrasne procjenitelje regresionih 

parametara β 0 i β 1 (engl. best linear unbiased estimators - BLUE). 

Regresiona jedna£ina sa procjenjenim parametrima se pi²e kao: 

y = b 0 + b 1 x + e (1.4) 

gdje je b 0 procijenjena vrijednost za β 0 , b 1 je procijenjena vrijednost za β 1 , 

a e su reziduali. 

Sa stanovi²ta samih podataka u uzorku, jedna£inu 1.4 moºemo napisati i 

uz kori²tenje subskripta, kako bi ozna£ili svaku pojedina£nu opservaciju: 

y i = b 0 + b 1 x i + e i (1.5) 

gdje je i = 1, 2, ..., n. Samim tim, y 1 je empirijska vrijednost zavisne varijable 

za prvu opservaciju, x 1 je vrijednost nezavisne varijable za prvu opservaciju, 

e 1 je prvi rezidual, tj. odstupanje empirijske od procijenjene vrijednosti za 

prvu opservaciju, i tako dalje sve do posljednje opservacije n. 

Jedna£ina za samu regresionu liniju se ozna£ava sa: 

ŷ i = b 0 + b 1 x i (1.6) 

gdje ŷ i (izgovara se y hat) predstavlja vrijednost zavisne varijable koja leºi 

na procijenjenoj regresionoj liniji za datu vrijednost nezavisne varijable x i . 6 

6 Procijenjenja vrijednost ŷ i ne sadrºi rezidual e i


Za ŷ i se £esto kaºe i da je to predvižena ili o£ekivana vrijednost za y, a koju 

¢emo uz pomo¢ regresione jedna£ine izra£unati za dato x i . 

Reziduali se odnose na odstupanje pojedina£nih opservacija od procjenjene 

regresione linije na bazi uzorka i moºemo ih denisati kao: 

e = y − E(y|x) = y − E(y) 

e = y − ŷ = y − (b 0 + b 1 x 1 ) (1.7) 

Dakle, rezidual e je vektor sa nizom brojeva koji predstavljaju vertikalno 

odstupanje izmežu opserviranih vrijednosti y i predviženih vrijednosti ŷ duº 

odgovaraju¢e regresione linije. Ve¢ smo ranije rekli da je y slu£ajna varijabla 

jer su njene vrijednosti dobijene na bazi slu£ajnog uzorka. Obzirom da je 

y slu£ajna varijabla i komponeta e koja se odnosi na reziduale ima slu£ajni 

karakter. Dakle, y i e su slu£ajne varijable i karakteristike jedne se mogu 

izvesti na osnovu karakteristika druge. Jedina bitna razlika je u tome ²to je 

y opservirana, dok je e neopservirana varijabla. 

Odnos izmežu regresione linije procjenjene na bazi uzorka i regresione 

linije unutar populacije moºemo vidjeti na slici 1.3 gdje je dat prikaz hipoteti£ke 

situacije u kojoj postoji znatno odstupanje izmežu ove dvije linije.


Slika 1.3 

Prikazani odnos izmežu regresione linije za populaciju (puna linija) i uzorak 

(isprekidana linija) je striktno teoretske prirode jer ºelimo ukazati na 

razliku koja postoji izmežu slu£ajne gre²ke i reziduala. Obratimo paºnju da 

je na slici 1.3 za opservaciju x i rezidual e i znatno manji od slu£ajne gre²ke 

ε i . Takožer, ovaj prikaz £itaocu daje bolji uvid u to ²ta procjenjeni regresioni 

model predstavlja. Obzirom da ¢e se procjena parametara vr²iti na 

osnovu uzorka koji je podloºan slu£ajnim varijacijama, dobijeni koecijenti 

¢e se razlikovati od stvarnih parametara u populaciji. U praksi, regresionu 

liniju koja je istinita za populaciju ne¢emo znati. Da je znamo, onda nam 

ne bi ni trebao uzorak i procjena parametara. Stoga, iz prakti£nih razloga, 

u daljem tekstu moºemo ignosrisati razliku izmežu e i ε. 7 

Da bi uz pomo¢ State dobili OLS procjenu traºenih parametara za model 

1.2 koji opisuje uticaj iskustva prodava£a (gisk) na ostvareni prodajni 

rezultat (prod), iskoristi¢emo naredbu regress: 

7 U ekonometriji distinkcija izmežu slu£ajnih gre²ki i reziduala postaje bitna.


. reg prod gisk 

Source SS df MS Number of obs = 50 

F( 1, 48) = 29.29 

Model 328.598902 1 328.598902 Prob > F = 0.0000 

Residual 538.579374 48 11.2204036 R-squared = 0.3789 

Adj R-squared = 0.3660 

Total 867.178276 49 17.6975158 Root MSE = 3.3497 

prod Coef. Std. Err. t P>|t| [95% Conf. Interval] 

gisk .4318472 .0797997 5.41 0.000 .2713991 .5922953 

_cons 10.66534 1.24293 8.58 0.000 8.166265 13.16442 

Output 1.3 

Najzna£ajniji rezultat regresione analize su dva koecijenta: b 0 konstanta 

(10,66) i b 1 nagib linije (0,43). Konstanta b 0 je ta£ka u kojoj regresiona 

linija sije£e y-osu i predstavlja vrijednost zavisne varijable kada je nezavisna 

varijabla x = 0. U konkretnom slu£aju to zna£i da na² prosti regresioni 

model predviža da ¢e komercijalista bez iskustva (gisk = 0) u periodu od 

mjesec dana ostvariti prodaju u vrijednosti od 10.665,34 KM. Nagib linije 

b 1 pokazuje za koliko ¢e se promijeniti vrijednost zavisne varijable ako se 

vrijednost nezavisne varijable promijeni za 1. U konkretnom primjeru to 

zna£i da svaka dodatna godina iskustva pove¢ava o£ekivanu prodaju za 431,8 

KM. 8 

Estimirani model moºemo predstaviti i gra£ki. 

. twoway (scatter prod gisk) (lfit prod gisk) 

8 Obzirom da su vrijednosti prodaje unutar skupa podataka izraºene u 000 KM, dobijene 

koecijente b 0 i b 1 smo pomnoºili sa 1.000.


Slika 1.4 

Na slici 1.4 vidimo regresionu liniju dobijenu uz pomo¢ OLS estimatora. 

To je linija koja najbolje opisuje linearni trend koji postoji izmežu iskustva 

i prodajnog rezultata. Ni jedna druga linija koju bi povukli slobodnom 

procjenom ne bi bolje minimizirala odstupanja pojedina£nih opservacija od 

uo£enog linearnog pravca. Obratimo paºnju da je koecijent b 1 jednak koli£niku 

promjene y u odnosu na promjenu x. Radi jednostavnosti interpretacije, 

uzima se promjena y kada se x promjeni za jednu jednicu pa imamo da je 

b 1 = ∆y 

∆x = +0,43 

1 

= +0, 43. Ukoliko bi regresionu liniju na slici produºili 

nalijevo, ona bi u ta£ci x = 0 sjekla vertikalnu y-osu ta£no na 10,66 ²to 

predstavlja vrijednost konstante b 0 . 

1.2.2 Testiranje signikantnosti regresionih koecijenata 

Nakon ²to smo procijenili parametre regresionog modela potrebno je utvrditi 

da li su dobijeni koecijenti statisti£ki signikantni. Za²to je to bitno? 

Prisjetimo se da koecijent b 1 predstavlja promjenu zavisne varijable koja se 

javlja kao posljedica jedini£ne promjene nezavisne varijable. Ako nezavisna


varijabla nema efekta na zavisnu varijablu onda bi koecijent b 1 trebao biti 

nula. U tom slu£aju x i y nisu linearno povezani. Mežutim, potrebno je 

imati na umu £injenicu da je koecijent b 1 samo procjena stvarnog parametra 

β 1 koji je istinit za populaciju. Obzirom da se procjena vr²i na bazi 

uzorka, pretpostavka je da ¢e se b 1 u ve¢oj ili manjoj mjeri razlikovati od 

stvarnog parametra β 1 . Zbog toga je potrebno testirati hipotezu da se b 1 

zaista razlikuje od nule, a samim tim i da prediktor ima stvarni efekat na 

zavisnu varijablu. 

Hipoteza kojom testiramo postojanje linearne veze izmežu y i x ima sljede¢u 

formu: 

H 0 : b 1 = 0 

H 1 : b 1 ≠ 0 

Ovu hipotezu testiramo primjenom t-testa. Naime, ukoliko je pretpostavka 

o normalno distribuiranim rezidualima ta£na, statistika testa ¢e imati 

t distribuciju sa N − p − 1 stepena slobode 9 : 

t = b 1 

SE b1 

(1.8) 

gdje je b 1 procjenjeni koecijent, a SE b1 je standardna gre²ka za b 1 koja 

ukazuje do koje mjere ¢e b 1 varirati mežu razli£itim uzorcima. 

Nakon ²to izra£unamo opserviranu t-vrijednost, ona se poredi sa vrijedno²¢u 

koju bi o£ekivali ako nema efekta (tj. ako je b 1 = 0). Da bi odbacili 

H 0 uz 0,95 pouzdanost, opservirana t-vrijednost treba biti ve¢a od 1,96. U 

tom slu£aju prihvatamo alternativnu hipotezu H 1 da je b 1 razli£it od nule 

i da nezavisna varijabla doprinosi predvižanju vrijednosti zavisne varijable. 

’to je ve¢a opservirana t-vrijednost, to ¢e i efekat prediktora biti ve¢i. 

Unutar Stata outputa 1.3 dobijeni regresioni koecijent b 1 = 0, 4318 ima 

pridruºenu standardnu gre²ku SE b1 = 0, 0797. Prema formuli 1.8 moºemo 

izra£unati da je: 

t = b 1 0, 4318 

= = 5, 41 

SE b1 0, 0797 

9 N se odnosi na veli£inu uzorka a p na broj prediktora u modelu. Za prosti regresioni 

model ima¢emo N − 1 − 1, odnosno N − 2 stepena slobode.


Obzirom da je opservirana t-vrijednost ve¢a od 1,96 zaklju£ujemo da 

godine iskustva (gisk) imaju efekat i da zna£ajno doprinose predvižanju 

ostvarene prodaje (prod). 

Obi£no se navodi i ta£an nivo signikantnosti koecijenta izraºen preko 

p-vrijednosti. 10 Uobi£ajeni nivo signikantnosi koji se uzima za odbacivanje 

nulte hipoteze je 0,05 ili manje. Stata daje ta£nu p-vrijednost za svaki koecijent 

u regresionoj jedna£ni. Iz outputa 1.3 u koloni P>|t| moºemo vidjeti 

da je varijabla gisk (godine iskustva) signikantna uz p = 0, 00 ²to je manje 

od potrebnih 0,05. 

1.3 Kori²tenje regresionog modela za predvižanje 

vrijednosti zavisne varijable 

Nakon ²to smo ustanovili parametre regresione linije i vidjeli da nezavisna 

varijabla ima efekat na zavisnu varijablu, dobijeni model moºemo iskoristiti 

za predvižanje vrijednosti zavisne varijable. Prvo ¢emo oznake y i x unutar 

jedna£ine 1.6 zamijeniti sa nazivima varijabli iz seta sa podacima: 

ˆ prod = b 0 + b 1 gisk 

U drugom koraku, uvrsti¢emo vrijednosti procjenjenih parametara tako 

da dobijemo: 

ˆ prod = 10, 66 + 0, 432 × gisk 

Sada je mogu¢e predvidjeti obim prodaje tako ²to ¢emo u jedna£inu unijeti 

broj godina iskustva koji nas interesuje. Na primjer, zamislimo da ºelimo 

saznati koliki obim prodaje ¢e ostvariti komercijalista koji ima 22 godine iskustva. 

U gornju jedna£inu unije¢emo sljede¢e: 

ˆ prod = 10, 66 + 0, 432 × 22 = 20.164 

10 Nivo zna£ajnosti koecijenta je vjerovatno¢a dobijanja tako velikog ili ve¢eg koecijenta 

(u apsolutnom iznosu) ako prediktor zaista nema nikakvog efekta na zavisnu varijablu 

(pa je samim tim i bilo kakav opservirani efekat u uzorku samo rezultat slu£ajnosti).


Dakle, zaklju£ujemo da o£ekivani obim prodaje za komercijalistu sa 22 

godine iskustva u prosjeku iznosi 20.164 KM. 

1.4 Intervali procjene unutar regresionog modela 

U prethodonom odjeljku smo demonstrirali kako regresioni model moºemo 

iskoristiti za predvižanje o£ekivane prodaje. Mežutim, dobijenu procjenu 

trebamo uzeti sa oprezom. Prvo, ako bi ponovo uzeli uzorak, dobijeni koecijenti 

bi se bar donekle razlikovali u odnosu na one dobijene na bazi prvog 

uzorka. Drugo, svi komercijalisti sa istim brojem godina iskustva ne¢e imati 

isti obim prodaje jer ¢e na njihove performanse djelovati i drugi faktori koje 

nismo uklju£ili u model. Da bi predvižanje u£inili korisnijim, potrebno je 

vidjeti u kojem o£ekivanom rasponu se nalazi procijenjena vrijednost. U tu 

svrhu koriste se intervali pouzdanosti. Unutar regresionog modela postoji 

nekoliko razli£itih intervalnih procjena uz podrazumjevni 95% nivo pouzdanosti: 

• Interval pozdanosti za regresione koecijente odnosi se na vjerovatno¢u 

obuhvata nepoznatih parametara unutar populacije. Za formiranje 

ovog intervala koristi se standardna gre²ka vezana uz procijenjene 

koecijente. Procjenjeni interval dat je unutar outputa 1.3 i u na²em 

primjer za β 1 iznosi 0,271≤ β 1 ≤0,592. Dakle, uz 95% pouzdanost 

zaklju£ujemo da ¢e porast iskustva komericijaliste za jednu godinu rezultirati 

sa pove¢anjem ostvarene prodaje za neku vrijednost izmežu 

271 i 592 KM. Ovaj interval pouzdanosti povezan je sa ranije pomenutim 

testiranjem hipoteza. Ukoliko 95% interval pouzdanosti obuhvata 

nulu, onda nemamo dovoljno dokaza da zaklju£imo da je nagib regresione 

linije razli£it od nule, a samim tim ne postoji ni dovoljno dokaza 

za linearnu vezu izmežu y i x. 11 

• Interval ocjene o£ekivane prosje£ne vrijednosti zavisne varijable E(y|x), 

odnosi se na predvižanje prosje£ne vrijednosti ŷ i za izabrane vrijednosti 

nezavisne varijable x i . Raspon ovog intervala je predstavljen isprekidanom 

linijom na slici 1.5. 

• Interval predvižanja pojedina£nih vrijednosti zavisne varijabe y i za 

11 Formiranje intervala pouzdanosti i testiranje hipoteze za konstantu β 0 se obavlja na 

potpuno isti na£in. Mežutim, testiranje signikantnosti za β 0 £esto nema prakti£nu 

vrijednost za rje²avanje problema pa se tuma£enje moºe izostaviti.


izabrane vrijednost nezavisne varijable x i . Raspon ovog intervala je 

predstavljen punom sivom linijom na slici 1.5. 

Razlika izmežu intervala ocjene i intervala predvižanja je u tome ²to se 

interval ocjene odnosi na raspon u kojem ¢e nalaziti o£ekivani prosjek varijable 

y, dok se interval predvižanja odnosi na raspon u kojem ¢e se nalaziti 

pojedina£ne opservacije varijable y. Obzirom da pozicija pojedina£nih vrijednosti 

zavisi od veli£ine reziduala e, interval predvižanja ¢e uvijek biti ²iri 

od intervala ocjene ²to je predstavljeno na slici 1.5. 

. twoway (scatter prod gisk) (lfitci prod gisk, ciplot(rline)) 

(lfitci prod gisk, stdf ciplot(rline)) 

Slika 1.5 

1.5 Reprezentativnost regresionog modela 

Kad smo odredili jedna£inu regresione linije vaºno je utvrditi kako dobro ta 

linija reprezentuje na²e podatke (engl. Goodnes of Fit). Koefcijent determinacije 

(R 2 ), kao relativna mjera reprezentativnosti regresionog modela, 

pokazuje procenat obja²njenog varijabiliteta zavisne varijable, odnosno koliko 

su varijacije unutar zavisne varijable y obja²njene nezavisnom varijablom 

x. Vrijednost koecijenta se kre¢e u rasponu od 0 do 1, gdje ve¢a vrijednost 

zna£i bolju reprezentativnost.


Kako dolazimo do R 2 ? U su²tini, regresiona linija se poredi sa bazi£nim 

modelom kojeg predstavlja aritmeti£ka sredina. Ukoliko regresiona linija ne 

obja²njava varijacije unutar zavisne varijable ni²ta bolje u odnosu na aritmeti£ku 

sredinu, onda ¢e koecijent determinacije biti R 2 = 0. Tada kaºemo 

da nema linearne veze izmežu varijabli. Gra£ki predstavljeno, procjenjena 

regresiona linija bi bila horizontalna i odgovarala bi aritmeti£koj sredini. 

Mežutim, ako regresioni model obja²njava vi²e varijacija unutar zavisne varijable 

u odnosu na aritmeti£ku sredinu, koecijent determinacije ¢e rasti. 

U idealnom slu£aju, ako bi regresioni model uspio objasniti sve varijacije 

unutar zavisne varijable, koecijent determinacije bi iznosio R 2 = 1 i tada bi 

postojala perfektna linearna veza izmežu varijabli. U tom slu£aju, sve empirijske 

vrijednosti y i nalazile bi se na liniji regresije i ne bi bilo raspre²nosti, 

tj. obja²njeni varijabilitet bi bio jednak ukupnom varijabilitetu. 

Na slici 1.6 smo dali presjek varijabilitea za jednu opseraciju (komercijalistu 

broj 26). 

Slika 1.6 

Vertikalna isprekidana linija predstavlja aritmeti£ku sredinu nezavisne


varijable (¯x), dok je horizontalnom isprekidanom linijom predstavljena aritmeti£ka 

sredina zavisne varijable (ȳ). Regresiona linija sije£e presjek ove 

dvije linije. Empirijska ta£ka za komercijalistu broj 26 nalazi se u gornjem 

desnom uglu dijagrama. Na osnovu poloºaja ta£ke na dijagramu vidimo da 

taj komercijalista ima x 26 = 22 godine iskustva i da je ostvario mjese£ni 

iznos prodaje u iznosu od y 26 = 24.603 KM. Mežutim, na² regresioni model 

predviža da ¢e komercijalista koji ima 22 godine iskustva u prosjeku 

ostvariti prodaju u iznosu ŷ 26 = 20.164 KM. Razlika izmežu predvižene i 

stvarne vrijednosti se odnosi na rezidual: e 26 = y 26 −ŷ 26 = 24.603−20.164 = 

4.439 KM. Razlika izmežu aritmeti£ke sredine i stvarne vrijednosti za datu 

opservaciju predstavlja ukupni varijabilitet i u konkretnom slu£aju iznosi: 

y 26 − ȳ = 24.603 − 16.880 = 7.723 KM. Razlika izmežu aritmeti£ke sredine 

i vrijednosti predvižene modelom za datu opservaciju predstavlja obja²njeni 

varijabilitet: ŷ 26 − ȳ = 20.164 − 16.880 = 3.284 KM. 

Pretpostavimo da za svaku varijablu izra£unamo obja²njeni, neobja²njeni 

i ukupni varijabilitet i da dobijene vrijednosti kvadriramo. Stata navedene 

kalkulacije obavlja automatski. U prvoj tabeli, koja se nalazi na lijevoj strani 

outputa 1.3, predstavljeni su nalni rezultati tih kalkulacija. Suma kvadrata 

obja²njenog varijabiliteta SS M = ∑ (ŷ i −ȳ) 2 odnosi se na pobolj²anje u predvižanju 

zbog upotrebe regresione linije umjesto aritmeti£ke sredine. Suma 

kvadrata neobja²njenog varijabiliteta SS R = ∑ (y i − ȳ) 2 predstavlja ukupno 

odstupanje izmežu vrijednosti predviženih modelom i stvarnih vrijednosti. 

Stoga je suma kvadrata ukupnog varijabiliteta zavisne promjenljive jednaka 

zbiru SS T = SS M + SS R . Oznaka df se odnosi na broj stepeni slobode. U 

slu£aju SS M broj stepeni slobode jednak je broju nezavisnih varijabli (df = 1 

za prosti regresioni model). Za SS R broj stepeni slobode predstavlja broj 

opservacija umanjen za broj koecijenata regresionog modela. U konkretnom 

slu£aju imamo 50 opservacija, a model ima dva koecijenta, jedan za 

konstantu (b 0 ) i jedan za nagib (b 1 ), pa ¢e biti df = 50 − 2 = 48. Na osnovu 

ovoga izra£unava se prosje£na suma kvadrata za svaki od ovih pojmova dijeljenjem 

sume kvadrata sa brojem stepeni slobode. Tako dobijamo prosje£ni 

kvadrat modela (MS M ) i prosje£ni kvadrat gre²ke (MS R ). 

U drugoj tabeli outputa 1.3 nalazi se rezultat analize varijanse (ANOVA) 

kojom se testira da li je model zna£ajno bolji u predvižanju vrijednosti zavisne 

varijable u odnosu na slu£aj kada za predvižanje koristimo samo aritmeti£ku 

sredinu. Dijeljenjem MS M sa MS R dobijamo F statistiku koja pokazuje 

postotak pobolj²anja u predvižanju vrijednosti zavisne varijable koji 

se javlja kao posljedica upotrebe modela u odnosu na neobja²njenu varijansu 

koja postoji u modelu. Ukoliko je regresioni model bolji od aritmeti£ke sre-


dine za o£ekivati je da razlika izmežu vrijednosti predviženih modelom i 

opserviranih vrijednosti bude mala. Ukratko, dobar model bi trebao da ima 

veliku F statistiku (bar ve¢u od 1). Signikantnost F statistike moºe se procijeniti 

pronalaºenjem kriti£nih vrijednosti za korespondiraju¢i broj stepeni 

slobode unutar statisti£kih tablica. Nije problem ukoliko pri ruci nemamo 

statisti£ke tablice jer Stata izra£unava ta£nu vjerovatno¢u dobijanja date F 

vrijednosti kao posljedice slu£ajnosti. Za na² model F iznosi 29,29 ²to je 

malo vjerovatno da se desilo kao posljedica slu£ajnosti (p


y i = b 0 + b 1 x 1i + b 2 x 2i + . . . + b k x ki + e i (1.9) 

gdje je y zavisna varijabla, e je rezidual, b 0 je konstanta, b 1 x 1 je prvi prediktor 

sa pripadaju¢im koecijentom, b 2 x 2 je drugi prediktor sa pripadaju¢im 

koecijentom i tako dalje sve do zadnjeg prediktora b k x k . Oznaka i se odnosi 

na opservacije unutar uzorka: i = 1, 2, . . . , N. 

Sve ²to je ranije re£eno za prosti regresioni model vrijedi i ovdje. Iako se 

izra£un znatno usloºnjava kako broj prediktora u modelu raste, procjena parametara 

se i u slu£aju vi²estruke regresije moºe dobiti metodom najmanjih 

kvadrata. 

Prisjetimo se da smo prosti regresioni model mogli gra£ki predstaviti 

linijom na dvodimenzionalnom dijagramu rasipanja (slika 1.4). Vi²estruki 

regresioni model sa dva prediktora moºemo vizualizirati kao liniju koja minimizira 

odstupanja pojedina£nih opservacija od uo£enog linearnog pravca 

unutar trodimenzionalnog prostora. Model sa tri ili vi²e prediktora nije 

mogu¢e vizuelno predstaviti jer ulazimo u domen apstraktnog vi²edimenzionalnog 

prostora. Sre¢om, sloºene matematske kalkulacije za minimiziranje 

odstupanja opservacija u takvim situacijama ¢e obaviti softverski paket pa 

o tome ne trebamo brinuti. 

Kroz prethodni primjer smo utvrdili da postoji signikantan uticaj godina 

iskustva prodava£a (gisk) na ostvareni prodajni rezultat (prod). Mežutim, 

znatan dio varijabiliteta zavisne varijable je ostao neobja²njen. Pretpostavimo 

da je istraºiva£ ºelio prosti regresioni model pro²iriti sa dodatnim 

prediktorima kako bi dobio preciznije predvižanje o£ekivane prodaje. U tu 

svrhu, pored iskustva prodava£a, mjereni su i dodatni faktori koji mogu uticati 

na rezultat prodava£a: budºet za unapreženje prodaje i broj terenskih 

posjeta. 

Budºet za unapreženje prodaje (varijabla prom) je mjese£ni iznos u 000 

KM koji je komercijalista imao na raspolaganju kako bi lak²e sklopio posao 

sa distributerom. Sredstva iz ovog budºeta prodajni predstavnik je mogao 

iskoristiti za smanjenje prodajne cijene kroz pogodbe i popuste, a sve kako 

bi se pove¢ala efektivnosti li£ne prodaje kroz izgradnju dobrih odnosa sa 

distributerima. 

Broj terenskih posjeta (varijabla posj) se odnosi na dnevni prosjek u£estalosti 

posjeta potencijalnim klijentima koje je komercijalista obavio tokom 

mjeseca. Naime, radno vrijeme komercijalista je podijeljeno na terenski rad 

i kancelarijske poslove. Obzirom da nije specicirano koliko ta£no radnog


vremena se odnosi na ove dvije aktivnosti, neki komercijalisti preferiraju da 

jedan dio posla sa potencijalnim klijentima zavr²e putem telefona. 

Deskriptivna statistika za varijable od interesa je data u okviru outputa 

1.4: 

. summarize prod gisk prom posj 

Variable Obs Mean Std. Dev. Min Max 

Output 1.4 

prod 50 16.88394 4.206842 7.913408 25.03742 

gisk 50 14.4 5.996598 1 25 

prom 50 2.9 .9583148 .5 5 

posj 50 4.86 .8573809 3 6 

Aritmeti£ka sredina, standardna devijacija i raspon za varijable prod i 

gisk su isti kao i u outputu 1.1. Kad je rije£ o budºetu za unapreženje 

prodaje (prom), moºemo vidjeti da se kretao u rasponu od 500 do 5.000 KM 

sa prosjekom od 2.900 KM. Komercijalisti su tokom dana u prosjeku obavljali 

oko pet posjeta ( posj ¯ = 4, 86). Mežutim, ovaj broj znatno varira i kre¢e se 

od minimalne 3 posjete dnevno pa do maksimalnih 6 posjeta dnevno. 

Podaci za pet prvih i pet posljednjih komercijalista unutar seta podataka 

su dati u okviru outputa 1.5: 

. list prod gisk prom posj if id45 

prod gisk prom posj 

1. 14.71799 12 1 5 

2. 14.47563 15 2.5 4 

3. 13.13771 19 2 5 

4. 17.58048 23 3.5 4 

5. 16.74326 19 3 4 

46. 14.73048 15 2.5 5 

47. 18.95334 11 3 6 

48. 12.71036 10 .5 4 

49. 18.86257 17 3 4 

50. 18.23663 18 3.5 4 

Output 1.5


Vrijednosti prodaje (prod) i godine iskustva (gisk) su identi£ne kao i unutar 

outputa 1.2. Pored toga uo£avamo da je prvi komercijalista na raspolaganju 

imao promotivni budºet u iznosu od 1.000 KM i da je u prosjeku 

obavio pet posjeta tokom dana. Drugi komercijalista je na raspolaganju imao 

promotivni budºet od 2.500 KM, a u prosjeku je obavijao 4 posjete dnevno 

itd. 

Ukoliko generi£ke odrednice za varijable unutar jedna£ine 1.9 zamjenimo 

imenima varijabli iz outputa 1.5, vi²estruki regresioni model ¢e imati sljede¢i 

oblik: 

prod i = b 0 + b 1 gisk i + b 2 prom i + b 3 posj i + e i (1.10) 

Vi²estruki regresioni model sada sadrºi konstantu i tri koecijenta (b 1 do 

b 3 ) po jedan za svaku nezavisnu varijablu. Ovi koecijenti se nazivaju 

parcijalnim regresionim kecijentima. 

1.6.1 Procjena parametara vi²estrukog regresionog modela 

Kao i ranije, procjenu ¢emo obaviti koriste¢i naredbu regress. Rezultat je 

predstavljen na outputu 1.3. 

. reg prod gisk prom posj 


F( 3, 46) = 28.62 

Model 564.685207 3 188.228402 Prob > F = 0.0000 



Total 867.178276 49 17.6975158 Root MSE = 2.5644 


gisk .3519726 .0732154 4.81 0.000 .2045976 .4993477 

prom 2.234714 .4293445 5.20 0.000 1.370488 3.098939 

posj 1.450143 .4658765 3.11 0.003 .5123825 2.387904 

_cons -1.712828 2.942173 -0.58 0.563 -7.635115 4.20946 

Output 1.6 

Primje¢ujemo da model koji uklju£uje dodatne prediktore obja²njava 

znatno vi²e varijabiliteta unutar zavisne varijable u odnosu na prosti regresioni 

model (output 1.3). Korigovani koecijent detrminacije iznosi R 2 =


0, 6284, ²to govori da je 62,84% varijanse za varijablu prod (prodaja) obja²njeno 

uklju£enim prediktorima. Ipak, odreženi dio varijabiliteta (37,16%) 

unutar ostvarene prodaje i dalje ostaje neobja²njen. 

Unutar outputa 1.6 nalazi se procjena parametara modela i vrijednosti 

koecijenata koje indiciraju individualni doprinos svake nezavisne varijable 

modelu. Ako procijenjene parametre uklju£imo u prethodni matematski izraz 

dobi¢emo: 

prod i = −1, 71 + 0, 351 × gisk i + 2, 234 × prom i + 1, 450 × posj i + e i 

Vrijednost svih regresionih koecijenta je pozitivana pa moºemo re¢i da 

postoji pozitivna veza izmežu zavisne varijable i nezavisnih varijabli (ili prediktora). 

Pored ovog, koecijenti nam kazuju kako svaki prediktor djeluje na 

zavisnu varijablu ako se uticaj svih ostalih prediktora ne mijenja. Dobijene 

koecijente tuma£imo na sljede¢i na£in: 

• Godine iskustva prodava£a (b 1 = 0, 351): Ako se iskustvo prodava£a 

pove¢a za 1 godinu, obim prodaje ¢e se pove¢ati za 0,351 jedinicu, 

uz uslov da ostale nezavisne varijable ostanu nepromijenjene. Kako 

je obim prodaje izraºen u 000 KM, ovo zna£i da svaka dodatna godina 

iskustva prodava£a u prosjeku pove¢ava ostvareni obim prodaje 

za 351 KM, ²to je ta£no samo ako vrijednosti ostalih prediktora drºimo 

konstantnim. 

• Budºet za unapreženje prodaje (b 2 = 2, 234): Ako se budºet za unapreženje 

prodaje koji komercijalista ima na raspolaganju pove¢a za 

jednu jedinicu, vrijednost zavisne varijable ¢e se pove¢ati za 2,234 jedinicu, 

uz uslov da ostale nezavisne varijable ostanu nepromijenjene. 

Obje varijable su izraºene u 000 KM, a to zna£i da ¢e se za svakih dodatnih 

1.000 KM uloºenih u budºet za unapreženje prodaje, ostvareni 

obim prodaje u prosjeku pove¢ati za 2.234 KM, ²to je ta£no samo ako 

vrijednosti ostalih prediktora drºimo konstantnim. 

• Broj terenskih posjeta (b 3 = 1, 450): Ako broj dnevnih terenskih posjeta 

poraste za jedan, obim prodaje ¢e se pove¢ati za 1,45 jedinica, uz 

uslov da ostale nezavisne varijable ostanu nepromijenjene.Obim prodaje 

je izraºen u 000 KM pa kaºemo da ¢e dodatna dnevna posjeta klijentima 

u prosjeku pove¢ati ostvareni mjese£ni obim prodaje za 1.450 

KM, ²to je ta£no samo ako vrijednosti ostalih prediktora drºimo konstantnim.


• Konstanta (b 0 = −1, 712): Ako bi vrijednost svih ostalih nezavisnih varijabli 

bila jednaka nuli, konstanta nam govori da bi ostvarena prodaja 

(izraºena u 000 KM) u prosjeku bila negativna i iznosila −1, 712 KM. 

Obzirom da u stvarnosti ostvarena prodaja ne moºe biti negativna, jer 

bi to bilo protivno logici, dobijena konstanta se u konkretnom slu£aju 

ne tuma£i posebno. 

1.6.2 Testiranje signikantnosti regresionih koecijenata 

Dobijeni koecijenti imaju pridruºenu standardnu gre²ku koja ukazuje do 

koje mjere bi njihove vrijednosti varirale mežu razli£itim uzorcima. Kao i 

u slu£aju proste regresije, ove standarde gre²ke se upotrebljavaju da bi se 

utvrdilo da li se procjenjeni regresioni koecijenti zna£ajno razlikuju od nule. 

Ako je vrijednost t-testa pridruºenog koecijentu signikantna (tj. ako je 

vrijednost u koloni P>|t| manja od 0,05) onda prediktor zna£ajno doprinosi 

predvižanju vrijednosti zavisne varijable. ’to je ve¢a vrijednost t-statistike 

to je doprinos datog prediktora ve¢i. 

U na²em modelu sva tri prediktora: godine iskustva (t(50) = 4,81, p


. reg prod gisk prom posj 


F( 3, 46) = 28.62 

Model 564685205 3 188228402 Prob > F = 0.0000 

Residual 302493056 46 6575936 R-squared = 0.6512 


Total 867178261 49 17697515.5 Root MSE = 2564.4 


gisk 351.9726 73.21545 4.81 0.000 204.5976 499.3477 

prom 2.234713 .4293445 5.20 0.000 1.370488 3.098939 

posj 1450.143 465.8764 3.11 0.003 512.3826 2387.904 

_cons -1712.828 2942.173 -0.58 0.563 -7635.115 4209.459 

Output 1.7 

Za razliku od situacije koju smo imali unutar prethodnog outputa 1.6, 

vidimo da je na novom outputu 1.7 koecijent za unapreženje prodaje (varijabla 

prom) daleko manji od koecijenta vezanog za godine iskustva (gisk). 

Obratimo paºnju da promjena na£ina na koji su izraºene vrijednosti varijabli 

nije uticala na koecijent determinacije, t-statistike i njima pridruºene 

p-vrijednosti. Dakle, mijenjanje na£ina iskazivanja vrijednosti varijabli uti£e 

samo na veli£inu dobijenih regresionih koecijenata. 

Druga stvar koju trebamo imati na umu je da su vrijednosti razli£ith varijabli 

£esto mjerene mežusobno neuporedivim jedinicama mjere. Na primjer, 

u na²em regresionom modelu iskustvo prodava£a (gisk) je mjereno godinama 

rada na terenu, a budºet za unapreženje prodaje (prom) je izraºen u novcu. 

Zbog toga veli£inu dobijenih koecijenata ne moºemo direktno komparirati 

kako bi dobili uvid u relativnu vaºnost koju pojedina nezavisna varijabla ima 

u modelu. 

Jedan od na£ina na koji, bar u odreženoj mjeri, moºemo direktno uporediti 

uticaj razli£itih varijabli u modelu je preko standardizovanih regresionih 

koecijenata 12 . To su regresioni koecijenti koje dobijemo kada sve nezavisne 

varijable standardizujemo i iskaºemo preko z-skora. Ovi se koecijenti mogu 

dobiti i ako se obi£ni regresioni koecijenti pomnoºe koli£nikom standardne 

devijacije odgovaraju¢e nezavisne varijable i zavisne varijable: 

Beta i = b i × s i 

s y 

(1.11) 

12 Ovi koecijenti se £esto nazivaju i beta koecijentima (engl. beta weights)


gdje se i odnosi na odgovaraju¢u nezavisnu varijablu. 

Da bi unutar State dobili standardizovane koecijente moramo ih izri£ito 

zatraºiti preko opcije beta, koja se koristi uz naredbu regress: 

. reg prod gisk prom posj, beta 


F( 3, 46) = 28.62 

Model 564.685207 3 188.228402 Prob > F = 0.0000 



Total 867.178276 49 17.6975158 Root MSE = 2.5644 

prod Coef. Std. Err. t P>|t| Beta 

gisk .3519726 .0732154 4.81 0.000 .5017156 

prom 2.234714 .4293445 5.20 0.000 .5090658 

posj 1.450143 .4658765 3.11 0.003 .2955483 

_cons -1.712828 2.942173 -0.58 0.563 . 

Output 1.8 

Standardizovani regresioni koecijenti su prikazani u koloni Beta unutar 

outputa 1.8. Njihove vrijednosti govore o broju standardnih devijacija za 

koje ¢e se promijeniti vrijednost zavisne varijable ako se vrijednost nezavisne 

varijable promijeni za jednu standardnu devijaciju. Budu¢i da ne zavise od 

jedinica mjere kojima su mjerene pojedine varijable, ovi koecijenti nam 

daju bolji uvid u vaºnost svakog prediktora unutar modela, omogu¢uju¢i 

da uporedimo relativni efekt prediktora mjerenih na razli£itim skalama. 13 

Dobijene standardizovane koecijente iz outputa 1.8 tuma£imo na sljede¢i 

na£in: 

• Godine iskustva prodava£a (standardizovani b 1 = 0, 502): Prodava£ 

koji ima iskustvo ve¢e za 1 standardnu devijaciju, moºe o£ekivati prodaju 

ve¢u za 0,502 standardne devijacije uz uslov da ostale nezavisne 

varijable ostanu nepromijenjene. Standardna devijacija za varijablu 

13 Vaºnost ovdje treba shvatiti uslovno jer vrijednost standardizovanih koecijenata jo² 

uvijek zavisi od drugih nezavisnih varijabli koje su uklju£ene u model. Takožer, odogovor 

na pitanje koja je varijabla najvaºnija zavisi od konteksta u kojem se postavlja pitanje. 

Naime, vrijednosti nekih prediktora se u prkasi mogu mnogo teºe mijenjati. Analiti£ar 

treba uzeti u obzir kakve promjene su izvodljive, koliko ko²taju i sli£no. U na²em 

primjeru, kompanija relativno lako moºe promijeniti budºet za unapreženje prodaje. S 

druge strane, iskustvo prodava£a je teºe unaprijediti u kratkom roku.


je gisk SD = 5, 99 a za prod SD = 4, 206. Dakle, za komercijalistu sa 

dodatnih 5,99 godina iskustva moºemo o£ekivati obim ostvarene prodaje 

ve¢i za dodatnih 2.111 KM (0,502×4,206), ²to je ta£no samo ako 

vrijednosti ostalih prediktora drºimo konstantnim. 

• Budºet za unapreženje prodaje (standardizovani b 2 = 0, 509): Ako se 

budºet za unapreženje prodaje koji komercijalista ima na raspolaganju 

pove¢a za jednu 1 standardnu devijaciju, vrijednost zavisne varijable 

¢e se pove¢ati za 0,509 standardne devijacije uz uslov da ostale nezavisne 

varijable ostanu nepromijenjene. Dakle, za svakih dodatnih 

958 KM (prom SD = 0, 958) uloºenih u budºet za unapreženje prodaje, 

ostvareni obim prodaje u prosjeku ¢e se pove¢ati za 2.141 KM 

(0,509×4,206), ²to je ta£no samo ako vrijednosti ostalih prediktora dr- 

ºimo konstantnim. 

• Broj terenskih posjeta (standardizovani b 3 = 0, 295): Koecient nam 

govori da za komercijalistu koji u odnosu na kolegu ima broj posjeta 

ve¢i za 1 standardnu devijaciju, moºemo o£ekivati prodaju ve¢u za 

0,295 standardne devijacije uz uslov da ostale nezavisne varijable ostanu 

nepromijenjene. Drugim rije£ima, za komercijalistu sa brojem 

posjeta koji je ve¢i za 0,857 (posj SD = 0, 857) u odnosu na drugog 

komercijalistu, moºemo o£ekivati ostvarenu prodaju u prosjeku ve¢u 

za 1.240 KM (0,295×4,206), ²to je ta£no samo ako vrijednosti ostalih 

prediktora drºimo konstantnim. 

Uporedbom standardizovanih koecijenata zaklju£ujemo da budºet za unapreženje 

prodaje (prom) i iskustvo prodava£a (gisk) imaju gotovo identi£nu 

relativnu vaºnost unutar modela. Efekat ove dvije varijable je znatno ve¢i 

od efekta varijable broj posjeta (posj). Ovakav zaklju£ak je u skladu i sa 

dobijenom t-statistikom. 

Iako se za sagledavanje vaºnosti varijabli unutar regresionog modela naj- 

£e²¢e koriste stadardizovane beta vrijednosti, postoje i drugi pokazatelji. 

Svaki od tih pokazatelja vaºnost varijabli prediktora posmatra iz drugog aspekata. 

Za detaljnu diksuiju i pregled alternativnih pokazatelja pogledati 

[2].

Bibliograja 

[1] Mileva šiºi¢, Miodrag Lovri¢, and Dubravka Pavli£i¢. Metodi statisti£ke 

analize. Ekonomski fakultet Beograd, Beograd, 11 edition, 2001. 

[2] Laura L. Nathans, Frederick L. Oswald, and Kim Nimon. Interpreting 

multiple linear regression: A guidebook of variable importance. Practical 

Assessment, Research & Evaluation, 17(9), 2012. 

[3] Paul Newbold, William L. Carlson, and Betty M. Throne. Statistika za 

poslovanje i ekonomiju. Mate d.o.o., Zagreb, Zagreb, 2010. 

29

Marketing analitika: Pretpostavke OLS 

regresionog modela 1 


13. 04. 2015. (ver. 1.1) 



autora.

Sadrºaj 

1 Pretpostavke OLS regresionog modela 3 

1.1 Pretpostavke koje se ti£u podataka i uzorka . . . . . . . . . . 3 

1.1.1 Tipovi varijabli . . . . . . . . . . . . . . . . . . . . . . 4 

1.1.2 Preciznost mjerenja varijabli . . . . . . . . . . . . . . 5 

1.1.3 Veli£ina i karakteristike uzorka . . . . . . . . . . . . . 5 

1.1.4 Nedostaju¢i podaci . . . . . . . . . . . . . . . . . . . . 6 

1.1.4.1 Obrasci nedostaju¢ih podataka . . . . . . . . 6 

1.1.4.2 Rje²avanje problema nedostaju¢ih podataka . 8 

1.1.5 Netipi£ne opservacije . . . . . . . . . . . . . . . . . . . 8 

1.1.5.1 Efekti netipi£nih opservacija . . . . . . . . . 9 

1.1.5.2 Vrste netipi£nih opservacija . . . . . . . . . . 11 

1.1.5.3 Detektovanje netipi£nih opservacija . . . . . 12 

1.1.5.4 Analiza veli£ine uticaja netipi£nih opservacija 

na model . . . . . . . . . . . . . . . . . . 18 

1.1.5.5 Strategija detekcije netipi£nih opservacija . . 20 

1.1.5.6 Rje²avanje problema netipi£nih opservacija . 21 

1.1.6 Vrijednosti nezavisne varijable x su ksne . . . . . . . 23 

1.2 Pretpostavke koje se odnose na pravilnu specikaciju modela 23 

1.2.1 Nepostojanje endogenosti . . . . . . . . . . . . . . . . 24 

1.2.1.1 Efekti endogenosti . . . . . . . . . . . . . . . 24 

1.2.1.2 Rje²avanje problema endogenosti . . . . . . . 25 

1.2.2 Linearnost . . . . . . . . . . . . . . . . . . . . . . . . . 25 

1.2.2.1 Ispitivanje pretpostavke o linearnosti . . . . . 25 

1.2.2.2 Efekti naru²avanja linearnosti . . . . . . . . . 28 

1.2.2.3 Modeliranje nelinearne funkcionalne veze . . 28 

1.2.3 Nepostojanje multikolinearnosti . . . . . . . . . . . . . 28 

1.2.3.1 Detektovanje multikolinearnosti . . . . . . . 29 

1.2.3.2 Efekti multikolinearnosti . . . . . . . . . . . 31 

1

SADRšAJ 2 

1.2.3.3 Rje²avanje problema multikolinearnosti? . . . 32 

1.2.3.4 Multikolinearnost i efekat suzbijanja . . . . . 33 

1.3 Pretpostavke koje se odnose na svojstva distribucije reziduala 36 

1.3.1 Nepostojanje heteroskedasti£nosti . . . . . . . . . . . . 37 

1.3.1.1 Uzroci heteroskedasti£nosti . . . . . . . . . . 39 

1.3.1.2 Detektovanje heteroskedasti£nosti . . . . . . 40 

1.3.1.3 Efekti heteroskedasti£nosti . . . . . . . . . . 43 

1.3.1.4 Rje²avanje problema heteroskedasti£nosti . . 43 

1.3.2 Nezavisnost i nepostojanje autokorelacije . . . . . . . 44 

1.3.2.1 Detektovanje autokorelacije . . . . . . . . . . 46 

1.3.2.2 Efekti autokorelacije . . . . . . . . . . . . . . 48 

1.3.2.3 Rje²avanje problema autokorelacije . . . . . . 49 

1.3.3 Normalnost . . . . . . . . . . . . . . . . . . . . . . . . 49 

1.3.3.1 Ispitivanje pretpostavke o normalnosti . . . . 50 

1.3.3.2 Efekti naru²avanja pretpostavke o normalnosti 53 

1.3.3.3 Rje²avanje problema naru²ene pretpostavke 

o normalnosti . . . . . . . . . . . . . . . . . . 53

Poglavlje 1 

Pretpostavke OLS regresionog 

modela 

Da bi kompletirali regresioni model, moramo razmotriti i njegove osnovne 

pretpostavke. Pretpostavke se odnose na odrežene uslove koji trebaju biti 

ispunjeni kako bi zaklju£ci koje ¢emo izvesti na osnovu modela bili ta£ni. 

Kada su pretpostavke zadovoljene, kaºemo da je OLS metod estimacije nepristrasan, 

konzistentan i ekasan. Ukoliko je neka od pretpostavki naru²ena, 

postoji opasnost da ¢e izra£unati koecijenti biti pristrasni, testovi signikantnosti 

nepouzdani a samim tim i zaklju£ci koje ¢emo donijeti na bazi 

modela mogu biti pogre²ni. Takožer, pretpostavke su bitne ako rezultate 

analize do kojih smo do²li na bazi uzorka ºelimo generalizirati na cjelokupnu 

populaciju. Ako su zadovoljene sve pretpostavke onda dati model moºemo 

prili£no precizno iskoristiti za predvižanje i dono²enje zaklju£aka o populaciji. 

Pretpostavke moºemo podijeliti u tri generalne skupine: 

1.1 Pretpostavke koje se ti£u podataka i uzorka 

Pretpostavke iz ove grupe se odnose na speci£nosti vezane za same podatke 

i uzorak: a) vrste varijabli koje mogu biti kori²tene u regresionoj analizi, b) 

preciznost mjerenja varijabli, c) veli£inu i karakteristike uzorka, d) nedostaju¢e 

podatke i netpi£ne vrijednosti unutar uzorka i e) prirodu prediktora. 

3

POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 4 

1.1.1 Tipovi varijabli 

Ova pretpostavka se odnosi na vrste varijabli koje moºemo koristiti u regresionoj 

analzi. Zavisna varijabla mora biti mora biti metrijska (engl. continous) 

i neograni£ena (engl. unbounded). Metrijske varijable predstavljaju 

podatke mjerene na intervalnim i proporcionalnim skalama. Osnovna razlika 

izmežu ova dva tipa skala je ²to proporcionalne skale imaju prirodnu nulu 

kao svoj po£etak, dok intervalne skale za po£etnu vrijednost uzimaju arbitrarnu 

vrijednost. Metrijske varijable omogu¢avaju mjerenje veli£ine razlike 

izmežu vrijednosti na kojima se skala kre¢e. U softverskim paketima kao 

²to su SPSS, Stata i sl. ne pravi se posebna razlika izmežu intervalnih i 

proporcionalnih skala i one se u analizama tretiraju jednako. 

U praksi se £esto moºe na¢i na primjere gdje je zavisna varijabla bila 

ordinalnog tipa [8, p. 93]. Ovo se posebno odnosi na situacije kada su za 

mjerenje kori²tene Likertove skale. Nije neuobi£ajeno da istraºiva£i raspone 

na Likertovoj skali posmatraju kao intervalne a ne kao ordinalne. Takožer, 

£esta je praksa da se prilikom izrade upitnika broj stepeni Likertove skale 

pove¢ava kako bi ona vjernije opona²ala karakteristike metrijskih varijabli. 

U skladu sa tim, pored uobi£ajenih petostepenih, u praksi se koriste ²estostepene, 

sedmostepene, pa £ak i desetostepene Likertove skale. Ipak, pokazalo 

se da nema posebno bitnih razlika izmežu petostepene i skala sa vi²e opcija 

za odgovore (sedmosetepenih i desetostepenih) u pogledu kvalitete dobijnih 

podataka za kori²tenje u regresionoj analizi [4]. 

Neograni£ena varijabla je ona koja obuhvata vrijednosti iz cjelokupnog 

o£ekivanog raspona. Na primjer, pretpostavimo da se o£ekivana vrijednost 

neke varijable kre¢e u rasponu 1 10. Ako prikupljeni podaci na bazi uzorka 

za tu variablu variraju u rasponu 3 7 onda se javlja ograni£enost. Ova 

pretpostavka je vaºna kada radimo predvižanje vrijednosti zavisne varijable. 

Dobijena OLS linija se moºe ekstrapolirati u oba smjera ali je smislena samo 

unutar prirodnog raspona zavisne varijable [8]. 

Nezavisne varijable mogu biti metrijske, ordinalne i kategorijske. Kad 

je rije£ o kategorijskim varijablama, naj£e²¢e se upotrebljavaju binarne varijable 

(engl. dummy variables).


1.1.2 Preciznost mjerenja varijabli 

Ova pretpostavka se odnosi na to da ne smije postojati gre²ka pri mjerenju 

varijabli (engl. measurement error) koje se koriste unutar regresionog 

modela. Neke pojave, posebno ako je rije£ o latentnim konstruktima, ne mo- 

ºemo uvijek precizno izmjeriti. U takvim situacijama se potrebno potruditi 

da gre²ka mjerenja bude svedena na minimum. Zbog toga se velika paºnja 

posve¢uje odabiru validnog i pouzdanog instrumenta mjerenja (to su naj- 

£e²¢e razli£ite vrste upitnika), te selekciji i treningu osoblja koje ¢e obavljati 

mjerenje (odnosno anketiranje). 

1.1.3 Veli£ina i karakteristike uzorka 

U literaturi se mogu na¢i razli£ite preporuke u pogledu veli£ine uzorka neophodnog 

za regresionu analizu. Uobi£ajna su jednostavna pravila gdje se 

veli£ina uzorka odrežuje prema broju nezavisnih varijabli unutar regresionog 

modela. Tako se uzima da je pet opservacija za svaku nezavisnu varijablu 

(5:1) minimum ispod kojeg se ne bi smjelo i¢i ni u kom slu£aju [10]. Dakle, 

ukoliko imamo 3 nezavisne varijable, minimalna veli£ina uzorka bi iznosila: 

5 × 3 = 15 opservacija. Ipak, mnogo su £e²¢e preporuke da je poºeljno imati 

10:1 ili 15:1 opservacija za svaku nezavisnu varijablu. Manji broj opservacija 

u uzorku moºe rezultirati sa ve¢im standardnim gre²kama pri procjeni parametara. 

Takav model nema dovoljno snage (engl. statistical power) kako 

bi se detektovala veza izmežu nezavisne i zavisne varijable. Drugim rije- 

£ima, moºe se desiti da u uzorku regresioni koecijenti ne budu statisti£ki 

signikantni iako u stvarnosti jesu. Ipak, potrebno je imati na umu da u veoma 

velikim uzorcima, koji obuhvataju stotine ili hiljade opservacija, testovi 

signikantnosti mogu biti vrlo osjetljivi. U takvim situacijama nije neuobi- 

£ajeno da £ak i vrlo slabe veze budu statist£ki signikantne. Iz tog razloga je 

pored statisti£ke signikantnosti potrebno sagledati i prakti£nu vaºnost date 

varijable. 

Kad je rije£ o karakteristikama uzorka podaci bi trebali biti prikupljeni 

na bazi slu£ajnog uzorka i reprezentativni za populaciju na koju se odnose. 

Na primjer, kada se rade telefonska anketiranja, uobi£ajeno je da uzorak 

obuhvati vi²e osoba ºenskog pola i vi²e starijih ispitanika. Ovo ne iznenažuje, 

obzirom da su ºene i stariji vi²e prisutni u doma¢instvu kada se radi 

intervju. O ovakvim stvarima je potrebno voditi ra£una jer ¢e nereprezentativan 

uzorak dovesti i do pogre²no estimiranih parametara modela koji se ne


mogu generalizirati za populaciju u cjelini. U takvim situacijama je mogu¢e 

kreirati odgovaraju¢e pondere za demografske varijable kako bi se korigovali 

rezultati analize za pristranosti uzorka. 

1.1.4 Nedostaju¢i podaci 

Pod nedostaju¢im podakom podrazumjeva se situacija u kojoj validna vrijednost 

za neku varijablu nije dostupna. Na primjer, ispitanik je presko£io 

pitanje u anketi jer nije znao odgovor, nije ºelio da odgovori, pitanje nije 

smatrao relevantnim i sli£no. 

Problem nedostaju¢ih podataka je naj£e²¢i problem u analizi podataka 

[10, 17]. Izbjegavanje rje²avanja problema nedostaju¢ih podataka moºe imati 

dvojak uticaj na kasniju analizu: a) prakti£ni uticaj koji se ogleda u smanjenju 

veli£ine uzorka koji je dostupan za analizu i b) uticaj na pristrasnost 

dobijenih rezultata. Ozbiljnost problema zavisi od obrasca po kojem se javljaju 

nedostaju¢i podaci, njihovog obima i razloga zbog kojeg se javljaju. 

1.1.4.1 Obrasci nedostaju¢ih podataka 

Obrazac po kojem se javljaju nedostaju¢i podaci je mnogo vaºniji od njihovog 

obima [17]. Zato, klju£no pitanje na koje istraºiva£ treba da odgovori 

odnosi se na to da li se moºe identikovati odreženi sistematski proces koji 

je doveo do pojave nedostaju¢ih podataka ili se nedostaju¢i podaci javljaju 

po slu£ajnom obrascu. Razumjevanje procesa koji je doveo do toga da podaci 

nedostaju je bitno jer od toga zavisi izbor korektivne akcije [10]. Npr. 

zamislimo situaciju u kojoj znamo vlasni£ku strukturu rme (x varijabla) 

i postavili smo pitanje vezano za njen prot (y varijabla). Mogu¢e su tri 

situacije: 

1. Nedostaju¢e vrijednosti se javljaju prema potpuno slu£ajnom obrascu 

u jednakom omjeru za javne i privatne rme. U ovakvoj situaciji ka- 

ºemo da se nedostaju¢i podaci javljaju prema potpuno slu£ajnom 

obrascu (engl. Missing Completly at Random MCAR) ²to zna£i da 

nedostaju¢i podaci za varijblu y ne zavise od vrijednosti varijable x, 

niti od same vrijednosti varijable y. 

2. Nedostaju¢e vrijednosti se javljaju prema slu£ajnom obrascu, ali u nejednakom 

omjeru za javne i privatne rme. Npr. moºemo uo£iti da su


menadºeri privatnih rmi £e²¢e izostavili podatak o protu. U ovakvoj 

situaciji kaºemo da se podaci javljaju prema slu£ajnom obrascu 

(engl. Missing at Random MAR). Nedostaju¢i podaci za varijblu y 

zavise od vrijednosti varijable x, ali ne i od varijable y, ako x drºimo 

konstantnom. Drugim rije£ima, u okviru obje grupe imamo slu£ajni 

proces, ali u jednoj grupi se javlja vi²e nedostaju¢ih podataka nego u 

drugoj. 

3. U tre¢oj situaciji moºemo imati nejednake omjere nedostaju¢ih podataka 

za privatne i javne rme, ali za razliku od prethodne situacije, nedostaju¢i 

podaci u okviru grupa ne javljaju se po slu£ajnom obrascu. 

Npr. moºemo uo£iti da su menadºeri privatnih rmi £e²¢e izostavili 

podatak o protu, ali u okviru ove grupe moºemo zapaziti i ve¢u vjerovatno¢u 

da je podatak o protu izostavljen upravo za one rme za 

koje pretpostavljamo da imaju ve¢i prot. U ovakvoj situaciji kaºemo 

da se nedostaju¢i podaci ne javljaju po slu£ajnom obrascu (engl. 

Not Missing at Random NMAR), jer nedostaju¢i podaci za varijablu 

y (prot) zavise od vrijednosti varijable x (vlasni£ka struktura), ali i 

od vrijednosti same varijable y (o£ekivane visine prota za privatne 

rme). 

MCAR i MAR se ponekad nazivaju i ignorabilnim nedostaju¢im podacima, 

dok se NMAR nazivaju neignorabilnim nedostaju¢im podacima. Sam naziv 

ignorabilni dolazi od toga ²to za MCAR i MAR nedostaju¢e podatke postoje 

razli£ite tehnike kojima se ovi podaci mogu tretirati. S druge strane, 

NMAR nedostaju¢i podaci predstavljaju mnogo ve¢i problem jer ne postoji 

jasan mehanizam po kojem bi se ispravila pristrasnost i obezbjedila eksterna 

validnost studije. 

Iako termini MCAR, MAR i NMAR omogu¢avaju teorijsku distinkciju 

izmežu procesa koji su doveli do nastanka nedostaju¢ih podataka, u praksi 

je nekada te²ko odrediti o kojem se od ova tri mehanizma radi u konkretnom 

slu£aju. Situacija se usloºnjava sa kompleksno²¢u studije i brojem varijabli 

koje se koriste. Iako postoje empirijski testovi da se ustanovi da li podaci 

nedostaju po MCAR obrascu, mnogo je teºe utvrditi da li su podaci MAR 

i NMAR. Za utvrživanje ove razlike ne postoje empirijski testovi i prvenstveno 

se gleda da li se radi o ignorabilnom mehanizmu koji je doveo do 

nastanka istih. Mehanizam se smatra ignorabilnim ukoliko je isti vezan za 

informaciju koja je poznata istraºiva£u (npr. znamo da je ispitanik presko- 

£io neka pitanja jer nisu primjenjiva na njegovu situaciju). S obzirom da ne 

postoji dijagnosti£ka procedura da se ovo provjeri istraºiva£ se mora osloniti


prvenstveno na logiku i dobro poznavanje domena koje istraºivanje obuhvata 

[12]. 

1.1.4.2 Rje²avanje problema nedostaju¢ih podataka 

Tehnike koje se koriste za treiranje nedostaju¢ih podataka moºemo podijeliti 

u tri grupe. 

1. Tradicionalne tehnike: a) izbacivanje iz uzorka opservacija koje imaju 

nedostaju¢i podatak po bilo kojoj varijabli (engl. casewise delition), 

b) izbacivanje iz uzorka samo onih opservacija koje nemaju kompletne 

podatke za parove varijabli koje se koriste kako bi se izra£unali korelacioni 

koecijenti na kojima se zasniva regresiona analiza (engl. pairwise 

delition) i c) zamjena nedostaju¢ih vrijednosti jedinstvenim brojem, 

naj£e²£e aritmeti£kom sredina varijable (engl. single imputation methods). 

2. Sosticirani metodi koji nedostaju¢e podatke tretiraju tokom same 

analize: a) ne²to stariji EM algoritam (engl. expectationmaximization) 

i b) noviji FIML pristupi (engl. full information maximum likelihood). 

3. Tehnike vi²estruke imputacije (engl. multiple imputation). 

Koju tehniku ¢emo koristi zavisi prvenstveno od obima nedostaju¢ih podataka, 

kao i da li su podaci MCAR (u kojem slu£aju je pogodna bilo koja od 

navedenih tehnika) ili MAR (gdje tradicionalne tehnike nisu podesne budu¢i 

da vode pristrasnosti dobijenih rezultata). Kada se nedostaju¢i podaci javljaju 

u relativno malom obimu (


Univarijantna netipi£na opservacija (engl. univariate outlier) ima 

netipi£nu vrijednost unutar jedne varijable. Na primjer, ukoliko smo mjerili 

visinu li£nog dodhotka, osoba sa mjese£nim dohodkom znatno ve¢im od 

prosjeka bi predstavljala netipi£nu univarijantnu opservaciju. 

Regresiona netipi£na opservacija (engl. regression outlier) ima netipi£nu 

vrijednost zavisne varijable y za datu vrijednost nezavisne varijable x. 

Samim tim, unutar regresionog modela ni jedna opservacija sa netipi£nom 

univarijantnom vrijedno²¢u za x ili y nije nuºno netipi£na sama po sebi, ve¢ 

samo ako se posmatra u paru sa vrijednostima druge varijable. 

1.1.5.1 Efekti netipi£nih opservacija 

Netipi£ne regresione opservacije mogu imati veliki uticaj na regresioni model, 

posebno kada imamo mali uzorak. U nekim slu£ajevima, uklju£ivanje ili 

izbacivanje netipi£ne vrijednosti moºe u potpunosti promijeniti regresione 

koecijente, a samim tim i prirodu regresione veze. Na slici 1.1 imamo 

primjer jedne takve drasti£ne promjene.


Slika 1.1 

Opservacija ozna£ena punim krugom u gornjem lijevom uglu slike 1.1 

ima netipi£nu vrijednost jer se znatno razlikuje od svih ostalih vrijednosti u 

uzorku. U slu£aju da ova opservacija ostane u uzorku, regresioni koecijent 

b 1 ¢e biti negativan (isprekidana linija). Mežutim, ukoliko ovu opservaciju 

isklju£imo iz uzorka, regresioni koecijent b 1 ¢e postati pozitivan a regresiona 

linija ¢e imati druga£iji smijer (puna linija). Samim tim, zaklju£ci koje 

budemo donosili na osnovu regresionog modela sa netipi£nom opservacijom 

¢e biti druga£iji, a u ovom ekstremnom slu£aju £ak i suprotni, u odnosu na 

model iz kojeg smo tu opservaciju isklju£ili. Naravno, ovo nije zadovoljavaju¢e 

jer ºelimo kreirati regresioni model koji ne¢e biti pod velikim uticajem 

jedne ili nekoliko netipi£nih opservacija. Poºeljan model je onaj u kojem sve 

opservacije manje-vi²e jednako doprinose modelu.


1.1.5.2 Vrste netipi£nih opservacija 

Prije nego prežemo na samu identikaciju i procjenu veli£ine uticaja koji ¢e 

netipi£na opservacija imati na model, moramo znati da je taj uticaj funkcija 

dva faktora: (1) razlike izmežu predvižene vrijednosti za datu opservaciju 

i njene stvarne vrijednosti (engl. distance) i (2) razlike izmežu vrijednosti 

opservacije i vrijednosti aritmeti£ke sredine prediktora (engl. leverage). U 

tom smislu, razlikujemo dvije vrste netipi£nih vrijednosti: outliere i leverage 

ta£ke. 

U okviru regresionog modela outlier je opservacija koja ima netipi£nu 

vrijednost zavisne varijable y za datu vrijednost nezavisne varijable x. Kod 

takve opservacije, njena stvarna vrijednost y odstupa znatno od njene vrijednosti 

predvižene modelom ŷ. Zato takve opservacije imaju netipi£no veliku 

vrijednost reziduala (e i = y i − ŷ i ). S druge strane, leverage ta£ka je opservacija 

koja ima netipi£nu vrijednost nezavisne varijable x u odnosu na 

ostale opservacije iz uzorka. Generalno govore¢i, outlieri smanjuju reprezentativnost 

modela, ali svaki outlier ne mora nuºno imati uticaj na regresione 

koecijente. Takožer, svaka opservacija koja ima visok leverage ne mora 

nuºno predstavljati problem. Primjeri ovakvih opservacija su predstavljeni 

na slici 1.2. 

Generalno govore¢i, outlieri smanjuju reprezentativnost modela, ali svaki 

outlier ne mora nuºno imati uticaj na regresione koecijente. Takožer, svaka 

opservacija koja ima visok leverage ne mora nuºno predstavljati problem.


Slika 1.2 

Opservacija I je outlier jer ima netipi£no veliku vrijednost reziduala. Ipak, 

uticaj ove opservacije na na nagib regresione linije (b 1 ) je izuzetno mali obzirom 

da je njena pozicija vrlo blizu prosjeka nezavisne varijable (x ¯ = 4, 77). 

Prvenstveni uticaj outlier I ima na konstantu b 0 jer cijelu regresionu liniju 

povla£i vertikalno prema sebi. 

Opservacije G i H su leverage ta£ke zato ²to imaju vrijednosti koje su 

znatno udaljene od prosijeka nezavisne varijable (x ¯ = 4, 77). Opservacija G 

ne uti£e mnogo na koecijente b 0 i b 1 obzirom da je njena pozicija vrlo blizu 

regresionoj liniji. S druge strane, opservacija H je problemati£na jer pored 

toga ²to je leverage ta£ka (ima netipi£nu vrijednost za x), ona je i outlier 

(ima netipi£nu vrijednost y za dato x). Zbog toga opservacija H uti£e na 

konstantu b 0 i koecijent b 1 i obara regresionu liniju prema sebi. 

1.1.5.3 Detektovanje netipi£nih opservacija 

Postavlja se pitanje koliko neka opservacije mora biti druga£ija u odnosu 

na ostale da bi je proglasili netipi£nom? Postoji nekoliko tehnika koje nam 

mogu pomo¢i da identikujemo da li opservacija ima netipi£nu vrijednost.


Da bi uo£ili netipi£ne opservacije u slu£aju proste regresije £esto je dovoljna 

vizuelna inspekcija dijagrama rasipanja (kao na slici 1.1). Kada 

imamo vi²estruki regresioni model za vizuelnu inspekciju koristimo parcijalne 

regresione dijagrame (engl. 

partial regression plots ili addedvariable 

plots). Oni omogu¢avaju da, uz odrežene ustupke, multidimenzionalne 

podatke predstavimo preko dvodimenzionlanih dijagrama. Parcijalni 

dijagrami pokazuju odnos izmežu reziduala zavisne varijable i nezavisne varijable 

kada su obje varijable regresirane odvojeno na preostaju¢e nezavisne 

varijable. 

Unutar State, parcijalne regresione dijagrame moºemo dobiti uz pomo¢ 

naredbe avplots. Parcijalni regresioni dijagrami za model 1.10 su predstavljeni 

na slici 1.3. 

. avplots, mlabel (id) 

Slika 1.3 

U slu£aju prvog dijagrama vertikalna y-osa predstavlja vrijednosti reziduala 

koji ostanu kada se za predvižanje vrijednosti zavisne varijable prod


(prodaja) upotrijebe sve nezavisne varijable, osim varijable gisk (godine iskustva). 

Na horizontalnoj x-osi su vrijednosti reziduala koji ostanu kada se 

za predvižanje vrijednosti nezavisne varijable gisk (godine iskustva) upotrijebe 

sve ostale nezavisne varijable. Ostala dva dijagrama prikazana na slici 

1.3 kreiraju se po istom principu. Samo se mijenja nezavisna varijabla £iji 

reziduali se prikazuju na horizontalnoj osi. 

Parcijalni regresioni dijagrami imaju sljede¢e osobine: 

• Izra£unavanjem reziduala, otklanjaju se linearni efekti drugih nezavisnih 

varijabli, kako unutar zavisne tako i unutar svake nezavisne varijable 

[13]. 

• Regresiona linija na parcijalnim dijagramima ima koecijent i standardnu 

gre²ku (korigovanu za broj stepeni slobode) jednaku procijenjenom 

koecijentu i standardnoj gre²ci za dati prediktor unutar orginalne 

regresione jedna£ine [16]. 

• Sa£uvan je pojedina£ni efekat svake opservacije na nagib regresione 

linije [16]. 

Zbog navedenih osobina parcijalni dijagrami se mogu upotrijebiti za dijagnostiku 

dvije pretpostavke regresionog modela. 

Prvo, parcijalne regresione dijagrame koristimo da vizuelno provjerimo 

da li postoje izuzetno veliki reziduali koji mogu imati nesrazmjeran uticaj 

na regresioni koecijent nezavisne varijable. Tako sa slike 1.3 moºemo vidjeti 

da ni za jednu nezavisnu varijablu ne postoje opservacije sa netipi£nim 

rezidualima. Ta£ke su ravnomjerno rasporežene oko linija ²to ukazuje i na 

to da je ispunjena pretpostavka o postojanju homoskedasti£nosti (o £emu ¢e 

vi²e rije£i biti u zasebnoj sekciji). 

Eventualni izuzetak je opservacija broj 48 na drugom i opservacija broj 16 

na posljednjem dijagramu. Ove opservacije imaju ne²to ve¢u vrijednost reziduala 

i mogle bi uticati na regresione koecijente prediktora prom (budºet 

za unapreženje prodaje) i posj (broj posjeta). 

Drugo, neki istraºiva£i parcijalne dijagrame koriste da bi utvrdili da li 

izmežu zavisne varijable i prediktora postoji linearna veza [13, 7]. Mežutim, 

pri kreiranju parcijalnih regresionih dijagrama forsira se da veza izmežu y 

and x bude linearna. Samim tim, oni nisu najpogodni za ispitivanje pretpostavke 

o linearnosti [16, p. 1909]. Za vizuelno ispitivanje pretpostavke o 

linearnosti preporu£uje se kori²tenje druge vrste dijagrama koju ¢emo obraditi 

u okviru zasebne sekcije koja se bavi tom pretpostavkom.


Nekada vizuelna inspekcija nije dovoljna da sa sigurno²¢u kaºemo da li je 

neka opservacija netipi£na ili nije. Pri vizuelnom ispitivanju moºe postojati 

doza subjektivnosti pa ono ²to je jednom istraºiva£u u redu, drugi istraºiva£ 

moºe progasiti problemati£nim. Da bi detektovanju netipi£nih opservacija 

pristupili objektivnije, pored vizuelne inspekcije parcijalnih regresionih dijagrama, 

koristi¢emo se jo² nekim pokazateljima. Cilj je identikovati opservacije 

koje mogu imati znatan uticaj na koecijente i reprezentativnost 

modela. 

Da bi detektovali opservacije koje predstavljaju outliere, posluºi¢emo se 

analizom reziduala. Ranije smo rekli da nestandardizovani reziduali 

predstavljaju razliku izmežu predvižene vrijednosti ŷ, koju dobijemo na bazi 

regresionog modela, i stvarne vrijednosti opservacije u uzorku y. Obzirom 

da veli£ina reziduala zavisi od skale na kojoj je mjerena zavisna varijabla, 

postavlja se pitanje kada je rezidual dovoljno velik da zavrježuje paºnju 

istraºiva£a? Na primjer, ukoliko je zavisna varijabla mjerena na skali od 

1 do 100, rezidual sa vrijedno²¢u 3 nije veliki rezidual. Mežutim, ako se 

raspon vrijednosti na kojoj je mjerna zavisna varijabla kre¢e u intervalu od 

1 do 10, onda je rezidual sa vrijedno²¢u 3 prili£no velik. Kako bi se olak²ala 

usporedba reziduala izmežu razli£itih modela oni se mogu standardizovati. 

Standardizovani reziduali (engl. standardized residuals) se izra£unavaju 

tako ²to vrijednost nestandardizovanih reziduala podijelimo sa procijenjenom 

standardom devijacijom reziduala. Standardizovani reziduali imaju 

aritmeti£ku srednu jednaku 0 i standardnu devijaciju jednaku 1. Pod pretpostavkom 

da su normalno distribuirani, moºemo o£ekivati da ¢e se 95% 

standardizovanih reziduala nalazi u rasponu izmežu −2 i +2, dok ¢e se njih 

99% nalaziti unutar raspona od −2, 58 i +2, 58. Opservacije sa standardizovanim 

rezidualima izvan ovih raspona su neuobi£ajene i zavrežuju dodatnu 

paºnju, a posebno one koje imaju standardizovane reziduale izvan raspona 

−3 i +3. Ukoliko model dobro reprezentuje podatke, za o£ekivati je da ¢e 5% 

opservacija imati reziduale sa apsolutnom vrijedno²¢u ve¢om od 2, odnosno 

da ¢e 1% opservacija imati reziduale sa apsolutnom vrijedno²¢u ve¢om od 

2,58. 

Studentizovani reziduali (engl. studentized residuals) imaju ista svojstva 

kao i standardizovani reziduali ali obi£no pruºaju precizniju procjenu 

varijanse gre²ke za pojedina£nu opservaciju [7]. Dobijamo ih tako ²to vrijednost 

reziduala podijelimo sa procijenjenom standardom devijacijom reziduala 

u datoj ta£ci. Naime, kada ra£unamo standardizovane reziduale, svaki pojedni£ani 

rezidual dijelimo sa istom vrijedno²¢u (standardnom devijacijom


reziduala). Mežutim, predvižena vrijednost zavisne varijable y nije konstantna 

za sve opservacije ve¢ u jednoj mjeri zavisi od vrijednosti nezavisne 

varijable x. Opservacije sa vrijednostima koje su bliºe aritmeti£koj sredini 

uzorka imaju manji varijablitet predviženih vrijednosti u odnosu na opservacije 

koje su dalje od aritmeti£ke sredine. Zbog toga se na slici 1.5 interval 

ocjene ²iri kako se kre¢emo od sredine prema krajevima. Studentizovani reziduali 

uzimaju u obzir ove varijacije i omogu¢avaju da se lak²e uo£e kr²enja 

pretpostavki regresionog modela. Zato se njihovo kori²tenje vi²e preferira u 

odnosu na standardizovane reziduale [13, p. 424]. 

Isklju£eni reziduali (engl. deleted residuals) su jo² jedna vrsta reziduala 

koja se £esto upotrebljava za detekciju netip£nih opservacija. Koncept 

ovih redizuala po£iva na ideji da se orginalni regresioni model uporedi sa 

modelom gdje je jedna opservacija isklju£ena iz uzorka. Razlika izmežu predvižene 

vrijednosti ŷ na osnovu punog uzorka i predvižene vrijednosti ŷ 

kada smo iz uzorka isklju£ili jednu opservaciju predstavlja isklju£eni rezidual. 

Ukoliko isklju£ena opservacija nema veliki uticaj na model, onda bi 

o£ekivani isklju£eni rezidual za tu opservaciju trebao biti jednak ili vrlo blizu 

nuli. 

Kao i kod nestandardizovanih reziduala, veli£ina isklju£enih reziduala ¢e 

zavisi od jedinica mjere zavisne varijable. Kako bi se olak²ala njihova usporedba 

izmežu razli£itih modela, oni se standardizuju tako da se podijele 

sa procijenjenom standardnom gre²kom u datoj ta£ci. Tako dobijamo studentizovane 

isklju£ene reziduale (engl. studentized deleted residuals ili 

jack-knifed resiuduals). 

Ako su regresione pretpostavke ispunjene i ako imamo otprilike jednak 

broj opservacija za svaku vrijednost nezavisne varijable standardizovani, 

studentizovani i studentizovani isklju£eni reziduali ¢e na razli£itim dijagramima 

imati isti ²ablon rasipanja [13]. 

Unutar State moºemo upotrijebiti naredbu predict kako bi za model 

1.10 automatski izra£unali predvižene vrijednosti zavisne varijable (pprod), 

nestandardizovane (r), studentizovane (sr) i studentizovane isklju£ene reziduale 

(str). 1 Nakon ²to izra£unamo pomenute vrijednosti, pomo¢u naredbe 

1 Obratiti paºnju da smo nove varijable imenovali sa pprod, r, sr i str. Opcije rstandard 

i rstudent su skra¢enice koje dolaze od standardized i studentized ²to moºe biti zbunjuju¢e 

obzirom da se prva ne odnosi na standardizovane, a druga se ne odnosi na 

studentizovane reziduale. Naime, Stata koristi ne²to druga£iju terminologiju od uobi£ajene. 

Unutar Stata terminologije se pod standardizovanim rezidualima u stvari podrazumjevaju 

studentizovani, a Stata studentizovani reziduali se odnose na studentizovane


list moºemo traºiti spisak svih opservacija koje imaju apsolutne vrijednosti 

studentizovanih isklju£enih reziduala ve¢e od 2. 

. predict pprod 

(option xb assumed; fitted values) 

. predict r, resid 

. predict sr, rstand 

. predict str, rstud 

. list gisk prom posj prod pprod sr str if abs(str) > 2 

gisk prom posj prod pprod sr str 

16. 22 4 4 15.12865 20.77 -2.277327 -2.391268 

26. 22 3.5 4 24.60312 19.65264 1.989938 2.058798 

38. 14 3.5 5 23.42656 18.287 2.036837 2.112069 

42. 16 3 5 23.17513 17.87359 2.091818 2.174987 

Output 1.1 

Iz outuput-a 1.1 vidimo da postoje £etiri potencijalno velika reziduala 

vezana za opservacije: 16, 26, 38 i 42. Najve¢i rezidual vezan je za opservaciju 

16. Kako smo ranije rekli, manje od 5% opservacija bi trebalo imati 

studentizovane isklju£ene reziduale u apsolutnom iznosu ve¢e od 2, a samo 

1% opservacija bi trebalo imati ove reziduale u apsolutnom iznosu ve¢e od 

2,58. Obzirom da imamo uzorak od 50 ispitanika, prethodno navede £etiri 

opservacije £ine 12% uzorka ²to ukazuje da model ne reprezentuje podatke na 

najbolji na£in. Sre¢om, u uzorku ne postoji ni jedan rezidual sa apsolutnom 

vrijedno²¢u ve¢om od 2,58. 

Nakon ²to se putem analize reziduala identikuju outileri, pristupa se detekciji 

leverage ta£ki. Leverage (h) pokazuje koliko se vrijednost opservacije 

nalazi daleko od prosjeka prediktora. Vrijednost ovog pokazatelja se moºe 

kretati u rasponu od 0 do 1. ’to je opservacija dalje od prosje£ne vrijednosti 

varijable prediktora, ona ima ve¢i potencijal da postane leverage ta£ka. Uobi- 

£ajeno pravilo je da se ispitaju sve opservacije koje imaju leverage > (2k+2) /n 

gdje se k odnosi na broj prediktora, a n je broj opservacija. Za model 1.10 

to bi zna£ilo leverage i > (2×3+2) /50 > 0, 16. 

isklju£ene ili jack-knife reziduale. 

pogledati [16, p. 1879]. 

Za vi²e detalja o ovim terminolo²kim zakljo£icama


. predict lev, leverage 

. list gisk prom posj lev if lev>(2*3+2)/50 

gisk prom posj lev 

17. 21 5 3 .1869939 

21. 25 5 3 .1826717 

48. 10 .5 4 .1969223 

Output 1.2 

Unutar outputa 1.2 su prikazane tri opservacije (17, 21 i 48) koje imaju 

leverage > 0,16. 

1.1.5.4 Analiza veli£ine uticaja netipi£nih opservacija na model 

Do sada smo identikovali nekoliko opservacija koje imaju visoke reziduale 

i leverage. Postavlja se pitanje koliko one zaista uti£u na regresioni model? 

Da li je njihov uticaj neznatan ili je dovoljno velik da zahtjeva korektivne 

akcije? Uticaj opservacije na model bilo bi najbolje procijeniti simultano, 

istovremeno gledaju¢i koliko je data opservacija netipi£na i kao outlier i kao 

leverage ta£ka. Zbog toga, da bi dobili odgovor na pitanje koliki i kakav 

uticaj na model imaju opservacije sa netipi£nim vrijednostima, posluºi¢emo 

se sa nekoliko razli£itih pokazatelja koji u sebi kombinuju ove uticaje. 

Cook's distance (D) je kompozitna mjera koja pokazuje veli£inu uticaja 

pojedina£ne opservacije na agregatnu promjenu estimiranih koecijenata 

kada se opservacija isklju£i iz modela. Kaºemo da je to kompozitna 

mjera jer skre¢e paºnju na opservacije koje uti£u na model kao reziduali, 

leverage ta£ke ili oboje. Postoje razli£ita mi²ljenja o tome koje vrijednosti 

ovog pokazatelja su uzimaju kao potencijalno problemati£ne. Neki smatraju 

da je potrebno ispitati sve opservacije koje imaju D i > 4 /n, gdje je n = broj 

opservacija [16, p. 1881]. S druge strane, postoji jednostavno pravilo koje 

kaºe da su problemati£ne samo one opservacije koje imaju D i > 1 [7].


. predict d, cooksd 

. list gisk prom posj d if d>4/50 

gisk prom posj d 

16. 22 4 4 .0928654 

48. 10 .5 4 .1843889 

Output 1.3 

Prema prvom kriteriju opservacije broj 16 i 48 su potencijalno problemati£ne, 

²to vidimo na outputu 1.3. Mežutim, prema alternativnom kriteriju 

D i > 1 niti jedna opservacija ne predstavlja problem. 

Dfbeta pokazuje promjenu vrijednosti koecijenta kada je opservacija 

uklju£ena u model i kada nije. Izra£unava se za svaku varijablu posebno. 

Poºeljno je provjeriti sve opservacije koje imaju standardizovani |dfbeta i | > 

2/ √ n, gdje je n = broj opservacija u uzorku. U na²em primjeru to bi zna£ilo 

|dfbeta i | > 2 / √ 50 > 0, 283. 

I ovdje postoji alternativno pravilo koje kaºe da su problemati£ne one 

opservacije koje imaju |dfbeta i | > 1. Drugim rije£ima, one opservacije koje 

pomijeraju estimirani koecijent minimalno za 1 standardnu gre²ku. 

. dfbeta 

_dfbeta_1: dfbeta(gisk) 

_dfbeta_2: dfbeta(prom) 

_dfbeta_3: dfbeta(posj) 

. list gisk prom posj _dfbeta_1 _dfbeta_2 _dfbeta_3 if abs(_dfbeta_1)>2/sqrt(50 

> ) | abs(_dfbeta_2)>2/sqrt(50) | abs(_dfbeta_3)>2/sqrt(50) 

gisk prom posj _dfbeta_1 _dfbeta_2 _dfbeta_3 

1. 12 1 5 .0865975 -.344272 -.0088758 

3. 19 2 5 -.3094202 .3119982 -.1024393 

12. 14 5 5 .1211632 -.2908617 -.0254808 

27. 7 4 5 -.3025258 .2957777 -.0470022 

39. 14 3 6 -.0751978 -.0379395 -.2830282 

48. 10 .5 4 -.0261169 -.7008276 -.4186615 

Output 1.4 

Na outputu 1.4 se nalazi prikaz uticaja razli£itih opservacija na vrijednosti


koecijenta sve tri nezavisne varijable. Vidimo da na koecijent nezavisne 

varijable gisk (godina iskustva) najve¢i uticaj ispoljavaju opservacije 3 i 27. 

Koecijent varijable prom (budºet za unapreženje prodaje) je pod uticajem 

opservacija 1, 3, 12, 27 i 48. Kona£no, koecijent nezavisne varijable posj 

(broj posjeta) je jedino pod uticajem opservacije 48. Mežutim, ova opservacija 

sa dfbeta 48 = −0, 70 za varijablu prom (budºet za unapreženje prodaje) 

i dfbeta 48 = −0, 42 za varijablu posj (broj posjeta) ima najve¢i uticaj. 

1. 

Ponovo, prema drugom kriteriju, niti jedna opservacija nema |dfbeta i | > 

Dt pokazuje razliku izmežu predvižene vrijednosti kada je opservacija 

uklju£ena u model i kada nije. Izra£unava se za svaku varijablu posebno. 

Poºeljno je provjeriti sve opservacije koje imaju |dfit i | > 2 × √ k/n, gdje je 

k broj varijabli prediktora (uklju£uju¢i i konstantu), a n broj opservacija u 

uzorku. Za model 1.10 to su opservacije sa |dfit i | > 2 × √ 4/50 > 0, 56. 

. predict dfit, dfits 

. list gisk prom posj dfit if abs(dfit)>2*sqrt(4/50) 

gisk prom posj dfit 

16. 22 4 4 -.6399702 

48. 10 .5 4 .8786362 

Output 1.5 

Sa outputa 1.5 vidimo da dvije opservacije (16 i 48) imaju |dfit i | > 0,56. 

1.1.5.5 Strategija detekcije netipi£nih opservacija 

Obzirom da Cook's Distance pomaºe da identikujemo potencijalno problemati£ne 

opservacije, jedna od mogu¢ih strategija analize netipi£nih vrijednosti 

bi se sastojala od tri koraka. Prvo, izra£unati Cook's D kako bi utvrdile 

opservacije koje potencijalno imaju znatan uticaj na model. Drugo, utvrditi 

prirodu tako identikovanih opservacija u pogledu toga da li se primarno 

radi o outlierima, leverage ta£kama ili njihovoj kombinaciji. Za tu namjenu 

moºemo se koristiti analizom reziduala i leverage vrijednosti, te vizuelnom 

inspekcijom parcijalnih regresionih dijagrama. Tre¢e, u situaciji kada smo sigurni 

da identikovane opservacije znatno naru²avaju zaklju£ke i predvižanje


uz pomo¢ modela donijeti odluku o korektivnim akcijama. 

Vidjeli smo da pored Cook's D postoje i drugi kompozitni pokazatelji koji 

se upotrebljavaju za procjenu veli£ine uticaja netipi£nih opservacija na model 

od kojih smo pomenuli dfbeta i dt. Ukoliko je uražena temeljita analiza 

reziduala, leverage ta£aka i Cook's distanci, ovi dodatni pokazatelji ne¢e re¢i 

mnogo novog. Ipak, kako analizi uticaja netipi£nih opservacija pristupaju sa 

razli£itog aspekta u nekim situacijama se mogu pokazati korisnim. Ako se 

ukaºe potreba, moºemo ih iskoristiti kao dodatni vid dijagnostike. 

1.1.5.6 Rje²avanje problema netipi£nih opservacija 

Nakon ²to identikujemo netipi£ne vrijednosti potrebno je ispitati za²to se 

one javljaju. Neki od mogu¢ih uzroka koji rezultiraju sa pojavom ve¢eg broja 

netipi£nih vrijednosti su: 

• Gre²ke pri unosu podataka. Mogu¢e je da su prilikom unosa podataka 

pogre²no otipkane neke vrijednosti. Na primjer, umjesto broja 5 je gre- 

²kom otkucano 55. Ovakvi tiupfeleri su relativno £esti pa je potrebno 

voditi ra£una o logi£koj provjeri unesenih podataka. 

• U model nismo uklju£ili bitan prediktor. U tom slu£aju trebamo identikovati 

koji je to prediktor, uklju£iti ga u model i ponoviti analizu. 

• Naru²ena je neka od ostalih regresionih pretpostavki. Mogu¢e rje²enje 

problema je respecikacija modela kori²tenjem transformacija ili 

interakcija. 

Ukoliko netipi£ne vrijednosti zaista predstavljaju opservacije koje su znatno 

druga£ije od ve¢ine ostalih opservacija iz uzorka, mogu¢a su dva pristupa. 

Prvo, za estimaciju parametara modela moºemo upotrijebiti tzv. robustnu 

regresiju. To je tehnika estimacije razvijena kako bi se ublaºili problemi 

do kojih dolazi ako su u uzorku prisutne opservacije sa netipi£nim vrijednostima. 

Drugi pristup je da se uradi odvojena analiza kako bi vidjeli koliko se 

mijenjaju parametri modela ako isklju£imo problemati£ne opservacije. Ovdje 

je potrebno napomenuti da bez jakog teoretskog upori²ta i obrazloºenja 

nikada ne smijemo brisati netipi£ne vrijednosti samo da bi unaprijedili reprezentativnost 

modela (pove¢ali R 2 ) ili ostvarili neku drugu poºeljnu promjenu 

(npr. postigli da koecijent za neku varijablu postane signikantan). ƒak i 

ako imamo obrazloºenje, neophodno je prezentovati rezultate analize sa i bez 

netipi£nih vrijednosti. Generalno se moºemo osloniti na pravilo da ukoliko je


Cook's D i < 1 nema stvarne potrebe za brisanje opservacije jer njen efekat 

na regresioni model nije veliki [7, p. 219]. 

U na²em primjeru, na osnovu svega do sada uraženog, moºemo vidjeti 

da potencijalno najve¢i uticaj na model 1.10 mogu imati opservacije broj 

16 i 48. Njihove netipi£ne vrijednosti nisu rezultat gre²ke i one jednostavno 

predstavljaju komercijaliste koji su znatno druga£iji od ve¢ine ostalih kolega 

iz uzorka. Kako opservacija 16 ima rezidual manji od 2,58, a obje opservacije 

imaju Cook's D u apsolutnom iznosu daleko ispod 1, moºemo zaklju£iti da 

njihov efekat na regresioni model nije veliki i da nema potrebe za njihovim 

brisanjem iz uzorka. 

Ipak, ilustracije radi, uradili smo dvije odvojene analize kako bi uporedili 

parametre modela sa i bez ovih opservacija u uzorku. 

. quietly reg prod gisk prom posj 

. estimates store analiza1 

. quietly reg prod gisk prom posj if id!=16 & id!=48 

. estimates store analiza2 

. estimates table analiza1 analiza2, stats(r2) star 

Variable analiza1 analiza2 

gisk .35197263*** .36888132*** 

prom 2.2347135*** 2.6274818*** 

posj 1.4501431** 1.5615308** 

_cons -1.7128277 -3.6156904 

r2 .65117545 .70720128 

legend: * p


1.1.6 Vrijednosti nezavisne varijable x su ksne 

Ova pretpostavka zna£i da vrijednosti x nemaju slu£ajni karakter ve¢ da su 

unaprijed poznate. Na primjer, zamislimo da trgovac ºeli utvrditi kako cijena 

uti£e na broj prodatih komada nekog proizvoda u jednoj prodavnici. Trgovac 

moºe organizovati eksperiment. U prvoj sedmici ¢e odrediti jednu cijenu i 

zabiljeºiti ostvarenu prodaju. Naredne sedmice ¢e promijeniti cijenu, a zatim 

ponovo zabiljeºiti prodaju u toj sedmici. U opisanom eksperimentu, vlasnik 

prodavnice unaprijed zna cijenu jer ju je ksirao na dvije vrijednosti od kojih 

svaka odgovara datoj sedmici. Kaºemo da je cijena nezavisna varijabla x i 

da je ksna, tj. da njena visina ne varira slu£ajno ve¢ je unaprijed poznata 

i odrežena zbog samog eksperimenta. 

Mežutim, u ekonomiji i biznisu istraºiva£ £esto raspolaºe podacima koji 

nisu prikupljani eksperimentom. Samim tim y i x su slu£ajne varijable, tj. 

njihove vrijednosti nisu poznate unaprijed, prije samog prikupljanja i mjerenja. 

Ukoliko zanemarimo ovu £injenicu i tretiramo vrijednosti prediktora 

x kao unaprijed poznate, to ne¢e promijeniti dobijene rezultate. Zato se ova 

pretpostavka relaksira i kaºe se da su dobijene vrijednosti nezavisne varijable 

realizacija slu£ajne varijable x koja je nezavisna od iznosa gre²aka ε. U tom 

slu£aju se zaklju£ivanje izvodi uslovno, obzirom na opaºene vrijednosti x. 

Relaksiranje pretpostavke ima jo² jednu prednost koja se ogleda u pojednostavljenju 

matematske notacije. Obzirom da x vi²e ne tretiramo kao 

slu£ajnu varijablu, ne trebamo koristiti ni uslovnu notaciju |. Zbog toga 

se npr, umjesto E(y|x) pi²e jednostavno E(y), umjesto E(ε|x), pi²e se samo 

E(ε) itd. 

1.2 Pretpostavke koje se odnose na pravilnu speci- 

kaciju modela 

Model je pravilno speciciran ukoliko regresiona jedna£ina predstavlja dobru 

aproksimaciju stvarne pojave. Dobra teoretska podloga i precizno razumjevanje 

onoga ²ta model zaista predstavlja su klju£ni za pravilnu specikaciju 

modela. Pretpostavke iz ove grupe primarno se odnose na: a) nepostojanje 

endogenosti, b) linearnost i c) nepostojanje multikolinearnosti.


1.2.1 Nepostojanje endogenosti 

Matematski gledano, pretpostavka o endogenosti zna£i da ni jedna nezavisna 

varijabla nije u korelaciji sa slu£ajnom gre²kom ε, pa je za svako i: 

cov(x i , ε) = 0 (1.1) 

Prisjetimo se da se slu£ajna gre²ka odnosi na razliku izmežu opservirane 

vrijednosti zavisne varijable i vrijednosti predvižene regresionom linijom za 

populaciju. Obzirom da je regresiona linija za populaciju nepoznata, pretpostavka 

se procjenjuje prvenstveno na bazi teorije i te²ko ju je statisti£ki 

testirati 2 . Ukoliko je ova pretpostavka naru²ena, kaºemo da postoji endogenost. 

1.2.1.1 Efekti endogenosti 

Endogenost moºe dovesti do ozbiljnih gre²aka pri tuma£enju rezultata regresione 

analize obzirom da ¢e procijenjeni parametri regresionog modela biti 

pristrasni. Posmatrano sa prakti£nog aspekta, pristrasnost zbog naru²avanja 

ove pretpostavke se javlja u tri situacije: 

1. Pristrasnost zbog izostavljene varijable (engl. ommited-variable 

bias) imamo kada je nezavisna varijabla x u korelaciji sa neopserviranim 

faktorom z (engl. confounding variable) koji se nalazi izvan regresionog 

modela. Obzirom da z uti£e na x koji korelira sa slu£ajnom 

gre²kom, proizilazi da neopservirana varijabla z pored toga ²to dejluje 

na prediktor x istovremeno djeluje i na zavisnu varijablu y. Ukoliko 

smo propustili da z uklju£imo u model i kontroli²emo njegov uticaj, 

OLS estimator ¢e bti pristrasan i nekonzistenatan jer ne moºemo izolovati 

stvarni uticaj prediktora od uticaja izostavljene varijable. Na 

primjer, ukoliko postoji pozitivna korelacija izmežu z, x i y, procijenjeni 

regresioni koecijenti ¢e biti ve¢i od stvarnih. 

2. Pristrasnost zbog gre²ke u mjerenju (engl. measurement error bias). 

Ukoliko je instrument za mjerenje vrijednosti varijabli neprecizan, onda 

¢e same izmjerene vrijednosti, pored onog ²to nas interesuje, sadrºavati 

i uticaj drugih faktora. 

2 Izmežu nezavisnih varijabli i reziduala nikada ne¢e postojati korelacija pa uslov da je 

cov(x, e) = 0 nije validan test za ovu pretpostavku [8].


3. Simultana pristrasnost (engl. simultaneity bias) odnosi se na problem 

dvosmjernog uticaja koji imamo u situaciji kada x djeluje na y, 

ali istovremeno y djeluje na x. Na primjer, ve¢e izdvajanje u budºet za 

ogla²avanje uti£e na prodaju, ali istovremeno ve¢i obim prodaje uti£e 

na to da vi²e sredstava moºemo izdvojiti za ogla²avanje. Obzirom da 

postoji recipro£na kauzalnost, slu£ajne gre²ke ¢e korelirati sa prediktorom 

i bi¢e te²ko izlovati stvarni efekt varijable preditkora 3 . 

1.2.1.2 Rje²avanje problema endogenosti 

Obzirom da je prisustvo endogenosti te²ko ispitati statisti£ki, velika paºnja 

se pridaje pravilnoj specikaciji modela. Pri tome moramo voditi ra£una da 

varijable od interesa izmjerimo ²to je preciznije mogu¢e i da iz modela ne 

izostavimo neku bitnu varijablu. U slu£aju prisustva recipro£ne kauzalnosti 

postoje metode za procjenu parametara nerekurzivnih modela kao ²to je 

Two-Stage Least Squares (2SLS) regresija. 

1.2.2 Linearnost 

Iako moºda ne £ini tako na prvi pogled, mnoge pojave iz stvarnog svijeta se 

matematski mogu modelirati putam linearne funkcije predstavljene jedna£inom 

1.9. Linearnost dakle podrazumjeva da funkcionalna veza koja postoji 

izmežu nezavisnih varijabli i zavisne varijable ima linearni karakter. 

1.2.2.1 Ispitivanje pretpostavke o linearnosti 

U slu£aju proste regresije dovoljno je nacrtati dijagram rasipanja izmežu x 

i y kako bi ocijenili da li je prava linija dobra aproksimacija veze izmežu 

zavisne varijable i prediktora. 

Ova pretpostavka se teºe provjerava kod vi²estruke regresije. Alat koji 

se unutar State naj£e²¢e koristi za ispitivanje pretpostavke o nelinarnosti su 

tzv. acprplot dijagrami (²to je skra¢enica od engl. augmented componentplus-residual 

plots). Ovi dijagrami su sli£ni ranije pomenutim parcijalnim 

regresionim dijagramima jer omogu¢avaju projektovanja vi²edimenzionalnih 

3 Procjenjeni regresioni parametri ¢e biti pristrasni a testovi signikantnosti nepouzdani. 

Modeli u kojima zavisna varijabla djeluje na nezavisne varijable nazivaju se nerekurzivnim 

modelima (engl. non-recursive models).


podataka unutar dvodimenzionalnog prostora. Mežutim, za razliku od parcijalnih 

dijagrama koji su pogodan alat za identikovnje outliera, acprplot 

dijagrami su bolji alat za ispitivanje prirode funkcionalne veze. Ono ²to pomo¢u 

njih poku²avamo utvrditi jeste koliko regresiona linija, £iji nagib je 

jednak procjenjenom regresionom koecijentu za datu varijablu prediktor, 

dobro opisuje podatke. 

Kako bi se olak²ala detekcija odstupanja od regresionog pravca, na dijagram 

se obi£no dodaje i tzv. kriva lokalno aproksimiraju¢e regresije 

(skra¢eno od engl. locally weighted scatterplot smoothing ili lowess smooth 

curve). Obja²njavanje lokalno aproksimiraju¢e regresije prelazi okvire 

ovog teksta pa ¢emo samo re¢i da je rije£ o tehnici prilagožavanja nekog od 

neparametarskih regresionih modela pomo¢u lokalno ponderisane regresije. 

Uglavnom, rezultiraju¢a lowess kriva je korisna za isticanje trenda unutar 

nesreženih podataka i olak²ava nam uo£avanje nelinearnosti. 

Da bi dobili acprplot dijagrame za model 1.10 iskoristi¢emo sljede¢i set 

naredbi unutar State: 

acprplot gisk, lowess mlabel(id) name(graph1) nodraw 

acprplot prom, lowess mlabel(id) name(graph2) nodraw 

acprplot posj, lowess mlabel(id) name(graph3) nodraw 

graph combine graph1 graph2 graph3, cols(2) title(acprplots)


Slika 1.4 

Moºemo uo£iti da na slici 1.4 podaci za varijablu prom (tro²kovi za unapreženje 

prodaje) u lijevom dijelu iskazuje nelinearan trend. Ovo je vjerovatno 

posljedica pozicije opservacija broj 1 i 48. Ipak, obzirom na veli£inu 

uzorka smatramo da se ukupni obrazac podataka u dovoljnoj mjeri moºe 

aproksimirati pravom linijom. 

Postoji jo² jedan na£in vizuelnog ispitivanja pretpostavke o linearnosti. 

Naime, u nekim softverskim paketima nije mogu¢e dobiti acprplot dijagrame 

pa se umjesto njih mogu koristiti dijagrami rasipanja nestandardizovanih 

reziduala modela i vrijednosti nezavisnih varijabli 4 . Na dobijenim dijagramima, 

empirijske ta£ke ne bi trebale imati jasno izraºen nelinearni ²ablon 

4 Da bi za model iz na²eg primjera kreirali ove dijagrame, unutar State moºemo iskoristiti 

sljede¢i set naredbi: 


. twoway (scatter r prom) (lowess r prom), name(graph1) nodraw 

. twoway (scatter r gisk) (lowess r gisk), name(graph2) nodraw 

. twoway (scatter r posj) (lowess r posj), name(graph3) nodraw 

. graph combine graph1 graph2 graph3, cols(2) title(Linearnost)


rasipanja. 

1.2.2.2 Efekti naru²avanja linearnosti 

Manja odstupanja od linearnosti ne¢e imati ve¢i uticaj na procijenjene regresione 

parametre. U takvim slu£ajevima se smatra da je linearna veza 

jo² uvijek dobra aproksimacija stvarnosti. Mežutim, ukoliko postoje znatna 

nelinearna odstupanja, rezultati OLS regresione analize postaju nepouzdani 

jer ¢e uticaj varijabli prediktora biti podcijenjen. Generalno pravilo je da pri 

OLS estimaciji nelinarnost ne¢e predstavljati problem ukoliko je standardna 

devijacija zavisne varijable ve¢a od standardne devijacije reziduala [8, p. 92]. 

1.2.2.3 Modeliranje nelinearne funkcionalne veze 

Ukoliko je pretpostavka o linearnosti naru²ena, mogu¢e je uraditi transformacije 

podataka ili za estimaciju koristiti neki od metoda neparametarske 

regresije (engl. Nonparametric regression). 

1.2.3 Nepostojanje multikolinearnosti 

Multikolinearnost se javlja ako izmežu dvije ili vi²e nezavisnih varijabli postoji 

znatna korelacija. Prisjetimo se da putem regresionog modela (jedna- 

£ina 1.9) poku²avamo utvrditi koliko zavisna varijabla reaguje na promjenu 

vrijednosti datog prediktora dok vrijednosti ostalih prediktora drºimo konstantnima. 

Ovo zna£i da ¢emo regresioni koecijent prediktora najbolje procijeniti 

ako unutar njega ostaje dovoljno varijacije nakon ²to smo kontrolisali 

ostale prediktore. Da bi ovo bilo jasnije, pretpostavimo da imamo dva prediktora 

x 1 i x 2 . Ako su ova dva prediktora mežusobno jako povezana, onda 

unutar x 1 ostaje malo varijabiliteta kada vrijednost x 2 drºimo konstantnom 

pa je mnogo teºe procijeniti koecijent b 1 (ili obrnuto). Ovakva situacija je 

prikazana na slici 1.5.


Slika 1.5 

Moºemo primjetiti da u slu£aju kada izmežu x 1 i x 2 postoji izuzetno visoka 

korelacija (r = 0, 9), nakon ²to kontroli²emo za x 2 , unutar x 1 ostaje 

samo mali dio jedinstvene varijanse. Ista situacija je i sa x 2 nakon ²to kontroli²emo 

za x 1 . U ovakvoj situaciji, regresioni model ¢e imati problem da 

utvrdi jedinstveni doprinos ovih varijabli promjeni zavisne varijable. 

1.2.3.1 Detektovanje multikolinearnosti 

Prilikom ispitivanja (ne)postojanja multikolinearnosti uvijek je poºeljno po¢i 

od korelacione matrice.


. pwcorr prod gisk prom posj, star(0.05) 

Output 1.7 

prod gisk prom posj 

prod 1.0000 

gisk 0.6156* 1.0000 

prom 0.6769* 0.4546* 1.0000 

posj -0.0077 -0.3977* -0.2037 1.0000 

Na outputu 1.7 je dat prikaz korelacija izmežu svih varijabli uklju£enih 

u model 1.10 iz na²eg primjera. 

Postoje razli£ita pravila o tome koji nivo korelacije izmežu prediktora 

je siguran u smislu da ne¢e dovesti do pojave prevelike multikolinearnosti. 

Naj£e²¢e se navodi da korelacije iznad 0,8 ili 0,9 mogu biti problemati£ne 

[7]. Neki istraºiva£i smatraju da £ak i korelacije ve¢e 0,7 mogu uzrokovati 

probleme [14]. 

U na²em slu£aju, output pokazuje da nema ni jedne korelacije izmežu 

prediktora koja bi bila ve¢a od r > 0, 7. Statisti£ki signikantna korelacija 

(r = 0, 45) postoji izmežu prediktora gisk (godine iskustva) i prom (budºet 

za unapreženje prodaje). Takožer, signikantna korelacija (r = −0, 40) se 

javlja izmežu prediktora gisk (godine iskoustva) i posj (broj posjeta). Ovo 

reektuje £injenicu da stariji komercijalisti, u prosjeku gledano, dobijaju ve¢i 

budºet za unapreženje prodaje, kao i da manje izlaze na teren. 

Pored inspekcije korelacione matrice, za otkrivanje prisustva multikolinearnosti 

koriste se mežusobno povezani pokazatelji VIF (skra¢eno od engl. 

Variance Ination Ratio) i njegova recipro£na vrijednost tolerance ( 1 /V IF). 

Naime, sa porastom korelacije prediktora x k sa ostalim varijablama prediktorima 

dolazi do inacije njegove varijanse pa je VIF pokazatelj kojim se 

mjeri koliko je napuhana varijansa datog regresionog koecijenata b k u 

odnosu na situaciju kada izmežu njega i ostalih nezavisnih varijable nema 

korelacije. Na primjer, ako je VIF za jednu varijablu jednak 9, to zna£i da 

je standardna gre²ka regresionog koecijenta te varijable tri puta ve¢a nego 

u slu£aju kada je njen VIF jednak 1. Shodno tome, da bi bio statisti£ki 

signikantan njen koecijent bi trebao biti i 3 puta ve¢i. 

Generalno pravilo kaºe da VIF vrijednosti ve¢e od 10 za dati prediktor 

ukazuju na prisustvo prevelike multikolinearnosti, dok su vrijednosti ve¢e od 

5 razlog za zabrinutost. Obzirom da je tolerance recipro£na vrijednost od


VIF, onda vrijednosti ovog pokazatelja ne bi trebale biti manje od 1 /V IF = 

1/10 = 0, 1, odnosno vrijednosti manje od 1 /V IF = 1 /5 = 0, 2 ukazuju na 

potencijalno visoku multikolinarnost. Takožer, prosje£na vrijednost VIF za 

sve varijable ne bi trebala biti znatno ve¢a od 1. 

Da bi smo unutar State dobili ove pokazatelje za model 1.10 posluºi¢emo 

se naredbom vif. 

. vif 

Variable VIF 1/VIF 

gisk 1.44 0.696220 

prom 1.26 0.792744 

posj 1.19 0.841148 

Mean VIF 1.30 

Output 1.8 

Output 1.8 pokazuje da su u na²em primjeru sve pojedina£ne vrijednosti 

VIF znatno ispod 10. 5 Istovremneo, prosje£ni VIF nije mnogo ve¢i od 1, 

tako da sa sigurno²¢u moºemo zaklju£iti kako nema multikorelacije unutar 

na²ih podataka. 

1.2.3.2 Efekti multikolinearnosti 

Previsoka multikolinearnost vodi ka nestabilnosti regresionog modela obzirom 

da je zbog visokog postotka zajedni£ke varijanse izmežu varijabli smanjena 

mogu¢nost predvižanja vrijednosti zavisne varijable kao i mogu¢nost 

da se ustanovi relativna uloga nezavisnih varijabli [10, p. 228]. Pored ovoga, 

multikolinearnost moºe uticati na to da regresioni koecijenati budu pogre²no 

procijenjeni pa £ak i da promijene predznak. Neo£ekivane promjene 

u veli£ini ili predznaku koecijenata su jedan od simptoma multikolinearnosti. 

Posebno veliki uticaj multikolineranost ima na testiranje signikantnosti 

regresionih koecijenata. U slu£aju prisustva znatne multikolinearnosti te²ko 

je procijeniti jedinstveni uticaj prediktora pa dolazi do inacije standardnih 

gre²ki. ƒak se moºe desiti da niti jedan koecijent unutar modela ne bude 

signikantan a da istovremeno imamo visok R 2 . Ovakva situacija je tipi£an 

5 Shodno tome i sve vrijednosti za tolerance su ve¢e od 0, 2.


simptom multikolinearnosti. Problemi vezani za multikolinearnot su posebno 

izraºeni ako imamo mali uzorak. 

1.2.3.3 Rje²avanje problema multikolinearnosti? 

Postoji nekoliko razli£itih pristupa putem kojih se moºe adresirati problem 

multikolineranosti. Ni jedan pristup ne predstavlja savr²eno rje²enje a izbor 

najprikladnijeg zavisi¢e od razumjevanja konteksta problema za koji koristimo 

regresioni model. Naj£e²¢i pristupi su: 

1. Kombinovanje prediktora koji visoko koreliraju u novu varijablu. Na 

primjer, pretpostavimo da kompanija prodaje proizvode putem dva 

distributivna kanala u kojima zbog razli£ite strukture tro²kova zara- 

£unava razli£ite cijene. Sasvim je o£ekivano da ¢e cijene proizvoda u 

kanalu 1 i 2 mežusobno visoko korelirati. Umjesto da u regresionoj 

analizi koristimo dvije nezavisne varijable za cijene u razli£itim kanalima, 

moºemo izra£unati prosje£nu cijenu. Kombinovanje dva ili vi²e 

prediktora u novu varijablu ima smisla ukoliko su oni mjereni na istoj 

mjernoj skali. 

Takožer, ako koristimo vi²e varijabli da bi izmjerili neki konstrukt 

(npr. nekoliko Likertovih skala kojima mjerimo kvalitet usluge), po- 

ºeljno primjeniti faktorsku analizu kako bi te varijable kombinovali u 

jednu varijablu koja ¢e predstavljati dati konstrukt u regresionom modelu. 

2. Prikupiti dodatne podatke kako bi se pove¢ala veli£ina uzorka. Postoji 

vjerovatno¢a da ¢e dodatni podaci bar donekle razblaºiti korelaciju 

izmežu prediktora ili smanjiti standardne gre²ke regresionih koecijenata. 

3. Izbaciti varijablu koja ima visok stepen korelacije sa drugim prediktorima. 

Ovo je legitimna radnja ukoliko dvije varijable mjere istu pojavu 

na vrlo sli£an na£in. U suprotnom, potrebno biti oprezan. Ako postoji 

jako teoretsko upori²te da varijabla bude u modelu, njeno izbacivanje 

moºe voditi do gre²ke specikacije (engl. specication error). 

4. Parametre modela moºemo procijeniti primjenom posebnih metoda 

koje su pogodnije za estimaciju u slu£aju prisustva multikolinearnosti. 

Najpoznatije metode iz ove grupe su: a) Ridge regresija (engl. Ridge 

regression) koja vje²ta£ki smanjuje nivo korelacije mežu varijablama


da bi se dobile stabilnije procjene i b) Regresija osnovnih komponenata 

(engl. Principal component regression), koja predstavlja kombinaciju 

analize osnovnih komponenata (koja se prvo primenjuje u procesu stabilizacije 

modela) i metode najmanjih kvadrata (koja se primenjuje 

naknadno u cilju odreživanja vrijednosti regresionih koecijenata nezavisnih 

varijabli za koje je u primarnoj analizi utvrženo da su osnovne) 

[5]. 

1.2.3.4 Multikolinearnost i efekat suzbijanja 

Ovdje ¢emo napraviti malu digresiju obzirom da korelaciona matrica sa outputa 

1.7 pokazuje jo² jednu zanimljivu £injenicu. Naime, prediktori gisk 

(godine iskustva) i prom (budºet za unapreženje prodaje) prili£no jako koreliraju 

sa zavisnom varijablom prod (obim prodaje). Mežutim, prediktor 

posj (broj posjeta) ne korelira sa zavisnom varijablom prom (budºet za unapreženje 

prodaje). Koecijent korelacije izmežu te dvije varijable je gotovo 

jednak nuli i nije statisti£ki signikantan. Ako bi kreirali prosti regresioni 

model dobili bi da je b 1 = −0.038 za varijablu posj (broja posjeta). Koecijent 

ne bi bio statisti£ki signikantan: t(50) = −0, 05, p = 0, 958. Koecijent 

determinacije bi iznosio: R 2 = 0, 00. Mežutim, kada se varijabla posj (broj 

posjeta) uklju£i u vi²estruki regresioni model (jedna£ina 1.10) procjenjeni 

koecijent bude znatno ve¢i od nule i statisti£ki signikantan (²to moºemo 

vidjeti sa outputa 1.6 i 1.8). Kako je to mogu¢e? Radi se o tzv. efektu 

suzbijanja (engl. suppression eect) 6 . Naime, obratimo paºnju da iako varijabla 

posj (broj posjeta) nije povezana sa zavisnom varijablom prod (obim 

prodaje), ona negativno korelira sa varijablom gisk (godine iskustva). Ve¢ 

smo zaklju£ili da je to zbog toga ²to iskusniji komercijalisti manje idu na 

teren. Vjerovatno iz razloga ²to ve¢ imaju razvijenu mreºu distributera sa 

kojima su uhodali poslovnu saradnju pa nemaju potrebu da se sa tim klijentima 

£esto vižaju uºivo. Ako je ova pretpostavka ta£na, onda varijabla 

gisk (godine iskustva) ne djeluje samo na prodaju ve¢ i na varijablu posj 

(broj posjeta). U tom slu£aju varijabla posj (broj posjeta) unutar modela 

ima ulogu varijable supresora jer maskira stvarnu prirodu veze izmežu gisk 

(godina iskustva) i prod (obima prodaje). Moºe se re¢i da na isti na£in ove 

dvije varijbale maskiraju vezu izmežu posj (broja posjeta) i prod (obima 

prodaje). 

Izostavljanje varijable posj (broj posjeta) iz modela vodilo bi potcjenjiva- 

6 Od engl. glagola suppress ²to na na²em jeziku zna£i suzbiti.


nju efekta godina iskustva na prodaju. Za²to? Uklju£ivanje varijable supresora 

x 2 u regresioni model suzbija jedan dio neºeljene varijanse (engl. error 

variance) varijable prediktora x 1 . Samim tim x 1 postaje bolji prediktor ²to 

u kona£nici rezultira poja£avanjem veze izmežu x 1 i y. Ovo je prikazano na 

slici 1.6. 

Slika 1.6 

Na slici 1.6 je prikazan efekat tzv. klasi£ne supresije koji imamo kada 

ne postoji bivarijantna korelacija izmežu prediktora x 2 i zavisne varijable 

y. Postoje i druge vrste efekta supresije, a za vi²e detalja pogledati [9, 

17, 19, 11, 2, 10]. Ono ²to je bitno zapamtiti jeste to da varijable supresori 

pove¢avaju: a) prediktivnu validnost jedne ili vi²e drugih varijabli prediktora 

unutar modela i b) pove¢avaju ukupni R 2 , dok one same imaju slabu ili 

nikakvu bivarijantnu korelaciju sa zavisnom varijablom. Ovo je ilustrovano 

na sljede¢em outputu:


. quietly reg prod gisk 

. estimates store model1 

. quietly reg prod gisk prom 


. quietly reg prod gisk prom posj 


. estimates table model1 model2 model3, stats(N r2 r2_a) star 

Variable model1 model2 model3 

gisk .43184719*** .27222467*** .35197263*** 

prom 2.1973038*** 2.2347135*** 

posj 1.4501431** 

_cons 10.665343*** 6.5917266*** -1.7128277 

Output 1.9 

N 50 50 50 

r2 .37892889 .57770217 .65117545 

r2_a .36598991 .55973205 .62842603 

legend: * p


iskustva) i prom (budºet za unapreženje prodaje) ubacimo u model, one 

¢e objasniti znatan dio postoje¢e neºeljene varijanse unutar varijable posj 

(broj posjeta) i ona ¢e postati signikanta. Drugim rije£ima, uspje¢emo da 

detektujemo ranije maskirani efekat na relaciji posj (broj posjeta) → prod 

(ostvarena prodaja). 

Takožer, prisjetimo se da unutar vi²estruke regresije koecijente tuma- 

£imo uz ogradu kada ostale prediktore drºimo konstantnim, odnosno kada 

kontroli²emo za ostale prediktore (oba izraza imaju isto zna£enje). U na- 

²em slu£aju, koecijent za posj (broj posjeta) ¢e biti signikantan upravo 

ako ostale prediktore drºimo konstantnim. Ovo zna£i da ¢e prodava£i koji 

imaju isti nivo prodajnog iskustva u prosjeku ostvariti ve¢u prodaju ako 

£e²¢e posje¢uju klijente na terenu (²to je vidljivo na slici 1.4). Drugim rije- 

£ima, nakon ²to smo kontrolisali za godine iskustva moºemo vidjeti stvarni 

efekat koji broj posjeta ima na ostvarenu prodaju. 

1.3 Pretpostavke koje se odnose na svojstva distribucije 

reziduala 

Regresioni model opisan jedna£inama 1.1 i 1.9 po£iva na nekoliko pretpostavki 

koje opisuju distribuciju vjerovatno¢e reziduala. Pretpostavke o tome 

da bi reziduali trebali biti nezavisni, normalno distribuirani oko predviženih 

vrijednosti zavisne varijable sa prosje£nom vrijedno²¢u jednakom nuli i uz 

konstantnu varijansu σ 2 matematski se mogu izraziti jednim izrazom: 

e ∼ N(0, σ 2 ) (1.2) 

Ove pretpostavke moraju biti zadovoljene kako procjenjeni parametri modela 

ne bi bili pristrasni i kako bi testiranje njihove signikantnosti bilo 

validno. Osim pretpostavke o nezavisnosti, ostale pretpostavke su gra£ki 

predstavljene na slici 1.7.


Slika 1.7 

1.3.1 Nepostojanje heteroskedasti£nosti 

Obzirom da se y i e razlikuju samo za konstantu, njihova varijansa ¢e biti 

identi£na i jednaka, odnosno: V (e) = σ 2 za svaku vrijednost x. Drugim rije- 

£ima, varijansa reziduala oko predviženih vrijednosti zavisne varijable treba 

da je pribliºno jednaka za sve predvižene vrijednosti (slika 1.7). Gra£ki 

predstavljeno na slici 1.7 to bi zna£ilo da ¢e vertikalna raspr²enost reziduala 

oko regresione linije biti sli£na za svaku vrijednost x kako se kre¢emo s lijeva 

na desno. Ukoliko je ova pretpostavkla ta£na, kaºemo da postoji homoskedasti£nost 

(engl. homoscedasticity). U suprotnom, pojavljuje se problem 

heteroskedasti£nosti (engl. heteroskedasticity). 

Povezanost izmežu zavisne varijable i reziduala se moºe iskoristiti da 

konstrui²emo dijagram rasipanja na kojem su na y-osi predstavljene vrijednosti 

rezidula (e i ), a na x-osi predvižene vrijednosti zavisne varijable (ŷ i ). 

Na slici 1.8 su predstavljeni tipi£ni rezultati koje moºemo o£ekivati na takvom 

graku. Ukoliko je ispunjena pretpostavka o homoskedasti£nosti, ta£ke 

na dijagramu bi trebale biti ravnomjerno rasporežene oko nule bez ikakvog


jasnog obrasca (prvi dijagram na slici 1.8). Kada su ta£ke ravnomjerno rasporežene 

ali jedna strana ima mnogo ve¢u raspr²enost onda nije ispunjena 

pretpostavka o normalnosti reziduala (drugi dijagram na slici 1.8). Ako ta£ke 

imaju bilo kakav oblik koji li£i na krivulju, postoji velika vjerovano¢a da je 

naru²ena pretpostavka o linearnosti (tre¢i dijagram na slici 1.8). Kada ta£ke 

formiraju sliku "lijevka", tj. da su na jednom kraju vi²e koncentrisane oko 

nule a na drugom nisu, onda imamo problem heteroskedasti£nosti (£etvrti 

dijagram na slici 1.8). 

Mogu¢e su i druge situacije, ali je bitno zapamtiti da sva znatnija odstupanja 

od situacije predstavljene na prvom dijagramu slike 1.8, a posebno 

pojava bilo kakvog jasnog oblika ili obrasca rasporeda ta£aka, ukazuju na 

potencijalni problem. 

Slika 1.8


1.3.1.1 Uzroci heteroskedasti£nosti 

Kada je rije£ o heteroskedasti£nosti naj£e²¢a je situacija da imamo neku 

vrstu oblika lijevka. Na ²ta ukazuje takav raspored reziduala? Obrazac 

lijevka govori da varijansa reziduala raste kako rastu vrijednosti zavisne 

varijable. Postoje razli£iti razlozi zbog £ega se to de²ava. 

1. Reziduali mogu rasti (ili se smanjivati) kako raste (ili opada) vrijednost 

varijable prediktora. Na primjer, pretpostavimo istraºivanje u 

kojem se poku²ava utvrditi ²ta uti£e na prodajne performanse kompanije. 

Moglo bi se desiti da reziduali vezani za ve¢e rme imaju ve¢u 

varijansu u odnosu na rme manje veli£ine. To bi zna£ilo da je prodaja 

ve¢ih rmi podloºna ve¢im oscilacijama. U tom kontekstu model bi bio 

precizan za predvižanje prodaje manjih rmi, ali bi se sa porastom veli£ine 

rme pove¢avala nepreciznost. 

Sli£an primjer je vezan za mijenjanje obrazaca potro²nje do kojeg dolazi 

sa porastom diskrecionog dohotka. Kako dohodak raste, neki pojedinci 

²tede vi²e dok drugi imaju sklonost da odmah potro²e znatan dio dodatnih 

nov£anih sredstava. Samim tim, sa porastom dohodka raste 

i varijansa reziduala koja ne¢e biti ista za ljude sa manjim i ve¢im 

dohotkom. 

2. Kod longitudinalnih podataka, heteroskedasti£nost se moºe pojaviti 

kao rezultat usavr²avanja neke osobine tokom vremena. Na primjer, 

ako se tehnika prikupljanja podataka usavr²ava, kasnije gre²ke mjerenja 

¢e biti manje nego na po£etku. Ili, pretpostavimo, da testiramo 

sposobnosti prodava£a. Prodava£i tokom vremena u£e pa se shodno 

tome smanjuju gre²ke na testovima sposobnosti. Samim tim ¢e se tokom 

vremena smanjivati i varijansa reziduala. 

3. ƒest izvor heteroskedasti£nosti je upotreba agreriranih podataka dobijenih 

putem razli£itih anketa. Ukoliko ovakvi podaci nisu ponderisani 

na odgovaraju¢i na£in, pove¢ava se rizik da ¢e pretpostavka o konstantnoj 

varijansi biti naru²ena. 

4. Heteroskedasti£nost se moºe javiti i kao posljedica naru²avanja drugih 

regresionih pretpostavki. Na primjer, ako neki ispitanici mogu pruºiti 

preciznije odgovore u odnosu na druge ispitanike, varijansa reziduala 

¢e biti razli£ita zbog naru²avanja pretpostavke o preciznosti mjerenja. 

5. Heteroskedasti£nost se javlja i ako postoje subpopulacijske razlike (ili


efekti interakcije). Na primjer, pretpostavimo da izmežu ºena i mu- 

²karaca postoji razlika u pogledu potro²nje nekog dobra. Ako u model 

nije uklju£ena varijablu spol koja bi inkorporirala te razlike, naru²ena 

je pretpostavka o pravilnoj specikaciji modela i varijansa reziduala ¢e 

biti razli£ita za mu²ke i ºenske ispitanike. 

6. Kad god vaºan prediktor nije uklju£en u model, to moºe dovesti do 

pojave heteroskedasti£nosti. U tom slu£aju ¢e reziduali korelirati sa 

eksternom varijablom koja nije u modelu. Na primjer, reziduali ¢e 

biti veliki (ili mali) kad god je vrijednost neuklju£ene varijable velika 

(odnosno mala). 

7. Nesimetri£na distribucija zavisne varijable i/ili varijabli prediktora je 

jo² jedan potencijalni izvor heteroskedasti£nosti. 

8. Pogre²na transformacija ili pogre²na specikacija funkcionalne forme. 

Na primjer, ako postoji nelinearni trend pa smo propustili da uz nezavisnu 

varijablu x u model ubacimo i njenu kvadriranu vrijednost x 2 . 

1.3.1.2 Detektovanje heteroskedasti£nosti 

Kako smo ve¢ obrazloºili, jedan od klju£nih na£ina za ispitivanje postojanja 

heteroskedasti£nosti je dijagram rasipanja rezidula i predvižene vrijednosti 

zavisne varijable. Da bi dobili takav dijagram za model 1.10 iz na²eg primjera, 

iskoristi¢emo rvfplot naredbu unutar State. 

rvfplot, yline(0)


Slika 1.9 

Na dijagramu ne moºemo uo£iti da reziduali kreiraju bilo kakav sumnjiv 

oblik. Ta£ke su ravnomjerno raspr²ene oko nule pa zaklju£ujemo da je 

pretpostavka o homoskedasti£nosti ispunjena. 

Iako je vizulena inspekcija reziduala nezaobilazan alat, nekada ona sama 

nije dovoljna da donesemo kona£an sud o ispunjenju pretpostavke. Naime, 

kao i svaki drugi vizuelni metod, i ovaj je podloºan subjektivnosti istraºiva£a. 

Zbog toga se pored vizuelne inspekcije za ispitivanje pretpostavke koriste 

testovi za detektovanje heteroskedasti£nosti. 

Breusch-Pagan/Cook-Weisberg test je kreiran kako bi se detektovala 

bilo koja linearna forma heteroskedasti£nosti (kao ²to je ona na £etvrtom dijagramu 

slike 1.8). Nulta hipoteza ovog testa je da reziduali imaju homogenu 

varijansu. Alternativna hipoteza je da varijansa reziduala raste (ili opada) 

kako rastu (ili opadaju) predvižene vrijednosti zavisne varijable. Visoka hikvadrat 

vrijednost testa upu¢uje da je prisutna heteroskedasti£nost.


. estat hettest 

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 

Ho: Constant variance 

Variables: fitted values of prod 

Output 1.10 

chi2(1) = 0.01 

Prob > chi2 = 0.9356 

Iz outputa 1.10 vidimo da je za model test visoko nesignikantan (p = 

0, 936), na osnovu £ega zaklju£ujemo da je pretpostavka o homogenoj varijansi 

ispunjena i da nema prisutne heteroskedasti£nosti. 

Kako smo prethodno rekli, Breusch-Pagan/Cook-Weisberg-ov test je dobar 

za detekciju linearnih formi heteroskedasti£nosti. Mežutim, ako reziduali 

nemaju normalnu distribuciju, ili ako su u pitanju neke druge forme 

heteroskedasti£nosti, bolje je koristiti White-ov op²ti test za heteroskedasti£nost. 

. estat imtest 

Cameron & Trivedi¡s decomposition of IM-test 

Source chi2 df p 

Heteroskedasticity 5.21 9 0.8159 

Skewness 1.12 3 0.7727 

Kurtosis 0.28 1 0.5960 

Total 6.61 13 0.9213 

Output 1.11 

Output 1.11 pokazuje da je i u ovom slu£aju test nesignikantan i da je 

ispunjena pretpostavka o homoskedasti£nosti. 

Za vi²e detalja o kalkulacijama koje stoje u pozadini ova dva testa pogledati 

[18]. 

Vrlo je vaºno napomenuti da su navedeni testovi jako osjetljivi na naru- 

²avanje drugih regresionih pretpostavki, kao ²to je npr. pretpostavka normalnosti. 

Zbog toga je uobi£ajeno da se testovi kombinuju sa vizuelnom 

inspekcijom reziduala kako bi se procjenila ja£ina heteroskedasti£nosti i donijela 

odluka o tome da li su potrebne korektivne akcije.


1.3.1.3 Efekti heteroskedasti£nosti 

Heteroskedasti£nost ne uti£e na pristrasnost regresionih koecijenata. Glavna 

posljedica naru²avanja pretpostavke o homoskedasti£nosti je da OLS metod 

estimacije ne pruºa procjenu parametara uz najmanju varijansu (tj. nije 

ekasan). To dalje rezultira time da ¢e procjenjene standardne gre²ke biti 

neta£ne. Kako se testiranje signikantnosti regresionih koecijenata zasniva 

na veli£ini standardnih gre²aka, postoji vjerovatno¢a da ono bude neta£no. 

Zavisno od prirode heteroskedasti£nosti, standardne gre²ke mogu biti precijenjene 

ili podcijenjene. 

1.3.1.4 Rje²avanje problema heteroskedasti£nosti 

1. Respecikacija modela. Kako smo vidjeli iz prethodnog izlaganja, vrlo 

£est uzrok pojave heteroskedasti£nosti je pogre²na specikacija modela. 

Mogu¢e je da postoje razlike izmežu pojednih grupa, da je rije£ o nelinearnoj 

vezi, da varijable nemaju normalnu distribuciju ili da smo iz 

modela izostavili bitan prediktor. Identikovanje i adresiranje stvarnog 

uzroka pogre²ne specikacije ¢e rezultirati rje²enjem problema heteroskedasti£nosti. 

Naj£e²¢e se problem pogre²ne specikacije modela 

rje²ava putem dodavanja izostavljenog prediktora ili transformacijom 

postoje¢ih varijabli. 

2. Ukoliko je, uz najbolju mogu¢u specikaciju modela, heteroskedasti£nost 

i dalje prisutna, moºe se uraditi estimacija parametara uz kori²tenje 

robustnih standardnih gre²ki (engl. Robust standard errors 

ili White-corrected standard errors). Robustne standardne gre²ke se 

izra£unavaju na bazi korigovane matrice varijansi i kovarijansi (engl. 

variance-covariance matrix). Kori²tenje ove opcije ne¢e uticati na veli- 

£inu procjenjenih regresionih koecijenata i oni ¢e ostati isti. Mežutim, 

standardne gre²ke ¢e biti korigovane kako bi testiranje signikantnosti 

regresionih koecijenata bilo nepristrasno. 

3. Procjena parametara se moºe uraditi i primjenom metode ponderiranih 

najmanjih kvadrata (engl. Weighted Least Squares Regression - WLS). 

Ova metoda se koristi prvenstveno ukoliko nismo u mogu¢nosti identi- 

kovati eksternu varijablu koja korelira sa rezidualima ili ako smo tu 

varijablu propustili mjeriti a okolnosti ne dozvoljavaju naknadno prikupljanje 

dodatnih podataka. WLS regresija se upotrebljava i kad je


potrebno ponderisati agrerirane podatake dobijene na bazi ankete. Za 

vi²e detalja o ovome pogledati [6]. 

1.3.2 Nezavisnost i nepostojanje autokorelacije 

Reziduali su mežusobno nezavisni (engl. independent errors) i ne koreliraju 

(engl. no autocorrelation), pa je za svake dvije opservacije: cov(e i , e j ) = 

cov(y i , y j ) = 0. 

Stroºija verzija ove pretpostavke glasi da su reziduali statisti£ki nezavisni, 

u kojem slu£aju su i vrijednosti zavisne varijable takože mežusobno 

nezavisne. Pretpostavka o nezavisnosti ¢e biti naru²ena ukoliko su opservacije 

(ili mjerenja) na neki na£in mežusobno povezana. Naj£e²¢i slu£aj pri 

kojem se to de²ava je kada podaci imaju hijerarhijsku ili klaster strukturu. 

Na primjer, ako smo anketirali zaposlenike iz vi²e rmi postoji vjerovatno¢a 

da ¢e odgovori ispitanika iz iste rme biti mežusobno sli£ni. Kao posljedica 

toga, reziduali zaposlenih unutar iste rme ne¢e biti nezavisni. Ova pretpostavka 

moºe biti naru²ena i kada je pri istraºivanju kori²ten zavisni dizajn. 

Na primjer, ako je od ispitanika traºeno da popune isti upitnik prije i poslije 

eksperimentalne manipulacije, postoji vjerovatno¢a da ¢e odgovori iz upitnika 

biti mežusobno povezani. I tada imamo situaciju da reziduali ne¢e biti 

nezavisni. 

Pretpostavka o nepostojanju autokorelacije zna£i da reziduali vezani za 

sukcesivne opservacije e 1 , e 2 , e 3 . . . mežusobno ne bi trebali ni na koji na£in 

biti povezani jedni sa drugim. Drugim rije£ima, ako postoji trend na osnovu 

kojeg se moºe predvidjeti vrijednost bilo kojeg narednog reziduala u odnosu 

na prethodni kaºemo da postoji problem autokorelacije. Generalno gledano, 

postoje dvije situacije kada se javlja autokorelacija: 

Serijska autokorelacija (engl. serial autocorrelation) se javlja kada 

imamo podatke koji su prikupljani tokom vremenskog perioda. Zbog navedenog, 

ispitivanje ove pretpostavke je posebno zna£ajno za varijable koje 

se mjere longitudinalno. U takvim situacijama vrijednosti mnogih varijabli 

tokom vremena imaju tendenciju rasta (ili pada), pa ako znamo vrijednost 

opservacije u teku¢em periodu, vrlo lako moºemo procijeniti vrijednost prethodne 

opservacije. Serijska autokorelacija ¢e standardno biti ja£a za podatke 

koji su mežusobno vremenski blizu. Samim tim, i njihovi reziduali ¢e biti 

ja£e povezani. 

Ukoliko vrijednosti varijable u datom periodu koreliraju sa vrijednostima


iste varijable koji se nalaze jedan period unazad tada se radi o tzv. serijskoj 

korelaciji sa vremenskim pomakom prvog reda (engl. rst-order serial correlation), 

gdje je corr(e t , e t−1 ) ≠ 0. Na primjer, ako smo mjerili ostvareni 

poslovni rezultat preduze¢a tokom niza godina, mogu¢e je da su reziduali 

za opservacije koje se nalaze u susjednim godinama mežusobno povezani. 7 

Na slici 1.10 je dat prikaz dvije mogu¢e situacije serijske autokorelacije prvog 

reda izmežu sukcesivnih opservacija (gornji red) i pripadaju¢ih reziduala 

(donji red). 

Slika 1.10 

Na lijevoj strani slike 1.10 vidimo kako izgleda tzv. pozitivna autokorelacija 

kod koje je corr(e t , e t−1 ) > 0. Moºemo primjetiti kako se na po£etku 

perioda opservirane vrijednosti nalaze koncentrisane iznad linije. Kako vrijeme 

proti£e, povezanost se nastavlja ali se mijenja trend koji u jednom 

7 Serijska korelacija izmežu rezidula se moºe javiti i u slu£ajevima vremenskih pomaka 

(engl. time lag) ve¢ih od jednog perioda, pa ¢emo imati da je corr(e t, e t−n) ≠ 0. Na 

primjer, ako su podaci prikupljani kvartalno mogu¢e je da ¢e podaci iz jesenjeg perioda 

jedne godine korelarati sa podacima iz jesenjeg perioda druge godine.


momentu pada ispod regresione linije. Na kraju perioda trend se ponovo 

postepeno vra¢a iznad linije. 

Na desnoj starni slike 1.10 je dat primjer tzv. negativne autokorelacije 

kod koje je corr(e t , e t−1 ) < 0. Ovdje imamo cik-cak povezanost gdje je 

opservirana vrijednost u jednom periodu iznad linije, da bi u narednom pala 

ispod linije, pa se vratila ponovo iznad itd. 

Prostorna autokorelacija (engl. spatial autocorrelation) se javlja kada 

na osnovu prostorne lokacije jedinice uzorkovanja moºemo procijeniti vrijednost 

susjednih jedinica. Za razliku od vremenske autokorelacije, gdje 

podaci koreliraju izmežu razli£itih vremenskih perioda, kod prostorne korelacije 

podaci korelaraju izmežu razli£itih (naj£e²¢e geografskih) lokacija. 

Autokorelacija ¢e standardno biti ja£a za podatke koji su prostorno bliºi. 

Na primjer, vrlo je vjerovatno da su cijene nekretnina u susjednim gradskim 

kvartovima sli£ne. Na slici 1.11 je dat primjer pozitivne i negativne prostorne 

autokorelacije. 

Slika 1.11 

1.3.2.1 Detektovanje autokorelacije 

Da bi ispitali pretpostavku o nezavisnosti gre²ki i odsustvu autokorelacije 

unutar State posluºi¢emo se sa dvije metode. 

Durbin-Watson (D-W) test je naj£e²¢i test kojim se ispituje postojanje 

serijske korelacije prvog reda izmežu reziduala regresionog modela. 

Mogu¢i raspon koecijenta dobijenog na testu se kre¢e od 0 do 4. Vrijednosti 

koje su blizu 0 indikuju ekstremnu pozitivnu autokorelaciju, dok vrijednosti 

koje su blizu 4 indikuju ekstremnu negativnu autokorelaciju. Ako je dobijeni


rezultat blizu 2 to upu¢uje na odsustvo autokorelacije. Generalno, vrijednosti 

koecijenta unutar raspona od 1,5 do 2,5 se smatraju prihvatljivim za 

ispunjene pretpostavke. 

Da bi proveli D-W test potrebno je prvo naredbom tsset denisati varijablu 

koja se odnosi na vremenski slijed obi£no mjesec, godinu ili neki 

drugi period tokom kojeg su prikupljani podaci. Mežutim, u konkretnom 

slu£aju, nas prvenstveno interesuje da li je ispunjena pretpostavka o nezavisnosti 

reziduala. Kako se ne radi o longitudinalnim podacima nemamo ni 

varijablu koja se odnosi na vremenski slijed. Zbog toga ¢emo je supstituirati 

varijablom id kojom se identikuju opservacije unutar skupa podataka. 8 Cilj 

je da vidimo da li gre²ke sukcesivno prikupljenih opservacija mežusobno koreliraju. 

Nakon ²to smo denisali potrebnu varijablu, sam Durbin-Watson 

test pozivamo sa naredbom dwastat, kako je prikazano na outputu 1.12. 

. quietly regress prod gisk prom posj 

. tsset id 

time variable: id, 1 to 50 

delta: 1 unit 

. dwstat 

Durbin-Watson d-statistic( 4, 50) = 1.875395 

Output 1.12 

Output pokazuje da dobijeni koecijent d = 1, 87 ²to je vrlo blizu vrijednosti 

2. To upu¢uje na zaklju£ak da je pretpostavka o nezavisnosti gre²aka 

ispunjena. 

Drugi metod koji se koristi za ispitivanje pretpostavke je vizuelna inspekcija 

rezidula. U tu svrhu potrebno je kreirati dijagram rasipanja na kojem 

y-osa predstavlja reziduale (nestandardizovane ili standardizovane), a x-osa 

vremenski tok. Obzirom da u na²em slu£aju nemamo longitudinalne podatke 

na x-osu ¢emo staviti identikacioni broj opservacija prema redoslijedu prikupljanja 

podataka. 


. scatter r id, yline(0) 

8 U slu£aju da u bazi ne postoji ovakva varijabla, moºemo generisti sa: gen id = _n.


Slika 1.12 

Na slici 1.12 ne moºemo uo£iti bilo kakav obrazac rasporeda reziduala 

koji bi ukazivao na prisustvo autokorelacije. 

Ovdje je potrebno napomenuti da bi se vizuelna provjera pretpostavke 

o postajanju autokorelacije trebala raditi tek na kraju, ako su ostale pretpostavke 

ispunjene, a posebno pretpostavka o pravilnoj speciaciji modela. 

Naime, nekada je mogu¢e dobiti obrazac prikazan na lijevoj strani slike 1.10 

ne zbog autokorelacije ve¢ zato ²to je model pogre²no speciciran kao linearan, 

iako je u stvari rije£ o nelinearnoj vezi. 

1.3.2.2 Efekti autokorelacije 

Sli£no kao i u slu£aju prisustva heteroskedasti£nosti, prisustvo serijske korelacije 

¢e uticati na ekasnost OLS estimatora. U slu£aju pozitivne autokorelacije, 

standardne gre²ke regresionih koecijenata ¢e biti potcijenjene. 

OLS estimator ¢e se £initi preciznijim nego ²to zaista jeste pa ¢e i R 2 biti 

precijenjen. Nasuprot tome, u slu£aju prisustva negativne autokorelacije


standardne gre²ke ¢e biti precijenjene, a R 2 ¢e biti manji nego ²to bi trebalo. 

U oba slu£aja, validnost testiranja hipoteza o signikantnosti regresionih koecijenata 

je upitna zbog potencijalne pristrasnosti prilikom procjene veli£ine 

standardnih gre²ki. 

1.3.2.3 Rje²avanje problema autokorelacije 

U cilju rje²avanja problema autokrelacije, za vremenske serije, kros-sekcione 

vremenske serije (panel podatke) i kada podaci imaju hijerarhijsku ili klaster 

strukturu postoje razli£ite metode estimacije parametara modela. Na primjer, 

mogu¢e je koristiti metode generalizovanih najmanjih kvadrata (engl. 

Generalized Least Squares - GLS) ili mulitlevel modele 9 . 

1.3.3 Normalnost 

Ova pretpostavka se odnosi na to da distribucija vjerovatno¢e reziduala za 

datu vrijednost x ima: a) normalan raspored (e ∼ N) i b) prosje£nu (o£ekivanu) 

vrijednost jednaku nuli E(e|x) = E(e) = 0. 

Ako reziduali imaju normalan raspored, to zna£i da su empirijske ta£ke 

ravnomjerno rasporežene oko regresione linije. Vjerovatno¢a da ¢e za datu 

vrijednost x empirijska ta£ka biti dalje od linije postepeno opada kako se 

vertikalno udaljavamo od linije. Na slici 1.7 je dat prikaz rasporeda empirijskih 

ta£aka za pet vrijednosti nezavisne varijable x. Za svaku od tih pet 

vrijednosti, ve¢ina reziduala je koncentrisana koko regresione linije. Ta£ke 

iznad linije imaju pozitvnu, dok ta£ke ispod linije imati negativnu vrijednost 

reziduala. Kada su empirijske ta£ke manje-vi²e ravnomjerno rasporežene oko 

regresione linije, pozitivne i negativne vrijednosti njihovih reziduala ¢e se u 

zbiru gledano poni²titi i njihova prosje£na vrijednost ¢e biti jednaka nuli. 

U principu to zna£i da su razlike izmežu vrijednosti predviženih modelom i 

opserviranih vrijednosti naj£e²¢e jednake nuli ili da su veoma blizu nuli, dok 

se vrijednosti zna£ajno ve¢e od nule javljaju samo kao posljedica slu£ajnosti 

[7]. 

Ovdje je potrebno obratiti paºnju da se ova pretpostavka primarno odnosi 

na distribuciju reziduala, a ne na distribuciju vrijednosti zavisne ili nezavis- 

9 Uobi£ajeni nazivi za ovakave modele su jo²: mje²oviti linearni modeli (engl. linear 

mixed models), hijerarhijski modeli (engl. hierarchical linear models) i modeli slu£ajnih 

koecijenata (eng. random parameter models)


nih varijabli. Mežutim, ukoliko zavisna ili neka od nezavisnih varijabli imaju 

jako nakrivljenu distribuciju to moºe rezultirati time da distribucija reziduala 

bude nakrivljena. 

1.3.3.1 Ispitivanje pretpostavke o normalnosti 

Uobi£ajeno je da ispitivanje ove pretpostavke po£nemo tako ²to ¢emo nacrtati 

dijagram distribucije frekvencija reziduala. Ukoliko to nismo ranije 

uradili, prvo ¢emo naredbom predict kreirati varijablu koja sadrºi nestandardizovane 

reziduale. Zadim ¢emo iskoristiti naredbu kdensity sa opcijom 

normal da dobijemo traºeni dijagram. Opcija normal ¢e pored opservirane 

distribucije frekvencija prikazati i idelanu normalnu distribuciju ²to olak²ava 

poreženje. 


. kdensity r, normal 

Slika 1.13


Na dobijenom dijagramu reziduali bi trebali imati otprilike normalnu distribuciju. 

Vidimo da distribucija reziduala za model iz na²eg primjera vrlo 

blisko prati idealnu normalnu distribuciju. Takožer, distribucija je koncentrisana 

oko nule pa zaklju£ujemo da je pretpostavka ispunjena. 

Vizuelno ispitivanje pretpostavke o normalnosti putem dijagrama distribucije 

frekvencija moºe biti problemati£no ukoliko imamo mali uzorak. Zbog 

toga se za ocjenu normalnosti savjetuje kori²tenje dijagrama vjerovatno¢e 

(engl. probability plots). P-P dijagram (engl. probabilityprobability plot) 

predstavlja usporedbu opservirane kumulativne vjerovatno¢e pojave standardizovanih 

reziduala (y-osa) sa o£ekivanom kumulativnom vjerovatno¢om 

standardizovanih reziduala kada je njihova distribucija normalna (x-osa). Q- 

Q dijagram (engl. quantile-quantile plot) prikazuje usporedbu opserviranih 

kvantila datog uzorka sa kvantilima o£ekivane normalne distribucije. Ukoliko 

opservirane vrijednosti imaju normalnu distribuciju, ta£ke na oba dijagrama 

bi trebale biti rasporežene ta£no duº dijagonalne linije ili uz manja odstupanja 

oko nje. 

Oba dijagrama sluºe za provjeru pretpostavke o normalnosti reziduala. 

Prakti£na razlika izmežu njih je da P-P dijagram ima tendenciju da uveli£ava 

odstupanja od o£ekivane teoretske distribucije u sredini, dok Q-Q dijagram 

nagla²ava odstupanja na krajevima o£ekivane distribucije. 

. qnorm r, name(graph1) nodraw title(qq-plot) 

. pnorm r, name(graph2) nodraw title(pp-plot) 

. graph combine graph1 graph2, cols(2) title(Probability Plots: qq-plot vs pp-plot)


Slika 1.14 

Na slici 1.14 vidimo da oba dijagrama pokazuju minimalna odstupanja 

reziduala od o£ekivane normalne distribucije ²to upu¢uje na zaklju£ak o ispunjenosti 

pretpostavke. Na Q-Q plotu u gornjem desnom uglu imamo tri 

ta£ke koje odstupaju ne²to vi²e od linije. Rije£ je o opservacijama 26, 37 i 

38 koje mogu predstavljati outliere. 

Osim vizuelno, pretpostavku o normalnosti distribucije reziduala moºemo 

ispitati i putem statisti£kih testova. Dva naj£e²¢e kori²tena testa za ovu namjenu 

su KolmogorovSmirnov (KS) test i ShapiroWilk (SW) test. Kod 

oba testa, signikantan rezultat (p>0,05) zna£i da je distrubucija rezidula 

odstupa od normalne distribucije. Generalno govore¢i, SW test je osjetljiviji 

na odstupanja od normalnosti pa ga je preporu£ljivo koristiti, pogotovo 

ukoliko imamo manji uzorak [1]. Za vi²e detalja o testovima normalnosti 

distribucije pogledati [15].


. swilk r 

Shapiro-Wilk W test for normal data 

Variable Obs W V z Prob>z 

r 50 0.98778 0.575 -1.181 0.88121 

Output 1.13 

Output 1.13 pokazuje da distribucija reziduala ne odstupa zna£ajno od 

normalne distribucije (W = 0, 99, p = 0, 881) pa zaklju£ujemo da je pretpostavka 

ispunjena. 

Ovdje vrlo vaºno napomenuti da rezultate testova normalnosti treba uzeti 

sa zrnom soli. Naime, u ve¢im uzorcima i najmanja odstupanja od normalne 

distribucije ¢e biti statisti£ki signikantna. Zbog toga je testove neophodno 

korisiti u kombinaciji sa vizuelnom inspekcijom kako bi se donijela 

pravilna odluka o tome da li je pretpostavka o normalnosti naru²ena ili nije. 

1.3.3.2 Efekti naru²avanja pretpostavke o normalnosti 

U manjim uzorcima, primarni uticaj naru²avanja pretpostavke o normalnosti 

odnosi se na ekasnost OLS estimatora. Veli£ina procijenjenih standardnih 

gre²ki bi¢e nepouzdana, a samim tim testiranje signifakntnosti regresionih 

koecijenata moºe biti pristrasno i nepouzdano. 

U ve¢im uzorcima, naru²avanje ove pretpostavke ne predstavlja ozbiljan 

problem i moºemo se osloniti na testove signikantnosti koji ¢e biti 

pouzdani[2]. Takožer, naru²avanje pretpostavke o normalnosti ne¢e mnogo 

uticati na procijenjene regresione koecijente. Centralni grani£ni teorem 

podrazumjeva da ¢e u ve¢im uzorcima distribucija uzorkovanja (engl. sampling 

distribution) regresionih koecijenata imati normalan raspored, £ak i 

ako reziduali nisu normalno rasporeženi u datom uzorku [8]. Samim tim, 

b koecijenti ¢e i dalje biti nepristrasni. Naru²avanje pretpostavke da je 

E(e|x) = 0 ¢e uticati samo na pogre²nu procjenu vrijednosti konstante b 0 . 

1.3.3.3 Rje²avanje problema naru²ene pretpostavke o normalnosti 

Naru²avanje pretpostavke o normalnosti reziduala £esto je vaºan signal pogre²ene 

specikacije modela. Istraºiva£ treba nastojati da u model uklju£i


sve bitne faktore koji djeluju na zavisnu varijablu, tako da reziduali obuhvate 

samo nerelevantne ili faktore koje je nemogu¢e izmjeriti. Ako iz modela izostavimo 

neki bitan faktor, ili napravimo bilo koju drugu gre²ku u specikaciji 

modela, onda rizikujemo da ¢e se desiti da je E(e|x) ≠ 0. 

Ukoliko zavisna varijabla ili prediktori imaju jako nakrivljenu distribuciju, 

moºemo poku²ati uraditi i odgovaraju¢u transformaciju.

Bibliograja 

[1] Nor Aishah Ahad, Teh Sin Yin, Abdul Rahman Othman, and Che Rohani 

Yaacob. Sensitivity of normality tests to non-normal data. Sains 

Malaysiana, 40(6):637641, 2011. 

[2] Jacob Cohen, Patricia Cohen, Stephen G. West, and Leona S. Aiken. 

Applied Multiple Regression/Correlation Analysis for the Behavioral 

Sciences. Lawrence Erlbaum Associates, Inc., 3 edition, 2003. 

[3] Robert G. Croinger and Karen M. Douglas. Survey Research Emerging 

Issues: New Directions for Institutional Research. Number 127. Jossey- 

Bass, San Francisco, 2005. Chapter 3, pp. 33-50. 

[4] John Dawes. Do data characteristics change according to the number 

of scale points used? an experiment using 5-point, 7-point and 10-point 

scales. International Journal of Market Research, 50(1), 2007. 

[5] Branka Dimitrijevi¢ and Vladimir Simi¢. Heuristi£ki algoritam regresione 

stabilnosti. In XXIX Simpozijum o novim tehnologijama u po- 

²tanskom i telekomunikacionom saobra¢aju PosTel 2011. Saobra¢ajni 

fakultet Univerziteta u Beogradu, Decembar 2011. 

[6] David Dranove. Practical regression: Noise, heteroskedasticity, and grouped 

data. Technical Report KEL640, Kellogg School of Management, 

Northwestern university, 2012. 

[7] Andy Field. Discovering Statistics Using SPSS. SAGE Publications 

Ltd., 3 edition, 2009. 

[8] G. David Garson. Multiple Regression. Blue Book Series. Statistical 

Associates Publishing, 2012 edition edition, 2012. 

[9] David. C. Howell. Moderating and mediating relationships, 2002. 

55

BIBLIOGRAFIJA 56 

[10] Jr. Joseph F. Hair, William C. Black, Barry J. Babin, Rolph E. Anderson, 

and Ronald D. Tatham. Multivariate Data Analysis. Pearson 

Prentice Hall, 6 edition, 2006. 

[11] David P. MacKinnon, Jennifer L. Krull, and Chondra M. Lockwood. 

Equivalence of the mediation, confounding and suppression eect. Prevention 

Science, 1(4):173181, December 2000. 

[12] Patrick E. McKnight, Katherine M. McKnight, Souraya Sidani, and 

Aurelio Jose Figueredo. Missing Data: A Gentle Introduction. The 

Gulford Press, 2007. 

[13] Marija Noru²is. SPSS 7.5 Guide to Data Analysis. Prentice-Hall, Inc., 

1997. 

[14] Julie Pallant. SPSS Priru£nik za preºivljavanje: Postupni vodi£ kroz 

analizu podataka pomo¢u SPSS-a. Mikro knjiga, 4 edition, 2011. 

[15] Hun Myoung Park. Univariate analysis and normality test using sas, 

stata, and spss, 2008. 

[16] StataCorp. Stata Base Reference Manual Release 13. College Station, 

Texas, 2013. 

[17] Barbara G. Tabachnick and Linda S. Fidell. Using Multivariate Statistics. 

Pearson Education, Inc., 5 edition, 2007. 

[18] Richard Williams. Heteroscedasticity, 2014. Spring 2014 course notes 

for the second semester of graduate statistics courses. 

[19] Kristin K. Woolley. How variables uncorrelated with the dependent variable 

can actually make excellent predictors: The important suppressor 

variable case. Austin, TX, January 23-25 1997. Annual Meeting of the 

Southwest Educational Research Association.



Regresiona analiza: 

Dummy varijable 1 

Autor: 


Sarajevo, 21. januar 2016. godine 

1 



1

Dummy varijable 

Sve do sada korištene nezavisne varijable u okviru regresionog modela bile su metrijskog tipa. 

Međutim, nisu rijetke situacije kada imamo nominalne varijable koje mogu pomoći u predikciji 

vrijednosti zavisne varijable. Na primjer, broj članova domaćinstva je metrijska varijabla od interesa 

ukoliko želimo analizirati mjesečnu potrošnju domaćinstva, ali isto tako i varijable kao što su tip 

domaćinstva (ruralno ili urbano) i administrativna jedinica kojoj domaćinstvo pripada (npr. FBiH, RS i 

Distrikt Brčko) mogu biti dobri prediktori potrošnje. 

Da bi nominalne varijable uključili u regresioni model neophodno je prvo uraditi tzv. dummy kodiranje 

podataka. Najjednostavniji oblik dummy kodiranja koristi "1" za ispunjavanje uslova, i "0" za 

predstavljanje odsustva uslova. U tabeli 1 dat je primjer dummy kodiranja za varijable „tip 

domaćinstva“ i „administrativna jedinica“. 

Tabela 1. 

ID 

Tip domaćinstva 

Administrativna jedinica 

ruralno urbano fbih rs db 

domaćinstvo 1 1 0 0 1 0 



… 

domaćinstvo n 1 0 1 0 1 

Iz tabele 1 vidimo da je prvo domaćinstvo ruralnog tipa i da se nalazi u RS-u, drugo domaćinstvo je 

urbanog tipa iz FBiH, treće je urbano iz Distrikta Brčko i tako dalje do posljednjeg domaćinstva 

označenog sa n. Primjećujemo da svaka dummy varijabla u tabeli 1 predstavlja jednu kategoriju 

orginalne nominalne varijable. Tako su od nominalne varijable „tip domaćinstva“ kreirane dvije dummy 

varijable (urbano i ruralno), a od varijable „administrativna jedinica“ kreirane su tri dummy varijable 

(fbih, rs i db). Upotrebom ovakvog načina kodiranja kategorije bilo koje nominalne varijable mogu se 

pretvoriti u dummy varijable. 2 

Međutim, prije nego upravo kreirane dummy varijable ubacimo u regresioni model, moramo znati da 

u višestrukoj regresiji ne smijemo imati situaciju u kojoj se vrijednost jedne ili više nezavisnih varijabli 

može u potpunosti predvidjeti na bazi stanja bilo koje druge nezavisne varijable ili kombinacije 

nezavisnih varijabli. U statistici se kaže da su takve varijable linearno zavisne jer između njih postoji 

savršena multikolinearnost (koeficijent korelacije je r = ±1). U takvim slučajevima, matematski izračun 

se neće moći obaviti ili će biti pogrešan obzirom da regresiona analiza ne može razdvojiti doprinos 

nezavisnih varijabli predviđanju zavisne varijable. 

U tabeli 1 javlja se upravo problem linearne zavisnosti. Obzirom da su kategorije orginalne nominalne 

varijable međusobno isključive, isto domaćinstvo ne može istovremeno biti urbano i ruralno, već mora 

biti u jednoj od ove dvije kategorije. Samim tim, na bazi vrijednosti dummy varijable „ruralno“, 

možemo bez ikakve greške predvidjeti vrijednost varijable „urbano“. Isto tako, ako domaćinstvo nije 

locirano u FBiH i RS-u onda znamo da je locirano u Distriktu Brčko. 

Problem linearne zavisnosti možemo jednostavno riješiti izostavljanjem jedne kategorije tako da se 

svaka orginalna nominalna varijabla koja ima k kategorija u regresionom modelu predstavi uz pomoć 

2 

Dummy varijable se još zovu binarnim ili varijblama indikatorima, obzirom da 0 i 1 indikuje odsustvo, odnosno 

prisustvo neke karkateristike. 

2

k-1 dummy varijabli. U tabeli 2 je dat prikaz strukture podataka kakvu možemo koristiti u regresionom 

modelu za naš hipotetički primjer. 

Tabela 2. 

ID urbano rs db 

domaćinstvo 1 0 1 0 



… 

domaćinstvo n 0 0 1 

U suštini, tabelu 2 smo dobili tako što smo iz tabele 1 izbacili kategorije „ruralno“ i „fbih“. Mogli smo 

izostaviti i bilo koju drugu kolonu, s tim da treba imati na umu da izostavljene kolone uvijek 

predstavljaju referentne nivoe u odnosu na koje će se porediti vrijednosti regresionih koeficijenata 

dummy varijabli koje ostaju u modelu. 

Dummy varijable u regresionom modelu 

Vratimo se našem primjeru u kojem smo se bavili ispitivanjem uticaja godina iskustva (gisk), budžeta 

za unapređenje prodaje (prom) i broja terenskih posjeta (posj) na prodajne performanse komercijalista 

(prod). Pretpostavimo da pored navedenih metrisjkih varijabli raspolažemo i sa podatkom o tome da li 

je prodajni predstavnik završio specijalizovani trening za unapređenje prodajnih vještina (trening). 

Varijabla trening je dummy varijabla a njena deskriptivna statistika je predstavljena u okviru outputa: 

. tab trening 

trening | Freq. Percent Cum. 

------------+----------------------------------- 

0 | 26 52.00 52.00 

1 | 24 48.00 100.00 

------------+----------------------------------- 

Total | 50 100.00 

U datom slučaju „0“ označava komercijaliste koji nisu prošli trening, dok „1 „označava one koji su 

završili trening. Primjećujemo da je od ukupnog broja komercijalista iz uzorka njih 26 (52 %) nije prošlo 

trening, dok ij je 24 (48%) završilo trening. 

Ilustracije radi, kreirajmo regresioni model koji će sadržavati samo dummy varijablu trening. Rezultati 

estimacije su predstavljeni u okviru outputa: 

. reg prod trening 

Source | SS df MS Number of obs = 50 

-------------+------------------------------ F( 1, 48) = 23.53 

Model | 285.240122 1 285.240122 Prob > F = 0.0000 

Residual | 581.938154 48 12.1237115 R-squared = 0.3289 

-------------+------------------------------ Adj R-squared = 0.3149 

Total | 867.178276 49 17.6975158 Root MSE = 3.4819 

------------------------------------------------------------------------------ 

prod | Coef. Std. Err. t P>|t| [95% Conf. Interval] 

-------------+---------------------------------------------------------------- 

trening | 4.780772 .9856223 4.85 0.000 2.799045 6.762498 

_cons | 14.58917 .6828591 21.36 0.000 13.21619 15.96215 

------------------------------------------------------------------------------ 

3

prod 

prod (hat) 

= b0 + b1 x trening + e 

= 14,59 + 4,78 x trening 

Koeficijent vezan za nezavisnu varijablu trening je statistički signifikantan i iznosi b1 = 4,78. Ovaj 

koeficijent predstavlja procjenjeni efekat koji trening ima na ostvareni obim prodaje i interpretira se 

na sljedeći način: 

Ako se vrijednost dummy varijable trening poveća za jednu jedinicu, obim prodaje će se 

povećati za 4,78 jedinica. Povećanje za jednu jedinicu u kontekstu dummy varijable znači da sa 

prelaskom komercijaliste iz kategorije 0 (nije prošao trening) u kategoriju 1 (prošao trening) 

možemo očekivati porast obima prodaje u iznosu od 4.780 KM. 

Kada uključimo dummy varijablu u regresioni model, presjek (b0) sadrži efekat referentne kategorije. 

Referentna kategorija je ona kategorija koja je unutar dumy varijable označena sa nulom: 

prod (hat) = 14,59 + 4,78 x 0 

= 14,59 (kada je trening = 0) 

Ovo znači da prosječna očekivana prodaja za komercijaliste bez treninga iznosi oko 14.590 KM. U 

slučaju komercijalista koji su završili trening prosječna očekivana prodaja iznosiće: 

prod (hat) = 14,59 + 4,78 x 1 

= 19,37 (kada je trening = 1) 

U suštini, vidimo da koeficijent vezan za dummy varijablu govori kolika je prosječna razlika između ove 

dvije grupe. U tom smislu, možemo reći i da komercijalisti sa treningom u prosjeku prave 4.780 KM 

više od onih bez treninga i da je ta razlika statistički signifikantna. 3 

Proširimo sada regresioni model sa varijablom godine iskustva (gisk) tako da bude: 

prod 

= b0 + b1 x gisk + b2 x trening + e 

Rezultati estimacije su predstavljeni na outputu: 

. reg prod gisk trening 


-------------+------------------------------ F( 2, 47) = 26.11 

Model | 456.441079 2 228.220539 Prob > F = 0.0000 


-------------+------------------------------ Adj R-squared = 0.5062 

Total | 867.178276 49 17.6975158 Root MSE = 2.9562 

------------------------------------------------------------------------------ 


-------------+---------------------------------------------------------------- 

gisk | .3323109 .0750801 4.43 0.000 .1812693 .4833525 

trening | 3.41212 .8921138 3.82 0.000 1.617418 5.206821 

_cons | 10.46085 1.098224 9.53 0.000 8.251507 12.67019 

3 

Do istog rezultat bi došli i da smo uradili nezavisni t-test. 

4

------------------------------------------------------------------------------ 

Vidimo da su oba koeficijenta statistički signifikantna. Da bi olakšali interpretaciju dobijenog outputa 

napišimo jednačinu za predviđenu vrijednost zavisne varijable: 

prod (hat) 

= 10,46 + 0,33 x gisk + 3,41 x trening 

Ako znamo da su komercijalisti bez treninga u okviru dummy varijable označeni sa 0, onda će 

regresiona jednačina za tu grupu imati sljedeći oblik: 

prod (hat) = 10,46 + 0,33 x gisk + 3,41 x 0 

= 10,46 + 0,33 x gisk (kada je trening = 0) 

Za komercijaliste bez iskustva presjek regresione linije sa y-osom iznosi 10,46. Prisjetimo se da presjek 

predstavlja očekivanu vrijednost zavisne varijable kada su sve nezavisne varijable jednake nuli. Dakle, 

u slučaju komercijalista bez treninga (trening = 0) i bez ikakvog iskustva (gisk = 0), očekivana prosječna 

prodaja će iznositi 10.460 KM. Koeficijent vezan za iskustvo jednak je 0,33 što znači da za svaku dodatnu 

godinu iskustva, prosječni obim prodaje komercijalista bez treninga će se uvećavati za 330 KM. 

S druge strane, regresiona jednačina za komercijaliste sa treningom je: 

prod (hat) = 10,46 + 0,33 x gisk + 3,41 x 1 

= (10,46 + 3,41) + 0,33 x gisk 

= 13,87 + 0,33 x gisk (kada je trening = 1) 

U slučaju komercijalista sa završenim treningom (trening = 1), ali bez ikakvog iskustva na terenu (gisk 

= 0), možemo očekivati prosječnu prodaju u iznosu od 13.870 KM, što je za 3.410 KM više u odnosu na 

komercijaliste bez završenog treninga i iskustva. Koeficijent vezan za iskustvo jednak je 0,33 što znači 

da za svaku dodatnu godinu iskustva, prosječni obim prodaje komercijalista sa treningom raste za 330 

KM. Uočimo da je porast očekivane prodaje vezane za iskustvo identičan u obje grupe – i za 

komercijaliste koji su završili trening i za one koji nisu. 

Ono što je bitno zapamtiti je sljedeće: Iako analiziramo jedan regresioni model, mi u stvari ubacivanjem 

dummy varijable omogućavamo kreiranje dvije regresione jednačine – jednu za komercijaliste bez 

treninga i jednu za komercijaliste sa treningom što se vidi na slici 1: 

5

Na slici 1 predstavljen je dijagram rasipanja za varijable prodaja i godine iskustva. Kvadratima su 

predstavljene opservirane vrijednosti prodaje za komercijaliste bez treninga, dok su sa x označene 

opservirane vrijednosti prodaje za komercijaliste sa treningom. Na dijagramu su takođe predstavljene 

procijenje regresione linije za komercijaliste bez treninga (puna linija) i sa treningom (isprekidana 

linija). Obratimo pažnju da su linije paralelne i da je razlika između ove dvije grupe samo u presjeku. 

Nagib linije je isti u obje grupe (gisk = 0,33). 

Proširimo sada postojeći regresioni model i sa ostalim varijablama koje smo imali ranije (ref. 1.10) 

tako da bude: 

prod = bo + b1gisk + b2prom + b3posj + b4trening + e 

Rezultat procjene ovog modela vidimo u okviru outputa: 

. reg prod gisk prom posj trening 


-------------+------------------------------ F( 4, 45) = 47.38 

Model | 700.789148 4 175.197287 Prob > F = 0.0000 


-------------+------------------------------ Adj R-squared = 0.7911 

Total | 867.178276 49 17.6975158 Root MSE = 1.9229 

------------------------------------------------------------------------------ 


-------------+---------------------------------------------------------------- 

gisk | .2644737 .0567636 4.66 0.000 .1501459 .3788016 

prom | 2.173827 .3221026 6.75 0.000 1.525079 2.822575 

posj | 1.648642 .3508686 4.70 0.000 .9419561 2.355327 

trening | 3.538056 .5831571 6.07 0.000 2.363517 4.712595 

_cons | -2.939243 2.215445 -1.33 0.191 -7.401379 1.522893 

------------------------------------------------------------------------------ 

Model sa uključenom dummy varijablom trening objašnjava 79,11% varijanse zavisne varijable, što je 

za 16,27% više od modela koji uključuje samo metrijske varijable. 

Koeficijent vezan za nezavisnu varijablu trening je statistički signifikantan i iznosi b4 = 3,538. Ovaj 

koeficijent predstavlja procjenjeni efekat koji trening ima na ostvareni obim prodaje i interpretira se 

na sljedeći način: Ako se vrijednost dummy varijable trening poveća za jednu jedinicu, obim prodaje će 

6

se povećati za 3,358 jedinica uz uslov da ostale varijable ostanu nepromijenjene. Povećanje za jednu 

jedinicu u kontekstu dummy varijable znači da sa prelaskom komercijaliste iz kategorije 0 (nije prošao 

trening) u kategoriju 1 (prošao trening) možemo očekivati porast obima prodaje u iznosu od 3.358 KM. 

Također, možemo reći i da komercijalisti sa treningom u prosjeku prave 3.358 KM više od onih bez 

treninga, u slučaju kada vrijednosti ostalih prediktora držimo konstantnim. 

7



Regresiona analiza: 

Interakcijski (moderacijski) efekt 1 

Autor: 


Sarajevo, 21. januar 2016. godine 

1 



1

Sadržaj 

1. Uvod ................................................................................................................................ 3 

2. Modeliranje interakcija u regresionoj analizi ............................................................ 3 

3. Interpretacija interakcijskog efekta ............................................................................ 5 

4. Grafičko predstavljanje interakcijskog efekta ........................................................... 8 

5. Centriranje i standardizovanje varijabli .................................................................. 11 

6. Dummy varijable i interakcije ................................................................................... 15 

7. Bibliografija ................................................................................................................. 20 

2

1. UVOD 

Do sada smo razmatrali parcijalne efekte nezavisnih varijabli na zavisnu varijablu, odnosno 

efekte svake nezavisne varijable na zavisnu nakon što kontrolišemo za ostale varijable u 

modelu. Interkacijski ili moderacijski efekt se javlja kada veličina efekta jedne nezavisne 

varijable (x1) na zavisnu varijablu (y) varira u zavisnosti od vrijednosti druge nezavisne 

varijable (x2) (Preacher, 2003). 

Interakcijski ili moderirajući efekt se u regresioni model inkorporira putem složene varijable 

koja predstavlja proizvod varijabli x1 i x2. Regresioni model sa interakcijskim efektom možemo 

predstaviti sljedećom formulom: 

= + + + + 

gdje je y = zavisna varijabla, b0 = konstanta, b1x1 = linearni efekt nezavisne varijable x1, b2x2 = 

linearni efekt nezavisne varijable x2, b3x1x2 = interakcijski efekt između x1 i x2 i e = rezidual. 

Prije nego krenemo dalje potrebno je ukazati na terminološku distinkciju između interakcijskog 

i moderacijskog efekta. Naime, iako se u literaturi izrazi „interakcijski efekt“ i „moderirajući 

efekt“ često koriste odvojeno, u suštini se radi o istoj stvari: efekt jednog prediktora na zavisnu 

varijablu će biti različit za različite vrijednosti drugog prediktora (Grace-Martin, n.d.). 

Kada govorimo o interakcijskom efektu onda ne pravimo razliku između nezavisne varijable i 

moderirajuće varijable. Za bilo koji od dva prediktora (x1 i x2) se može reći da „moderira“ efekt 

drugog. Obratimo pažnju da je interakcijski efekt simetričan što znači da je: x1x2 = x2x1, pa je 

sa matematskog aspekta svejedno koju varijablu ćemo nazvati „prediktorom“ a koju 

„moderatorom“. 

Međutim, ukoliko smo zainteresovani prvenstveno za efekt tačno određene nezavisne varijable 

(x1) na zavisnu varijablu (y), ali znamo da će taj efekt zavisiti od vrijednosti druge nezavisne 

varijable (x2), onda je terminološki ispravnije govoriti o moderirajućem efektu. U tom slučaju, 

varijabla x2 se uobičajeno naziva moderatorom jer ona mijenja vezu između x1 i y. Moderator 

uključujemo u model kako bi dobili relaniji uvid u prirodu veze između x1 i y, a ne zato što nas 

interesuje efekt moderirajuće varijable same po sebi. 

Već u fazi dizajniranja istraživanja bi trebali znati koja varijabla će biti nezavisna a koja će 

imati ulogu moderatora. Odabir varijable koja će imati ulogu moderatora prvenstveno zavisi od 

teoretskih postavki i utvrđuje se na bazi pregleda literature. Drugim riječima, treba razmotriti 

da li je smislenije govoriti da se veza između x1 i y mijenja kako se mijenja x2 ili više smisla 

ima reći da se veza između x2 i y mijenja sa promijenom x1 (Aguinis and Gottfredson, 2010). 

Nakon što smo odabrali moderirajuću varijablu treba imati na umu da ona može pojačati, 

amortizirati ili čak predstavljati određenu vrstu supresora kada je u pitanju odnos između druge 

dvije varijable (Međedović, 2013, p. 1). 

2. MODELIRANJE INTERAKCIJA U REGRESIONOJ ANALIZI 

Uzmimo primjer u kojem želimo istražiti kako raspoloživi dohodak utiče na izdatke na pizzu. 

Pored dohotka smatramo da će ukupni izdaci na pizzu zavisiti i od godina starosti osobe. Na 

bazi slučajnog uzorka anketirano je 40 ispitanika i zabilježeni su podaci o godišnjem iznosu 

3

njihove potrošnje na pizzu (pizza), godišnjem prihodu u 000 dolara (income) i godinama starosti 

(age). Podaci su pohranjeni u okviru datoteke pizza4.dta. 2 Na outputu 1 je dat prikaz rezultata 

deskriptivne analize: 

. summarize pizza income age 


-------------+-------------------------------------------------------- 

pizza | 40 191.55 155.8806 0 590 

income | 40 55.8025 51.16614 7.8 288.6 

age | 40 33.475 10.25317 18 55 

Output 1 

Godišnji izdaci na pizzu se kreću u rasponu od 0$ za ispitanike koji je uopšte ne konzumiraju 

pa do 590$ za velike ljubitelje ovog italijanskog jela. Prosječna potrošnja iznosi 191,55$. 

Godišnji prihod ispitanika varira u rasponu od 7.800$ do 388.600$ sa prosjekom od 55.802$. 

Uzorak je obuhvatio osobe u dobi od 18 do 55 godina, a prosječna dob iznosi 33,5 godina. 

Kako bi se testirala pretpostavka o uticaju dohodka i starosti ispitanika na izdatke na pizzu, 

inicijalno je kreiran sljedeći regresioni model: 

= + + + 

Procijenjeni parametri su prikazani u okviru outputa 2. 

. reg pizza income age 


-------------+------------------------------ F( 2, 37) = 9.08 

Model | 312015.179 2 156007.589 Prob > F = 0.0006 


-------------+------------------------------ Adj R-squared = 0.2930 

Total | 947651.9 39 24298.7667 Root MSE = 131.07 

------------------------------------------------------------------------------ 

pizza | Coef. Std. Err. t P>|t| [95% Conf. Interval] 

-------------+---------------------------------------------------------------- 

income | 1.832479 .4643007 3.95 0.000 .8917163 2.773242 

age | -7.575556 2.316988 -3.27 0.002 -12.27022 -2.880893 

_cons | 342.8848 72.34342 4.74 0.000 196.3031 489.4665 

------------------------------------------------------------------------------ 

Output 2 

Dobijeni rezultat pokazuje da sa porastom dohodka rastu i izdaci na pizzu. Ukoliko se dohodak 

poveća za 1.000$, prosječni izdaci na pizzu će porasti za 1,83$, uz uslov da dob ispitanika 

ostane nepromijenjena. Također, možemo primjetiti da sa povećanjem godina starosti izdaci na 

pizzu opadaju. Za svaku dodatnu godinu starosti imamo smanjenje od 7,57$, pod 

pretpostavkom da je dohodak ostao nepromijenjen. Oba koeficijenta su statistički signifikantna. 

Pretpostavimo sada da sa porastom godina starosti smanjenje izdataka nije konstantno. Naime, 

iz iskustva znamo da zbog životnog stila tinejdžeri i studenti više konzumiraju pizzu od osoba 

u srednjim godinama. Srednovječne osobe pak više konzumiraju pizzu od penzionera. Samim 

2 

Primjer je uzet iz knjige Hill, R. Carter & Griffiths, William E. & Lim, Mark Andrew, Principle of Econometrics 

(2011). 

4

tim, možemo očekivati da se prosječni izdaci na pizzu neće smanjivati uvijek za isiti iznos već 

će sa porastom starosne dobi to smanjenje biti sve veće i veće. U ovom slučaju imamo 

konceptualno uporište da godine starosti (age) posmatramo kao moderirajuću varijablu. 

Hipotezu o tome da smanjenje izdataka po godinama nije konstantno možemo testirati 

uvođenjem moderacijskog efekta u prethodni regresioni model: 

= + + + × + 

Rezultati estimacije prikazani su na outputu 3. 

. reg pizza income age c.income#c.age 


-------------+------------------------------ F( 3, 36) = 7.59 

Model | 367043.25 3 122347.75 Prob > F = 0.0005 


-------------+------------------------------ Adj R-squared = 0.3363 

Total | 947651.9 39 24298.7667 Root MSE = 127 

------------------------------------------------------------------------------ 


-------------+---------------------------------------------------------------- 

income | 6.979905 2.822768 2.47 0.018 1.255067 12.70474 

age | -2.977423 3.352101 -0.89 0.380 -9.775799 3.820952 

| 

c.income#| 

c.age | -.1232394 .0667187 -1.85 0.073 -.2585512 .0120725 

| 

_cons | 161.4654 120.6634 1.34 0.189 -83.25131 406.1822 

------------------------------------------------------------------------------ 

Output 3 

Obratimo pažnju da je estimirani koeficijent za efekt interakcije negativan i signifikantan (b3 = 

- 012, p < 0,05 za jednosmjerni test). 

Nakon što dobijene koficijente uvrstimo u jednačinu modela imamo: 

= 161,46 + 6,98 × + 2,98 × − 0,12 × × + 

3. INTERPRETACIJA INTERAKCIJSKOG EFEKTA 

U modelu bez interakcija, koeficijente b1 i b2 interpretiramo kao glavne efekte (engl. main 

effects) nezavisnih varijabli x1 i x2 na zavisnu varijablu y. Međutim, signifikantan interakcijski 

efekt znatno mijenja tumačenje ranijih koeficijenata. 

U modelu sa interakcijama koeficijent b1 predstavlja glavni efekt x1 samo onda kada je x2 jednak 

nuli, odnosno koeficijent b2 predstavlja glavni efekt x2 samo onda kada je x1 jednak nuli (Joseph 

F. Hair et al., 2006). Ukoliko varijable x1 i x2 nemaju prirodnu nulu, kao što je to slučaj ovdje, 

onda ove koeficijente ne možemo direktno interpretirati. U tom slučaju, postojanje interakcije 

znači da će efekt dohotka (x1) na izdatke (y) biti različit za različite vrijednosti varijable starost 

(x2). Drugim riječima, jedinstveni efekt dohotka na izdatke ne zavisi više samo od vrijednosti 

koeficijenta b1 već zavisi i od vrijednosti koeficijenta b3 i godina starosti (Grace-Martin, n.d.). 

5

Koeficijent b3 intrpretiramo kao veličinu promjene u nagibu regresije između y i x1 kada se x2 

promijeni za jednu jedinicu (Aguinis and Gottfredson, 2010; Preacher, 2003). Signifikanatan 

moderirajući efekt upućuje na (Mooi and Sarstedt, 2014, p. 215): 

- Jačina uticaja x1 na y se povećava kako se povećava x2 ako je predznak za b3 pozitivan. 

- Jačina uticaja x1 na y se smanjuje kako se povećava x2 ako je predznak za b3 negativan. 

U konkretnom slučaju ovo znači da je efekt dohodka (income) na izdatke (pizza) različit za 

različite godine starosti (age). Kako dohodak raste izdaci na pizzu također rastu, ali obzirom da 

je koeficijent b3 negativan, taj rast će biti manji u slučaju starijih osoba nego mlađih. 3 

Obratimo pažnju da je koeficijent vezan za godine starosti (age) u modelu sa interkacijama sada 

statistički nesignifikantan. Ovo znači da godine starosti utiču na izdatke za pizzu samo kroz 

interakciju sa prihodom. 

Da bi olakšali interpretaciju prethodnu jednačinu možemo napisati kao: 

= ( + ) + ( + ( )) 

= (6,98 − 0,12 × ) × + 161,46 − 2,98 × ( ) 

Član ( + ( )) se naziva jednostavni presjek (engl. simple intercept) za jednačinu kojom 

opisujemo y kao linearnu funkciju x1. Ovaj član ne utiče na nagib regresije već samo na presjek. 

Član ( + ) se u modelu sa interakcijom naziva jednostavnim nagibom (engl. simple 

slope). Jednostavni nagib se definiše kao regresija između y i zavisne varijabe x1 za specifičnu 

vrijednost moderatora x2. Činjenica da jednostavni nagib uključuje x2 govori da će se nagib 

između y i x1 mijenjati sa promjenom x2 (Preacher et al., 2004). Samim tim, procjenu efekta 

koji x1 ima na y možemo dobiti tako što ćemo za x2 odabrati vrijednosti od interesa i izračunati 

jednostavni nagib. Odabrane vrijednosti za x2 se nazivaju još i uslovnim vrijednostima (engl. 

conditional values). 

Shodno tome, bitno je zapamtiti da u modelima sa interakcijama govorimo prvenstveno o 

uslovnim efektima. Vrlo često istraživači koeficijente nižeg reda (tj. b1 i b2) u modelima sa 

interakcijama nazivaju glavnim efektima. Upotreba takve terminologije može dovesti do 

zabune jer se zaboravlja da je u stvari riječ o uslovnim efektima tj. da se efekt x1 može 

interpretirati kao glavni efekt samo kada je x2 = 0 i obrnuto, efekt x2 se interpretira kao glavni 

efekt samo kada je x1 = 0 (Afshartous and Preston, 2011, p. 13). 

Ukoliko su x1 i x2 kontinuirane varijable, onda u modelima sa interakcijom postoji beskonačno 

veliki broj uslovnih vrijednosti koje možemo uzeti da bi izračunali efekte koje nezavisne 

varijable imaju na zavisnu varijablu. Ipak, kako bi se razumio efektat interakcije, sasvim je 

dovoljno da se iz tog skupa odaberu dvije ili tri uslovne vrijednosti za x2 i dvije ili tri vrijednosti 

za x1. U praksi, istraživači najčešće se uzimaju vrijednosti koje se nalaze ±1 standardnu 

devijaciju od aritmetičke sredine nezavisnih varijabli (Preacher, 2003). 

3 

Ako dohodak posmatramo kao moderirajuću varijablu onda bi efekt interakcije interpretirali na sledeći način: 

Efekt godina (age) na izdatke (pizza) je različit za različite visine prihoda. Kako osoba stari njeni izdaci na 

potrošnju pizze padaju. Obzirom daje b3 negativan, taj pad će biti veći kod osoba sa većim dohotkom. 

6

U našem primjeru, za moderirajuću varijablu age (x2) vrijednosti aritmetičke sredine i 

standardne devijacije su prikazane u okviru outputa 1 i iznose: 

aritmetička sredina za x2 (age) = 33,47 ≈ 33 

standardna devijacija za x2 (age) = 10,25 ≈ 10 

Na osnovu toga dvije uslovne vrijednosti za x2 su: 

x2(mlađi) = AS – SD = 33 – 10 = 23 

x2(stariji) = AS + AD = 33 + 10 = 43 

Regresiona linija za mlađe ispitanike imaće sljedeću formulu: 

( đ ) = ( + ) + + ( ) 

( đ ) = (6,98 − 0,12 × ) × + (161,46 − 2,98 × ) 

= (6,98 − 0,12 × 23) × + (161,46 − 2,98 × 23) 

= 92,92 + 4,22 × 

Na ovaj način smo izračunali simple slope za ispitanike koji imaju 23 godine starosti. Isto tako 

ćemo izračunati simple slope za ispitanike koji imaju 43 godine starosti: 

( ) = ( + ) + + ( ) 

( ) = (6,98 − 0,12 × ) × + (161,46 − 2,98 × ) 

= (6,98 − 0,12 × 43) × + (161,46 − 2,98 × 43) 

= 33,32 + 1,82 × 

Ove dvije jednačine nam pružaju uvid u ukupni efekt nezavisne varijable x1 za odabrane 

vrijednosti moderirajuće varijable x2. Kada je je dob ispitanika (x2) jednaka 23 godine, ukupni 

efekt prihoda (x1) na potrošnju (y) je 4,22. Drugim riječima, ukoliko se prihod osobe starosti 23 

godine poveća za 1.000$ možemo očekivati da će se izdaci na pizzu povećati za 4,22$. 

S druge strane, za ispitanike u starosnoj dobi od 43 godine ukupni efekt nezavisne varijable 

iznosi 1,82. Odnosno, ukoliko se prihod osobe starosti 43 godine poveća za 1.000$ možemo 

očekivati da će se izdaci na pizzu povećati za 1,82$. 

Sada možemo izabrati bilo koje dvije smislene vrijednosti za nezavisnu varijablu x1 (income) 

kako bi predvidjeli vrijednosti zavisne varijable uz prethodno odabrane uslovne vrijednosti x2. 

Uobičajeno se uzimaju minimalna i maksimalna opservirana vrijednost x1 ili vrijednosti koje se 

nalaze ±1 standardnu devijaciju od aritmetičke sredine nezavisne varijable x1. U našem slučaju: 

aritmetička sredina za x1 (income) = 55,80 ≈ 56 

standardna devijacija za x1 (income) = 51,17 ≈ 51 

Na osnovu toga dobićemo sljedeće vrijednosti za x1: 

7

x1(niski prihod) = AS – SD = 56 – 51 = 5 

x1(visoki prihod) = AS + SD = 56 + 51 = 107 

Prvo ćemo razmotriti ispitanike sa niskim godišnjim primanjima: 

( đ ) = 92,92 + 4,22 × ( ) = 92,92 + 4,22 × 5 = 114,02 

( ) = 33,32 + 1,82 × ( ) = 33,32 + 1,82 × 5 = 42,42 

Dakle, za mlađe osobe starosti 23 godine koje imaju godišnji prihod od 5.000$ očekujemo da 

na pizzu u prosjeku potroše 114$. S druge strane, osobe starosti 43 godine sa istim nivoom 

prihoda će na pizzu u prosjeku potrošiti samo 42$. 

Pogledajmo sada šta se dešava u kategoriji ispitanika sa većim primanjima: 

( đ ) = 92,92 + 4,22 × ( ) = 92,92 + 4,22 × 107 = 544,46 

( ) = 33,32 + 1,82 × ( ) = 33,32 + 1,82 × 107 = 228,06 

Osobe starosti 23 godina koje imaju ukupna godišnja primanja 107.000$ u prosjeku će na 

izdatke za pizzu godišnje potrošiti 544$. Potrošnja osoba u dobi od 43. godine sa istim nivoom 

godišnjeg prihoda će biti znatno manja i iznosiće 286$. 

4. GRAFIČKO PREDSTAVLJANJE INTERAKCIJSKOG EFEKTA 

Moderirajući efekt je često teško interpretirati bez korištenja grafika. Da bi grafički prikazali 

moderirajući efekt, ranije dobijene predviđene vrijednosti zavisne varijable ćemo unijeti u 

sljedeću tabelu: 

Tabela 1. 

mlađi stariji 

niži prihod 114 42 

viši prihod 544 228 

Vrijednosti iz tabele 1 zatim možemo iskoristiti u Excel-u kako bi efekt interakcije predstavili 

vizuelno 4 . Linije na grafu korespondiraju odabranim uslovnim vrijednostima morerirajuće 

varijable age. 

4 

Jeremy Dawson’s website (http://www.jeremydawson.co.uk/slopes.htm) offers a tool to visualize moderation 

effects. 

8

Slika 1. 

Na grafu primjećujemo da sa povećanjem prihoda dolazi do rasta izdataka na pizzu. Međutim, 

ovaj porast je znatno brži kod mlađih nego kod starijih ispitanika. 

Novije verzije State omogućavaju da čitav proces grafičkog predstavljanja interakcijskih efekta 

pojednostavimo upotrebom naredbi margins i marginsplot. Naredba margins 

omogućava korisniku da izračuna predviđenu vrijednost zavisne varijable za bilo koje uslovne 

vrijednosti nezavisnih varijabli. Samim tim, umjesto da ručno računamo predviđene vrijednosti 

koje su nam potrebne za tabelu 1, taj posao možemo prepustiti Stati. 

Naredba margins se koristi nakon što estimiramo regresioni model. Iz tog razloga, prvo smo 

ponovo uradili regresionu analizu: 

. quietly reg pizza income age c.income#c.age 

Obzirom da smo za dohodak i godine starosti ranije definisali vrijednosti koje se nalazi nalaze 

±1 standardnu devijaciju od aritmetičke sredine, putem margins komande ćemo tražiti da 

Stata izračuna srednju predviđenu vrijednost zavisne varijable za odabrane uslovne vrijednosti 

nezavisnih varijabli. Ukoliko testiramo moderacijski efekt onda je konvencija da se prvo 

definišu uslovne vrijednosti nezavisne varijable (u konkretnom slučaju su to vrijednosti 5 107), 

a zatim uslovne vrijednosti moderirajuće varijable (u datom primjeru su to vrijednosti 23 i 43) 5 . 

Izračunate predviđene vrijednosti prikazane su na outputu 4. 

. margins, at(income=(5 107) age=(23 43)) 

Adjusted predictions Number of obs = 40 

Model VCE : OLS 

Expression 

: Linear prediction, predict() 

1._at : income = 5 

age = 23 

2._at : income = 5 

5 

Prilikom definisanja možemo uzeti i više od dvije uslovne vrijednosti. Na primjer, pored već odabranih mogli 

smo dodati i aritmetičku sredinu nezavisnih varijabli kao još jednu uslovnu vrijednost. U tom slučaju puna naredba 

bi imala sljedeći oblik: margins, at(income=(5 56 107) age=(23 33 43)) 

9

age = 43 

3._at : income = 107 

age = 23 

4._at : income = 107 

age = 43 

------------------------------------------------------------------------------ 

| Delta-method 

| Margin Std. Err. z P>|z| [95% Conf. Interval] 

-------------+---------------------------------------------------------------- 

_at | 

1 | 113.7117 46.68085 2.44 0.015 22.2189 205.2045 

2 | 41.83929 43.72043 0.96 0.339 -43.85118 127.5298 

3 | 536.5425 103.1831 5.20 0.000 334.3073 738.7777 

4 | 213.2618 30.48697 7.00 0.000 153.5085 273.0152 

------------------------------------------------------------------------------ 

Output 4 

Ako ih uporedimo sa vrijednostima koje smo dobili ručnim izračunom (tabela 1), vidjećemo 

da se slažu. Razlika se javlja samo zbog zaokruživanja. 

Ono što nismo mogli dobiti ručnim računanjem je statistička signifikantnost predviđenih 

vrijednosti. Naime, već smo naglasili da u modelima sa interkacijama postoji veliki broj 

uslovnih vrijednosti koje se mogu uzeti za analiziranje efekta, potrebno je imati na umu da svaki 

od izračunatih efekta može imati različit nivo statističke signifikantnosti. Naime, obzirom da 

uticaj x1 na y zavisi od odabrane vrijednosti x2, ne samo da će se veličina efekta (b1) razlikovati 

za svaku odabranu vrijednost varijable x2, već se razlikovati i standardna greška, t-vrijednost, a 

samim tim i p-vrijednost pridružena tom efektu. Shodno tome, možemo utvrditi vrijednosti x2 

za koje je efekt x1 na y signifikantan - ili obratno - vrijednosti x1 za za koje je efekt x2 na y 

signifikantan (Afshartous and Preston, 2011). 

U konkretnom slučaju, predviđeni izdatak na pizzu u iznosu od 42$ godišnje, za osobe starosti 

43 godina i sa dohodkom od 5.000$, nije statistički signifikantan. To znači da nemamo dovoljno 

dokaza da odbacimo hipotezu da je u prosjeku gledano za tu kategoriju potrošnja veća od nule. 

U sljedećm koraku ćemo upotrijebiti naredbu marginsplot kako bi grafički predstavili efekt 

interakcije. 

. marginsplot, noci 

Variables that uniquely identify margins: income age 

10

Slika 2 

Tumačenje je identično kao i za sliku 1. 

5. CENTRIRANJE I STANDARDIZOVANJE VARIJABLI 

Nezaobilazna tema kada je riječ o modelima koji uključuju interakcijske efekte odnosi se na 

centiranje varijabli. Pod centriranjem se podrazumjeva postupak pri kojem se od vrijednosti 

svake pojedinačne opservacije nezavisne varijable oduzima aritmetička sredina te varijable. 

Takvo centriranje se naziva još i centriranje oko opšteg prosjeka (engl. Grand Mean Centering). 

Nakon ove transformacije, AS nove varijable je 0, dok SD ostaje ista kao kod orginalne 

varijable (Međedović, 2013, p. 270). 

Postoji veliki broj radova u kojima se prepručuje centriranje varijabli prije nego pristupimo 

estimaciji modela sa interakcijama. Gotovo svi autori koji preporučuju centriranje varijabli se 

referenciraju na dvije vrlo uticajne knjige o regresionoj analizi (Aiken and West, 1991; Cohen 

et al., 2003). Pri tome se najčešće navode dva razloga za centriranje varijabli: 

1. Reduciranje multikolinearnosti između nezavisnih varijabli. 

2. Olakšavanje interpretacije regresionih koeficijenata 

Kad je riječ o prvom razlogu, ispostavlja se da centriranje varijabli niti pomaže niti odmaže pri 

reduciranju multikolineranost. Jednostavno, riječ je o svojevrsnom mitu koji je prositekao iz 

pogrešnog interpretiranja onoga što su napisali Aiken i West (Echambadi and Hess, 2004, p. 4; 

Hayes, 2013, p. 289) 

Pogledajmo u našem primjeru šta se dešava ako koristimo centirarne varijable i kako to utiče 

na tumačenje rezultata. Prvo ćemo nezavisne varijable centrirati oko opšteg prosjeka: 

. gen cincome = income - 55.8025 

. gen cage = age - 33.475 

Zatim ćemo genrisati interakcioni efekt za orginalne i centrirane varijable: 

11

. gen incomexage = income*age 

. gen cincomexcage = cincome*cage 

Na outputu 5 je prikazana deskriptivna statistika za sve varijable od interesa: 

. tabstat pizza income cincome age cage incomexage cincomexcage, s(mean sd var skew k range min 

max) format(%9.1f) 

stats | pizza income cincome age cage income~e cinco~ge 

---------+---------------------------------------------------------------------- 

mean | 191.6 55.8 -0.0 33.5 -0.0 2107.6 239.6 

sd | 155.9 51.2 51.2 10.3 10.3 2360.6 483.2 

variance | 24298.8 2618.0 2618.0 105.1 105.1 5572450.9 233505.2 

skewness | 0.7 2.7 2.7 0.3 0.3 2.8 3.3 

kurtosis | 2.5 12.2 12.2 2.1 2.1 12.6 17.5 

range | 590.0 280.8 280.8 37.0 37.0 12753.0 3091.4 

min | 0.0 7.8 -48.0 18.0 -15.5 234.0 -408.4 

max | 590.0 288.6 232.8 55.0 21.5 12987.0 2683.0 

-------------------------------------------------------------------------------- 

Output 5 

Možemo primjetiti da se aritmetička sredina centriranih varijabli promijenila i da je jednaka 

nuli. Također, promijenile su min i max vrijednosti ali je raspon ostao jednak. Ostali parametri 

su takođe ostali nepromijenjeni. Kad je riječ o interakcijskim članovima, primjećujemo da su 

SD, varijansa i raspon znatno manji u slučaju interakcijskog člana dobijenog množenjem 

centriranih varijabli. Ovo ne čudi obzirom da je prosječna vrijednost centriranih varijabli 

jednaka nuli, pa se njihovim međusobnim množenjem smanjuje kovarijansa (Echambadi and 

Hess, 2004, p. 3). 

U suštini, centriranje varijabli je matematska transformacija kojom se samo pomjera polazna 

tačka podataka, bez da se utiče na relativnu poziciju bilo koje pojednične opservacije 

(Echambadi and Hess, 2004, p. 4). Ovo se najbolje može vidjeti na slici 3. 

Slika 3: Grafička reprezentacija necentriranih i centriranih podataka u 3D prostoru 

Prije same regresione analize kreirat ćemo korelacionu matricu: 

. pwcorr pizza income cincome age cage incomexage cincomexcage 

12

| pizza income cincome age cage income~e cinco~ge 

-------------+--------------------------------------------------------------- 

pizza | 1.0000 

income | 0.3680 1.0000 

cincome | 0.3680 1.0000 1.0000 

age | -0.2165 0.4685 0.4685 1.0000 

cage | -0.2165 0.4685 0.4685 1.0000 1.0000 

incomexage | 0.2670 0.9812 0.9812 0.5862 0.5862 1.0000 

cincomexcage | 0.2561 0.6943 0.6943 0.0190 0.0190 0.7130 1.0000 

Output 6 

Primjećujemo da interakcijski član income×age u znatnoj mjeri korelira sa orginalnom 

varijablom income (r = 0,98), dok nešto manje korelira sa varijablom age (r = 0,59). Nakon 

centriranja, korelacija između interakcijskog člana cincome×cage i centrirane varijable 

cincome je manja (r = 0,69), a za varijablu cage je gotvo nepostojeća (r = 0,02). 

Činjenica da centriranje varijabli vodi ka manjoj međusobnoj korelaciji je najčešći razlog zbog 

kojeg nemali broj autora tvrdi da je neophodno centrirati varijable prije specifikacije modela i 

testiranja interkacija. Prema toj argumentaciji, korištenje orginalnih varijabli može dovesti do 

znatne multikolinearnosti između nezavisnih varijabli i interakcijskog člana, što će za 

posljedicu imati probleme pri estimaciji koji će rezultirati pristrasnim ili „čudnim“ regresionim 

koeficijentima, velikim standardnim greškama i smanjenoj snazi pri testiranju interakcionog 

efekta. Ipak, ispostavilo se da je u slučajevima modela sa interkacijskim efektom ova logika 

pogrešna i nekompletna. (Hayes, 2013). 

Zašto centiranje ne pomaže mnogo u pogledu poboljšanja estimacije objašnjeno je detaljno u 

nekoliko radova (Echambadi and Hess, 2004; Afshartous and Preston, 2011; Hayes, 2013). Bez 

ulaženja u tehničke detalje navešćemo samo da centiranje varijabli smanjuje kovarijansu 

između nezavisnih varijabli i interakcijskog člana, što je „dobro“, ali ono takođe samnjuje i 

varijansu samog interakcijskog člana što je „loše“. Naime, za precizno mjerenje odnosa unutar 

modela, potrebno je da interakcijski član obuhvati što širi skup vrijednosti. Međutim, u slučaju 

interakcijskog člana dobijenog množenjem centriranih varijabli taj raspon je znatno manji. 

Nakon što se u obzir uzme „dobra“ i „loša“ strana centriranja, dolazi se do zaključka kako ono 

uopšte ne utiče na preciznost estimacije regresionih koeficijenata. Drugim riječima, centriranje 

niti pomaže niti odmaže pri estimaciji regresionog modela (Echambadi and Hess, 2004, p. 9). 

Estimirajmo sada regresioni model sa centriranim varijbalma: 

. reg pizza cincome cage c.cincome#c.cage 


-------------+------------------------------ F( 3, 36) = 7.59 

Model | 367043.244 3 122347.748 Prob > F = 0.0005 


-------------+------------------------------ Adj R-squared = 0.3363 

Total | 947651.9 39 24298.7667 Root MSE = 127 

---------------------------------------------------------------------------------- 


-----------------+---------------------------------------------------------------- 

cincome | 2.854468 .7130921 4.00 0.000 1.40825 4.300686 

cage | -9.854487 2.561649 -3.85 0.000 -15.04975 -4.659222 

c.cincome#c.cage | -.1232394 .0667187 -1.85 0.073 -.2585512 .0120725 

_cons | 221.0826 25.66757 8.61 0.000 169.0264 273.1389 

---------------------------------------------------------------------------------- 

Output 7 

13

Ako uporedimo dobijene rezultate sa rezultatima estimacije modela sa orginalnim 

necentriranim varijablama možemo vidjeti da je dio outputa koji se odnosi na reprezentativnost 

regresionog modela ostao nepromijenjen (MSresidual = 580.609, F = 7,59, adj-R 2 = 0,3363). 

Također, sam estimirani interakcijski efekt, njegova standardna greška, t-staistika i p-vrijednost 

su ostale nepromijenjene. Dakle, iako je centriranje smanjilo multikolinearnost, rezultati testa 

vezanog za interakcijski član u modelu sa centriranim varijablama su identični rezultatima testa 

u modelu sa orginalnim varijabalma. Iz ovoga proizilazi da multikolinearnost ne smanjuje 

snagu testa niti rezultira pristrasnim koeficijentima. 

Ono po čemu se razlikuju rezultati estimacije modela sa centriranim u odnosu na model sa 

orginalnim varijablama jesu koeficijenti vezani za varijable prediktore x1 i x2. Također, 

primjećujemo da su standardne greške vezane za varijable prediktore znatno manje u modelu 

sa centriranim varijablama. Zbog toga, orginalna varijabla age u prvobitnom modelu nije 

signifikantna, dok je centrirana varijabla cage u modelu sa transformisanim varijablama 

signifikantna. 

Na prvi pogled ispada da multikolineranost zaista utiče na estimaciju uticaja varijabli 

prediktora. U modelu u kojem smo koristili orginalne varijable, koeficijenti su drugačiji, 

standardne greške su veće, a uticaj jednog prediktora nije čak ni statistički signifikantan. Nakon 

centriranja varijabli prediktora, rezultati su naizgled 'bolji' jer smo se riješili multikolinearnosti. 

Međutim, podsjetimo se da u modelima sa interakcijama govorimo prvenstveno o uslovnim 

efektima, od kojih svaki može imati različit nivo statističke signifikantnosti. U modelu sa 

orginalnim varijablama koeficijent b1 predstavlja efektat varijable x1 samo onda kada je x2 = 0. 

Isto tako, koeficijent b2 je efekt varijable x2 u slučaju kada je x1 = 0. S druge strane, u modelu 

sa centriranim varijablama, b1 predstavlja efektat koji x1 ima u slučaju kada je vrijednost x2 

jednaka aritmetičkoj sredini. Odnosno, b2 je efekt prediktora x2 kada je vrijednost x1 jednaka 

aritmetičkoj sredini. 

Dakle, razlika u koeficijentima b1 i b2 između modela sa i bez centriranja se ne javlja zbog toga 

što je model sa centriranim varijablama precizniji i manje pristrasan, već zato što ta dva modela 

estimiraju različite efekte. Obzirom da estimiraju različite efekte, njihove standardne greške, t 

i p-vrijednosti će biti različite. Samim tim i razlika u standardnim greškama nema nikakve veze 

sa multikolineranošću već sa činjenicom da se procjenjuju različiti efekti (Hayes, 2013, p. 288). 

Postavlja se pitanje da li onda uopšte centrirati varijable? Glavni razlog zbog kojeg je nekad 

poželjno, ali ne i neophodno, uraditi centriranje varijabli odnosi se na olakšavanje interpretacije 

dobijenih koeficijenata vezanih za varijable prediktore. Naime, već smo vidjeli da će nakon 

centriranja koeficijent vezan za interakcijski član ostati nepromijenjen. U tom smislu, 

interpetacija samog interacijskog efekta će ostati ista bez obzira na to da li smo centrirali 

varijable ili ne. 

S druge strane, ukoliko varijable x1 i x2 nemaju prirodnu nulu, onda u modelu sa necentriranim 

varijablama dobijene koeficijente ne možemo direktno interpretirati jer takva interpretacija 

neće biti logički smislena. Na primjer, b1 unutar modela sa orginalnim varijablama procjenjuje 

promjenu u izdacima na pizzu (y) ako dohodak poraste za jednu jedinicu (x1), u slučaju kada je 

14

dob ispitanika (x2) jednaka nuli. 6 Ipak, takvo tumačenje teško da ima logičkog smisla jer dob 

ispitanika koji konzumiraju pizzu ne može biti nula. 

Međutim, ukoliko smo nezavisne varijable centrirali, onda će dobijeni koeficijenti uvijek biti 

smisleni, a ne samo u slučaju kada te varijable imaju prirodnu nulu. Tako će b1 unutar modela 

sa centriranim varijablama predstavljati procjenu promjene u izdacima na pizzu (y) ako 

dohodak poraste za jednu jednicu (x1), u slučaju kada je dob ispitanika jednaka prosjeku (x2 = 

33,4 godine). Slično tome, b2 možemo interpretirati kao procjenu promjene u izdacima na pizzu 

ako starost poraste za jednu godinu (x2), u slučajevima kada je prihod ispitanika jednak prosjeku 

(x1 = 55,8 hiljada $). 

Jasno je da tumačenje koeficijenata iz modela sa centriranim varijablama ima više logičkog 

smisla. Ipak, na kraju ćemo ponovo napomentuti da i sam prosjek varijabli prediktora 

predstavlja samo jednu od mogućih uslovnih vrijednosti. Do istog rezultata smo mogli doći i 

na osnovu vrijednosti b1 i b3 koeficijenata iz modela sa orginalnim varijablama uz procjenu 

uslovnog efekta za x1 kada je x2= : 

= ( + ) 

= (6,979905 − 0,12324 × ) × 

= (6,979905 − 0,12324 × 33,475) × 

= 2,2854468 × 

što je rezultat koji tačno odgovara koeficijentu b1 iz modela sa centriranim predktorima. Štaviše, 

čak se i standardne greške za b1 u modelu sa centriranim varijablama mogu izvesti rješenja koje 

smo dobili za model bez centriranja 7 . 

6. DUMMY VARIJABLE I INTERAKCIJE 

Koncept interakcija se direktno može primijeniti i u slučaju varijabli indikatora. Pretpostavimo 

da je istraživač želio ispitati da li žene više troše na odjeću u odnosu na muškarce. U tu svrhu 

anketirano je 100 posjetitelja tržnog centra (50 muškaraca i 50 žena). Od svakog ispitanika je 

traženo da navede podatak o mjesečnim izdacima na odjeću (izdaci) i ličnom dohotku (plata). 

Prikupljeni podaci su pohranjeni u datoteku izdaci.dta. U okviru outputa 8 i 9 dat je prikaz 

prosječnih izdataka i dohodak za ispitanike iz uzorka. 

. sum 


-------------+-------------------------------------------------------- 

plata | 100 1016.45 328.2963 150 1872 

izdaci | 100 127.15 63.2266 0 285 

spol | 100 .5 .5025189 0 1 

Output 8 

. tabstat izdaci plata, by (spol) s(mean) 

Summary statistics: mean 

6 

Tumačenje na bazi onoga što piše u (Hayes, 2013, p. 288) 

7 

Za više detalja pogledati: (Hayes, 2013, p. 289) 

15

y categories of: spol (Spol) 

spol | izdaci plata 

-------+-------------------- 

Muški | 87.5 971.84 

Ženski | 166.8 1061.06 

-------+-------------------- 

Total | 127.15 1016.45 

---------------------------- 

Output 9 

Možemo primjetiti da ispitanice imaju nešto veću prosječnu platu ali i da istovremeno imaju 

duplo veće mjesečne izdatke za odjeću. 

Da bi preciznije ispitali uticaj plate i spola na mjesečne izdatke za odjeću kreirali smo sljedeći 

regresioni model: 

= + + + 

gdje je varijabla spol kodirana tako da je 0 = muški, 1 = ženski. Rezultati estimacije su dati u 

okviru outputa 9. 

. reg izdaci plata spol 


-------------+------------------------------ F( 2, 97) = 69.00 

Model | 232400.481 2 116200.24 Prob > F = 0.0000 


-------------+------------------------------ Adj R-squared = 0.5787 

Total | 395762.75 99 3997.60354 Root MSE = 41.038 

------------------------------------------------------------------------------ 

izdaci | Coef. Std. Err. t P>|t| [95% Conf. Interval] 

-------------+---------------------------------------------------------------- 

plata | .0847383 .0126822 6.68 0.000 .0595676 .1099089 

spol | 71.73965 8.2853 8.66 0.000 55.29563 88.18368 

_cons | 5.147962 13.62315 0.38 0.706 -21.89023 32.18615 

------------------------------------------------------------------------------ 

Output 9 

Nakon što estimirane parametre ubacimo u prethodnu formulu dobićemo: 

= 5,15 + 0,0847 × + 71,74 × 

 

 

 

Konstanta nam govori da za muške ispitanike (spol = 0) bez vlastitog ličnog dohotka 

(plata = 0) u prosjeku možemo očekivati mjesečnu potrošnju od 5,15 KM. Ipak, ovakav 

zaključak treba uzeti sa određenom rezervom obzirom da u uzorku nismo imali 

ispitanika bez ličnih primanja. 

Koeficijent vezan za platu je pozitivan i statistički signifikantan što znači da s 

povećanjem plate od 100 KM možemo očekivati povećanje mjesečnih izdatataka na 

odjeću u iznosu od 8,47 KM. 

Koeficijent vezan za spol je pozitivan i statistički signifikantan što govori da žene 

mjesečno na odjeću troše 71,74 KM više u odnosu na muškarce. 

16

Estimirani model je grafički predstavljen na slici 4. 

Slika 4 

Model sa slike 4 implicira da se potrošnja između muškaraca (isprekidana linija) i žena (puna 

linija) uvijek razlikuje za konstantni iznos. U prosjeku gledano, žene će uvijek imati izdatke na 

odjeću veće za 71,74 KM u odnosu na muškarce sa istim nivoom primanja. 

Međutim, može se postaviti pitanje da li je to tačno. Odnosno, da li paralelne linije najbolje 

oslikavaju empirijske tačke na slici 4? Ukoliko pažljivije pogledamo raspored empirijskih 

tačaka za muškarce i žene na slici 4 čini se da izdaci na odjeću kod žena sa povećanjem dohotka 

rastu brže u odnosu na muškarce. 

Hipoteza da će dohodatk imati različit uticaj na potrošnju kod žena u odnosu na muškarce 

naziva se uslovnom hipotezom i može se testirati putem interakcijskog efekta. Interakcijski 

efekat žemo dobiti tako što pomnožimo indikatorsku varijablu (spol) sa metrijskom varijablom 

(plata) tako da imamo: 

= + + + × + 

Rezultati estimacije modela sa interakcijskim efektom prikazani su unutar outputa 10. 

. reg izdaci plata spol c.plata#i.spol 


-------------+------------------------------ F( 3, 96) = 51.07 

Model | 243304.612 3 81101.5374 Prob > F = 0.0000 


-------------+------------------------------ Adj R-squared = 0.6027 

Total | 395762.75 99 3997.60354 Root MSE = 39.851 

------------------------------------------------------------------------------ 

izdaci | Coef. Std. Err. t P>|t| [95% Conf. Interval] 

-------------+---------------------------------------------------------------- 

plata | .0541829 .01696 3.19 0.002 .0205175 .0878483 

spol | 5.882689 26.38946 0.22 0.824 -46.49998 58.26535 

| 

spol#c.plata | 

17

1 | .0646364 .0246673 2.62 0.010 .0156722 .1136006 

| 

_cons | 34.84287 17.41931 2.00 0.048 .2658066 69.41994 

------------------------------------------------------------------------------ 

Output 10 

U odnosu na prethodni model, novi model ima adj. R 2 bolji za 2,4% što nije mnogo. Obratimo 

pažnju i da je efekt dummy varijable sada mnogo manji i nesignifikantan. Ipak, interakcijski 

efekt je signifikantan. 

Da bi dobili bolji uvid u to šta smo postigli ubacivanjem interakcijskog efekta poći ćemo od 

opšte jednačine modela: 

= 34,84 + 0,0542 × + 5,88 × + 0,0646 × × 

Zatim ćemo kreirati dvije odvojene jednačine vezane za muškarce i žene. Jednačinu za žene 

žemo dobiti ako vrijednost dummy varijable fiksiramo na 0: 

š = 34,84 + 0,0542 × + 5,88 × 0 + 0,0646 × × 1 

š = 34,84 + 0,0542 × 

 

 

Možemo očekivati da muškarci bez vlastitih primanja (plata = 0) u prosjeku na odjeću 

mjesečno troše 33,84 KM. 


povećanjem plate od 100 KM možemo očekivati da će muškarci u prosjeku povećati 

mjesečne izdatke na odjeću u iznosu od 5,42 KM. 

S druge strane, jednačinu za žene dobijamo ako vrijednost varijable spol fiksiramo na 1: 

ž = 34,84 + 0,0542 × + 5,88 × 1 + 0,0646 × × 1 

ž = 34,84 + 0,0542 × + 5,88 + 0,0646 × 

ž = (34,84 + 5,88) + (0,0542 + 0,0646) × 

ž = 40,72 + 0,1188 × 

 

 

Možemo očekivati da žene bez vlastitih primanja (plata = 0) u prosjeku na odjeću 

mjesečno troše 40,72 KM. 


povećanjem plate od 100 KM možemo očekivati da će žene u prosjeku povećati 

mjesečne izdatke na odjeću u iznosu od 11,88 KM. 

Iako ne postoji statistički signifikantna razlika u mjesečnim izdacima između muškaraca i žena 

koji nemaju vlastita primanja (spol = 5,8, p = 0,824, kada je plata = 0), postojanje statistički 

signifikantnog efekta interakcije upućuje na zaključak da između muškaraca i žena postoji 

razlika u pogledu obrazaca potrošnje na odjeću. Naime, za svaku marku povećanja ličnog 

dohotka možemo oćekivati da će žene više trošiti na odjeću u odnosu na muškarce (11,88 

feninga u odnosu na 5,42 feninga). 

18

Ove relacije su grafički prikazane na slici 5. 

Slika 5 

Kao što je ubacivanje indikatorske varijable u model omogućilo da imamo dvije različite 

konstante, interakcijski efekt omogućava da imamo različite nagibe regresionih linija vezanih 

za muškarce i žene. 

Također, za kraj treba nepomenuti da u slučaju interakcija sa dummy varijablama ne treba 

koristiti centriranje obzirom da prosječna vrijednost dummy varijable nema nikakvo praktično 

značenje (Afshartous and Preston, 2011, p. 19). 

19

7. BIBLIOGRAFIJA 

Afshartous, D., Preston, R.A., 2011. Key Results of Interaction Models With Centering. J. Stat. 

Educ. 19. 

Aguinis, H., Gottfredson, R.K., 2010. Best-practice recommendations for estimating interaction 

effects using moderated multiple regression. J. Organ. Behav. 31, 776–786. 

doi:10.1002/job.686 

Aiken, L.S., West, S.G., 1991. Multiple Regression: Testing and Interpreting Interactions. 

SAGE Publications, Inc, Newbury Park, Calif. 

Cohen, J., Cohen, P., West, S.G., Aiken, L.S., 2003. Applied Multiple Regression/Correlation 

Analysis for the Behavioral Sciences, 3rd ed. Lawrence Erlbaum Associates, Inc. 

Echambadi, R., Hess, J.D., 2004. Mean-Centering Does Nothing for Moderated Multiple 

Regression. J. Mark. Res. 

Grace-Martin, K., n.d. Interpreting Interactions in Regression. Anal. Factor. 

Hayes, A.F., 2013. Introduction to Mediation, Moderation, and Conditional Process Analysis: 

A Regression-Based Approach, 1 edition. ed. The Guilford Press, New York. 

Međedović, J., 2013. Analiza interkacija prediktora u modelima linearne regresije: Primer 

stranačke evaluacije. Primjen. Psihol. 6, 267–286. 

Mooi, E., Sarstedt, M., 2014. A Concise Guide to Market Research: The Process, Data, and 

Methods Using IBM SPSS Statistics, 2nd ed. Springer. 

Preacher, K.J., 2003. A primer on interaction effects in multiple linear regression. 

Preacher, K.J., Curran, P.J., Bauer, D.J., 2004. Simple Intercepts, Simple Slopes, and Regions 

of Significance in MLR 2-Way Interactions. 

20

analitika teorija

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?