You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Marketing <strong>analitika</strong>: Istraºiva£ki proces 1<br />
autor: doc. dr Emir Agi¢<br />
02. 03. 2015. (ver. 1.1)<br />
1 NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnoºavanje<br />
ovog materijala ili nekih njegovih dijelova bez prethodnog pisanog pristanka<br />
autora.
Sadrºaj<br />
1 Metodologija istraºiva£kog procesa 2<br />
1.1 Denisanje problema istraºivanja . . . . . . . . . . . . . . . . 3<br />
1.2 Generisanje teoretskog okvira . . . . . . . . . . . . . . . . . . 4<br />
1.3 Denisanje istraºiva£kih hipoteza . . . . . . . . . . . . . . . . 8<br />
1.4 Kreiranje istraºiva£kog dizajna za provjeru hipoteza . . . . . 9<br />
1.4.1 Denisanje na£ina mjerenja: varijable . . . . . . . . . 9<br />
1.4.1.1 Kvalitativne i metrijske varijable . . . . . . . 10<br />
1.4.1.2 Opservirane i latentne varijabe . . . . . . . . 11<br />
1.4.2 Denisanje na£ina mjerenja: korelacioni i eksperimentalni<br />
dizajn . . . . . . . . . . . . . . . . . . . . . . . . 13<br />
1.4.3 Prikupljanje podataka: Uzorak i uzorkovanje . . . . . 15<br />
1.5 Analiza podataka i interpretacija rezultata . . . . . . . . . . . 17<br />
1.5.1 Priprema podataka za analizu . . . . . . . . . . . . . . 17<br />
1.5.2 Odabir tehnike analize . . . . . . . . . . . . . . . . . . 18<br />
1.5.3 Analiza podataka . . . . . . . . . . . . . . . . . . . . . 23<br />
1.5.3.1 Statisti£ko modeliranje . . . . . . . . . . . . 23<br />
1.5.3.2 Interpretacija dobijenih rezultata . . . . . . . 24<br />
1.6 Zaklju£ak istraºivanja . . . . . . . . . . . . . . . . . . . . . . 26<br />
1
Poglavlje 1<br />
Metodologija istraºiva£kog<br />
procesa<br />
Istraºivanje u naj²irem smislu moºemo denisati kao skup aktivnosti koje<br />
poduzimamo kako bi pro²irili postoje¢a znanja i dobili odgovore na razli£ita<br />
pitanja. Iz ove ²ire denicije izvodi se pojam nau£nog istraºivanja koje podrazumjeva<br />
primjenu nau£nog metoda u istraºivanju. Nau£ni metod je<br />
primjena standardizovanog procesa putem kojeg se postavljene pretpostavke<br />
provjeravaju analizom empirijskih podataka. Dakle, da bi imalo nau£ni karakter<br />
istraºivanje mora biti zasnovan na prikupljanju empirijskih i mjerljivih<br />
podataka [6]. Uobi£ajeno je da se istraºivanje uz primjenu nau£nog metoda<br />
prikazuje kao skup koraka koje nazivamo istraºiva£ki proces. U ²irem<br />
smislu ovaj proces obuhvata:<br />
1. Denisanje problema istraºivanja<br />
2. Generisanje teoretskog okvira<br />
3. Denisanje istraºiva£kih hipoteza<br />
4. Odabir istraºiva£kog dizajna za provjeru hipoteza<br />
5. Analiza podataka i interpretacija rezultata<br />
6. Formulisanje odgovora na postavljeno pitanje (zaklju£ak istraºivanja)<br />
2
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 3<br />
1.1 Denisanje problema istraºivanja<br />
Ovaj korak podrazumjeva odabir teme istraºivanja i denisanje istraºiva£kog<br />
pitanja (engl. research question). Tema istraºivanja treba biti relevantna<br />
sa teoretskog i/ili prakti£nog aspekta. U okviru ovog koraka obavlja<br />
se i pregled literature. Danas se kao nezaobilazni izvori, posebno za radove<br />
nau£nog karaktera, name¢u specijalizovane baze tekstova objavljenih u<br />
stru£nim £asopisima i na konferencijama. Neke od popularnih baza za oblast<br />
dru²tvenih nauka su: Ebsco, Emerald, Science Direct i sli£no. Antonius [2]<br />
navodi da pregled literature treba da ostvari tri cilja:<br />
• da obezbjedi spisak autora, radova, knjiga i nau£nih izvje²taja koji se<br />
odnose na dato istraºiva£ko pitanje;<br />
• identikuje teoretske pristupe koji se koriste pri istraºivanju datog pitanja;<br />
• da pruºi spoznaju o dosada²njim glavnim empirijskim nalazima o istraºivanoj<br />
probelmatici i povezanim temama.<br />
Nakon ²to smo obavili pregled literature i stekli uvid u dosad²nja istraºivanja<br />
moramo specicirati glavno istraºiva£ko pitanje na²e studije. Istraºiva£ko<br />
pitanje predstavlja formalnu izjavu o cilju studije i daje jasnu naznaku o<br />
tome ²ta istraºujemo i ²ta poku²avamo da dokaºemo. Odabrana tema i<br />
istraºiva£ko pitanje trebaju biti orginalni. Ukoliko se pregledom literature<br />
ispostavi da je neko ve¢ istraºivao odabranu temu potrebno je istoj pristupiti<br />
sa novog aspekta i vidjeti da li moºemo postoje¢em znanju dodati ne²to novo<br />
ili pro²iriti studiju na populaciju koja nije bila predmet prethodnih radova<br />
(drugim rije£ima, da li moºemo uraditi replikaciono istraºivanje). U tabeli<br />
1.1 je dat primjer istraºiva£kih pitanja formulisanih na bazi odabrane teme<br />
istraºivanja.
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 4<br />
Tablica 1.1: Primjer tema istraºivanja i povezanih pitanja<br />
Tema istraºivanja<br />
Istraºiva£ko pitanje<br />
Primjena marketing koncepta Da li kompanije koje su vi²e<br />
poslovanja i performanse trºi²no orijentisane ostvaruju<br />
kompanije.<br />
bolje poslovne performanse u<br />
Programi lojalnosti i pona²anje<br />
kupaca pri kupovini.<br />
Uticaj eksibilnog radnog<br />
vremena na motivaciju<br />
zaposlenika.<br />
odnosu na druge kompanije?<br />
U kojoj mjeri programi sa<br />
karticama lojalnosti koje svojim<br />
kupcima nude veliki trgova£ki<br />
centri uti£u na pona²anje<br />
potro²a£a u kupovini?<br />
Kakva ¢e biti reakcija<br />
zaposlenika na uvoženje<br />
eksibilnijeg radnog vremena?<br />
1.2 Generisanje teoretskog okvira<br />
Nakon ²to smo postavili istraºiva£ka pitanja potrebno je razraditi teoretski<br />
okvir. Teoretski okvir (engl. theoretical framework) sa£injavaju koncepti,<br />
konstrukti, njihove denicije i <strong>teorija</strong> koja ih povezuje zajedno sa referencama<br />
na odgovaraju¢u literaturu. Unutar teoretskog okvira istraºiva£ mora<br />
demonstrirati razumjevanje koncepata i <strong>teorija</strong> koji su relevantni za istraºivanje<br />
[8]. Zbog toga je generisanje teoretskog okvira, naro£ito u akademskim<br />
istraºivanjima, usko povezano sa pregledom literature. Teoretski okvir povezuje<br />
trenutno istraºivanje sa prethodnim saznanjima, usmjerava istraºiva£a<br />
u pogledu obuhvata istraºivanja (²ta ¢e biti fokus) i deni²e speci£nu ta£ku<br />
gledi²ta (perspektivu, aspekt) iz koje ¢e istraºiva£ pristupiti analizi i interpretaciji<br />
podataka koje prikupi tokom istraºivanja.<br />
Ako se vratimo na tabelu 1.1 moºemo uo£iti razli£ite pojmove: marketing<br />
koncept, trºi²na orijentacija, poslovne performanse, programi lojalnosti,<br />
pona²anje potro²a£a, veliki trgova£ki centri, felskibilno radno vrijeme, zaposlenici<br />
i reakcija zaposlenika. Izuzetno je vaºno da se sloºimo oko zna£enja<br />
ovih pojmova. ’ta zna£i biti trºi²no orijentisan? Koje performanse i kako<br />
ih mjerimo? ’ta su veliki trgova£ki centri i koje kriterije koristimo za njihovu<br />
klasikaciju? ’ta podrazumjevamo pod programima lojalnosti? Kakve<br />
vrste reakcija zaposlenika? Kojih zaposlenika? ’ta su najvaºniji indikatori?
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 5<br />
Ovakva i sli£na pitanja zahtijevaju kori²tenje koncepata, konstrukata i denicija.<br />
Koncept je uop²tena ideja o odreženim objektima, atributima, pojavama<br />
ili procesima koja ima svoj naziv [11, p.40]. Koncepti se opisuju pojmovima<br />
(rije£ima i frazama), pa se recimo pojmovi trºi²te i orijentacija koriste za<br />
opis koncepta trºi²ne orijentacije. U svakodnevnom govoru mi se u znatnoj<br />
mjeri koristimo konceptima kako bi lak²e baratali kompleksnim objektima<br />
i dogažajima. Tako na primjer kada £ujemo putni£ki automobil u svijest<br />
prizivamo £itav niz mogu¢ih modela automobila koje povezuju odrežene<br />
karakteristike.<br />
Uspjeh istraºivanja zavisi od jasne konceptualizacije i sposobnosti drugih<br />
da razume koncepte koje koristimo. Ljudi vrlo £esto istim pojmovima pridaju<br />
razli£ita zna£enja pa su £este situacije da, iako govore istim jezikom,<br />
ne razumiju jedni druge. Npr., uobi£ajeno pitanje: Primanja va²eg doma-<br />
¢instva iznose... sadrºi naizgled jasan koncept primanja. Mežutim, mnogi<br />
ispitanici ne¢e znati ²ta ta£no odgovoriti jer nije naveden period na koji se<br />
primanja odnose (sedmica, mjesec, godina), da li se uklju£uju samo primanja<br />
glave porodice ili svih £lanova doma¢instva, da li osim plate u primanja<br />
ulaze i ostali prihodi (dividende, kamate...) i sl.<br />
Posebno treba obratiti paºnju da u slu£aju nekih koncepata postoji izrazito<br />
velik nivo apstrakcije. Kako nivo apstrakcije raste, pove¢ava se vjerovatno¢a<br />
da ¢e ljudi razli£ito poimati zna£enje koncepta. Na primjer, koncepti<br />
oko £ijeg se zna£enja moºemo lako sloºiti su: zaposlenik, automobil, kompjuter,<br />
novac, trgova£ki centar i sl. Ove koncepte karakterizira niºi nivo<br />
apstrakcije i lako moºemo vizualizirati svaki od pobrojanih koncepata. Mežutim,<br />
ve¢ koncepti kao ²to su primanja, kompanija, zaposlenici, poslovne<br />
performanse, trgova£ki centar i sl. mogu izazvati probleme u komunikaciji.<br />
Stvari se dodatno kompliciraju u slu£aju izazovnih koncepata kao ²to su:<br />
programi lojalnosti, marketing, trºi²na orijentacija i sl. U slu£aju ovih koncepata<br />
imamo visok nivo apstrakcije i vizualizacija je mnogo teºa.<br />
Apstraktni koncepti se £esto nazivaju konstruktima i obi£no grade kombinovanjem<br />
drugih koncepata ili konstrukata, posebno kada ideja koju namjeravamo<br />
iskazati nije direktno vidljiva ili mjerljiva. Na primjer, marketing<br />
koncept je poslovna lozoja prema kojoj je klju£ uspjeha kompanije u zadovoljenju<br />
potro²a£kih potreba na bolji na£in nego ²to to rade konkurenti.<br />
S druge strane, koncept trºi²ne orijentacije se odnosi na primjenu marketing<br />
koncepta praksi. Oba koncepta su dosta apstraktna i te²ko ih je izmjeriti.<br />
Samim tim postoji velika vjerovatno¢a da ¢e imati sasvim razli£ita zna£enja
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 6<br />
za razli£ite osobe. ’tavi²e, ako napravimo pregled dosada²njih istraºivanja<br />
moºemo primjetiti da autori trºi²noj orijentaciji kompanije pristupaju iz<br />
razli£itih perspektiva. U tabeli 1.2 su predstsvljena dva pristupa iz kojih vidimo<br />
da je trºi²na orijentacija sloºeni konstrukt koji se gradi kombinovanjem<br />
drugih konstrukata.<br />
Tablica 1.2: Dva razli£ita pristupa konstruktu trºi²ne orijentacije<br />
Perspektiva Denicija Konstrukti Autori<br />
Trºi²na orijentacija je<br />
(1) Orijentacija<br />
organizaciona kultura koja<br />
na potro²a£e;<br />
najefektivnije i<br />
(2) Orijentacija Narver i<br />
Organizaciona najekasnije kreira<br />
na konkurente; Slater<br />
kultura neophodno pona²anje<br />
(3) Interfunkcionalna<br />
(1990)<br />
kompanije £iji je krajnji<br />
cilj isporuka superiorne<br />
koordinacija<br />
vrijednosti potro²a£ima.<br />
Pona²anje<br />
organizacije<br />
Trºi²na orijentacija se<br />
odnosi na generiranje<br />
informacija vezanih za<br />
sada²nje i budu¢e potrebe<br />
potro²a£a, ²irenje tako<br />
prikupljenih informacija u<br />
sve organizacione dijelove<br />
kompanije, i organizovanje<br />
reagovanja kompanije na<br />
osnovu tih informacija.<br />
(1) Generisanje<br />
informacija; (2)<br />
Diseminacija<br />
informacija; (3)<br />
Responsivnost<br />
Kohli i<br />
Jaworski<br />
(1990)<br />
Pogre²no razumjevanje zna£enja koncepta i konstrukta moºe potkopati<br />
rezultate istraºivanja a da istraºiva£ toga nije ni svjestan. Zbog toga, nakon<br />
²to identikujemo sve koncepte i konstrukte relevantne za istraºivanje, potrebno<br />
je razviti operativnu deniciju koja mora precizirati karateristike<br />
koje se prou£avaju i na£in na koji ¢e te karakteristike biti mjerene. Osnovna<br />
svrha operativne denicije je da omogu¢i razumjevanje i mjerenje koncepata,<br />
posebno onih koje ¢emo koristiti za testiranje hipoteza i teorije [3]. Pri<br />
kreiranju operativne denicije moramo biti svjesni i odreženih problema.<br />
Cooper i Emory [3] skre¢u paºnju na stalno prisutnu opasnost izjedna£avanja<br />
koncepta i operativne denicije. Ipak, denicija uvijek ima uºe zna£enje<br />
od koncepta. Ona £esto pruºa uvid u neku pojavu iz samo jedne perspek-
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 7<br />
tive. Zato se de²ava da pri istraºivanju iste pojave imamo denicije koje su<br />
mežusobno znatno razli£ite po zna£enju. Ovo je posebno izraºeno kada u<br />
istraºivanju koristimo konstrukte. Tada, zbog visokog nivoa apstrakcije, postoji<br />
veoma malo empirijskih pokazatelja na osnovu kojih moºemo procjeniti<br />
da li se operativna denicija zaista odnosi na ono ²to bi trebali mjeriti. Na<br />
primjer, u tabeli 1.1 su navedene dvije razli£ite operativne denicije koje proizilaze<br />
iz dva razli£ita pristupa fenomenu trºi²ne orijentacije. Ipak, obzirom<br />
da su vezane za isti fenomen, obje denicije sadrºe zajedni£ku poveznicu, a<br />
to je aktivan stav kompanije prema potro²a£ima. Oni su u centru paºnje i<br />
sve po£inje od njihovih potreba.<br />
Nakon ²to smo denisati glavne koncepte potrebno je odrediti njihove mežusobne<br />
odnose i pretpostavke na kojima se ti odnosi baziraju. Pogledajnmo<br />
istraºiva£ka pitanja iz tabele 1.1. Prvo istraºiva£ko pitanje odnosi na uticaj<br />
trºi²ne orijentacije na poslovne performanse. Pretpostavka je da ¢e trºi²no<br />
orijentisane kompanije bolje poznavati potrebe potro²a£a ²to im omogu¢ava<br />
da tim istim potro²a£ima isporu£e ve¢u vrijednost. Takvi potro²a£i ¢e biti<br />
zadovoljni i stalno se vra¢ati da kupuju od kompanije koja im je dala vi²e u<br />
odnosu na konkurente. Samim tim ve¢a trºi²na orijentisanost ¢e u krajnjoj<br />
liniji rezultirati superiornim poslovnim performansama. Drugo istraºiva£ko<br />
pitanje odnosi se na programe lojalnosti i pona²anje potro²a£a. Istraºiva£<br />
moºe po¢i od pretpostavke da kartice lojalnosti imaju uticaj na pona²anje<br />
potro²a£a zbog toga ²to lojalnim kupcima omogu¢uju kupovinu po sniºenim<br />
cijenama. Zato ¢e takvi kupci vi²e i £e²¢e kupovati u prodavnici odnosu na<br />
kupce koji nisu £lanovi.<br />
Ovakve i sli£ne generalizacije, koje pravimo kada govorimo o konceptima<br />
i vezama izmežu njih, predstavljaju teoriju. Teorije se razvijaju kako bi<br />
razumjeli, objasnili i predvidjeli neki fenomen, £esto i kako bi opovrgli ili<br />
pro²irili postoje¢a saznanja. U tom kontekstu, unutar teoretskog okvira se<br />
predstavlja i opisuje <strong>teorija</strong> koja obja²njava za²to smo uop²te postavili istra-<br />
ºiva£ko pitanje [8].<br />
Ako se vratimo na prethodne primjere, mogu¢e je razviti i alternativne teorije.<br />
Tako se moºe ustvrditi da implementacija trºi²ne orijentacije zahtjeva<br />
dosta resursa i da ¢e zbog tih tro²kova poslovne performanse biti slabije, a ne<br />
bolje. Takožer, mogu¢e je da programi lojalnosti uti£u samo na pona²anje<br />
kupaca sa manjim primanjima budu¢i da niska visina cjenovnih u²teda nije<br />
dovoljan motiv za promjenu kupovnih navika ve¢ine kupaca.<br />
Da bi testirali da li je neka <strong>teorija</strong> ta£na neophodno je prikupiti empirijske<br />
podatke na bazi kojih ¢e se uraditi provjera. Mežutim, prije toga se formuli²u
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 8<br />
formalne izjave unutar kojih je nazna£eno kakvi se rezultati o£ekuju ako je<br />
<strong>teorija</strong> ispravna. Drugim rije£ima, deni²u se prijedlozi i hipoteze.<br />
1.3 Denisanje istraºiva£kih hipoteza<br />
Izjave kojima se speciciraju karakteristike i veze izmežu koncepata nazivaju<br />
se propozicijama ili prijedlozima [11, p. 40]. Na primjer, ako kaºemo da<br />
ve¢a trºi²na orijentacija preduze¢a rezultira boljim poslovnim performansama,<br />
mi smo specicirali vezu izmežu trºi²ne orijentacije preduze¢a i njegovih<br />
poslovnih performansi. Propoziciju koju moºemo empirijski provjeriti<br />
nazivamo hipotezom [3]. Hipoteza ukazuje na rezultat koji najvjerovatnije<br />
o£ekujemo, a koji se ne mora pokazati kao ta£an. Zbog toga i provodimo<br />
istraºivanje, da testiramo da li je neka hipoteza ta£na ili ne. Ako smo unaprijed,<br />
bez ikakve sumnje, sigurni u to ²ta ¢e biti rezultat istraºivanja onda<br />
nam istraºivanje i ne treba.<br />
Generalno govore¢i, hipoteze moºemo podijeliti u dvije grupe: deskriptivne<br />
i relacione. Relacione hipoteze mogu biti korelacione ili kauzalne.<br />
Deskriptivnim hipotezama obi£no izraºavamo postojanje, veli£inu ili<br />
distribuciju frekvencija neke varijable [3, p. 39]. Na primjer, U Bosni i Hercegovini,<br />
trºi²no u£e²¢e kompanije Meggle u prodaji mlijeka iznosi manje<br />
od 20%. U praksi istraºiva£i rijetko eksplicitno speciciraju deskriptivne<br />
hipoteze ve¢ je dovoljno navesti samo istraºiva£ko pitanje. Tako se umjesto<br />
prethodno navedene hipoteze, moºe formulisati pitanje Koliko trºi²no u£e²¢e<br />
ima kompanije Meggle u prodaji milijeka na teritoriji Bosne i Hercegovine?<br />
Relacionim hipotezama deni²emo vrste odnosa koji postoje izmežu varijabli.<br />
Relacione hipoteze mogu biti koralcione i kauzalne. Korelacione<br />
hipoteze govore o tome da li je kretanje vrijednosti dvije ili vi²e varijabli<br />
mežusobno povezano, bez speciciranja uzro£no posljedi£ne veze. Na<br />
primjer, Broj prodatih automobila varira u zavisnosti od stadija poslovnog<br />
ciklusa privrede . Kauzalne hipoteze govore o tome da promjena vrijednosti<br />
jedne varijable direktno uti£e na drugu varijablu. Na primjer, Ve¢a<br />
trºi²na orijentacija rezultira ve¢im ostvarenim protom kompanije.<br />
Cooper i Emory [3] navode da hipoteze igraju vi²estruku ulogu:<br />
• Usmjeravaju istraºivanje u odgovaraju¢em pravcu,<br />
• Pomaºu da se identikuju sve relevantne £injenice,
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 9<br />
• Sugeri²u najprikladniji istraºiva£ki dizajn i<br />
• Pruºaju okvir za organizovanje dobijenih zaklju£aka.<br />
Uzmimo za primjer hipotezu: Zadovoljstvo potro²a£a trgova£kom markom<br />
je pozitivno povezano sa lojalno²¢u prema prodavnici koja prodaje tu marku.<br />
Ovako postavljena hipoteza determini²e koga istraºujemo (potro²a£e), u kojem<br />
kontekstu se studija provodi (kupovina) i ²ta je predmet istraºivanja<br />
(zadovoljstvo trgova£kom markom i lojalnost prema prodavnici).<br />
Nakon ²to smo kreirali teoretski okvir i denisali hipoteze istraºivanja,<br />
sljede¢i korak je operacionalizacija, tj. prelazak sa teoretskog na empirijski<br />
nivo istraºivanja.<br />
1.4 Kreiranje istraºiva£kog dizajna za provjeru hipoteza<br />
Prvi korak u okviru operacionalizacije istraºivanja odnosi se na odabir istra-<br />
ºiva£kog dizajan. Istraºiva£ki dizajn predstavlja osnovni plan istraºivanja<br />
kojim se deni²e na£in mjerenja, prikupljanja i analize podataka. Odabir<br />
pravog istraºiva£kog dizajna nije lagan zadatak obzirom da postoji veliki<br />
broj faktora koje treba uzeti u obzir. Denitivno najvaºniji faktor je istraºiva£ki<br />
problem. U skladu sa tim, istraºiva£ki dizajn treba da pruºi strategiju<br />
kojom ¢e se na koherentan i logi£an na£in objediniti razli£ite komponente<br />
studije u cilju pronalaºenja efektivnog odgovora na postavljeno istraºiva£ko<br />
pitanje. Dakle, problem istraºivanja diktira izbor vrste kori²tenog dizajna a<br />
ne obratno [1].<br />
1.4.1 Denisanje na£ina mjerenja: varijable<br />
Na empirijskom nivou istraºivanja, gdje se na bazi prikupljenih podataka<br />
odvija provjera postavljenih hipoteza, moramo prvo odrediti na£in na koji<br />
¢emo mjeriti identikovane koncepte i konstrukte. U tom kontekstu govorimo<br />
o varijablama. Varijabla je pojava ili osobina koja se mijenja, i po<br />
kojoj se jedinice odrežene populacije mežusobno razlikuju, ili se mogu razlikovati.<br />
Modalitet koji varijabla moºe uzeti naziva se vrijedno²¢u varijable.<br />
Na primjer, spol je kvalitativna varijabla koja ima samo dva modaliteta:<br />
mu²ki ili ºennski.
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 10<br />
U praksi, varijabla je £esto sinonim za koncept ili obiljeºje koje se prou£ava<br />
[3]. Na primjer, za mjerenje socio-demografskih karkateristika koristimo<br />
neke od sljede¢ih varijabli: dob, pol, religija, nivo obrazovanja, bra£ni<br />
status, nacionalnost, prebivali²te... Za mjerenje ekonomskih karakteristika<br />
upotrebljavamo: radni status, primanja, duºina radnog vremena... Varijable<br />
kojima mjerimo psiholo²ka obiljeºja izmežu ostalog uklju£uju: stepen depresivnosti,<br />
preferencije, rezultat ostvaren na testu personalnosti... Neke od<br />
ostalih £esto kori²tenih varijabli su: broj stanovnika, ostvareni prot, stepen<br />
trºi²ne orijentacije, i sli£no.<br />
1.4.1.1 Kvalitativne i metrijske varijable<br />
Primje¢ujemo da neke od gore nabrojanih varijabli odraºavaju karakteristike<br />
ili kvalitativna svojstva koja nisu numeri£ke prirode, kao ²to je na primjer<br />
mjesto prebivali²ta. S druge strane, neke se odnose na kvantitativna svojstva,<br />
kao ²to je recimo ostvareni prot. Generalno, prema vrsti podataka<br />
koje reprezentuju, varijable moºemo podijeliti u dvije grupe: kategorijske<br />
(kvalitativne) i metrijske varijable.<br />
Prvi tip kategorijskih varijabli su dihotomne (binarne) varijable koje<br />
mogu imati samo dvije vrijednosti: 0 ili 1. Ove vrijednosti ozna£avaju prisustvo,<br />
odnosno odsustvo neke osobine, obiljeºja ili kategorije. Na primjer, pol<br />
ispitanika moºe se ozna£iti sa: 0 mu²ki, 1 ºenski. Za ovakav tip varijabli<br />
nije smisleno izra£unavati mjere centralne tendencije kao ²to je aritmeti£ka<br />
sredina ili medijana, budu¢i da brojevi 0 i 1 nemaju zna£enje u smislu vrijednosti.<br />
Drugi tip kategorisjkih varijabli su politomne varijable koje mogu biti<br />
nominalne kategorijske varijable ili ordinalne kategorijske varijable. Nominalne<br />
kategorijske varijable su ekstenzija prethodno pomenutih dihotomnih<br />
varijabli i za razliku od njih mogu imati vi²e kategorija. Na primjer,<br />
primarna djelatnost kompanije se moºe ozna£iti sa: 0 Poljoprivreda, 1 <br />
’umarstvo, 2 Preraživa£ka industrija itd. Kao i kod binarnih varijabli<br />
broj£ane vrijednosti su radi identikacije i nemaju zna£enje u smislu vrijednosti.<br />
Ordinalne kategorijske varijable imaju vi²e kategorija koje se<br />
ozna£avaju sa brojevima, koji za razliku od prethodnog slu£aja, daju indikaciju<br />
odrežene vrijednosti s obzirom na redoslijed u nizu u kojem su poredani.<br />
Na primjer, kompanije prema visini ostvarenog prota moºemo ozna£iti na<br />
sljede¢i na£in: 1 Lo²ije u donosu na konkurente, 2 Jednake u odnosu na<br />
konkurente, 3 Bolje u odnosu na konkurente. Za razliku od prethodna dva
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 11<br />
slu£aja jasno se vidi da broj dva ozna£ava ve¢u vrijednost u odnosu na broj<br />
jedan a broj tri ve¢u vrijednost u odnosu na broj dva, a samim tim i u odnosu<br />
na broj jedan. Ono ²to se ne vidi je veli£ina stvarna razlike izmežu ovih<br />
kategorija. Da li su kompanije iz tre¢e kategorije mnogo bolje u odnosu na<br />
one u drugoj kategoriji ili je ta razlika mala? Na ovo pitanje je te²ko dati odgovor<br />
budu¢i da ordinalne varijable ne omogu¢avaju mjerenje veli£ine razlike<br />
izmežu datih kategorija. Kod ovih varijabli za mjerenje centralne tendencije<br />
ima smisla koristiti medijanu, ali ne i aritmeti£ku sredinu.<br />
Metrijske varijable predstavljaju podatke mjerene na intervalnim i proporcionalnim<br />
skalama. Osnovna razlika izmežu ova dva tipa skala je ²to<br />
proporcionalne skale imaju prirodnu nulu kao svoj po£etak, dok intervalne<br />
skale za po£etnu vrijednost uzimaju arbitrarnu vrijednost. Ono ²to je bitno<br />
naglasiti za skale je £injenica da omogu¢avaju mjerenje veli£ine razlike izmežu<br />
vrijednosti na kojima se skala kre¢e. U statisti£kim paketima kao ²to<br />
je SPSS, STATA i sl. ne pravi se posebna diferencijacija izmežu intervalnih<br />
i proporcionalnih skala i one se u analizama tretiraju jednako.<br />
1.4.1.2 Opservirane i latentne varijabe<br />
Osvrnimo se sada na jednu drugu vrstu kategorizacije, prema kojoj varijabile<br />
dijelimo na opservirane (engl. observed), dakle, one koje smo direktno<br />
izmjerili i latentne (skrivene), tj. one koje ne moºemo mjeriti direktno ve¢<br />
isklju£ivo indirektno putem opserviranih varijabli (koje u takvoj ulozi zovu<br />
indikatorima ili manifestnim varijablama). U literaturi je uobi£ajeno da se<br />
opservirane varijable na ²ematskim prikazima predstavljaju pravugaonicima<br />
dok se latentne varijable predstavljaju elipsama. Na primjer, stepen trºi²ne<br />
orijentacije odrežene kompanije ne moºemo nikada precizno izmjeriti samo sa<br />
jednim pitanjem (varijablom). Ukoliko bi koristili samo jednu varijablu javila<br />
bi se velika mogu¢nost da ¢e razli£iti ispitanici interpretirati pitanje na svoj<br />
na£in i davati razli£ite odgovore, ²to smanjuje sigurnost da precizno mjerimo<br />
konstrukt trºi²ne orijentacije koji nas interesuje. Mežutim, preciznost se<br />
moºe pove¢ati ako postavimo vi²e razli£itih pitanja koja mjerenju trºi²ne<br />
orijentacije pristupaju sa razli£itih aspekata. Kombinirani odgovori na data<br />
pitanja daju ve¢u preciznost i sigurnost da mjerimo ono ²to nas interesuje.<br />
Na slici 1.1 je dat prikaz opserviranih varijabli koje predstavljaju pitanja<br />
na sedmostepenoj Likertovoj skali a kojima se mjere tri koncepta koja<br />
prema Narveru i Slateru £ine konstrukt trºi²ne orijentacije. Sam proces<br />
kojim sloºeni konstrukt ra²£lanjujemo na dimenzije i indikatore naziva se
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 12<br />
operacionalizacija konstrukta.<br />
Slika 1.1<br />
Drugi primjer u okviru kojeg moºemo ilustrovati odnos izmežu manifestnih<br />
i latentnih varijabli odnosi se na poslovne performanse. Ukupne poslovne<br />
performanse predstavljaju konstrukt koji se manifestuje preko razli£itih<br />
dimenzija. Jedan od na£ina na koji moºemo izmjeriti ukupne poslovne<br />
performanse je da ih podijelimo na proizvodne, marketini²ke i nansijske
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 13<br />
performanse koje ¢emo mjeriti sa nekoliko indikatora kao ²to je prikazano u<br />
tabeli 1.3<br />
Tablica 1.3: Sloºeni konstrukt ra²£lanjen na nekoliko dimenzija koje<br />
mjerimo indikatorima<br />
Konstrukt Dimenzije Indikatori<br />
Proizvodne performanse<br />
Tro²kovi (T)<br />
Kvalitet (Q)<br />
Fleksibilnost (F)<br />
Poslovne performanse Marketing performanse<br />
Trºi²no u£e²¢e (S)<br />
Rast trºi²nog u£e²¢a (G)<br />
Finansijske performanse<br />
Povrat na aktivu (ROA)<br />
Povrat na ulaganja (ROI)<br />
Povrat od prodaje (ROS)<br />
Latentne varijable<br />
Opserivrane varijable<br />
Na desnoj strani tabele imamo niz indikatora, odnosno opserviranih varijabli<br />
koje moºemo direktno mjeriti. Ni jedan indikator samostalno ne moºe<br />
mjeriti konstrukt poslovnih performansi ve¢ samo neke njegove aspekte. Mežusobno<br />
sli£ni indikatori se grupi²u u dimenzije ili faktore. Kona£no, razli£ite<br />
dimenzije posmatrane zajedno, mjere sloºeni konstrukt.<br />
1.4.2 Denisanje na£ina mjerenja: korelacioni i eksperimentalni<br />
dizajn<br />
Prema na£inu na koji organizujemo prikupljanje podataka razlikujemo korelacioni<br />
i eksperimentalni dizajn. U oba slu£aja cilj nam je da utvrdimo<br />
postojanje veza i kauzalnosti izmežu varijabli od interesa a osnovna razlika<br />
ogleda se u na£inu na koji dolazimo do podatka kojima testiramo hipoteze<br />
Korelacioni dizajn podrazumjeva posmatranje i prikupljanje podatka<br />
o odnosima koji postoje izmežu varijabli bez bilo kakvog upliva istraºiva£a u<br />
sam proces prikupljanja podataka. Jednostavno re£eno, istraºiva£ biljeºi ono<br />
²to se de²ava u stvarnom svijetu pri tome poku²avaju¢i utvrditi na koji na£in<br />
su varijable mežusobno povezane. U zavisnosti od toga da li se ¢e se podaci<br />
prikupljati u samo jednom, ta£no odreženom, vremenskom periodu ili kroz<br />
kroz vi²e perioda, korelacioni dizajn moºe biti kros-sekcioni i longitudinalni.<br />
O kros-sekcionom dizajnu govorimo onda kada se prikupljeni podaci
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 14<br />
odnose na samo jedan vremenski period (dan, sedmica, mjesec, godina i<br />
sli£no). Na primjer, istraºiva£ moºe pitati ispitanike o tome gdje su ljetovali<br />
tokom zadnjeg godi²njeg odmora i koji faktori su opredijelili njihov izbor<br />
lokacije ljetovanja. O£ito je da ¢e se prikupljeni podaci u ovom slu£aju<br />
odnositi samo na jedan period (posljednji godi²nji odmor).<br />
Ako pojave mjerimo na istim subjektima kroz vi²e vremenskih perioda<br />
onda govorimo o longitudinalnom dizajnu. Na primjer, istraºiva£ tokom<br />
niza godina moºe biljeºiti kretanje potraºnje nekom destinacijom zajedno<br />
sa ostalim varijablama kao ²to su preferencije, cijena smje²taja i sli£no, a<br />
sve kako bi utvrdio dinamiku promjena i klju£ne faktore koji determini²u tu<br />
dinamiku.<br />
U oba prethodno navedena primjera, nije bilo direktne manipulacije od<br />
strane istraºiva£a na varijable od interesa. Istraºiva£ je samo biljeºio stvarnu<br />
situaciju u datom vremenskom momentu (kros sekcioni dizajn) ili tokom nekog<br />
vremenskog perioda (longitudinalni dizajn). Nasuprot tome, ekperimentalni<br />
dizajn se odnosi na situacije u kojima istraºiva£ direktno manipluli²e<br />
nezavisnom varijablom kako bi izmjerio kakve efekte ta manipulacija<br />
ima na zavisnu varijablu. Vezano za na£in na koji prikupljamo podatke u<br />
eksperimentalnom dizajnu, razlikujemo nezavisni i zavisni eksperimentalni<br />
dizajn. 1<br />
Na primjer, pretpostavimo da istraºiva£ ºeli organizovati eksperiment<br />
kako bi utvrdio da li potro²a£i vi²e preferiraju plavu ili crvenu boju pakovanja.<br />
Prvi na£in na koji se moºe organizovati ovakav eksperiment je da<br />
ispitanike iz uzorka potpuno slu£ajno raspodijelimo u dvije grupe. Zatim<br />
da jednoj grupi pokaºemo plavo a drugoj crveno pakovanje pri tome mjere¢i<br />
razlike u preferencijama izmežu ove dvije grupe. U ovom slu£aju radi se o<br />
nezavisnom dizajnu jer istraºiva£ manipuli²e nezavisnom varijablom (boja<br />
pakovanja) na dvije odvojene grupe ispitanika. Drugim rije£ima, mjerenje<br />
preferencija u jednoj grupi je potpuno nezavisno od mjerenja u drugoj grupi.<br />
Drugi na£in je da istraºiva£ svim ispitanicima pokaºe prvo plavo a zatim<br />
crveno pakovanje istovremeno mjere¢i njihove preferencije prema ova dva<br />
pakovanja. Tada govorimo o zavisnom dizajnu, jer istraºiva£ manipuli²e<br />
1 Nezavisni dizajn (engl. independent design) nekada se naziva jo² i mežugrupni dizajn<br />
(engl. between-groups ili between-subjects design). S druge strane, nije neuobi£ajeno<br />
da se zavisni dizajn (engl. dependent design) £esto imenuje kao unutar grupni dizajn<br />
(engl. within-subject design) ili £ak dizajn ponovljenih mjerenja (engl. repeated-measures<br />
design). Bez obzira na naziv, rije£ je o istoj stvari.
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 15<br />
nezavisnom varijablom (boja pakovanja) ali na istoj grupi ispitanika. U tom<br />
smislu drugo mjerenje je zavisno jer se obavlja na istim ispitanicima.<br />
1.4.3 Prikupljanje podataka: Uzorak i uzorkovanje<br />
Vrlo vaºan dio istraºiva£kog dizajna odnosi se na pitanja odreživanja uzorka.<br />
Pretpostavimo da ºelimo saznati koliko potro²a£i u Bosni i Hercegovini mjese£no<br />
potro²e na kupovinu nekog proizvoda. Do potpuno ta£ne informacije<br />
do²li bi samo ako bi obuhvatili sve potro²a£e tj. sve jedinice populacije.<br />
Skup svih elemenata na kojima se izvjesna pojava statisti£ki posmatra zove<br />
se populacija [5]. Populacija se moºe odnositi na razli£ite subjekte ili pojave<br />
koje posmatramo na odreženoj teritoriji i tokom odreženog vremenskog<br />
razdoblja, kao ²to su potro²a£i, kompanije, proizvodi, marke, krediti, potraºivanja,<br />
investicije... Pojedina£ni elementi od kojih se sastoji populacija<br />
su jedinice populacije. U na²em primjeru mjese£ni izdaci predstavljali<br />
bi varijablu dok bi izra£unata prosje£na potro²nja predstavljala speci£no<br />
obiljeºje populacije koje nazivamo nazivamo parametar [9].<br />
Provoženje istraºivanja koje bi obuhvatilo cjelokupnu populaciju naj£e²¢e<br />
zahtjeva dosta vremena i ogromne materijalne resurse. U takvim slu£ajevima<br />
moºemo kreirati uzorak i na osnovu uzorka procijeniti parametre populacije.<br />
Uzorak je dio populacije na osnovu £ijeg prou£avanja donosimo zaklju£ke<br />
o samoj populaciji. Proces odabira jedinica populacije u uzorak naziva se<br />
uzorkovanje. Sam postupak dono²enja zaklju£aka o karakteristikama populacije<br />
na osnovu uzorka nazivamo statisti£kim zaklju£ivanjem [5]. Prema<br />
na£inima stvaranja zaklju£aka razlikujemo dvije vrste statistike: deskriptivnu<br />
i inferencijalnu.<br />
Deskriptivna statistika obuhvata numeri£ke i gra£ke procedure koje<br />
se koriste za organizovanje i opisivanje vaºnih svojstava podataka. Koriste¢i<br />
deskriptivnu statistiku istraºiva£ izra£unava numeri£ke vrijednosti (prosjek,<br />
standardna devijacija, medijana...) i gra£ki predstavlja podatke (histogrami,<br />
dijagrami...). Ako analiziramo podatke iz uzorka, primarni cilj desktiptivne<br />
statistike je da predstavi rezultate analize bez poku²aja da se ti<br />
rezultati generaliziraju izvan uzorka na £itavu populaciju (Norman & Streiner,<br />
2003). Deskriptivni pokazatelji koji se izra£unavaju pomo¢u podataka<br />
u uzorku nazivaju se statistikom uzorka. Na primjer, ako na bazi uzorka<br />
izra£unamo prosje£nu mjese£nu potro²nju govorimo o statistici tog obiljeºja<br />
u uzorku [10].
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 16<br />
Mežutim, vrlo £esto istraºiva£ ºeli oti¢i dalje i biti siguran da se ono ²to<br />
vaºi za uzorak moºe primjeniti i na populaciju u cjelini. Na primjer, cilj<br />
istraºivanja moºe biti da ispitamo da li ¢e novo pakovanje rezultirati ve¢im<br />
obimom prodaje. Kada istraºujemo efekte novog pakovanja na prodaju, na²a<br />
namjera je da dožemo do generalnog zaklju£aka koji ¢e vaºiti za sve prodavnice<br />
u kojima ¢e se to pakovanje prodavati, a ne samo za one prodavnice<br />
koje su u uzorku. Da bi zaklju£ke do kojih dožemo na bazi uzorka generalizirali<br />
na populaciju potrebno je da uzorak bude reprezentativan, tj. da se<br />
u njemu posmatrana pojava ispoljava pribliºno isto kao i u cjelokupnoj populaciji.<br />
Zbog toga je u okviru planiranja uzroka potrebno donijeti odluke o<br />
veli£ini uzorka i na£inu uzorkovanja kojim ¢e se obezbjediti reprezentativnost<br />
i mogu¢nost generalizacije nalaza iz uzorka na populaciju u cijelini.<br />
Pretpostavimo da se pokazalo da je prosje£na prodaja proizvoda u prodavnicama<br />
iz uzorka ve¢a nakon uvoženja novog pakovanja. Prije nego po-<br />
ºurimo da zaklju£imo istraºivanje i ustvrdimo da novo pakovanje rezultira<br />
boljom prodajom moramo biti svjesni dvije stvari. Prvo, kad koristimo uzorak<br />
postoji mogu¢nost da on ne bude reprezentativan za populaciju. Taj<br />
problem predstavlja gre²ku uzorkovanja (engl. sampling error) i odra-<br />
ºava se u £injenici da uzorak nikada ne¢e biti savr²eno identi£an populaciji.<br />
Tako se moºe desiti da su u uzorak sasvim slu£ajno odaberene prodavnice u<br />
kojima bi prosje£na prodaja proizvoda bila ve¢a £ak i da nismo uveli novo<br />
pakovanje.<br />
Drugo, zbog kompleksnosti i heterogenosti ispitivanih pojava mogu¢e su<br />
gre²ke u mjerenju. Ove gre²ke mogu biti sistematske i slu£ajne. Sistematske<br />
gre²ke (engl. systematic errors) nastaju kao posljedica pristrasnosti pri<br />
prikupljanju podataka (pristrasnost izbora, neodgovaraju¢i upitnik...). Na<br />
primjer, moºda smo prodaju mjerili u periodu kada se dati proizvod ina£e<br />
vi²e kupuje pa je pove¢anje prodaje posljedica sezonskog uticaja a ne novog<br />
pakovanja. Paºljiv istraºiva£ nastoji da sistematske gre²ke izbjegne pravilnim<br />
uzorkovanjem (reprezentativnost i veli£ina uzorka) i kroz kori²tenje odgovaraju¢ih<br />
instrumenta kojima se mjere varijable (validnost i pouzdanost).<br />
Slu£ajne gre²ke (engl. random errors) posljedica su varijabiliteta posmatranih<br />
pojava koji nastaje zbog djelovanja mnogih nepoznatih varijabli koje<br />
nisu pod kontrolom istraºiva£a. Na primjer, moºda je ve¢a prodaja posljedica<br />
djelovanja neke varijable koju nismo mjerili. Mogu¢e je da je porastao<br />
dohodak pa ve¢a prodaja nije rezultat uvoženja novog pakovanja ve¢ £injenice<br />
da ljudi generalno vi²e kupuju taj proizvod. Istraºiva£i slu£ajne gre²ke<br />
poku²avaju ²to vi²e drºati pod kontrolom odabirom odgovaraju¢eg istraºiva£kog<br />
dizajna kao i uklju£ivanjem u analizu svih varijabli koje mogu imati
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 17<br />
uticaja na posmatranu pojavu. Ipak, slu£ajne gre²ke se nikada ne mogu u<br />
potpunosti izbje¢i.<br />
Zbog svega navedenog, logi£no je postaviti pitanje o tome da li rezultati<br />
iz uzorka vaºe i za populaciju u cjelini? Da li je nalaz o pove¢anju prodaje<br />
proizvoda u prodavnicama iz na²eg uzorka zaista posljedica uvoženja novog<br />
pakovanja? Drugim rije£ima, kako znati da li je novo pakovanje primarni<br />
uzrok porasta prodaje i sa kolikom sigurno²¢u moºemo tvrditi da ¢e na²i<br />
nalazi vrijediti u svim prodavnicama, a ne samo u onim iz uzorka? Na<br />
ovakva pitanja dobijamo odgovor kori²tenjem inferencijalne statistike.<br />
Inferencijalna statistika obuhvata tehnike koje omogu¢uju da se, na<br />
osnovu karakteristika uzorka i teorije vjerovatno¢e, dobijeni rezultati generaliziraju<br />
na populaciju u cjelini. U ve¢em dijelu ove knjige mi ¢emo se upravo<br />
baviti razli£itim tehnikama inferencijalne statistike. Ona moºe uklju£ivati<br />
tehnike za procjenu parametara populacije, testiranje hipoteza o karakteristikama<br />
populacije, analizu odnosa izmežu dvije ili vi²e varijabli i prognoziranje<br />
[9]. U na²em primjeru, uz pretpostavku da smo odabrali odgovaraju¢i<br />
slu£ajan uzorak, primjenom tehnika inferencijalne statistike moºemo sa odreženim<br />
stepenom sigurnosti re¢i da li su ve¢i prodajni efekti rezultat uvoženja<br />
novog pakovanja ili ne.<br />
1.5 Analiza podataka i interpretacija rezultata<br />
Kao ²to je ranije re£eno, da bi odgovorili na istraºiva£ko pitanje prvo kreiramo<br />
teoriju a zatim na bazi teorije postavljamo hipoteze istraºivanja. Da bi<br />
provjerili postavljene hipoteze prikupljamo podatke koje zatim analiziramo<br />
primjenom odgovaraju¢ih tehnika statisti£ke analize.<br />
1.5.1 Priprema podataka za analizu<br />
Prikupljene podatke podrebno je prvo pripremiti za analizu. Priprema podataka<br />
prvenstveno podrazumjeva unos podataka u tabele unutar nekog softverkih<br />
paketa kao ²to je na primjer Excel. Tako uneseni podaci se zatim<br />
spremaju u datoteke i u£itavaju u specijalizovani statisti£ki softver unutar<br />
kojeg se vr²i njihova dalja obrada.
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 18<br />
1.5.2 Odabir tehnike analize<br />
Ovo je vjerovatno korak u kojem istraºiva£i po£etnici prave najve¢i broj gre-<br />
²ki. Problem nastaje zbog toga ²to je odabir odgovaraju¢e statisti£ke tehnike<br />
analize podataka usko povezan sa hipotezama koje namjeravamo provjeriti<br />
i podacima koji nam trebaju za takvu analizu. Istraºiva£i po£etnici obi£no<br />
o tehnici analize po£nu razmi²ljati nakon ²to su postavili hipoteze, kreirali<br />
upitnik i prikupili podatke. Nerijetko se desi da u tom momentu shvate da<br />
su prikupljeni podaci neadekvatni za analizu koja bi odgovarala postavljenim<br />
ciljevima i hipotezama istraºivanja. To obi£no zna£i ponavljanje procesa<br />
prikupljanja podataka, ²to iziskuje dodatne tro²kove i vrijeme. U najgorem<br />
slu£aju moºe se desiti da istraºiva£ spozna da je nemogu¢e do¢i do podataka<br />
koji su potrebni za datu vrstu analize. Takožer, nije rijetka situacija<br />
da £itavo istraºivanje treba osmisliti od po£etka jer potrebna tehnika analize<br />
jednostavno prelazi mogu¢nosti sa kojima istraºiva£ raspolaºe (softver i<br />
ekspertiza neophodna za provoženje analize).<br />
Da bi se izbjegli navedeni problemi izuzetno bitno je poznavati osnovne<br />
vrste i karakteristike razli£itih statisti£kih tehnika analize jo² u fazi postavljanja<br />
ciljeva i hipoteza istraºivanja i kreiranja upitnika. Samo tako moºemo<br />
izbje¢i nepotrebne tro²kovi i imati £itav proces istraºivanja pod kontrolom<br />
od po£etka do kraja.<br />
Statisti£ke tehnike moºemo primarno podijeliti na univariacione tehnike<br />
(engl. univariate techniques) gdje analiziramo podatake jedne varijable<br />
i multivariacione tehnike (engl. multivariate techniques) gdje simultano<br />
analiziramo dvije ili vi²e varijabli. Na primjer, pretpostavimo da ºelimo da<br />
saznamo od £ega zavisi obim prodaje nekog proizvoda. Moºemo testirati<br />
hipotezu da visina sredstava uloºenih u ogla²avanje zna£ajno uti£e na obim<br />
prodaje. U ovom primjeru analiziramo uticaj samo jedne varijable, budºeta<br />
za ogla²avanje na obim prodaje. Mežutim, ako smatramo da ¢e obim prodaje<br />
pored budºeta za ogla²avanje zavisiti i od drugih faktora, npr. cijene<br />
proizvoda i vrste pakovanja, onda je potrebno analizirati efekte vi²e varijabli<br />
( i tada govorimo o multivariocinoj analizi). Rezultati do kojih dožemo upotrebom<br />
multivariacionih tehnika su relevantniji, obzirom da tada simultano<br />
kontroli²emo efekte razli£itih faktora.<br />
Dalje, statisti£ke tehnike moºemo podijeliti u zavisnosti od toga da li su<br />
podaci metri£ki ili nemetri£ki (kategorijski). Za analizu metrijskih podataka<br />
koristimo parametarske tehnike, dok za analizu nemetrijskih podataka<br />
koristimo neparametarske tehnike. Parametarskim tehnikama obi£no se
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 19<br />
procjenjuju vrijednosti nepoznatih parametara kao ²to su aritmeti£ka sredina,<br />
varijansa i kovarijansa. Pri tome se pretpostavlja da podaci pripadaju<br />
nekoj od poznatih teorijskih distribucija vjerovatno¢e (naj£e²¢e se koristi normalna<br />
raspodjela). Parametarske tehnike su obi£no preciznije ali po£ivaju na<br />
brojnim pretpostavkama koje, ako su naru²ene, mogu voditi do nepouzdanih<br />
rezultata.<br />
S druge strane, neparametarske tehnike ne zahtjevaju da podaci imaju<br />
normalnu raspodjelu, srednju vrijednost i varijansu pa se upotrebljavaju za<br />
analizu podataka iskazanih preko nominalnih i ordinalnih skala. Neparametarske<br />
tehnike se koriste i u slu£ajevima kada je distribucija vjerovatno¢a<br />
potpuno nepoznata i onda kada su naru²ene pretpostavke parametarskih<br />
tehnika (na primjer, ako je poznato da distribucija ne slijedi normalnu raspodjelu).<br />
2<br />
Sljede¢a podjela bazira se na tome kakvu ulogu varijable imaju u samoj<br />
analizi. Tehnike kod kojih je za dobijanje odgovora na postavljeno pitanje<br />
nepohodno denisati zavisne i nezavisne varijable nazivaju se tehnikama<br />
zavisnosti (engl. dependence techniques). U takvim situacijama nastojimo<br />
da objasnimo ili predvidimo vrijednosti zavisne varijable na bazi nezavisnih<br />
varijabli. U slu£aju kada je fokus istraºivanja na grupisanju varijabli<br />
ili objekata (ispitanici, stvari, pojave) govorimo o tehnikama mežuzavisnosti<br />
(engl. interdependence techniques).<br />
U literaturi se mogu na¢i razli£iti poku²aji da se odabir odgovaraju¢e<br />
tehni£ke analize predstavi u formi ²eme. Mežutim, kako postoji vi²e faktora<br />
koji uti£u na odabir, potrebno je imati u vidu da ni jedna takva ²ema nije<br />
potpuna. Kori²tenje ²ematskih prikaza moºe biti korisno ako smo svjesni<br />
da oni predstavlju samo grubi vodi£. Pravilna odluka o izboru statisti£ke<br />
tehnike £esto je mnogo sloºenija. Generalno govore¢i izbor tehnike analize<br />
naj£e²¢e zavisi od:<br />
1. Vrste istraºiva£kog pitanja<br />
2. Vrsti kori²tenih varijabli<br />
3. Vrste istraºiva£kog dizajna (korelacioni ili eksperimentalni)<br />
2 Ipak, kod mnogih neparametarskih testova prisutne su z-vrijednosti (odnosno t-<br />
vrijednosti). To je zbog toga ²to neparametarska statistika ipak podrazumjeva o£ekivane<br />
varijacije i distribucije uzoraka. Odnosno, ako uzorci nisu premali, bez obzira na orginalnu<br />
distribuciju populacije, uzorci aritmeti£kih sredina ima¢e normalnu raspodjelu <br />
²to rezultira uvoženjem z-vrijednosti u neparametarsku statistiku (Horvat, 1995).
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 20<br />
Ova lista nije sveobuhvatna i potrebno je imati u vidu da odluka o jednom<br />
naj£e²¢e ima uticaj na ostala dva elementa. U nastavku ¢emo izloºiti neke<br />
od osnovnih vrsta statisti£kih tehnika analize koje se koriste u zavisnosti<br />
od karakteristika postavljenog istraºiva£kog pitanja i odgovora koji nam<br />
trebaju.<br />
• Kakve se sumarne informacije mogu dobiti iz raspoloºivih podataka?<br />
Primjeri ovakvih pitanja:<br />
Kakva je distribucija ispitanika u uzorku prema: polu, dobi, zanimanju,<br />
mjestu boravka...?<br />
Koliko potro²a£a iz uzorka preferira pakovanje A u odnosu na<br />
pakovanje B?<br />
Koliko potro²a£a iz uzorka kupuje marku X?<br />
Koliko novca potro²ite prosje£no dnevno u ka¢ima?<br />
Za sumiranje informacija o raspoloºivim podacima iz uzorka koristimo<br />
razli£ite vrste deskriptivne analize. Konkretan izbor tehnike analize<br />
zavisi¢e prije svega od toga da li imamo kategorijske podatke (binarne,<br />
nominalne i ordinalne kategorijske varijable) ili metrijske podatke.<br />
Za dobijanje opisnih statisti£kih pokzatelja kategorijskih varijabli naj-<br />
£e²¢e koristimo tabele frekvencija i razli£ite vrste dijagrama, dok za<br />
metrijske varijable obi£no izra£unavamo zbirne statisti£ke pokazatelje<br />
kao ²to su prosjek, medijana i standardna devijacija. Nerijetko se<br />
koriste i zahtjevnije vrste deskriptivne analize kao ²to su krostabelacije<br />
i gra£ko opisivanje podataka.<br />
• Da li postoji statisti£ki zna£ajna razlika izmežu razli£itih grupa ispitanika<br />
u pogledu nekog obiljeºja (varijable)? Neki od primjera za ovakva<br />
pitanja:<br />
Da li postoji statisti£ki zna£ajna razlika izmežu mu²karaca i ºena<br />
u pogledu mjese£nih izdataka na proizvod A?<br />
Da li postoji statisti£ki zna£ajna razlika izmežu preferencija potro²a£a<br />
prema proizvodu A prije i nakon probe tog proizvoda?<br />
Da li postoji statisti£ki zna£ajna razlika u proporciji izmežu mu-<br />
²karaca i ºena u pogledu toga da li ¢e kupiti neki proizvod ili<br />
ne?
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 21<br />
Postoji vi²e statisti£kih tehnika kojima se utvržuje da li postoje statisti£ki<br />
zna£ajne razlike izmežu grupa po posmatranim varijablama. U<br />
literaturi se ove tehnike jednim imenom nazivaju statisti£ki testovi.<br />
Odabir konkretnog testa zavisi¢e od broja grupa za koje testiramo te<br />
razlike (jedna, dvije ili vi²e), od toga da li je rije£ o nezavisnim ili zavisnim<br />
grupama i od na£ina na koji smo mjerili varijable od interesa<br />
(kategorisjki ili metrijski podaci). Testovi kojima se utvržuje postojanje<br />
razlika izmežu grupa spadaju u tehnike zavisnosti jer tu imamo<br />
jednu zavisnu i jednu nezavisnu varijablu. Na primjer, pretpostavimo<br />
nas interesuje da li postoji razlika izmežu mu²karaca i ºena u pogledu<br />
mjese£nih izdataka na proizvod A. U ovom slu£aju visina mjese£nih<br />
izdataka prestavlja zavisnu a pol ispitanika nezavisnu varijablu.<br />
• Da li postoji veza izmežu raznih obiljeºja (varijabli)? Neki od primjera<br />
za ovakva pitanja:<br />
Koliko je jaka veza izmežu mjese£nih primanja doma¢instva i izdataka<br />
na uslugu A?<br />
Da li je ulaganje u marketin²ke aktivnosti povezano sa veli£inom<br />
komapnije?<br />
Za utvrživanje postojanja veza izmežu varijabli koristimo se korelacionom<br />
analizom. Primarno, odabir tehnike korelacione analize zavisi<br />
od toga na koji na£in su mjerene varijable od interesa.<br />
• Koliki uticaj ima promjena jedne (ili vi²e) nezavisnih varijabli na zavisnu<br />
varijablu? Neki od primjera za ovakva pitanja:<br />
Koliko na motivaciju prodajnog osoblja uti£e vi²e visina dohodka<br />
a koliko eksibilno radno vrijeme?<br />
Ako pove¢amo budºet za ogla²avanje koliki rast prodaje i moºemo<br />
o£ekivati?<br />
Postoji vrlo ²irok spektar statisti£kih tehnika kojima se nastoji izmjeriti<br />
uticaj nezavisnih na zavisnu varijablu. Odabir konkretne tehnike<br />
zavisi¢e prije svega od toga da li je zavisna varijabla metrijskog ili<br />
kategorijskog tipa. Ukoliko se radi o zavisnoj metrijskoj varijabli koristi¢emo<br />
regresionu analizu. U slu£aju da imamo zavisnu varijabla<br />
kategorijskog tipa, odabir tehnike analize zavisi¢e od toga da li je rije£<br />
o dihotomnoj, nominalnoj kategorijskoj ili ordinalnoj kategorijskoj<br />
varijabli.
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 22<br />
• Da li ve¢i broj opserviranih varijabli moºemo svesti na manji broj latentnih<br />
varijabli (faktora) a da pri tome ne izgubimo mnogo informacija?<br />
Neki od primjera za ovakva pitanja:<br />
Ispitanicima je postavljeno dvadeset pitanja kojima smo mjerili<br />
njihove stavove prema odreženoj marki proizvoda. Da li tih dvadeset<br />
pitanja moºemo reducirati na manji broj faktora?<br />
Da bi smo dobili odgovore na ovakva i sli£na pitanja prvenstveno poku-<br />
²avamo grupisati opservirane varijable u grupe. Eksplorativna faktorska<br />
analiza (engl. Exploratory Factor Analysis - EFA) je najpogodnija<br />
za tu vrstu zadataka.<br />
• Kako mjeriti latentne varijable i kako analizirati njihove mežusobne<br />
odnose? Neki od primjera za ovakva pitanja:<br />
Kako izmjeriti sloºene apstraktne konstrukte kao ²to su trºi²na<br />
orijentacija, ljubaznost prodajnog osoblja, etnocentrizam i sl.?<br />
Kako dokazati da su pitanja kojima ih mjerimo pouzdana i validna<br />
za takvu vrstu mjerenja?<br />
Da li kompanije koje su vi²e trºi²no orijentisane ostvaruju bolje<br />
poslovne rezultate?<br />
Tehnike konrmativne faktorske analize (engl. Conrmatory Factor<br />
Analysis - CFA) i modeliranja putem strukturnih jedna£ina<br />
(engl. Structural Equation Modeling SEM ) se koriste da bi smo mogli<br />
raditi istraºivanja koja uklju£uju mjerenje i analizu latentnih konstrukata.<br />
• Kako grupisati jedinice posmatranja u grupe ili klase tako da se sli£ne<br />
jedinice nažu u istoj klasi (klasteru)? Neki od primjera za ovakva<br />
pitanja:<br />
Da li je mogu¢e potro²a£e na nekom podru£ju grupisatii prema<br />
njihovim obiljeºijima (kao ²ti su godine, pol, preferencije i sl.) u<br />
trºi²ne segmente? Koliko takvih segmenata ima, ²ta ih karakteri²e,<br />
koliko su homogeni i kolika je veli£ina svakog pojedina£nog<br />
segmenta?<br />
Da li se kompanije mogu klasikovati u grupe prema tome koju<br />
strate²ku orijentaciju primjenjuju u svom nastupu prema trºi²tu?<br />
U prvom slu£aju, kada razli£ite objekte (ispitanike) trebamo grupisati<br />
prema opservirsanim obiljeºjima u homogene grupe, koristimo se
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 23<br />
tehnikama klaster analize. U drugom slu£aju, za grupisanje koristimo<br />
latentne konstrukte (traºi²na orijentacija) koristi¢emo se tehnikom<br />
analze latentnih klasa.<br />
1.5.3 Analiza podataka<br />
Nakon ²to smo pripremili podatke pristupamo njihovoj analizi. U su²tini to<br />
zna£i da na prikupljene podatke primjenjujemo odabranu statisti£ku tehniku<br />
kako bi dobili odgovor na postavljeno istraºiva£ko pitanje. Ovdje ¢emo se<br />
osvrnuti i na pojam statisti£kog modeliranja.<br />
1.5.3.1 Statisti£ko modeliranje<br />
Analiziranje podataka podrazumjeva izgradnju statisti£kih modela kojima<br />
¢emo provjeriti da li prikupljeni podaci podrºavaju postavljene hipoteze.<br />
Model moºemo denisati kao poku²aj da se neki fenomen predstavi na na-<br />
£in da se moºe predvidjeti njegovo pona²anje. Na primjer, prije izgradnje<br />
nekog objekta (graževina, vozilo, letjelica...) inºinjeri prvo izražuju makete,<br />
odnosno manje modele objekata. Svrha izgradnje ovih maketa je da se predvidi<br />
kako bi se stvarni objekat pona²ao u odreženim uslovima (zemljotres,<br />
olujno vrijeme i sli£no). Da bi zaklju£ci bili vjerodostojni, potrebno je da<br />
maketa ²to vjernije odgovara stvarnom objektu u pogledu dizajna, kori²tenog<br />
materijala i sli£no.<br />
Na sli£an na£in, u dru²tvenim naukama, istraºiva£i putem modela nastoje<br />
da predstave kompleksne odnose izmežu razli£itih koncepata i pokaºu kako<br />
oni mežusobno djeluju u razli£itim uslovima. U tom smislu, statisti£ki<br />
model je poku²aj opisivanja odnosa koji postoje izmežu varijabli u formi<br />
matemati£kih jedna£ina i gradi se isklju£ivo na bazi emprijskih kvantitativnih<br />
podataka. Dakle, statisti£ki model predstavlja apstrakciju (ili aproksimaciju)<br />
stvarnog svijeta [7]. Statisti£ki modeli nam pomaºu da bolje razumijemo<br />
za²to se ne²to de²ava i da predvidimo ²ta ¢e se de²avati u budu¢nosti.<br />
Field [4] navodi da se u statistici sve moºe svesti na jedan izraz:<br />
rezultat i = (model) + greška i<br />
Ovaj izraz nam prakti£no govori da na osnovu modela moºemo opisati
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 24<br />
prikupljene podatke i utvrditi ²ta djeluje na rezultat i predvidjeti kakva ¢e<br />
biti promjena njihovih vrijednosti u zavisnosti od toga kako su specicirane<br />
veze izmežu varijabli u samom modelu.<br />
Uobi£ajne tehnike statisti£ke analize o kojima govorimo u ovoj knjizi u<br />
stvari i nisu ni²ta drugo nego na£ini na koje procjenjujemo parametre modela.<br />
Sama estimacija modela uz pomo¢ specijalizovanih statisti£kih alata<br />
znatno olak²ava posao jer je istraºiva£ po²težen toga da samostalno rje²ava<br />
komplekse jedna£ine kako bi do²ao do ºeljenih rezultata. Statisti£ki softver<br />
¢e korisniku, naj£e²¢e u par sekundi, dati na uvid rezultate prora£una za koje<br />
bi ina£e trebalo iznimno veliko znanje matematike i sati vremena, ukoliko<br />
bi se do njih dolazilo uz pomo¢ papira i olovke. Neke od tehnika analize<br />
koje pominjemo u ovoj knjizi su prije pojave softverskih paketa ražene vrlo<br />
rijetko upravo zbog kompleksnosti potrebnih matemati£kih prora£una.<br />
1.5.3.2 Interpretacija dobijenih rezultata<br />
Rezultate analize statisti£ki softver ¢e korisniku prezentirati u obliku graka<br />
ili tabela koje sadrºavaju razi£ite numeri£ke vrijednosti. Korisnik mora biti<br />
u stanju pravilno interpretirati ove vrijednosti kako bi iz njih dobio uvid u<br />
ono ²to ga interesuje. Statisti£ka interpretacija rezultata je samo prvi korak.<br />
Nakon nje slijedi kvalitativna interpretacija koja podrazumjeva razumjevanje<br />
zna£enja i relavantnosti numeri£kih rezultata kao i izvoženje zaklju£aka o<br />
postavljenom i straºiva£kom pitanju i hipotezama.<br />
Obzirom da u dru²tvenim naukama posmatrane pojave karakteri²e varijabilitet<br />
(stohasti£ki odnosi) predvižanje putem modela nikada nije u potpunosti<br />
precizno i podloºno je gre²kama. Zbog toga ni jedan statisti£ki model<br />
nikada ne¢e savr²eno opisivati i predvižati podatke i potrebno je procijeniti<br />
njegovu preciznost. To se radi tako da uporedimo prikupljene empirijske<br />
podatke sa podacima koji su rezultat predvižanja na bazi modela. Drugim<br />
rije£ima, da bi zaklju£ci koje izvedemo na bazi statisiti£kog modela bili<br />
validni, dati model mora oslikavati prikupljene podatke ²to je mogu¢e preciznije.<br />
Omjer u kojem statisti£ki model precizno opisuje prikupljene podatke<br />
predstavlja reprezentativnost modela 3 [4].<br />
Najjednostavniji na£in da provjerimo da li neki model dobro reprezentuje<br />
prikupljene podatke je da uporedimo koliko varijacije unutar rezultata<br />
3 engl. model t
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 25<br />
obja²njava model u odnosu na neobja²njenu varijaciju.<br />
Statistika testa =<br />
varijacije objašnjene modelom<br />
varijacije koje nisu objašnjene modelom = efekat<br />
greška<br />
Odnos izmežu obja²njenog i neobja²njenog varijabiliteta naziva se statistikom<br />
testa [4]. Postoji vi²e razli£itih statistika testa a sve se zasnivaju na<br />
nekoj od teoretskih distribucija vjerovatno¢e sa poznatim karakteristikama.<br />
Detaljnije obja²njavanje statistika testa izlazi iz okvira ove knjige pa £itaoce<br />
savjetujemo da za detalje konsultuju neki statisti£ki udºbenik. Ono ²to je<br />
bitno je da shvatimo da se sve statistike testa u su²tini predstavljaju istu<br />
stvar: odnos izmežu varijanse obja²njene modelom i neobja²njene varijanse.<br />
U slu£aju kada je statistika testa jednaka broju 1 odnos izmežu obja²njene<br />
i neobja²nje varijanse je jednak. Kako statistika testa raste, model obja²njava<br />
sve vi²e i vi²e varijabiliteta a gre²ka se smanjuje. ’tavi²e, njenim<br />
rastom smanjuje se vjerovatno¢a da je ono ²to model obja²njava rezultat<br />
slu£ajnosti. Kada ova vjerovatno¢a padne ispod .05, sa velikom sigurno²¢u<br />
moºemo tvrditi da model reprezentuje ono ²to se zaista de²ava u populaciji.<br />
U tom slu£aju kaºemo da postoji statisti£ka signikantnost.<br />
Kako bi smo vidjeli ²ta to zna£i vratimo se na na² raniji primjer. Pretpostavimo<br />
da smo kreirali statisti£ki model na osnovu kojeg testiramo hipotezu:<br />
Uvoženje novog pakovanja rezultira¢e ve¢im obimom prodaje datog<br />
proizvoda. Trebamo vidjeti koliko dobro dati model opisuje prikupljene podatke<br />
koriste¢i se odgovaraju¢om statistikom testa koja se svodi na:<br />
Statistika testa =<br />
var. u prodaji objašnjene pakovanjem<br />
var. u prodaji koje nisu objašnjene pakovanjem = efekat<br />
greška<br />
Budu¢i da model kojim opisujemo prikupljene podatke oslikava hipotezu<br />
koju ºelimo testirati, onda nam signikantna statistika testa govori da je<br />
malo vjerovatno da bi model tako dobro predstavljao odnose mežu varijablama<br />
(prodaja i vrsta pakovanja) u slu£aju da ne postoji stvarni efekat<br />
(novo pakovanje) u populaciji. Suprotno, nesignikantna statistika testa bi<br />
zna£ila da model ne pruºa dovoljno dokaza o tome da novo pakovanje uti£e<br />
na pove¢anje prodaje.
POGLAVLJE 1. METODOLOGIJA ISTRAšIVAƒKOG PROCESA 26<br />
1.6 Zaklju£ak istraºivanja<br />
Kona£no, na bazi rezultata provedene analize istraºiva£ donosi generalni sud<br />
o relevantnosti i adekvatnosti postavljene teorije. Na osnovu toga daju se<br />
prakti£ne preporuke vezane za ono ²to smo istraºivali. Naj£e²¢e se u ovom<br />
dijelu navedu i ograni£enja istraºivanja kao i preporuke u pogledu toga kako<br />
otkloniti ta ograni£enja u ponovljenim studijama.
Bibliograja<br />
[1] Organizing your social sciences research paper, 2014. Pristupljeno: 09.<br />
11. 2014.<br />
[2] Rachad Antonius. Interpreting Quantitative Data With SPSS. SAGE<br />
Publications Ltd, 2003.<br />
[3] Donald R. Cooper and William Emory. Business Research Methods.<br />
Irwin, 1995.<br />
[4] Andy Field. Discovering Statistics Using SPSS. SAGE Publications<br />
Ltd., 3 edition, 2009.<br />
[5] Mileva šiºi¢, Miodrag Lovri¢, and Dubravka Pavli£i¢. Metodi statisti£ke<br />
analize. Ekonomski fakultet Beograd, Beograd, 11 edition, 2001.<br />
[6] Andrew Janiak. Newton's philosophy, Summer 2014.<br />
[7] Wolfgang Jank. Business Analytics for Managers. Use R! Springer,<br />
2011.<br />
[8] libgudes. Theoretical framework.<br />
[9] Paul Newbold, William L. Carlson, and Betty M. Throne. Statistika za<br />
poslovanje i ekonomiju. Mate d.o.o., Zagreb, Zagreb, 2010.<br />
[10] Kultar Singh. Quantitative Social Research Methods. SAGE Publications<br />
Pvt. Ltd, 2007.<br />
[11] William G. Zikmund, Barry J. Babin, Jon C. Carr, and Mitch Grin.<br />
Business Research Methods. Cengage Learning, 8 edition, 2009.<br />
27
lzbor prikladnih<br />
statistidkih tehnika<br />
Za ve(ina studenata istraZivadkih tehnika, jedan od naiteLih (moZda dak i<br />
zastraSuju6ih) delova istraZivadkog procesa jeste pronalai.enje (izbor) statistidke<br />
tehnike prikladne za analizu datih podataka. Na veiini statistidkih<br />
kurseva udi se izradunavanje koeficijenta korelacije i kako se radi t-test, pa<br />
im obidno ne ostaje dovoljno vremena da studente naude da izaberu statistidki<br />
pristup prikladan zapronalaLenje odgovora na konkretna istraZivaika pitanja.<br />
U veiini istraZivadkih projekata upotrebljavaju se razlidite statistidke<br />
tehnike, u zavisnosti od pitanja na koja treba odgovoriti i prirode podataka<br />
koje treba analizirati. Zato je vaLno da steknete makar i elementarno poznavanje<br />
razliditih statistidkih tehnika, vrsta pitanja na koja one mogu odgovoriti,<br />
njihovih zahteva i pretpostavki na kojima podivaju.<br />
Zato iskopajte svoje udZbenike statistike i pregledajte osnovne tehnike i<br />
nadela na kojima one podivaju. Isto tako, trebalo bi da prelistate dlanke u dasopisima<br />
o vaSoj temi i identifikujete statistidke tehnike upotrebljene u tim<br />
studijama. Raznim oblastima statistidki se pristupa na razllEite nadine, pa je<br />
vaZno da uwrdite kako su drugi istraZivali analizirali podatke. TraLite<br />
dugadke i detaljne dlanke u dasopisima u kojima jasno i jednostavno piSe<br />
koje statistidke tehnike su koriSiene. Sakupite takve dlanke i spremite ih u<br />
zasebnu fasciklu radi lakSeg koriSienja. Dobro 6e vam doii i kasnije, kada<br />
budete razmatrali kako da predstavite rezultate svojih analiza.<br />
U ovom poglavlju razmotridemo razne dostupne statistidke tehnike i korak<br />
po korak pro6i kroz proces izbora. Ukoliko vas ve6 i sama red statistika baca<br />
u paniku, smatrajte sve ovo izborom recepta po kome iete vederas pripremiti<br />
jelo. Sta imate u friZideru, 5ta vam se jede (supa, pe6enje, ne5to prZeno, kuvano<br />
jelo) i koji je postupak? Statistidkim jezikom redeno, razmotriiemo vrste<br />
istraZivaikih pitanja koja postoje, promenljive (obeleija, karakteristike) koje<br />
treba analizirati i prirodu samih podataka. Prodite kroz ovaj proces korak po<br />
korak i vide6ete da je konadna odluka 6esto iznenadujude jednostavna. Kada<br />
utvrdite Sta imate i 5ta Zelite da uradite, desto preostaje samo jedan nadin da<br />
se to postigne. NajvaZniji deo ovog procesa je jasno napisati Sta imate i 5ta s<br />
tim treba da uradite.
106 Deo lll: Preliminarne analize<br />
Pregled raznih statistidkih tehnika<br />
Ovaj odeljak ima dva osnovna dela. Prvo 6emo razmotriti tehnike istraZivanja<br />
ueza izmedu promenliiuih (npr. starosti i optimizma), a potom nadine<br />
istraiivanja razlika izmedu grupd (npr. polnih ruzlika u stavovima o optimizmu).<br />
Tehnike sam ovako podelila zato Sto je tako ustrojena ve6ina<br />
udZbenika iz statistike, a i veiinu studenata su tako udili osnove statistike.<br />
Time se pomalo ve5tadki istiie razlika izmedu ta dva skupa tehnika. U stvari,<br />
izmedu raznth statistiikih tehnika ima mnogo slidnosti, Sto se na prvi pogled<br />
ne vidi. Celovito razmatranje te teme nije predmet ove knjige. Ko o tome Zeli<br />
da sazna vi5e, preporudujem da najpre prodita L7. poglavlje knjige koju su<br />
napisale Tabachnick i Fidell (20071. Tu je dat prikaz oplteg linearnog modela,<br />
pod koji se mogu svrstati mnoge statistidke tehnike.<br />
Razne statistidke tehnike namerno sam opisala saZeto i jednostavno da bi<br />
ih podetnici lakSe razumeli. U ovom poglavlju nisu dak ni nabrojane sve dostupne<br />
tehnike, ali su date osnove koje su dovoljne da Eovek podne da ih<br />
upotrebljava i tako stekne samopouzdanje.<br />
lstraZivanje veza izmedu raznih obeleZia<br />
U anketnom istraZivanju desto nisu vaLne ruzhke izmedu grupa, nego jadina<br />
veze izmedu obeleZja (promenljivih). MoZe se upotrebiti viSe tehnika.<br />
Korelacija<br />
Za istraLivanje jadine veze izmedu dve neprekidne promenljive upotrebljavaju<br />
se Pirsonova i Spirmanova korelacija. Korelacija pokazuje smer (pozitivan<br />
ili negativan) i jadinu veze. Pozitivna korelacija pokazuje da obe<br />
promenljive zajedno i opadaju i rastu. Negativna korelacija pokazuje da jedna<br />
promenljiva opada kada druga raste i obrnuto. To je tema 11. poglavlja.<br />
Delimiina korelacija<br />
Delimidna (parcijalna) korelacija je proSirenje Pirsonove korelacije. Pomoiu<br />
nje iskljudujemo uticaj tre6e, remetilaike promenljive. Delimidna korelacija<br />
uklanja uticaj remetiladke promenljive (npr. svesno davanje netadnih, ali<br />
druStveno poZeljnih odgovora), dime je omogu6eno dobijanje tadnije slike<br />
veze izmedu dve promenljive od interesa. Delimidna korelacija je tema L2.<br />
poglavlja.<br />
Viiestruka regresiia<br />
ViSestruka regresija je sofisticiranije proSirenje korelacije, kojim se izraiunava<br />
moguinost da se pomoiu skupa nezavisnih promenljivih predvidi vrednost<br />
jednog neprekidnog zavisnog obeleZja. Razne vrste vi5estruke regresije<br />
slui.e za poredenje prediktivne moguinosti (predvidanja) odredenih nezavisnih<br />
promenljivih i pronalaZenje najboljeg skupa promenljivih za predikciju<br />
jedne zavisne promenljive. Videti poglavlje 13.
Poglavlje 10: lzbor prikladnih statistidkih tehnika 1O7<br />
Faktorska analiza<br />
Faktorska analiza sltfi,i za svodenje velikog skupa promenljivih ili stavki<br />
skale na manji broj dimenzija ili faktora, s kojima je lak5e raditi. To se posti-<br />
Le saLimanjem oblika korelacije koji leZe u njihovoj osnovi i pronalaZenjem<br />
grupa tesno povezanih stavki. Ova tehnika se Eesto koristi prilikom razvoja<br />
skala i merila, za identifikaciju pripadne strukture. Videti poglavlje 15.<br />
Sa2etak<br />
Sve navedene analize obuhvataju istraZivanje veza izmedu neprekidnih promenljivih.<br />
Kada imate samo kategorijske promenljive, za ispitivanje njihove<br />
uzajamne veze moLe se upotrebiti hi-kvadrat test veza i nezavisnosti (npn za<br />
odgovor na pitanje da li pol klijenata utiie na stopu njihovog odustajanja od<br />
odredenog programa tretmana). U toj situacijizanimavas broj osoba u svakoj<br />
kategoriji (broj muSkaracaii.enakoji odustaju od tog programa ili ga zavrSavaju),<br />
a ne njihove prosedne vrednosti na nekoj skali posmatranog obeleZja.<br />
Spomenuiu jo5 neke tehnike o kojima treba barem znati da postoje. ViSe o<br />
njima na6i iete u knjizi koju su napisale Tabachnick i Fidell (2007). To su:<br />
o Diskriminaciona analiza (engl. discriminant function analysis) shtli za<br />
ispitivanje moguinosti da se pomoiu skupa nezavisnih promenljivih<br />
predvidi vrednost jednog kategoriiskoe zavisnog obeleZja, tj. da se<br />
odredi koje promenljive najbolje predvidaju pripadnost grupi. (Diskriminaciona<br />
funkcija je linearna kombinacija nezavisnih promenljivih<br />
koja najbolje razdvaja sludajeve na a priori definisane grupe.) U ovom<br />
sludaju, zavisna promenljiva je obiino neki jasan kriterijum (poloZio/<br />
pao, prekinuo/nastavio tretman). Videti poglavlje 9, Tabachnick i Fidell<br />
(2007).<br />
o Kanonska korelaciia (engl. canonical correlation) sluLi za analiza uzajamnih<br />
veza dva skupa promenljivih. Na primer, moglo bi se istraZiti<br />
kako razne demografske promenljive utidu na merila opSteg raspoloZenja<br />
i sposobnosti prilagodenja. Videti poglavlje 12, Tabachnick i<br />
Fidell (2007).<br />
o Strukturno modelouanie (engl. structural equation modelling) relativno<br />
je nova i veoma sofisticirana tehnika za ispitivanje raznih modela meduveza<br />
u skupu promenljivih. Zasnovana je na viSestrukoj regresiji i<br />
tehnikama faktorske analize. SluZi za izradunavanje vaZnosti svake nezavisne<br />
promenljive u modelu i testiranje koliko dobro ceo model odgovara<br />
podacima, kao i za poredenje alternativnih modela. Sam SPSS<br />
nema modul za strukturno modelovanje, ali podriava odgovarajuii dodatni<br />
program AMOS. Videti poglavlje 14, Tabachnick i Fidell (20071.
108 Deo lll: Preliminarne analize<br />
lspitivanje razlika izmedu grupa<br />
Postoji joS jedna porodica statistidkih tehnika za utvrdivanje statistiEki<br />
znadajnih nzllka izmedu grupa. U nastavku iemo prikazati parametarske<br />
verzrje tih testova prikladne za podatke na intervalnim skalama s normalnom<br />
raspodelom rezultata i njihove neparametarske alternative.<br />
T-testovi<br />
T:testovi se upotrebljavaju kada imate due grupe (recimo, mulkarce i Zene) ili<br />
dva skupa podataka (pre i posle), i Zelite da uporedite srednje vrednosti neke<br />
neprekidne promenljive. Postoje dve glavne vrste t-testova. Tltestove uparenih<br />
uzoraka (ili ponovljenih merenja, engl. repeated measures) upotrebljavate<br />
kada vas zanimaju promene vrednosti posmatranog obeleZja dobijene<br />
od udesnika testiranih u Vreme l izatim ponovo u Vreme 2 (obidno posle<br />
neke intervencije ili dogadaja). Ti uzorci su povezani poito se radi o istimljudima<br />
testiranim u dva navrata. T:testovi nezavisnih uzoraka upotrebljavaju<br />
se kada imate dve razliiite (nezavisne) grupe ljudi (muSkarce i Zene) i Zelite da<br />
uporedite njihove rezultate za posmatrano obeleZje. U tom sludaju informacije<br />
prikupljate samo jednom, ali od dve grupe ljudi. T:testovi su obradeni u<br />
poglavlju 17. Njihove neparametarske alternative, Man-Vitnijev U test i Vilkoksonov<br />
test ranga, predstavljeni su u poglavlju 16.<br />
Jed nofa ktorska a na I iza va riia nse<br />
Jednofaktorska analiza varijanse (engl. one-uay ANOVA) slidna je t-testu,<br />
ali se koristi kada imate due ili uiie grupa i ielite da uporedite njihove srednje<br />
vrednosti za iednu neprekidnu promenljivu (obeleZje). Jednofaktorska<br />
znaEi da se istraiuje uticaj samo iedne nezavisne promenljive na zavisnu.<br />
ANOVA kazaje da li se grupe razlikuju, ali ne kazuje gde je razhkaznaEajna<br />
(gp7lgp3,gp2lgp3 itd.). Naknadnim poredenjem moie se utvrditi koje grupe<br />
se medusobno znadajno razlikuju. Umesto da se porede sve grupe, mogu se<br />
ispitati i razlike izmedu odredenih grupa; to su planirana poredenja. Sliino<br />
t-testovima, postoje dve vrste jednofaktorske analize varijanse: ANOVA ponovljenih<br />
merenja (kada se isti ljudi ispituju u vi5e od dva navrata) i ANOVA<br />
razliiitih grupa (ili nezavisnih uzoraka), kada se porede srednje vrednosti<br />
posmatranogobeleLja u dve ili vi5e grupa. Jednofaktorska ANOVA je obradena<br />
u poglavlju 18, dok su njene neparametarske alternative (Kruskal-Volisov<br />
test i Fridmanov test) predstavljene u poglavlju L5.<br />
Dvofa kto rska a n a I iza va rii a n se<br />
Dvofaktorska analiza varijanse (engl. tuto-utay ANOVA) sluLi za ispitivanje<br />
uticaja dve nezavisne promenljive na jednu zavisnu. Prednost dvofaktorske<br />
analize varijanse je to Sto omogu6ava ispitivanje jadine interakcije, tj. uticaja<br />
druge nezavisne promenljive na dejstvo prve; na primeq kada posumnjate da<br />
se optimizam poveiava s godinama, ali samo kod mu5karaca. Ona meri i<br />
osnovne, zasebne uticaje, tj. celokupan uticaj svake nezavisne promenljive
Poglavlje 10: lzbor prikladnih statistidkih tehnika 109<br />
(npr. pola, starosti). Postoje dve vrste dvofaktorske analizevarijanse: ANOVA<br />
razliditih grupa (engl. betuteen-groups ANOVA), kada se ispituju grupe koje<br />
se medusobno razlikuju, i ANOVA ponovljenih merenja (engl. repeated measures<br />
ANOVA), kada se isti ljudi ispituju u vi5e navrata. Neka istraZivanja su<br />
projektovana tako da u istoj studiji kombinuju analize varijanse razliditih<br />
grupa i ponovljenih merenja. To se onda na engleskom naziva Mixed Between-I7ithin<br />
Designs ili Split Plot, tj. kombinovana ANOVA. Dvofaktorska<br />
ANOVA obradena je u poglavlj u L9, a kombinovana ANOVA u poglavlju 20.<br />
M u ltivarijaciona a nal iza va rij a n se<br />
Multivarijaciona analiza varijanse (engl. multiuariate analysis of uariance,<br />
MANO VA ) sluLi za poredenj e srednj e vrednosti posmatrano g obeleLja grupa<br />
u vi5e razliditih, ali pouezanih,zavisnih promenljivih; na primer, poredite uticaj<br />
razliditih tretmana narazne merljive ishode (npr. anksioznost, depresiju).<br />
Multivarijaciona ANOVA moZe biti uradena uz jednofaktorske, dvofaktorske<br />
ili vi5efaktorske analize varijanse sa jednom, dve ili viSe nezavisnih promenljivih.<br />
MANOVA je obradena u poglavlju 21.<br />
Analiza kovarijanse<br />
Analiza kovarijanse (ANCOVA) sluliza statistiiku kontrolu mogudih uticaja<br />
dodatne, remetiladke (engl. confounding) promenljive (engl. couariate).<br />
Ovo je korisno kada posumnjate da se vale grupe razlikuju po nekom obeleZju<br />
koje utide na dejstvo nezavisnih promenljivih na zavisnu. Kako biste<br />
bili sigurni da uticaj potiEe od nezavisne promenljive, ANCOVA statistidki<br />
uklanja dejstvo remetilaEke promenljive. Analiza kovarijanse moie se obaviti<br />
kao deo jednofaktorske, dvofaktorske ili multivarijacione analize varijanse.<br />
ANCOVA je obradena u poglavlju 22.<br />
Proces dono5enia odluka<br />
PoSto ste videli 5ta vam stoji na raspolaganju, vreme je da izaberete tehnike<br />
koje odgovaraju vaSim potrebama. Prilikom izbora odgovarajuie statistidke<br />
analize, treba uzeti u obzir viSe dinilaca. To su vrsta pitanja na koja traLite<br />
odgovore, vrsta stavki i merne skale u vaSem upitniku, priroda podataka dostupnih<br />
za svaku promenljivu i pretpostavke koje moraju biti zadovol jene za<br />
svaku statistidku tehniku. Proii iemo korak po korak kroz proces odludivanja.<br />
Korak 1: na koja pitania traZite odgovore?<br />
NapiSite spisak sa svim pitanjima na koja bi istraZivanje trebalo da odgovori.<br />
Videiete da se neka pitanja mogu postaviti na razliEite nadine. U svakoj<br />
oblasti od interesa, pitanje poku5ajte da postavite na viSe nadina. Te alternative<br />
iete upotrebiti kada budete razmatrali razne staristidke pristupe koje biste<br />
mogli primeniti. Na primer, zanima vas uticaj starosti na optimizam. To<br />
pitanje se moZe postaviti na viSe nadina:
110 Deo lll: Preliminarne analize<br />
. Postoji liveza izmedu starosti i nivoa optimizma?<br />
. Da li su starije osobe optimistidnije od mladih?<br />
Ova dva pitanja se razlikuju i za dobijanje odgovora na njih potrebne su<br />
razlitite statistidke tehnike. Od prirode prikupljenih podataka zavisi koje pitanje<br />
iemo proglasiti za prikladnije. Zato za svaku oblast od interesa postavite<br />
viSe pitanja.<br />
Korak 2: pronadite stavke i skale koie cete upotrebiti<br />
zalralenie odgovora na ta pitanja<br />
Vrsta stavki i skala u upitniku i studiji igra veliku ulogu pri izboru statistidkih<br />
tehnika koje su prikladne zatraLenje odgovora na istraiivadka pitanja.<br />
Zato je prilikom projektovanja istraZivanja toliko vaLno imati u vidu predvidene<br />
analize. Na primer, nadin prikupljanja informacija o starosti ispitanika<br />
(videti primer u 1. koraku) odredide koje su statistidke analize<br />
dostupne. Ako od ispitanika zatraLite da izaberu jednu od dve opcije (ispod<br />
35 godina/preko 35 godina), izbor analiza bi6e vrlo ograniden, zato 5to promenljiva<br />
starost moZe imati samo dve vrednosti. S druge strane, ukoliko od<br />
ispitanika zatraLite da svoju starost navedu u godinama, izbor 6e biti Siri<br />
zato 5to promenljiva moZe poprimiti vrednosti u Sirokom opsegu od L8 do<br />
80 i vi5e. U toj situaciji, mogli biste za neke analize (kao Sto je ANOVA) svesti<br />
raspon vrednosti na manji broj kategorija, a za druge analize (npr. korelaciju)<br />
zadri.ati ceo opseg vrednosti.<br />
Ako ste za svoje istraZivanje razdelili upitnik ili anketu, vratite se na konkretne<br />
stavke upitnika i Sifarnika i pronadite svako pojedinadno pitanje (npr.<br />
starost) i ukupne vrednosti posmatranih obeleZja na skalama (npr. optimizma)<br />
koje iete upotrebiti u svojim analizama.Identifikujte svaku promenljivu,<br />
kako je bila merena, koliko je bilo mogu6nosti za odgovor i moguii<br />
raspon vrednosti (brojeva, Sifara) u koje su odgovori pretvoreni.<br />
Ukoliko je studija obuhvatala eksperiment, proverite kako je bila merena<br />
svaka zavisna i nezavisna promenljiva. Da li se vrednosti promenljive sastoje<br />
od broja tadnih odgovora, opservatorove ocene konkretnog pona5anja ili<br />
duZine vremena koje je subjekat proveo baveii se odredenom aktivnoSiu?<br />
Bez obzira na prirodu istraZivanja, treba da vam je jasno kako je svaka promenljiva<br />
bila merena.<br />
Korak 3: identifikujte prirodu svake promenliive<br />
Slede6i korak je identifikacija prirode svake promenljive u studiji, tj. za svaku<br />
promenljivu treba utvrditi da li je nezavisna ili zavisna. Te informacije ne<br />
potiiu od samih podataka, nego od vaSeg shvatanja oblasti i teme studije, relevantnih<br />
<strong>teorija</strong> i prethodnih istraZivanja. Mora vam biti jasno u glavi (i u<br />
pitanjima postavljenim u istraZivanju) kakva je veza izmedu vaSih promenljivih<br />
- koje (nezavisne) utidu na druge, a koje (zavisne) trpe uticaj drugih.<br />
Ima nekih analiza (npr. korelacija) gde nije neophodno uwrditi koje su pro-
Poglavlje 10: lzbor prikladnih statistidkih tehnika 111<br />
menljive nezavisne a koje zavisne. Za druge analize, kao sto je ANOVA, to<br />
vam mora biti jasno. Korisno je nacrtati model uzajamnog odnosa promenljivih<br />
kako ga sami vidite (pogledajte korak 4 u nastavku).<br />
Zasvakupromenljivu trebaznati i njen nivo merenja. Zavisno od toga da<br />
li su promenljive kategorijske ili neprekidne, upotrebljavaju se razlidite statistidke<br />
analize, pa morate znati s dim radite. Da li su va5e promenljive:<br />
r kategorijske (nominalni podaci, npr. pol: mulkilZenski);<br />
. ordinalne (rangirani podaci: prvi, drugi, treii); ili<br />
. neprekidne (intervalni podaci, npr. starost u godinama ili vrednosti na<br />
skalama optimizma)?<br />
U nekim prilikama treba promeniti nivo merenja odredenih promenljivih.<br />
Odgovori za neprekidne promenljive mogu se svesti na manji broj kategorija<br />
(videti 8. poglavlje). Na primer, starost se moZe podeliti na razb(ite kategorije<br />
(npr. ispod 35 godina/preko 35 godina). To bi bilo podesno za analint<br />
varijanse (proceduru ANOVA), a i u sludaju da neprekidna promenljiva ne<br />
zadovoljava neku od polaznih pretpostavki odredenih analiza (npr. ima veoma<br />
asimetridnu raspodelu). Medutim, saiimanje podataka ima odigledan<br />
nedostatak jer se njime gube informacije. 'Sabijanjem'ljudi u istu grupu katkada<br />
se gube vaZne nzllke izmedu njlh. Zato dobre i lode strane treba pa-<br />
Zljivo odvagnuti.<br />
Dodatne informacije potrebne za neprekidne<br />
i kategorijske promenljive<br />
Za neprekidne promenljive trebalo bi da prikupite informacije o raspodeli<br />
rezultata (npr. da li im je raspodela normalna ili jako asimetridna?). Koji je<br />
raspon njihovih moguiih vrednosti? (Kako se to radi objaSnjeno je u poglavlju<br />
5.) Kada promenljiva obuhvata kategoriie (npr. grupa Tlgrupa 2, mu-<br />
SkarcilZene), utvrdite koliko osoba spada u svaku od kategorija i da li su te<br />
grupe pribliino jednake ili veoma razllEite po broju dlanova?). Da li je neka<br />
od moguiih kategorija prazna? (Videti poglavlje 5.) Sve informacije koje<br />
ovde prikupite o promenljivama kasnije ie se koristiti za sttLavanje izbon<br />
dostupnih statistidkih analiza.<br />
Korak 4: nacrtajte dijagram za svako istraiiva6ko pitanje<br />
Moji studenti desto ostaju bez teksta kada treba da objasne 5ta istraZuju. Ponekad<br />
je lakSe, a i jasnije, saZeti kljudne tadke pomoiu dijagrama. Ideja je<br />
deo informacija prikupljenih u koracima 1 i 2 objediniti u jednostavnom<br />
formatu koji ie pomoii pri izboru prikladne statistidke tehnike ili izabrati<br />
jednu od vi5e opcija.<br />
Trebalo bi da razmislite o jednom od kljudnih pitanja: da li me zanima<br />
odnos/ueza dve promenljive ili poredenje dve grupe subjekata? Mol.da ee<br />
vam biti lakbe da odgovorite kada za svako pitanje saZmete prikupljene<br />
informacije i nacrtate dijagram. Ilustrovaiu to navodenjem informacija<br />
i crtanjem dijagrama za viSe istraZivadkih pitanja.
112 Deo lll: Preliminarne analize<br />
Pitanje l: Postoji Ii veza izmedu sfarosfi i nivoa optimizma?<br />
Promenljive:<br />
r Starost - neprekidna: starost u godinama od 18 do 80;<br />
. Optimizam - neprekidna: vrednosti na skali optimizma, u rasponu od<br />
5 do 30.<br />
Iz literature ste izvukli hipotezu da su stariji ljudi optimistidniji od mladih.<br />
Ta veza izmedu dve neprekidne promenljive moZe se ilustrovati ovako:<br />
Optimizam<br />
***<br />
***<br />
** **<br />
**<br />
**<br />
Starost<br />
Kada odekujete da vrednost na skali optimizma raste sa Zivotnim dobom,<br />
tadke crtate podev od donjeg levog ugla dijagrama prema gornjem desnom<br />
uglu. Ukoliko prognozirate da vrednost na skali optimizma opada sa iivotnim<br />
dobom, tadke crtate podev od gornjeg levog ugla dijagrama prema donjem<br />
desnom uglu.<br />
Pitanie 2: Da li su muEkarci skloniji optimizmu od ilena?<br />
Promenliive:<br />
. Pol - nezavisna, kategorijska (dve grupe): mulkarci i Lene;<br />
. Optimizam - zavisna, neprekidna: vrednosti na skali optimizma, u<br />
rasponu od 6 do 30.<br />
Rezultati dobijeni kao odgovor na ovo pitanje, s jednom kategorijskom<br />
promenljivom (sa samo dve grupe) i jednom neprekidnom promenljivom,<br />
mogu se saZeti ovako:<br />
MuSkarci<br />
Zene<br />
Srednja vrednost na skali optimizma<br />
Pitanje 3: Da li se starost razlidito utiie na optimizam<br />
mu5karaca iZena?<br />
Kada biste istraZivali zajednidki uticaj starosti i pola na vrednost na skali optimizma,<br />
mogli biste podeliti svoj uzorak na tri starosne grupe (ispod 30,<br />
3L49 godina i 50 i viSe).
Poglavlje 10: lzbor prikladnih statistidkih tehnika 113<br />
Promenljive:<br />
o Pol - nezavisna, kategorijska: mudkarcilZene;<br />
o Starost - nezavisna, kategorijska: udesnici podeljeni na<br />
grupe;<br />
. Optimizam - zavisna, kategorijska: vrednosti na skali<br />
raspon od 5 do 30.<br />
Dijagram bi mogao izgledati ovako:<br />
tri jednake<br />
optimizma,<br />
Srednja vrednost na skali<br />
ootimizma<br />
MuSkarci<br />
Zene<br />
Starost<br />
lspod 3O 31 -49 50 i vi5e<br />
Pitanje 4: Kolikise deo variianse u zadovoljsttru iivotom moZe<br />
o bj a s n iti po m o Cu d atog s ku p a oso b i n a I i 6n osti (sa m o poitova ni e,<br />
o pti m i za m, s u bj e ktiva n d oiivlj aj sa m o ko n tro I e) ?<br />
MoZda treba da uporedite prediktivnu moguinost viSe nezavisnihza jednuzavisnu<br />
promenljivu. Takode vas zanima koliki deo varijanse zavisne promenljive<br />
potide od varijanse tog skupa nezavisnih promenljivih, tj. obja5njen je njom.<br />
Promenljive:<br />
o Samopoltovanje - nezavisna, neprekidna;<br />
. Optimizam - nezavisna, neprekidna;<br />
. Subjektivan doLivljaj samokontrole - nezavisna, neprekidna;<br />
. Zadovoljstvo iivotom - zavisna, neprekidna.<br />
Va5 dijagram bi mogao daizgleda ovako:<br />
Samopo5tovanj€<br />
Optimizam ---------------- Zadovoljstvo iivotom<br />
----------------<br />
Subjektivan doiivljaj samokontrole<br />
J<br />
Y<br />
Korak 5: Zakljudite da li je prikladna parametarska<br />
ili neparametarska statistidka tehnika<br />
Samo da bi studentima bilo teZe, mno5tvo dostupnih statistidkih tehnika podeljeno<br />
je u dve glavne grupe: parametarske i neparametarske. Parametarska<br />
statistika je mo6nija, ali podiva na viSe pretpostavki, tj. njene pretpostavke o<br />
podacima su stroie. Na primer, sve parametarske metode podivaju na pretpostavci<br />
da je raspodela rezultata analize u populaciji iz koje je izvuden<br />
uzorak normalna.<br />
Svaka parametarska tehnika (kao 5to su t-testovi, ANOVA, Pirsonova<br />
korelacija) ima i svoje dodatne pretpostavke. Da li su one zadovoljene ili ne,
114 Deo lll: Preliminarne analize<br />
treba proveriti pre sprovodenja analiza. Za svaku tehniku obradenu u preostalim<br />
poglavljima, biie navedene konkretne pretpostavke na kojima podiva.<br />
Sta ako pretpostauh.e na koiima poiiua statistiiha tehnika koiu ielite da<br />
upotrebite nisu zadouoliene? Nai.alost, to se desto dogada u istraZivan jima iz<br />
oblasti druStvenih nauka. Mnogi od atributa koje ho6emo da izmerimo nisu<br />
normalno raspodeljeni. Neki su jako asimetridni, pri iemu veiina rezultata<br />
ima malu vrednost (npr. depresija); drugi su asimetridni tako da ve6ina rezultata<br />
ima veliku vrednost na skali (npr. samopoltovanje).<br />
Kada pretpostavke na kojima podiva statistidka tehnika koju Zelite da<br />
upotrebite nisu zadovoljene, na raspolaganju vam je viSe mogudnosti koje<br />
iemo sada podrobno opisati.<br />
1. mogucnost<br />
Mogli biste ipak upotrebiti tu parametarsku tehniku i nadati se da time niste<br />
ozbiljno narulili valjanost svojih nalaza. Neki autori tvrde da je vedina statistidkih<br />
postupaka prilidno robusna, tj. da one dobro podnose manja odstupanja<br />
od pretpostavki, narodito kada je uzorak pristojne veliiine. Ako<br />
odludite da ipak uradite neku parametarsku analizu, to iete morati nekako<br />
da opravdate u izveStaju, pa prikupite podesne citate autora statistidkih knjiga,<br />
prethodnih istraZivada itd. koji podrZavaju takvu odluku. Proverite 5ta<br />
kaiu iasopisi o oblasti koju istraZujete, pogotovo oni dlanci koji opisuju<br />
upotrebu istih skala. Pominju li sliine probleme? Ukoliko ih pominju,5ta su<br />
ti autori preduzeli? Jednostavan i ditljiv prikaz robusnosti raznih statistidkih<br />
testova proditajte u knjizi Conea i Fostera (2006).<br />
2. mogu6nost<br />
Mogli biste modifikovati podatke tako da zadovolje pretpostavke na kojima<br />
podiva statistidki test (npr. normalnost raspodele). Neki autori predlaZu<br />
transformaciju promenljivih dija raspodela nije normalna (videti poglavlje 8).<br />
MiSljenja o tome su podeljena, pa 6ete morati mnogo toga da proditate kako<br />
biste uspeino opravdali svoj postupak (videti Thbachnick & Fidell, 2007).<br />
3. mogudnost<br />
Kada podaci ne zadovoljavaju pretpostavke parametarskih tehnika, moiete<br />
umesto njih upotrebiti neku neparametarsku tehniku. Mnoge desto koriSdene<br />
parametarske tehnike imaju svoje neparametarske alternative. I one podivaju<br />
na nekim pretpostavkama, ali manje strogim. Te neparametarske alternative<br />
(npr. Kruskal-Volisov test, Man-Vitnijev U test, hi-kvadrat) najdeSie su manje<br />
moine, tj. manje osetljive prilikom otkrivanja vezainzlika izmedu grupa. U<br />
poglavlju 16 obradene su neke od uobidajenih neparametarskih tehnika.<br />
Korak 6: dono6enie konadne odluke<br />
Nakon 5to prikupite informacije koje se odnose na istraZivaika pitanja, nivo<br />
merenja svih promenljivih i karakteristike dostupnih podataka, konadno ste
Poglavlje 10: lzbor prikladnih statistidkih tehnika 115<br />
u poloiaju da razmotrite sve mogu6nosti. U narednom tekstu saZela sam<br />
kljudne elemente osnovnih statistidkih analiza s kojima iete se sretati. Prodite<br />
dui tog spiska, nadite primer vrste istraZivadkog pitanja na koje treba da<br />
odgovorite i proverite imate li sve potrebne sastojke. Takode razmislite ima<br />
li i drugih nadina na koje biste mogli postaviti isto pitanje i stoga primeniti<br />
drugadiji statistidki pristup. Na kraj poglavlja stavila sam saZetu tabelu koja<br />
6e vam pomoii u procesu odlu6ivanja.<br />
PotraLite dodatne informacije o tehnikama za koje ste se odludili i postarajte<br />
se da dobro shvatite nadela i pretpostavke na kojim a po(ivaiu. Za to<br />
je dobro upotrebiti viSe razliditih izvora: razni autori imaju razlidita miSljenja.<br />
Treba dobro da shvatite sporna pitanja - moida iete dak morati da<br />
opravdate koriSienje odredene statistidke tehnike u svojoj situaciji - zato<br />
obavezno mnogo toga proditajte.<br />
Osnovne osobine glavnih statistidkih tehnika<br />
Ovaj odeljak je podeljen na dva pododeljka:<br />
1. tehnike za istrai,ivanje veza (odnosa) izmedu promenljivih<br />
detvrtom delu knjige);<br />
2. tehnike za istraLivanje razlika izmedu grupa (obradene u<br />
knjige).<br />
(obradene u<br />
petom delu<br />
lstraiivanje veza (odnosa) izmedu promenliivih<br />
Hi-kvadrat za nezavisnost<br />
Primer istraZivadkog pitanja: Kakav je odnos izmedu pola osobe i stope odustajanja<br />
od terapije?<br />
Treba vam:<br />
o jedna kategorijska nezavisna promenljiva (npr. pol: mudkarci/Zene);<br />
o jedna kategorijska zavisna promenljiva (npr. odustajanje: DaAtre).<br />
Diiagram:<br />
Zanimavas broiosoba u svakoj kategoriji (ne vrednosti na nekoj skali).<br />
Muikarci<br />
Zene<br />
Odustajanje<br />
Da<br />
Ne<br />
Korelacija<br />
Primer istraiivadkog pitanja: Postoji li veza izmedu starosti i vrednosti na<br />
skali optimizma? Raste li optimizam s pove6anjem Zivotne dobi?<br />
Tieba vam: dve neprekidne promenljive (npr. starost, vrednosti na skali optimizma)
116 Deo lll: Preliminarne analize<br />
Dijagram:<br />
Optimizam<br />
***<br />
***<br />
** **<br />
**<br />
**<br />
Starosl<br />
Neparametarska alternativa: Spirmanova korelacija ranga<br />
Delimiina korelacija<br />
Primer istraiivaikog pitanja: Nakon uklanjanja uticaja svesno netadnih, ali<br />
druStveno poZeljnih odgovora, postoji li jo5 uvek veza izmedu optimizma i<br />
zadovoljstva Zivotom?<br />
Treba vam: Tri neprekidne promenljive (npr. optimizam,zadovoljstvo Zivotom,<br />
svesno davanje netadnih, ali drultveno poZeljnih odgovora)<br />
Neparametarska alternativa: Ne postoji.<br />
ViSestruka regresiia<br />
Primer istraiivaikog pitanja: Koliki deo varijanse pri ispitivanju zadovoljswa<br />
Zivotom potide od varijanse (tj. moie biti pripisan varijansi) slededeg skupa<br />
promenljivih: samopoStovanje, optimizam, subjektivan doZivljaj samokontrole?<br />
Koja od ovih promenljivih bolje predvida zadovoljstvo Zivotom?<br />
Theba vam:<br />
o jedna neprekidna zavisna promenljiva (npr. zadovoljstvo Zivotom);<br />
r dve ili viSe neprekidnih nezavisnih promenljivih (npr. samopoltovanje,<br />
optimizam, sub j ektivan dolivljaj samokontrole ).<br />
Dilagram:<br />
Samopo5tovanje ----------------<br />
Optimizam<br />
ZaOovotlJwo iivotom<br />
Subjektivan doiivljaj samokontrole J<br />
Neparametarska alternativa: Ne postoji.<br />
lstraZivanie razlika izmedu grupa<br />
I-fesf nezavisnih uzoraka<br />
Primer istraZivaikog pitania: Da li su mulkarci skloniji optimizmu od Zena?
Poglavlje 10: lzbor prikladnih statistidkih tehnika 117<br />
Tleba vam:<br />
o jedna kategorijska nezavisna promenljiva sa samo due grtpe (npr. pol:<br />
muSkarci/Zene);<br />
o jedna neprekidna zavisna promenljiva (npr. vrednost na skali optimizma).<br />
Udesnici mogu pripadati samo iednoi grupi.<br />
Diiagram:<br />
Srednja vrednost na skali optimizma<br />
MuSkarci<br />
Zene<br />
I-tesf uparenih uzoraka (ponovlienih merenia)<br />
Primer istraZivadkog pitania: Smanjuje li 10-nedeljna obuka u meditaciji<br />
anksioznost udesnika? Da li se nivo anksioznosti menja od vremena L (pre<br />
intervencije) do vremena 2 (posle intervencije)?<br />
teba vam:<br />
o jedna kategorijska nezavisna promenljiva (npr. vreme 7 / weme 2); i<br />
o jedna neprekidna zavisna promenljiva (npr. vrednost na skali anksioznosri).<br />
Isti uiesnici ispitani u dua zasebna navrata: vreme 1 (pre intervencije) i vreme<br />
2 (posle intervencije).<br />
Dijagram:<br />
Srednja vrednost na skali anksioznosti<br />
Neparametarska alternativa: Vilkoksonov test ranga<br />
Vreme 1 Vreme 2<br />
J ed n ofa ktorska a n a I iza va rij a n se rad i eifi h g ru pa<br />
Primer istraiivaikog pitania: Postoji li razlika u vrednostima na skali optimizma<br />
kod osoba mladih od 30, izmedu 3L49, i starih 50 i vi5e godina?<br />
teba vam:<br />
o jedna kategorijska nezavisna promenljiva sa dve ili viSe grupa (npr. starost:<br />
ispod 3013149150 i viSe);<br />
o jedna neprekidna zavisna promenljiva (npr. vrednost na skali optimizma).<br />
Diiagram:<br />
Srednja vrednost na skali optimizma<br />
Starost<br />
lspod 30 34-49 50 i vi5e<br />
Neparametarska dternativa: Kruskal-Volisov test
118 Deo lll: Preliminarne analize<br />
Dvofa kto rska a n a I i za va rii a n se ra zl i iiti h g r u pa<br />
Primer istraiivadkog pitanja: Koliko starost utide na rezultate na skali optimizma<br />
za mu5karc e i za i.ene?<br />
Sta ta- treba:<br />
o dve kategorijske nezavisne promenljive (npr. pol: mu5karcilZene; starosna<br />
grupa: ispod 30/3149150 i viSe);<br />
o jedna neprekidna zavisna promenljiva (npr vrednost na skali optimizma).<br />
Diiagram:<br />
Srednja vrednost na skali<br />
ootimizma<br />
MuSkarci<br />
Zene<br />
Starost<br />
lspod 30 34-49 50 ivi5e<br />
Neparametarska alternativa: Ne postoji.<br />
Napomena: analiza varijanse se moZe proliriti tako da obuhvati tri ili viSe nezavisnih<br />
promenljivih. (To se najdeSde naziva faktorskom analizom varijanse).<br />
Kombinovana analiza varijanse razliditih grupa<br />
iponovljenih merenja<br />
Primer istraiivaikog pitanja: Koja intervencija (pove6anje matematidkog<br />
znanja/izgradnja samopouzdanja) delotvornije smanjuje strah udesnika od<br />
statistike, meren u tri navrata (pre intervencije, odmah posle intervencije, tri<br />
meseca posle intervencije) ?<br />
Theba vam:<br />
o jedna nezavisna promenljiva razliditih grupa (npr. vrsta intervencije);<br />
o jedna nezavisna promenljiva ponovljenih merenja istih grupa (npr. vreme<br />
1-, vreme 2, vreme 3);<br />
o jedna neprekidna zavisna promenljiva (npr. vrednosti na testu kojim se<br />
ispituje strah od statistike).<br />
Dijagram:<br />
Srednja vrednosl<br />
na testu kojim se<br />
ispituje strah od<br />
statistike<br />
Intervencija povecanjem<br />
matematidkog znanja<br />
Intervencija izgradnjom<br />
samopouzdanja<br />
Vreme<br />
Vreme 1 Vreme 2 Vreme 2<br />
Neparametarska alternativa: Ne postoji.
Poglavlje 10: lzbor prikladnih statistidkih tehnika 119<br />
M ultivarijaciona analiza variianse<br />
Primer istraiivaEkog pitania: Da li su mu5karci bolje prilagodeni od i,ena po<br />
opStem telesnom i dulevnom zdravlju (meri se nivo anksioznosti, depresije i<br />
subjektivno doiivljenog stresa) ?<br />
Treba vam:<br />
o jedna kategorijska nezavisna promenljiva (npr. pol: muSkarcilZene); i<br />
o dve ili vi5e zavisnih promenljivih (npr. anksioznost, depresija, subjektivno<br />
doZivljen stres).<br />
Dijagram:<br />
Anksioznost<br />
Depresija<br />
Subjektivno doZivljen stres<br />
Mu5karci<br />
Zene<br />
Neparametarska alternativa: Ne postoji.<br />
Napomena: multivarijaciona analiza varijanse moZe se koristiti uz jednofaktorsku<br />
(jedna nezavisna promenljiva), dvofaktorsku (dve nezavisne promenljive)<br />
i viSefaktorsku analizu varijanse. MoZe se uzeti u obzir i dejstvo<br />
drugih promenljivih (kovarijansi).<br />
Analiza kovarijanse<br />
Primer istraZivaikog pitania: Postoji li znalajna razlika u rezultatima ispitivanja<br />
straha od statistike izmedu dlanova grupe koja pove6ava matematidko<br />
znanje i dlanova grupe koja gradi samopouzdanje, kada se oduzme uticaj<br />
njihovih prethodnih rezultata na tom testu?<br />
Treba vam:<br />
o jedna kategorijska nezavisna promenljiva (npr. vrsta intervencije);<br />
o jedna neprekidna zavisna promenljiva (npr. vrednosti na skali straha<br />
od statistike u vreme 2); i<br />
o jedna ili viSe neprekidnih remetiladkih promenljivih (npr. vrednosti na<br />
skali straha od statistike u vreme L).<br />
Neparametarska alternativa: Ne postoji.<br />
Napomena: analiza kovarijanse se moie obaviti kao deo jednofaktorske<br />
(jedna nezavisna promenljiva), dvofaktorske (dve nezavisne promenljive) ili<br />
viSefaktorske analize varijanse (dve ili viSe zavisnih promenljivih).
6<br />
o<br />
o<br />
o<br />
c<br />
s<br />
o<br />
-j gE<br />
?'9/J<br />
'-6 (!<br />
Yl c<br />
3fg<br />
*gu<br />
6sg<br />
==JFEo<br />
9 .9'For<br />
rr.i0 H 9<br />
E$E:<br />
f€EE<br />
:<br />
do;,<br />
sE E-<br />
l!9or<br />
E t:.9 E<br />
F c!= O<br />
I €.A: *<br />
EE6;P<br />
EE E Fg<br />
:<br />
No Ee<br />
!!E<br />
XE<br />
x't<br />
=6<br />
FE<br />
i5<br />
o(6<br />
.E<br />
E<br />
fi '5<br />
ra (E<br />
N<br />
9o<br />
._o .oc<br />
-l:*'6' '=XJ(<br />
5 E:<br />
$I;<br />
s ?€*<br />
d<br />
(6<br />
6<br />
c<br />
o:<br />
E<br />
-<br />
.9<br />
o<br />
OE<br />
co otr<br />
EE<br />
No.<br />
6<br />
5 E{,<br />
E<br />
eCI<br />
o<br />
c<br />
.9<br />
o<br />
N<br />
o<br />
z<br />
* ,**<br />
'c >n<br />
o G-<br />
g=i$'t<br />
qFEb<br />
EE.8E<br />
.I<br />
c<br />
tr<br />
(!<br />
J<br />
o<br />
o<br />
o,<br />
0)<br />
ii ,N<br />
J\<br />
;<br />
R o^o<br />
gt<br />
E;<br />
Oe<br />
tc<br />
9=<br />
*8<br />
:€<br />
tS p<br />
s E:E<br />
€sE<br />
EgggEiF<br />
i9o<br />
g FB<br />
-!9F<br />
;i o\\ ^<br />
(!; O*t<br />
EfiN,S<br />
€=t$€<br />
gEggs<br />
?S<br />
=.s $ Es<br />
€ "$E dE oS<br />
;E$ F<br />
:-*=9'g<br />
tF$*<br />
flf;$t<br />
o<br />
.9,<br />
(6<br />
N<br />
(!<br />
I o<br />
d)d<br />
o.><br />
IP<br />
E3R<br />
g\<br />
d.z o<br />
€;{r<br />
= 9bcR<br />
E OE<br />
o !'E<br />
g:8 = N<br />
: ts c.x<br />
E.9! C<br />
7 > 9=<br />
o<br />
.o<br />
6<br />
N<br />
o<br />
(uN<br />
is^ E<br />
o<br />
EDd^S<br />
!t,<br />
g-18S<br />
*EEc<br />
;o'0<br />
EEdts<br />
.0. ae s<br />
o<br />
.Y<br />
c<br />
-c<br />
G)<br />
E<br />
J<br />
)(Jl<br />
o<br />
F o<br />
t<br />
€ C<br />
o cooo<br />
o<br />
oo<br />
o<br />
-g c, lto G c<br />
II<br />
N<br />
o<br />
.Y o o(r6<br />
c><br />
F€<br />
qi<br />
!+o<br />
z@<br />
o<br />
J oo!Uo<br />
FJ<br />
!Utr<br />
dg<br />
(t<br />
E<br />
6<br />
'6.<br />
(,<br />
E<br />
o.<br />
o<br />
c<br />
o<br />
E<br />
Gt<br />
z<br />
(o<br />
*5<br />
=> >=<br />
+o,<br />
=8<br />
o<br />
o<br />
z<br />
0)<br />
6<br />
';<br />
a'.<br />
oo<br />
s.^<br />
f:i<br />
d]'O<br />
NX<br />
R9<br />
va oF<br />
-o<br />
)<br />
'i :-<br />
.YO<br />
r6 5F<br />
o^<br />
F-E E-)g.,! =<br />
,".E E'P<br />
.Q c,<br />
x:<br />
-vu >.:.:a o<br />
A _.i __<br />
ie E i<br />
*a€p<br />
oas<br />
YC<br />
6.N<br />
OE<br />
- 'i:<br />
.N j;<br />
66<br />
tt!<br />
-o '= :J<br />
8E (Lt<br />
o<br />
z<br />
c-{<br />
E,gi-<br />
E!E<br />
+ EE.,<br />
d9d<br />
bti9<br />
^ --T'=.,<br />
rD o-y O<br />
iaaE<br />
sg g:<br />
.EPa i<br />
l€:3F<br />
.FCUJtr E;: &*<br />
f,o ord x<br />
!Et9:<br />
E: s *,i<br />
?':icN;<br />
Zi'E 3-o<br />
'a<br />
o<br />
o<br />
z<br />
.P<br />
* o.9-<br />
;'dE<br />
gsg<br />
t;sEEa<br />
g$gEtE<br />
:=<br />
a<br />
o-<br />
z<br />
6<br />
.N o<br />
;- r><br />
og<br />
dO<br />
U:(L<br />
J
G<br />
o<br />
o<br />
a<br />
6<br />
c<br />
g<br />
(t<br />
o<br />
:-a<br />
OE<br />
to |/|c<br />
FE<br />
NO<br />
.l o-<br />
E3<br />
H _9-<br />
;a<br />
;g<br />
F,()<br />
$\<br />
€;i*<br />
=Ec<br />
F*f s<br />
frf;EE<br />
Aa<br />
6I<br />
3E<br />
o)tg<br />
$-<br />
o)><br />
'55<br />
.- ro<br />
:-f<br />
-<br />
€;{;<br />
g;<br />
! - 6i:<br />
KqS P<br />
o scl -<br />
: H8 H<br />
E.= X{<br />
.!4. ii > o<br />
! EE-<br />
3;E<br />
v,> N'=<br />
8Rg5<br />
.: E 3.3<br />
3 * Ei<br />
-.9;<br />
€ET<br />
F3E $<br />
flf;!E<br />
4E*i<br />
FciE*<br />
BebsX<br />
3Ti B,E<br />
*.9 t.*<br />
i --t.g<br />
i8c€ pxsa<br />
F[EE cEPo<br />
eE3$*<br />
gEE$*$$,<br />
- 9t'+<br />
€E-Iff"<br />
s$$$$<br />
o<br />
.:<br />
cll,<br />
E<br />
e<br />
o<br />
E<br />
.9<br />
o<br />
N<br />
o<br />
z<br />
ox '=<br />
.:<br />
iic<br />
g:: .<br />
'fe $<br />
or(! ('<br />
9,: o<br />
l;io<br />
fl[$<br />
oG)<br />
fi€ $<br />
iE*<br />
b;c<br />
9,2:<br />
(!=F<br />
{6cr<br />
a3c<br />
P<br />
.9e-<br />
PE<br />
or '=d<br />
'E is- 9S c'E B<br />
9;i€ H<br />
'6<br />
! EEE<br />
o--v (a<br />
,l '1X<br />
E qr<br />
E;E<br />
+ - iE'$<br />
g5:gsg<br />
!ig€ !i $r<br />
atsEgg<br />
E-<br />
'i;> E<br />
x= 4.<br />
r Ee $<br />
.q; o'E B<br />
=Eg H<br />
gE€$<br />
i.e g it<br />
g;Eett$<br />
s<br />
EEgEFg$*<br />
6<br />
.Y g6IDG<br />
c><br />
EE q!<br />
t+o<br />
zA<br />
o<br />
.9. o<br />
)o (u><br />
JO<br />
Y(L<br />
o<br />
9o<br />
YO<br />
o><br />
PP<br />
|id<br />
o<br />
a<br />
o<br />
z<br />
o<br />
an<br />
o<br />
z<br />
'a<br />
6<br />
o<br />
q)<br />
z<br />
:=<br />
6<br />
q)<br />
z<br />
o<br />
.Y g6<br />
lD(E<br />
E*<br />
FC<br />
IE<br />
6<br />
c<br />
6<br />
'd.<br />
o<br />
E<br />
o.<br />
(!E<br />
+{) c= o<br />
-6< 9id<br />
x><br />
5<br />
;r..l xJ -<br />
n> f z<br />
P<br />
ga bd<br />
*#;<br />
)c x$<br />
oE<br />
oo<br />
,ggE<br />
oxc<br />
upg<br />
91 X.-<br />
:.; *<br />
-t<br />
(!<br />
(!(E0)<br />
-= ><br />
E* s<br />
d€<br />
iZ= =<br />
o)<br />
Eid<br />
iS -;'<br />
<br />
*Z-l<br />
E >E)<br />
€ E8<br />
;t sg* *<br />
;ii1.s.;E<br />
a ar c.!aE<br />
-<br />
t*$Eatr<br />
iEEEEE:<br />
FEE€gE;<br />
o<br />
c<br />
o<br />
E<br />
6<br />
z
122 Deo lll: Preliminarne analize<br />
Literatu ra za dalie usavrSavanje<br />
Statistidke tehnike obradene u ovom poglavlju samo su mali deo dostupnih<br />
nadina analize podataka. Morate biti svesni postojanja i moguiih nadina<br />
upotrebe velikog broja tehnika kako biste mogli da izabercte onu najprikladniju<br />
za va5u situaciju. eitajte dto vi5e moZete.<br />
Osnovne tehnike (t-test, analizu varijanse, korelaciju) udite iz svog udZbenika<br />
statistike ili iz knjiga koje su napisali Cooper i Schindler (2003); Gravetter<br />
i 'Wallnau (200a); Peat, J. (2001); Runyon, Coleman i Pittenger<br />
(2000); Norman i Streiner (2000). Podrobnije informacije, narodito o multivarijacionoj<br />
statistici, videti u knjigama Haiq Black, Babin, Anderson i<br />
Tatham (2006) ili Tabachnick i Fidell (2007\.
UNIVERZITETSARAJEVU<br />
EKONOMSKIFAKULTETSARAJEVU<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
OsnoveradastatistikompaketuStata:<br />
Deskriptivnastatistikavišestrukiodgovori 1 <br />
<br />
<br />
<br />
<br />
Autor:<br />
doc.drEmirAgi<br />
<br />
<br />
Sarajevo,30.mart2013.godine<br />
<br />
<br />
1 NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />
njegovih dijelova bez prethodnog pisanog pristanka autora.<br />
1
Sadržaj<br />
1. Tabele frekvencija ......................................................................................................3<br />
2. Dijagrami stupaca ......................................................................................................4<br />
3. Deskriptivne mjere.....................................................................................................5<br />
4. Histogrami ..................................................................................................................8<br />
5. Unakrsno tabeliranje ............................................................................................... 10<br />
6. Višestruki odgovori .................................................................................................. 13<br />
6.1. Indikativni mod................................................................................................... 13<br />
6.2. Politomni mod .................................................................................................... 16<br />
2
1. TABELE FREKVENCIJA<br />
Tabele frekvencija uglavnom koristimo kako bi dobili distribuciju vrijednosti neke varijable.<br />
Distribucija predstavlja skup vrijednosti koje neka varijabla može uzeti zajedno sa podatkom<br />
o tome koliko esto se svaka od tih vrijednosti javlja. Tabele frekvencija se naješe koriste<br />
za tabeliranje vrijednosti pojedinanih kategorijalnih varijabli. Tabeliranje vrijednosti jedne<br />
varijable možemo uraditi preko menija (Statistics Summaries, tables, and tests Tables <br />
One-way tables) ili preko naredbe tabulate (skraeno tab). Sintaksa glasi:<br />
.tab varname, missing nofreq nolabel plot sort<br />
gdje je:<br />
Opcija<br />
missing<br />
nofreq<br />
nolabel<br />
plot<br />
sort<br />
Opis<br />
- U tabeli prikazuje i broj opservacija sa nedostajuim vrijednostima<br />
- Ne prikazuje frekvencije<br />
- Prikazuje samo numerike kodove umjesto opisa kategorija<br />
- Kreira grafik sa stupcima relativnih frekvencija<br />
- Sortira kategorije prema frekvencijama<br />
Na primjer, ukoliko želimo da vidimo kakva je dobna struktura našeg uzorka (varijabla dob)<br />
možemo ukucati:<br />
. tab dob, missing<br />
Dob | Freq. Percent Cum.<br />
------------+-----------------------------------<br />
18-25 | 111 55.78 55.78<br />
25-29 | 20 10.05 65.83<br />
30-34 | 16 8.04 73.87<br />
35-39 | 14 7.04 80.90<br />
40-44 | 14 7.04 87.94<br />
45-49 | 6 3.02 90.95<br />
50-54 | 10 5.03 95.98<br />
55-59 | 2 1.01 96.98<br />
60-64 | 3 1.51 98.49<br />
65-69 | 3 1.51 100.00<br />
------------+-----------------------------------<br />
Total | 199 100.00<br />
Iz tabele vidimo da u uzorku ima dosta mlaih osoba. Štaviše, više od polovine ispitanika<br />
(55,8%) nalazi se u dobi od 18-25 godina starosti. Posljednja kolona (cum.) su kumulativni<br />
procenti koje dobijamo tako što redom sabiramo procente iz prethodne kolone (percent). Tako<br />
na primjer možemo proitati da je 91% ispitanika koji su ušli u uzorak mlae od 50 godina.<br />
3
2. DIJAGRAMI STUPACA<br />
Vrijednosti jedne kategorijlne varijable graki se naješe predstavljaju pomou dijagrama<br />
stupaca. Najbolji nain na koji možemo dobiti dijagram stupaca je preko komande catplot<br />
(ukoliko to nismo ranije uradili potrebno je prvo instalirati catplot paket naredbom: ssc<br />
inst usespss). Sintaksa naredbe je:<br />
. catplot ime_varijable, percent recast(bar) blabel(bar, format())<br />
gdje je:<br />
Opcija<br />
percent<br />
Opis<br />
- Prikazuje procente umjesto frekvencija<br />
recast(bar) - Kreira vertikalni dijagram stupaca umjesto horizontalnog<br />
blabel(bar,<br />
format())<br />
- Ispisuje numeriku vrijednost stupca (podopcija format služi da<br />
preciziramo broj decimala u outputu i može se izostaviti)<br />
Na primjer, ukoliko želimo grafiki prestaviti varijablu eduk (obrazovanje ispitanika) tako da<br />
stupci reprezentuju postotke umjesto frekvencija ukucaemo:<br />
. catplot eduk, percent blabel(bar, format(%4.1f))<br />
Završena osnovna škola<br />
2.5<br />
Obrazovanje<br />
Završena srednja škola<br />
Završen fakultet<br />
22.1<br />
72.9<br />
Završen postidiplomski studij<br />
2.5<br />
0 20 40 60 80<br />
percent<br />
Alternativno, za grafiki prikaz vrijednosti kategorijalne varijable možemo koristiti i tzv.<br />
tortni dijagram (engl. pie chart). Dijaloški okvir za kreiranje ovog grafa pozivamo preko<br />
menija (Graphics Pie chart) ili upotrebom naredbe graph pie. Na primjer:<br />
. graph pie, over(spol)<br />
4
3. DESKRIPTIVNE MJERE<br />
Naredba summarize daje osnovnu deskriptivnu statistiku (Statistics Summaries, tables, and<br />
tests Summary and descriptive statistics Summary statistics). Deskriptivne mjere ima<br />
smisla tražiti samo za numerike varijable. Uzmimo za primjer numeriku varijablu koja se<br />
odnosi na veliinu porodice (brclan):<br />
. summarize brclan<br />
Variable | Obs Mean Std. Dev. Min Max<br />
-------------+--------------------------------------------------------<br />
brclan | 199 3.819095 1.225749 1 8<br />
Vidimo da prosjean broj lanova domainstva iznosi 3,82 lanova (uz standardnu devijaciju<br />
od 1,23). Prema podacima iz uzorka najvee domainstvo broji osam dok najmanje broji<br />
jednog lana.<br />
Nešto detaljnije podatke možemo dobiti ako uz naredbu summarize ukucamo i opciju detail.<br />
. summarize brclan, detail<br />
Veliina domainstva<br />
-------------------------------------------------------------<br />
Percentiles Smallest<br />
1% 1 1<br />
5% 2 1<br />
10% 2 1 Obs 199<br />
25% 3 1 Sum of Wgt. 199<br />
50% 4 Mean 3.819095<br />
Largest Std. Dev. 1.225749<br />
75% 4 6<br />
90% 5 7 Variance 1.502462<br />
95% 6 7 Skewness .03472<br />
99% 7 8 Kurtosis 3.621425<br />
Dakle, pored ve objašnjenih pokazatelja opcija detail nam omoguava da vidimo percentile,<br />
varijansu, kao i dva pokazatelja o zakrivljenosti distribucije.<br />
Druga naredba koju možemo koristiti za deskriptivne statistike pokazatelje je tabstat<br />
(Statistics Summaries, tables, and tests Tables Table of summary statistics (tabstat)).<br />
Ova naredba nam omoguava dosta veu fleksibilnost i kontrolu u pogledu toga kako e<br />
izgledati konana tabela sa rezultatima. Štaviše, mogue je direktno porediti vrijednosti dvije<br />
numerike varijable. Na primjer, ako želimo da istovremeno dobijemo deskriptivne<br />
pokazatelje za varijable brclan (broj lanova domainstva) i brdjece (broj djece u<br />
domainstvu) dovoljno je ukucati:<br />
. tabstat brclan brdjece, s(mean semean median sd var skew k count sum<br />
range min max)<br />
5
gdje opcije znae: mean (aritmetika sredina), semean (standardna greška aritmetike<br />
sredine), median (medijana), sd (standardna devijacija), var (varijansa), skew (engl. skewness<br />
– zakrivljenost distribucije), k (engl. kurtosis – spljoštenost distribucije), sum (zbirna<br />
vrijednost), range (raspon), min (minimalna vrijednost) i max (maksimalna vrijednost).<br />
stats | brclan brdjece<br />
---------+--------------------<br />
mean | 3.819095 1.497487<br />
se(mean) | .0868911 .0912035<br />
p50 | 4 2<br />
sd | 1.225749 1.286583<br />
variance | 1.502462 1.655297<br />
skewness | .03472 1.225218<br />
kurtosis | 3.621425 7.767028<br />
N | 199 199<br />
sum | 760 298<br />
range | 7 9<br />
min | 1 0<br />
max | 8 9<br />
------------------------------<br />
Poreenje dvije numerike varijable omoguava istraživau da pored uvida u deskriptivne<br />
pokazatelje uradi i logiku kontrolu kako bi se otkrile greške pri unosu podataka ili<br />
nepouzdani odgovori. Na primjer, u gornjoj tabeli možemo uoiti da je maksimalan broj<br />
lanova porodice 8, dok je istovremeno maksimalan broj djece u porodici 9. Ovo upuuje na<br />
zakljuak da je pri unosu podataka došlo do greške ili da anketar nije obavio kvalitetnu<br />
kontrolu na licu mjesta.<br />
Deskriptivnu statistiku za numerike varijable pored cjelokupnog uzorka (prethodni primjer)<br />
možemo gledati i prema odreenim grupama. Za ovo možemo iskoristiti opciju by. Na<br />
primjer, pretpostavimo da želimo da vidimo prosjenu veliinu porodice i broj djece prema<br />
entitetima u kojima ispitanici žive:<br />
. tabstat brclan brdjece, by (entitet) s(mean median sd)<br />
Summary statistics: mean, p50, sd<br />
by categories of: entitet (Entitet)<br />
entitet | brclan brdjece<br />
--------+--------------------<br />
FBiH | 3.879699 1.699248<br />
| 4 2<br />
| 1.348611 1.193321<br />
--------+--------------------<br />
RS | 3.69697 1.090909<br />
| 4 1<br />
| .9276886 1.378151<br />
--------+--------------------<br />
Total | 3.819095 1.497487<br />
| 4 2<br />
| 1.225749 1.286583<br />
-----------------------------<br />
6
Iz dobijenog outputa uoavamo da prosjena porodica u FBiH broji 3.9 lanova (sd = 1.35) a<br />
u RS-u 3.7 lanova (sd = .93). U oba suaja medijana je 2. Kad je rije o broju djece,<br />
prosjena porodica iz FBiH ima 1.7 djece (sd = 1.19) dok prosjena porodica iz RS-a ima 1.4<br />
djece (sd = 1.38). Medijana za FBiH prema ovoj varijabli je 2 djece, dok je u RS-u medijana 1<br />
djete.<br />
Ono što može biti dodatno interesantno je da grafiki predstavimo prosjene vrijednosti<br />
prema kategorijama neke kvalitativne varijable. Ako se vratimo na prethodni primjer,<br />
dobijene pokazatelje možemo grafiki predstaviti koristei naredbu graph bar:<br />
. graph bar (mean) brclan (mean) brdjece, by(entitet)<br />
FBiH<br />
RS<br />
0 1 2 3 4<br />
Graphs by Entitet<br />
mean of brclan<br />
mean of brdjece<br />
Korištenjem opcije over možemo dobiti još kompleksnije grafike prikaze. Na primjer,<br />
ukoliko želimo da grafiki prikažemo prosjene vrijednosti za muške i ženske ispitanike<br />
(varijabla spol) prema entitetu (varijabla entitet) u kojem žive ukucaemo:<br />
. graph bar (mean) brclan (mean) brdjece, over(spol) by(entitet)<br />
7
FBiH<br />
RS<br />
0 1 2 3 4<br />
Muški Ženski Muški Ženski<br />
Graphs by Entitet<br />
mean of brclan<br />
mean of brdjece<br />
Postoji još dosta mogunosti kojima se može precizno definisati izgled ovakve vrste grafova.<br />
Obzirom da bi puna sintaksa bila prilino kompleksna mnogo bolje rješenje je koristiti<br />
dijaloške okvire koje pozivamo preko menija Graphics Bar chart.<br />
4. HISTOGRAMI<br />
Histograme koristimo za grafiko prestavljanje numerikih podataka. Numeriki podaci mogu<br />
biti prekidni (engl. discrete) i kontinuirani (engl. continuous). Prekidni podaci mogu imati<br />
samo odreene numerike vrijednosti. Na primjer, broj osoba u domainstvu (vrijabla<br />
brclan) je prekidni podatak jer jedno domainstvo ne može imati 3,5 lanova. S druge strane<br />
strane, kontinuirani podaci mogu uzeti bilo koju vrijednostu u datom rasponu. Na primjer,<br />
cijena jednog litra mineralne vode može uzeti bilo koju vrijednost u rasponu od 0,50 do 4,00<br />
KM. U suštini, može se rei da prekidni podatak dobijamo prebrojavanjem dok kontinuirani<br />
podatak dobijamo mjerenjem. Takoer, histograme možemo iskoristiti i za grafiko<br />
prestavljanje grupisanih numerikih podataka. Na primjer, varijabla dob ima kategorije koje<br />
predstavljaju grupisane numerike podatke (18-25 godina, 25-29 godina, 30-34 godine itd.).<br />
Naredba za crtanje je histogram i ima sljedeu sintaksu:<br />
. histogram ime_varijable, discrete freq addlalbel<br />
. histogram ime_varijable, discrete percent addlabel<br />
gdje opciju discrete koristimo ukoliko varijabla sadrži prekidne numerike vrijednosti.<br />
Ukoliko izostavimo ovu opciju Stata e automatski podrazumjevati da su podaci unutar<br />
varijable kontinuirani. Opcijama freq i percent definišemo da li Y-osa prestavlja frekvencije<br />
ili procente. Obratite pažnju da, ukoliko ne stavimo jednu od ove dvije opcije, Stata e na Y-<br />
osu staviti vrijednosti funkcije gustoe vjerovatnoe što nije uobiajen nain na koji se<br />
interpretiraju histogrami. I na kraju, ako želimo, opcijom addlabel možemo dati numeriku<br />
vrijednost iznad svakog stupca kako bi olakšali interpretaciju.<br />
8
Na primjer:<br />
. histogram brclan, discrete percent<br />
. histogram brdjece, discrete percent<br />
Percent<br />
0 10 20 30 40 50<br />
0 2 4 6 8<br />
Veliina domainstva<br />
Percent<br />
0 10 20 30 40<br />
0 2 4 6 8 10<br />
Broj djece<br />
Taoer, ono što može biti korisno je da se prikažu histogrami varijable prema željenim<br />
grupama. Na primjer, histogram za varijablu brdjece možemo posmatrati prema entitetima:<br />
. histogram brdjece, discrete percent addlabel by(entitet)<br />
Percent<br />
0 50<br />
FBiH<br />
RS<br />
0 5 10 0 5 10<br />
Broj djece<br />
Graphs by Entitet<br />
Pored ovih osnovnih postoji niz i drugih opcija kojma možemo definisati konani izgled<br />
histograma kao što su broj stupaca (bin), njihova širina (width), boja i slino. Obzirom da<br />
puna sintaksa može biti dosta komplikovana preporuka je da se za dodatno podešavanje<br />
izgleda histograma koriste dijaloški okviri do kojih dolazim preko menija: Graphics <br />
Histogram.<br />
9
5. UNAKRSNO TABELIRANJE<br />
Unakrsno tabeliranje se koristi kada želimo da vidimo zajednike distribucije frekvencija<br />
dvije ili više kategorijalnih varijabli. Rezultat koji dobijemo naziva se tabela kontegencije.<br />
Broj polja unutar tabele kontigencije e zavisiti od broja kategorija varijabli koje ukrštavamo.<br />
Najjednostavnija tabela kontigencije ima etiri polja (2x2) i dobije se kada ukrstimo dvije<br />
varijable od kojih svaka ima dvije kategorije.<br />
Pretpostavimo da želimo utvrditi da li je radni status ispitanika (varijabla v3) povezan sa<br />
entitetom prebivališta (varijabla entitet). Kod unakrsnog tabeliranja uobiajeno je da<br />
nezavisna varijabla predstavlja kolone a zavisna varijabla redove kontigencijske tabele. Kako<br />
bi dobili kontigencijsku tablicu za dvije kategorijalne varijable iskoristiemo naredbu tabulate<br />
koja ima sljedeu sintaksu:<br />
. tab nezavisna_var zavisna_var, col row cell nofreq<br />
gdje je<br />
Opcija<br />
col<br />
row<br />
cell<br />
noofreq<br />
Opis<br />
- Unutar tabele prikazuje procente prema kolonama<br />
- Prikazuje procente prema redovima<br />
- Prikazuje procente prema ukupnom zbiru svih elija tabele<br />
- Iskljuuje prikazivanje frekvencija<br />
Alternativno, ukrstanje dvije kategorijske varijable možemo uraditi i preko dijaloškog okvira<br />
kojeg pozivamo putem menija: Statistics Summaries, tables, and tests Tables Twoway<br />
tables with measures of association<br />
Kreirajmo sada kontigencijsku tabelu za varijable rstatus i entitet:<br />
. tab rstatus entitet<br />
Radni | Entitet<br />
status | FBiH RS | Total<br />
-----------+----------------------+----------<br />
Zaposlen | 55 19 | 74<br />
Nezaposlen | 18 1 | 19<br />
Student | 49 46 | 95<br />
Penzioner | 9 0 | 9<br />
-----------+----------------------+----------<br />
Total | 131 66 | 197<br />
Dobili smo 2x4 tabelu kontigencije iz koje možemo vidjeti strukutru ispitanika prema tome iz<br />
kojeg entiteta dolaze i kakav radni status imaju. Grafiki ove podatke možemo prestaviti uz<br />
pomo naredbe catplot ako ukucamo:<br />
. catplot rstatus entitet, blabel (bar)<br />
10
Zaposlen<br />
55<br />
FBiH<br />
Nezaposlen<br />
Student<br />
18<br />
49<br />
Penzioner<br />
9<br />
Zaposlen<br />
19<br />
RS<br />
Nezaposlen<br />
Student<br />
1<br />
46<br />
Penzioner<br />
0 20 40 60<br />
frequency<br />
Pri direktnim kompariranjima dobijenih frekvencija trebamo biti oprezni jer je oito da je<br />
rije o nejadnakim uzorcima budui da imamo duplo više ispitanika iz FBiH nego iz RS-a. U<br />
situaciji kada imamo grupe nejednakih veliina, a kako bi lakše interpretirali dobijene<br />
frekvencije, poželjno je pogledati i relativne (procentualne) odnose unutar tabele kontigencije.<br />
Uobiajeno je da se procenti prikažu za kolone kako bi direktno komparirali razlike izmeu<br />
kategorija nezavisne varijable:<br />
. tab rstatus entitet, column nofreq<br />
Radni | Entitet<br />
status | FBiH RS | Total<br />
-----------+----------------------+----------<br />
Zaposlen | 41.98 28.79 | 37.56<br />
Nezaposlen | 13.74 1.52 | 9.64<br />
Student | 37.40 69.70 | 48.22<br />
Penzioner | 6.87 0.00 | 4.57<br />
-----------+----------------------+----------<br />
Total | 100.00 100.00 | 100.00<br />
Ili grafiki:<br />
. catplot rstatus entitet, percent(entitet) blabel(bar, format(%4.1f))<br />
11
Zaposlen<br />
42.0<br />
FBiH<br />
Nezaposlen<br />
Student<br />
13.7<br />
37.4<br />
Penzioner<br />
6.9<br />
Zaposlen<br />
28.8<br />
RS<br />
Nezaposlen<br />
Student<br />
1.5<br />
69.7<br />
Penzioner<br />
0 20 40 60 80<br />
percent<br />
Na osnovu postotaka možemo uoiti da je u uzorak iz FBiH ušao znatno vei broj zaposlenih<br />
(42.0%) u odnosu na RS (28.8%). Isto tako u uzorku iz FBiH imamo znatno vei broj<br />
nezaposlenih (13.7% prema 1.5%) i penzionera (6.9%). Nasuprot tome, više od dvije treine<br />
uzorka iz RS-a ine studenti (69.7%) i uzorkom nije obuhvaen niti jedan penzioner (0.0%).<br />
Sve ovo ukazuje da su oba uzorka pristrasna u pogledu toga da znatno više reprezentuju<br />
mlau populaciju. Ovo se posebno odnosi na uzorak iz RS-a koji je sastavljen primarno od<br />
studentske populacije.<br />
12
6. VIŠESTRUKI ODGOVORI<br />
U praksi se istraživai vrlo esto susreu sa pitanjima kod kojih je ispitanik pri odgovaranju<br />
mogao odabrati više od jednog ponuenog odgovora. Ovakva pitanja se javljaju u dva<br />
pojavna oblika: indikativi i politomni. Bez obzira o kojem pojavnom obliku se radi, za analizu<br />
pitanja sa višestrukim odgovorima nužno je prvo instalirati dodatni paket mrtab.<br />
. ssc install mrtab<br />
6.1. INDIKATIVNI MOD<br />
Kod indikativnih pitanja imamo situaciju da za svaki odgovor bilježimo vrijednost 1 onda<br />
kada je ispitanik odbrao datu alternativu. Na primjer, u okviru istraživanja igara na sreu<br />
ispitanicima je postavljeno sljedee pitanje:<br />
Molimo Vas da sa „X“ oznaite koje od navednih<br />
igara na sreu ste igrali tokom prethodih 12 mjeseci:<br />
L O T O<br />
Sreke (instant)<br />
B I N G O<br />
Sportska kladionica<br />
Poker (automat)<br />
Rulet<br />
Ostalo<br />
U tabeli je predstavljen dio baze koji se odnosi na odgovore prvih pet ispitanika. Iz tabele<br />
možemo vidjeti da prvi ispitanik igra Loto i Bingo, drugi ispitanik igra Loto, Spotrsku<br />
kladionicu i poker itd.<br />
id igra1 igra2 igra3 igra4 igra5 igra6 igra7<br />
1 1 1<br />
2 1 1 1<br />
3 1<br />
4 1 1<br />
5 1 1 1<br />
Da bi sumirali ovako unesene višestruke odgovore potrebno je ukucati sljedeu naredbu:<br />
. mrtab igra1-igra7, title (Igre na sreu)<br />
gdje se igra1-igra7 odnosi na varijable indikatore, dok se opcija title koristi kako bi se<br />
definisao naziv tabele koji e Stata prikazati po završetku analize.<br />
Dobijeni rezultat je predstavljen na sljedeem outputu:<br />
13
| Percent of Percent<br />
Igre na sreu | Frequency responses of cases<br />
--------------------------+-----------------------------------<br />
igra1 L O T O | 452 24.82 77.00<br />
igra2 Sreke | 393 21.58 66.95<br />
igra3 B I N G O | 512 28.12 87.22<br />
igra4 Sportska kladionica | 307 16.86 52.30<br />
igra5 Automati | 100 5.49 17.04<br />
igra6 Rulet | 23 1.26 3.92<br />
igra7 Ostalo | 34 1.87 5.79<br />
--------------------------+-----------------------------------<br />
Total | 1821 100.00 310.22<br />
Valid cases: 587<br />
Missing cases: 3<br />
U kolonama „Frequency“ i „Percent of Responses“ dat je prikaz strukture frekvencija<br />
odgovora i odgovarajuih procenata. Na primjer, možemo vidjeti da je najšeši odgovor<br />
Bingo sa 512 odgovora, što je 28.1% od ukupnog broja odgovora. Mnogo interesantnije<br />
podatake imamo u koloni „Percent of Cases (Procenat ispitanika)“. Ova kolona pokazuje<br />
koliko je ispitanika u zadnjih 12 mjeseci igralo neku od navedenih igara na sreu. Tako<br />
vidimo da je 87.2% ispitanika igralo Bingo, 77.0% ih je igralo Loto itd. U ovoj koloni zbir<br />
prelazi 100% ali je to normalno obzirom da je jedan ispitanik mogao navesti da je igrao više<br />
od jedne igre na sreu u protekloj godini.<br />
Grafiki prikaz možemo pozvati sa:<br />
. mrgraph hbar igra1-igra7, stat(column) blabel(bar, format(%4.1f))<br />
title(Zastupljenost igara na sreu)<br />
Zastupljenost igara na sreu<br />
L O T O<br />
77.0<br />
Sreke<br />
67.0<br />
B I N G O<br />
87.2<br />
Sportska kladionica<br />
52.3<br />
Automati<br />
17.0<br />
Rulet<br />
3.9<br />
Ostalo<br />
5.8<br />
0 20 40 60 80<br />
column percent (base: cases)<br />
Varijable sa višestrukim odgovorima mogue je ukrstiti sa drugim varijablama. Na primjer,<br />
ako želimo dobiti zastupljenost igranja pojedinih igara prema polu:<br />
14
. mrgraph hbar igra1-igra7, stat(column) blabel(bar, format(%4.1f))<br />
title(Zastupljenost igara na sreu (prema polu)) by (spol)<br />
Zastupljenost igara na sreu (prema polu)<br />
L O T O<br />
Sreke<br />
62.3<br />
75.4<br />
80.0<br />
78.8<br />
B I N G O<br />
85.7<br />
91.3<br />
Sportska kladionica<br />
33.1<br />
59.9<br />
Automati<br />
8.8<br />
20.3<br />
Rulet<br />
Ostalo<br />
4.3<br />
3.1<br />
5.5<br />
6.9<br />
0 20 40 60 80 100<br />
column percent (base: cases)<br />
Muški<br />
Ženski<br />
Možemo primjetiti da žene u odnosu na muškarce dosta više igraju sreke, dok neznatno više<br />
igraju Bingo i Loto. S druge strane, muškarci u odnosu na žene mnogo više igraju sportsku<br />
kladionicu i automate.<br />
Alternativno, podatke smo mogli prikazati i na sljedei nain:<br />
. mrgraph hbar igra1-igra7, stat(column) blabel(bar, format(%4.1f)) by<br />
(spol, separate title(Zastupljenost igara na sreu))<br />
Zastupljenost igara na sreu<br />
Muški<br />
Ženski<br />
L O T O<br />
75.4<br />
L O T O<br />
80.0<br />
Sreke<br />
62.3<br />
Sreke<br />
78.8<br />
B I N G O<br />
85.7<br />
B I N G O<br />
91.3<br />
Sportska kladionica<br />
59.9<br />
Sportska kladionica<br />
33.1<br />
Automati<br />
20.3<br />
Automati<br />
8.8<br />
Rulet<br />
4.3<br />
Rulet<br />
3.1<br />
Ostalo<br />
5.5<br />
Ostalo<br />
6.9<br />
Graphs by spol<br />
0 20 40 60 80 100 0 20 40 60 80 100<br />
column percent (base: cases)<br />
15
6.2. POLITOMNI MOD<br />
Vrlo esto se tokom istraživanja javljaju situacije u kojima je ispitanicima ponueno mnogo<br />
više od samo nekoliko alternativa. Jedno uobiajeno takvo pitanje može se odnositi na to da<br />
ispitanik navede marke koje naješe kupuje.<br />
Zaokružite koje od navedenih marki flaširane mineralne vode naješe kupuje vaše domainstvo?<br />
1. Olimpija 2. Ilidžanski Dijamant 3. Sarajevski Kiseljak 4. Prolom<br />
5. Jamnica 6. Studenac 7. Studena 8. Vitinka<br />
9. Knjaz Miloš 10. Princess 11. Jana 12. Tuzlanski Kiseljak<br />
13. Tešanjski Dijamant 14. Oaza 15. Radenska 16. Kristal<br />
17. Ledena 18. Evian 19. Sarajevska 20. Donat Mg<br />
21. Rosa Rosa 22. Voda Voda 23. Zlatobor 24. Voda Vrnci<br />
25. Ostalo 26. Minaqua<br />
Ako bi ovakvo pitanje tretirali kao indikativno to bi zahtjevalo da svaka od ponuenih<br />
alternativa u okviru tabele sa podacima ima svoju kolonu (varijablu). Obzirom da u najveem<br />
broju sluajeva ispitanik kupuje samo jednu ili dvije marke, ostala polja u tabeli bi veinom<br />
bila prazna.<br />
Kako bi izbjegli takvu situaciju navedeno pitanje emo tretirati kao politomno. Kod<br />
politomnih pitanja pri unosu podataka kreiramo onoliko kolona koliko je najviše zaokruženo<br />
alternativa. Na primjer, u narednoj tabeli je dat prikaz dijela baze podataka koji obuhvata<br />
odgovore prvih deset ispitanika na prethodno postavljeno pitanje. Odgovore unosimo tako da<br />
kolone redom popunjavamo brojanim oznakama odgovarajue alternative.<br />
id marka1 marka2 marka3 marka4 marka5 marka6<br />
1 3 5 8<br />
2 3 21<br />
3 1 10 11 21<br />
4 3 11<br />
5 2 3 20<br />
6 3<br />
7 3 11<br />
8 3<br />
9 1 3<br />
10 4 8 9 16 22 23<br />
Iz tabele možemo uoiti da je prvi ispitanik odgovrio da kupuje tri marke i to: Sarajevski<br />
Kiseljak (3), Jamnicu (5) i Vitinku (8). Drugi ispitanik kupuje samo dvije marke, Sarajevski<br />
Kiseljak (3) i DonatMg (21). Trei ispitanik kupuje etiri marke, itd. Obratimo pažnju da<br />
ispitanik broj 10 kupuje ak šest razliitih marki. Upravo ovaj ispitanik je zaokružio najvei<br />
broj alternativa (šest) pa unutar tabele za unos imamo isto toliko (šest) kolona.<br />
Odgovore na politomni tip pitanja sa višestrukim odgovorima možemo analizirati sa<br />
sljedeom naredbom:<br />
. mrtab marka1-marka6, poly response(1/26) title (Marka)<br />
16
gdje marka1-marka6 oznaava kolone u koje su bilježeni mogui odgovori, dok se opcijom<br />
poly response naglašava da se radi o politomnom tipu pitanja i da pri obradi treba uzeti sve<br />
alternative od 1 do 27. Opcija title definiše naziv tabele u otputu.<br />
| Percent of Percent<br />
Marka | Frequency responses of cases<br />
------------------------+-----------------------------------<br />
1 Olimpija | 26 7.07 13.07<br />
2 Ilidžanski Dijamant | 10 2.72 5.03<br />
3 Sarajevski Kiseljak | 67 18.21 33.67<br />
4 Prolom | 14 3.80 7.04<br />
5 Jamnica | 33 8.97 16.58<br />
6 Studenac | 3 0.82 1.51<br />
7 Studena | 5 1.36 2.51<br />
8 Vitinka | 36 9.78 18.09<br />
9 Knjaz Miloš | 32 8.70 16.08<br />
10 Princess | 14 3.80 7.04<br />
11 Jana | 38 10.33 19.10<br />
12 Tuzlanski Kiseljak | 2 0.54 1.01<br />
13 Tešanjski Dijamant | 9 2.45 4.52<br />
14 Oaza | 5 1.36 2.51<br />
15 Radenska | 23 6.25 11.56<br />
16 Kristal | 0 0.00 0.00<br />
17 Ledena | 0 0.00 0.00<br />
18 Evian | 2 0.54 1.01<br />
19 Sarajevska | 21 5.71 10.55<br />
20 Donat Mg | 4 1.09 2.01<br />
21 Rosa Rosa | 7 1.90 3.52<br />
22 Voda Voda | 8 2.17 4.02<br />
23 Zlatobor | 1 0.27 0.50<br />
24 Voda Vrnci | 5 1.36 2.51<br />
25 Ostalo | 1 0.27 0.50<br />
26 Minaqua | 2 0.54 1.01<br />
------------------------+-----------------------------------<br />
Total | 368 100.00 184.92<br />
Valid cases: 199<br />
Missing cases: 0<br />
Struktura, izgled i tumaenje dobijene tabele je identiano kao i kod indikativnih pitanja. U<br />
konkretnom primjeru, najvei broj ispitanika kupuje Sarajevski Kiseljak (33.7%) koji je<br />
samm tim najzustupljenija marka u Bosni i Hercegovini. Na drugom mjestu je Jana (19.1%),<br />
zatim Vitinka (18.1%), Jamnica (16.6%) itd. Pored ovoga interesantno je uoiti da ni jedan od<br />
199 ispitanika nije naveo da konzumira dvije od ponuenih marki: Kristal i Ledenu.<br />
Naravno i ove varijable možemo ukrstiti sa drugim varijablama. Pogledajmo strukturu<br />
odgovora prema entitetima:<br />
17
. mrtab marka1-marka6, poly response(1/26) by(entit) column nofreq<br />
| Entitet<br />
| FBiH RS | Total<br />
------------------------+------------------------+-----------<br />
1 Olimpija | 14.29 10.61 | 13.07<br />
2 Ilidžanski Dijamant | 7.52 0.00 | 5.03<br />
3 Sarajevski Kiseljak | 47.37 6.06 | 33.67<br />
4 Prolom | 5.26 10.61 | 7.04<br />
5 Jamnica | 20.30 9.09 | 16.58<br />
6 Studenac | 1.50 1.52 | 1.51<br />
7 Studena | 2.26 3.03 | 2.51<br />
8 Vitinka | 2.26 50.00 | 18.09<br />
9 Knjaz Miloš | 0.75 46.97 | 16.08<br />
10 Princess | 10.53 0.00 | 7.04<br />
11 Jana | 17.29 22.73 | 19.10<br />
12 Tuzlanski Kiseljak | 1.50 0.00 | 1.01<br />
13 Tešanjski Dijamant | 6.77 0.00 | 4.52<br />
14 Oaza | 3.76 0.00 | 2.51<br />
15 Radenska | 12.78 9.09 | 11.56<br />
16 Kristal | 0.00 0.00 | 0.00<br />
17 Ledena | 0.00 0.00 | 0.00<br />
18 Evian | 0.75 1.52 | 1.01<br />
19 Sarajevska | 15.79 0.00 | 10.55<br />
20 Donat Mg | 2.26 1.52 | 2.01<br />
21 Rosa Rosa | 0.00 10.61 | 3.52<br />
22 Voda Voda | 0.00 12.12 | 4.02<br />
23 Zlatobor | 0.00 1.52 | 0.50<br />
24 Voda Vrnci | 0.00 7.58 | 2.51<br />
25 Ostalo | 0.00 1.52 | 0.50<br />
26 Minaqua | 0.00 3.03 | 1.01<br />
------------------------+------------------------+-----------<br />
Total | 172.93 209.09 | 184.92<br />
Valid cases: 199<br />
Missing cases: 0<br />
Ono što možemo primjetiti je da se neke marke uopšte ne prodaju u bar jednom od entiteta.<br />
Na primjer, marke Rosa Rosa, Voda Voda, Zlatibor, Voda Vrnci i Minaqua se uopšte ne<br />
prodaju u FBiH, iako su neke od ovih marki prilino zastupljene u RS-u. Isto tako, marke<br />
Vitinka i Knjaz Miloš su ubjedljivo dvije najdominantnije marke u RS-u dok su u FBiH<br />
sasvim malo zastupljene.<br />
S druge strane, Ilidžanski Dijamant, Princess, Tešanjski Dijamant, Tuzlanski Kiseljak, Oaza i<br />
Sarajevska uopšte nisu zastupljene u RS-u. Takoer, Sarajevski Kiseljak, kao najjaa marka<br />
na nivou cijele države i marka koja definitivno dominira u FBiH, ima relativno slab položaj u<br />
RS-u.<br />
Još bolji uvid možemo dobiti ako kupovinu marki uporedimo prema tri regiona:<br />
. mrtab marka1-marka6, poly response(1/26) by(region) column nofreq<br />
18
| Region<br />
| FBiH - Bos FBiH - Her RS | Total<br />
------------------------+------------------------------------+-----------<br />
1 Olimpija | 23.94 3.23 10.61 | 13.07<br />
2 Ilidžanski Dijamant | 14.08 0.00 0.00 | 5.03<br />
3 Sarajevski Kiseljak | 66.20 25.81 6.06 | 33.67<br />
4 Prolom | 8.45 1.61 10.61 | 7.04<br />
5 Jamnica | 4.23 38.71 9.09 | 16.58<br />
6 Studenac | 0.00 3.23 1.52 | 1.51<br />
7 Studena | 0.00 4.84 3.03 | 2.51<br />
8 Vitinka | 2.82 1.61 50.00 | 18.09<br />
9 Knjaz Miloš | 0.00 1.61 46.97 | 16.08<br />
10 Princess | 19.72 0.00 0.00 | 7.04<br />
11 Jana | 22.54 11.29 22.73 | 19.10<br />
12 Tuzlanski Kiseljak | 2.82 0.00 0.00 | 1.01<br />
13 Tešanjski Dijamant | 12.68 0.00 0.00 | 4.52<br />
14 Oaza | 7.04 0.00 0.00 | 2.51<br />
15 Radenska | 8.45 17.74 9.09 | 11.56<br />
16 Kristal | 0.00 0.00 0.00 | 0.00<br />
17 Ledena | 0.00 0.00 0.00 | 0.00<br />
18 Evian | 1.41 0.00 1.52 | 1.01<br />
19 Sarajevska | 25.35 4.84 0.00 | 10.55<br />
20 Donat Mg | 4.23 0.00 1.52 | 2.01<br />
21 Rosa Rosa | 0.00 0.00 10.61 | 3.52<br />
22 Voda Voda | 0.00 0.00 12.12 | 4.02<br />
23 Zlatobor | 0.00 0.00 1.52 | 0.50<br />
24 Voda Vrnci | 0.00 0.00 7.58 | 2.51<br />
25 Ostalo | 0.00 0.00 1.52 | 0.50<br />
26 Minaqua | 0.00 0.00 3.03 | 1.01<br />
------------------------+------------------------------------+-----------<br />
Total | 223.94 114.52 209.09 | 184.92<br />
Valid cases: 199<br />
Missing cases: 0<br />
Postaje evidentno da je i Federacija u suštini podjeljena na dva prilino razliita tržišta. Tako<br />
se marke: Olimpija, Ilidžanski Dijamant, Princess, Tuzlanski Kiseljak, Tešanjski Dijamant,<br />
Oaza i Sarajevska, prodaju vrlo malo ili gotvo nikako u južnom dijelu (Hercegovini). Na jugu<br />
primarno dominiraju Jamnica (38.7%), Sarajevski Kiseljak (25.8%), Radenska (17.7%) i Jana<br />
(11.3%).<br />
S druge strane, u sjevernom dijelu Federacije, daleko najvei udio ima Sarajevski Kiseljak<br />
(66.2%) a zatim slijede: Sarajevska (25.4%), Olimpija (23.9%), Jana (22.5%) i Princess<br />
(19.7%).<br />
19
Marketing <strong>analitika</strong>: Uvod u Statu 1<br />
autor: doc. dr Emir Agi¢<br />
02. 03. 2015. (ver. 1.1)<br />
1 NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnoºavanje<br />
ovog materijala ili nekih njegovih dijelova bez prethodnog pisanog pristanka<br />
autora.
Sadrºaj<br />
1 Uvod u Statu 2<br />
1.1 Tipografske konvencije . . . . . . . . . . . . . . . . . . . . . . 2<br />
1.2 Stata radno okruºenje . . . . . . . . . . . . . . . . . . . . . . 2<br />
1.3 Instaliranje dodataka i update-a . . . . . . . . . . . . . . . . . 4<br />
1.4 Pretraºivanje sistema pomo¢i . . . . . . . . . . . . . . . . . . 5<br />
1.5 Radni direktorij . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />
1.6 U£itavanje eksterno spremljenih podataka . . . . . . . . . . . 6<br />
1.6.1 Podaci iz Excel-a . . . . . . . . . . . . . . . . . . . . . 6<br />
1.6.2 Podaci iz SPSS-a . . . . . . . . . . . . . . . . . . . . . 7<br />
1.7 Upravljanje varijablama . . . . . . . . . . . . . . . . . . . . . 7<br />
1.7.1 Tipovi varijabli . . . . . . . . . . . . . . . . . . . . . . 9<br />
1.7.2 Format prikaza . . . . . . . . . . . . . . . . . . . . . . 10<br />
1.7.3 Promjena naziva varijabli . . . . . . . . . . . . . . . . 11<br />
1.7.4 Opisivanje varijabli . . . . . . . . . . . . . . . . . . . . 12<br />
1.7.5 Dodjeljivanje opisa vrijednostima kategorijskih varijabli 13<br />
1.8 Nedostaju¢e vrijednosti . . . . . . . . . . . . . . . . . . . . . 14<br />
1.9 Upravljanje podacima . . . . . . . . . . . . . . . . . . . . . . 15<br />
1.9.1 Selektiranje i brisanje varijabli . . . . . . . . . . . . . 16<br />
1.9.2 Selektiranje i brisanje opservacija . . . . . . . . . . . . 17<br />
1.9.3 Generiranje novih i transformacija postoje¢ih varijabli 19<br />
1.9.4 Rekodiranje vrijednosti varijable . . . . . . . . . . . . 22<br />
1.9.4.1 Pretvaranje metrijskih varijabli u kategorijalne 22<br />
1.9.4.2 Rekodiranje vrijednosti kategorijalne varijable 23<br />
A Variables Manager 27<br />
1
Poglavlje 1<br />
Uvod u Statu<br />
1.1 Tipografske konvencije<br />
Za Stata komande je kori²ten je typewriter font. Ako je u pitanju cjelokupna<br />
naredba, nju smo nazna£ili sa ta£kom, obzirom da takav output<br />
ispisuje sama Stata u Results window-u ili unutar .log datoteka.<br />
Imena varijabli ili fajlova unutar samog teksta su nagla²ena italic fontom<br />
kako bi se dalo do znanja da su arbitrarni a ne ksni dio neke naredbe.<br />
Nazivi prozora i izbornici unutar menija su prikazani sa Sans Serif fontom.<br />
Na primjer, File > Open zna£i da treba kliknuti na meni File a zatim na stavku<br />
Open.<br />
Stata razlikuje velika i mala slova. Ako ukucamo summarize, Stata ¢e to<br />
razumjeti kao komandu, ali Summarize ne¢e.<br />
1.2 Stata radno okruºenje<br />
Nakon ²to pokrenemo program pojavi¢e se radno okruºenje koje £ini ²est<br />
glavnih elemenata prikazanih na slici 1.1.<br />
2
POGLAVLJE 1. UVOD U STATU 3<br />
Slika 1.1: Stata radno okruºenje<br />
1. Menu bar element gra£kog okruºenja koji sadrºi menije preko kojih<br />
pristupamo razli£itim funkcijama.<br />
2. Tool bar element gra£kog okruºenja koji sadrºi ikone i kratice do<br />
£esto kori²tenih funkcija za upravljanje podacima i Stata sintaksom.<br />
3. Variables window Prozor u kojem se nalazi spisak trenutno u£itanih<br />
varijabli.<br />
4. Command window Prozor u koji unosimo Stata naredbe.<br />
5. Results window Prozor u kojem se ispisuju rezultati analize i poruke.<br />
6. Review window Prozor koji sadrºi spisak svih naredbi upotrebljenih<br />
tokom jedne radne sesije. Na svaku naredbu je mogu¢e kliknuti i ona<br />
¢e automatski biti ponovo ispisana u prozora za uno²enje komandi.<br />
Ovo moºe biti prakti£no ako ºelimo ponoviti neku naredbu bez da je<br />
ponovo tipkamo.
POGLAVLJE 1. UVOD U STATU 4<br />
1.3 Instaliranje dodataka i update-a<br />
Stata je softver koji se stalno nadogražuje. Vremenom se dodaju nove naredbe<br />
ili se ispravljaju uo£ene gre²ke unutar postoje¢e verzije. Nakon uspje²ne<br />
instalacije poºeljno je provjeriti da li postoji novija verzija. Ukoliko<br />
smo konektovani na Internet dovoljno je da ukucamo:<br />
. update all<br />
U slu£aju da u okviru update-a postoji i nova verzija izvr²ne datoteke<br />
(.exe), mora¢emo upisati komandu:<br />
. swap all<br />
kako bi Stata izvr²ila zamjenu stare izvr²ne datoteke novijom.<br />
Sami korisnici £esto pi²u vlastite pakete (engl. packages) koje omogu¢avaju<br />
da se znatno pro²iri postoje¢a funkcionalnost State. Ve¢ina ovih paketa<br />
nalazi se na SSC serveru i potpuno je besplatna za kori²tenje. Na primjer, u<br />
osnovnoj verziji State ne postoji komanda kojom bi se podaci jedne kategorijalne<br />
varijable jednostavno predstavili pomo¢u graka stupaca (engl. bar<br />
graph). Postoje zaobilazni (i komplikovani) na£ini da se to uradi, ali puno<br />
je jednostavnije instalirati specijalizovani paket catplot .<br />
Prije same instalacije moºemo provjeriti ²ta nudi paket kojeg namjeravamo<br />
instalirati tako ²to ¢emo upisati:<br />
ssc type catplot.hlp<br />
Prvi na£in na koji moºemo dodati ovaj (ili bilo koji drugi) paket je da<br />
ga diretktno instaliramo sa SSC servera. Dovoljno je da unutar komandne<br />
linije ukucamo:<br />
. ssc install catplot<br />
Drugi na£in je da upotrijebimo naredbu findit. Na primjer:<br />
. findit catplot<br />
Ovim putem sama Stata ¢e locirati gdje se na Internetu nalazi paket<br />
kojeg traºimo, a zatim ¢e u zasebnom pregledniku ponuditi opciju da ga<br />
instaliramo ili ne.
POGLAVLJE 1. UVOD U STATU 5<br />
1.4 Pretraºivanje sistema pomo¢i<br />
Stata u sebi ima ugražen ekstenzivan sistem pomo¢i kojeg korisnik moºe<br />
pozvati u bilo kojem trenutku. Ako ºelimo pozvati generalnu pomo¢ moºemo<br />
koristiti naredbu help. Ako nas pak interesuje pomo¢ za ta£no odreženi<br />
paket ili naredbu, onda uz help moramo ukucati i naziv paketa (ili naredbe)<br />
za koji traºimo pomo¢. Na primjer, naredbom:<br />
. help catplot<br />
pozvimo pomo¢ za paket catplot u okviru kojeg moºemo pro£itati za ²ta<br />
je paket namjenjen, kako izgleda sintaksa naredbi unutar ovog paketa, primjere<br />
njegove upotrebe, op²te napomene, a nerijetko ¢e nam biti ponužena<br />
mogu¢nost preuzimanja datoteke sa podacima za koje se primjeri odnose.<br />
1.5 Radni direktorij<br />
Radni direktorij (engl. working directory) je lokacija na disku unutar koje<br />
Stata snima i iz koje u£itava datoteke sa podacima. Naredbom pwd dobijamo<br />
trenutnu lokaciju radnog direktorija, dok naredbom cd moºemo promjeniti<br />
teku¢i radni direktorij. Na primjer:<br />
. pwd<br />
D:\Stata11<br />
govori da se teku¢i radni diretorij nalazi na disku [D:], unutar foldera Stata<br />
11 .<br />
Ukoliko ºelimo da promjenimo radni direktorij moramo eksplicitno naglasiti<br />
putanju do lokacije foldera koji ¢e biti novi radni direktorij. Na primjer:<br />
. cd D:\Users\Projekat1\<br />
za novi radni direktorij odrežuje folder Projekat1 koji se nalazi na disku<br />
[D:], unutar foldera Users.<br />
Alternativno, novi radni direktorij moºemo odabrati i preko menija: File<br />
> Change Working Directory.
POGLAVLJE 1. UVOD U STATU 6<br />
Generalni savjet je da se za svako istraºivanje kreira zaseban folder u<br />
okviru kojeg ¢e se snimati podaci, rezultati analize i ostala prate¢a dokumentacija<br />
vezana za dato istraºivanje.<br />
1.6 U£itavanje eksterno spremljenih podataka<br />
1.6.1 Podaci iz Excel-a<br />
Iako Stata ima mogu¢nost direktnog u£itavanje podataka iz Excel datoteka<br />
(*.xls i *.xlsx), u ranijim verzijama (Stata 11 ili starije) potrebno je da se<br />
podaci iz Excela prvo snime u format tekstualne datoteke razgrani£ene tabulatorom<br />
(*.txt) ili nekim drugim znakom (*.csv) 1 . Tako spremljenu datoteku<br />
u Statu u£itavamo pomo¢u naredbe insheet. Na primer, pretpostavimo da<br />
ºelimo u£itati datoteku snimljenu u .csv formatu. Ukoliko je datoteka ve¢<br />
locirana u radnom direktoriju dovoljno je upisati:<br />
. insheet using file.csv, delimiter(";")<br />
gdje se le.csv odnosi na naziv datoteke iz koje ¢e se u£itati podaci. Argument<br />
delimiter(";") se koristi kako bi Stati rekli da su varijable (kolone)<br />
unutar .csv datoteke odvojene znakom ta£ka-zarez (;).<br />
Ako se pak datoteka nalazi u nekom drugom folderu potrebno je ta£no<br />
specicirati putanju. Putanja moºe upu¢ivati i na datoteku koja nije lokalno<br />
pohranjena na disku (ve¢ na drugom ra£unaru u mreºi ili na Internetu). Na<br />
primjer:<br />
. insheet using "D:\Stata11\Projekat\datoteka.csv, delimiter(";")<br />
gdje D:\Stata11\Projekat ozna£ava putanju do foldera u kojem se nalazi<br />
datoteka sa podacima pod nazivom le.csv.<br />
Alternativni na£in je da podatke u£itamo koriste¢i dijalo²ki obrazac koji<br />
se dobija preko menija File > Import > ASCII data created by a spreadsheet.<br />
1 Datoteku iz Microsoft Excela moºemo pretvoriti u drugi datote£ni format tako ²to ¢emo<br />
je iz samog Excela spremiti pomo¢u naredbe: File > Save as > Other Formats u ºeljenu<br />
odredi²nu datoteku.
POGLAVLJE 1. UVOD U STATU 7<br />
Nakon ²to je Stata u£itala podatke u radnu memoriju, u prozoru sa rezultatima<br />
(Results window), ispisa¢e koliko varijabli i opservacija se nalazilo<br />
u datoteci sa podacima. Na primjer:<br />
(20 vars, 199 obs)<br />
zna£i da je u£itano ukupno 20 varijabli (kolone) i 199 opservacija (redovi). U<br />
prozoru Variables moºemo vidjeti imena varijabli i eventualno njihove oznake.<br />
1.6.2 Podaci iz SPSS-a<br />
Osnovna verzija State ne moºe direktno uvesti podatake iz SPSS-a. Mežutim,<br />
postoji dodatni paket pod nazivom usespss koji omogu¢ava direktno<br />
£itanje podataka iz SPSS datoteka zajedno sa svim denisanim parametrima<br />
(nazivi varijabli, opisi vrijednosti kategorijskih varijabli i sl.). Ukoliko to nismo<br />
ranije uradili, potrebno je prvo instalirati pomenuti paket:<br />
. ssc inst usespss<br />
a zatim u£itati podatke kori²tenjem naredbe:<br />
. usespss using file.sav<br />
Ukoliko se datoteka le.sav ne nalazi u radnom direktoriju, kao i u ranijem<br />
primjeru, potrebno je specicirati ta£nu putanju do iste.<br />
1.7 Upravljanje varijablama<br />
Svaka varijabla unutar baze ima pet osnovnih atributa. Uzmimo za primjer<br />
varijablu eduk unutar koje je zabiljeºen stepen formalnog obrazovanja ispitanika.<br />
Rije£ je o kategorijalnoj varijabli a njene atribute moºemo dobiti uz<br />
pomo¢ naredbe describe:
POGLAVLJE 1. UVOD U STATU 8<br />
. describe eduk<br />
storage display value<br />
variable name type format label variable label<br />
eduk byte %9.0f obraz Obrazovanje<br />
Output 1.1<br />
Prvi atribut odnosi se na naziv same varijable (engl. variable name).<br />
Zatim slijedi opis \ref{output:describe} (engl. storage type), format prikaza<br />
varijable (engl. display format), naziv seta koji sadrºi opis vrijednosti varijable<br />
(engl. value label) i opis varijable (engl. variable label).<br />
Neke od ovih elemenata je obavezno denisati. Tako svaka varijabla mora<br />
imati naziv, tip pohrane i format. S druge strane, opis varijable i opis vrijednosti<br />
varijable je poºeljno ali ne i obavezno denisati. Naro£ito je poºeljno<br />
denisati opise vrijednosti za kategorijske varijable. Vrijednosti metrijskih<br />
varijabli nije potrebno opisivati jer su one same po sebi jasne. Na pimjer,<br />
u slu£aju varijable eduk ne moramo imati opis varijable i njenih vrijednosti<br />
da bi mogli raditi analizu. Mežutim, ove elemente je poºeljno denisati radi<br />
bolje preglednosti i smanjenja mogu¢nosti pogre²ne interpretacije dobijenih<br />
rezultata. Tako iz outputa 1.1 moºemo vidjeti da se varijabla eduk odnosi<br />
na obrazovanje (variable label) i da su opisi vrijednosti za ovu varijablu u<br />
memoriji pohranjeni unutar seta pod nazivom obraz (value labels). Opise<br />
vrijednosti varijable moºemo dobiti uz pomo¢ naredbe labelbook:
POGLAVLJE 1. UVOD U STATU 9<br />
. labelbook obraz<br />
value label obraz<br />
values<br />
labels<br />
range: [1,4] string length: [8,20]<br />
N: 4 unique at full length: yes<br />
gaps: no unique at length 12: yes<br />
missing .*: 0 null string: no<br />
leading/trailing blanks: no<br />
numeric -> numeric: no<br />
definition<br />
1 Osnovna skola<br />
2 Srednja skola<br />
3 Fakultet<br />
4 Postdiplomski studij<br />
variables:<br />
Output 1.2<br />
eduk<br />
Output 1.2 pokazuje da opservacije unutar kategorijalne varijable eduk<br />
mogu uzeti jednu od £etiri mogu¢e vrijednosti: range [1,4]. Opisi ovih vrijednosti<br />
su dati u rubrici denition i odnose se na: 1 osnovna ²kola, 2 <br />
srednja ²kola, 3 fakultet i 4 postdiplomski studij.<br />
U nastavku je obja²njeno kako korisnik unutar State moºe denisati i<br />
promjeniti svaki od navedenih pet atributa.<br />
1.7.1 Tipovi varijabli<br />
Za razliku od nekih drugih statisti£kih paketa (npr. SPSS-a), unutar kojih<br />
je mogu¢e denisati da li je pojedina£ni podatak mjeren na nominalnom,<br />
ordinalnom ili metrijskom nivou, Stata barata sa samo dvije vrste podataka:<br />
tekstovnim (engl string) i numeri£kim (engl. numeric).<br />
Numeri£ki podaci mogu biti pohranjeni u jednoj od pet varijanti: byte,<br />
int, long, oat, ili double. Za pohranu cjelobrojnih vrijednosti se koriste<br />
byte, int i long, dok se za racionalne brojeve koristee float i double.<br />
Defaultni tip pohrane numeri£kih vrijednosti je float. Obzirom da Stata<br />
sve numeri£ke vrijednosti £uva u radnoj memoriji, razli£ite varijante £uvanja<br />
numeri£kih podataka sluºe da se racionalizira kori²tenje memorije. Tako<br />
numeri£ki podatak pohranjen kao byte zauzima najmanje prostora u radnoj<br />
memoriji dok double zauzima najvi²e. Na£in pohrane numeri£kih vrijednosti
POGLAVLJE 1. UVOD U STATU 10<br />
nije toliko bitan ukoliko radimo sa manjim bazama podataka. Mežutim u<br />
slu£ajevima kada u bazi imamo veliki broj opservacija i varijabli, kori²tenjem<br />
odgovaraju¢eg tipa pohrane moºe se u²tediti znatan dio radne memorije.<br />
Detaljnije informacije o ovim tipovima se mogu dobiti ako ukucamo naredbu:<br />
. help datatype<br />
Da bi promijenili na£in pohrane vrijednosti varijable iz jednog tipa u<br />
drugi koristimo naredbu recast. Na primjer:<br />
. recast long prihod<br />
¢e od State traºiti da promjeni postoje¢i tip pohrane vrijednosti unutar varijable<br />
prihod u long kao novi tip pohrane. Stata ¢e promjenu izvr²iti samo<br />
ako ona ne¢e dovesti do gubitka preciznosti spremljenih podataka. Ako ºelimo<br />
izvr²iti promjenu na£ina pohrane bez obzira na mogu¢i rizik gubitka<br />
preciznosti, onda to moºemo posti¢i tako da nakon naredbe recast upotrijebimo<br />
opciju force.<br />
1.7.2 Format prikaza<br />
Tekstualni podaci imaju oznaku str#, gdje je broj nakon oznake pokazuje<br />
maksimalnu duºinu teksualnog zapisa. Tako, ako vidimo da uz varijablu stoji<br />
type: str13, to zna£i da se radi o tekstovnoj varijabli koja ima maksimalnu<br />
duºinu od 13 karaktera.<br />
Stata nudi nekoliko razli£itih formata za prikaz numeri£kih vrijednosti<br />
unutar seta podataka. Format uvijek po£inje sa %, a naj£e²¢e se koristi f ili<br />
ksini numeri£ki format. Pretpostavimo, da unutar varijable x imamo broj<br />
123,321. Format prikaza %9.1f zna£i da ¢e prilikom prikaza broj ispuniti<br />
devet kolona i da ¢e imati jednu cifru iza decimalnog zareza. Samim tim ¢e<br />
123,321 biti prikazan kao 123,3. Pored ksnog, postoji jo² e (eksponencijalni)<br />
i g (generalni) format. Eksponencijalni format se naj£e²¢e koristi za prikaz<br />
vrlo malih ili velikih brojeva, dok generalni format Stati prepu²ta da izabere<br />
f ili e format u zavisnosti od situacije.<br />
Pri unosu podataka, Stata automatski bira format prikaza numeri£kih<br />
vrijednosti unutar seta podataka ali se to moºe promijeniti. Na primjer, ako
POGLAVLJE 1. UVOD U STATU 11<br />
ºelimo da broj£ane vrijednosti unutar varijable x umjesto jednog imaju tri<br />
decimalna mjesta, ona je dovoljno unijeti:<br />
. format x %9.3f<br />
Bez obzira koji format koristili, orginalno unesene vrijednosti uvijek ostaju<br />
iste. Mijenja se samo na£in njihovog prikaza. Detaljnije obja²njenje<br />
o na£inu prikazivanja numeri£kih vrijednosti unutar seta podataka moºe se<br />
pozvati sa:<br />
. help format<br />
1.7.3 Promjena naziva varijabli<br />
Promjenu imena varijabli moºemo izvr²iti na dva na£ina: a) preko dijalo²kog<br />
okvira kojeg pozivamo preko menija Data > Data utilities > Rename variables<br />
ili b) kori²tenjem naredbe rename koja ima sljede¢u sintaksu:<br />
. rename old_varname new_varname<br />
gdje se old_varname odnosi na postoje¢i (stari) naziv varijable, a new_varname<br />
na novi naziv koji ¢e zamjeniti ve¢ postoje¢i naziv.<br />
Na primjer, unutar baze u koju su snimljeni podaci o navikama u potro²a£a<br />
u pogledu konzumacije mineralnih voda, varijabla v1 se odnosi na<br />
u£estalost konzumaciju gazirane mineralne vode. Obzirom da je naziv v1<br />
prili£no generi£ki ºelimo da naziv varijable v1 promjenimo u ne²to ²to ¢e<br />
nas vi²e asocirati na to na ²ta se pomenuta vrajbla odnosi. Pretpostavimo<br />
da smo se opredjelili da novi naziv bude kgaz. Promjenu ¢emo izvr²iti tako<br />
da ukucamo:<br />
. rename v1 kgaz<br />
£ime smo varijablu v1 preimenovali u kgaz.<br />
Ovdje je potrebno napomenuti da se imena varijabli obi£no ozna£avaju<br />
skra¢enicama. Poºeljno je da ime ne bude previ²e dugo (do 8 karaktera), a
POGLAVLJE 1. UVOD U STATU 12<br />
uobi£ajeno je da se za ime varijable koriste isklju£ivo mali znakovi. Unutar<br />
imena se ne moºe koristi ta£ka (.) ali umjesto nje moºe se koristiti donja<br />
crtu (_). Na primjer, varijablu v1 umjesto kgaz mogli smo imenovati kao<br />
k_gaz ali ne i kao k.gaz.<br />
Razlog zbog kojeg se imena varijabli pi²u skra¢enicama ogleda se u tome<br />
²to tokom analize £esto trebamo navoditi varijable na koje se neka naredba<br />
odnosi. U tom smislu mnogo je lak²e i brºe obaviti posao ako koristimo skra-<br />
¢enicu (npr. kgaz) umjesto punog imena (npr. konzumacija_gazirane_vode).<br />
Na ovaj na£in smanjuje se mogu¢nost gre²ke pri kucanju a istovremeno se<br />
pove¢ava preglednost kori²tene sintakse.<br />
1.7.4 Opisivanje varijabli<br />
Opisivanje varijabli je postupak u kojem varijablama dodjeljujemo duºe<br />
opisno ime od onog kojeg varijabla trenutno ima. Na primjer, ve¢ smo rekli<br />
da se varijabla kgaz odnosi sna u£estalost konzumacije. Nakon nekog vremena<br />
moºe se desiti da se ne sje¢amo ²ta zna£e skra¢enice koje smo koristili<br />
u imenima varijabli. Upravo da bi izbjegli taj problem, ali i da bi pove¢ali<br />
preglednost dobijenog outputa, koristimo se postupkom labeliranja putem<br />
kojeg pobliºe opisujemo varijable. Kori²tenje opisnih imena je posebno zna-<br />
£ajno za istraºiva£e koji obražuju podatke iz razli£itih anketa ali i za neke<br />
vrste analiza.<br />
Za dodjeljivanje duºeg opisa nekoj varijabli koristi se dijalo²ki okvir Data<br />
> Variables Manager. Unutar ovog dijalo²kog okvira potrebno je mi²em ozna£iti<br />
varijablu na lijevoj strani i u polju Label unijeti opis varijable.<br />
Drugi na£in za opisivanje varijable je uz kori²tenje naredbe label koja<br />
ima sljede¢u sintaksu:<br />
. label variable ime_varijable "Opis varijable"<br />
Na primjer, varijablu kgaz moºemo pobliºe opisati tako da ukucamo:<br />
. label variable kgaz "Sedmi£na konzumacija gazirane vode"
POGLAVLJE 1. UVOD U STATU 13<br />
1.7.5 Dodjeljivanje opisa vrijednostima kategorijskih varijabli<br />
Nakon u£itavanja iz eksterne datoteke Stata ¢e sve varijable unutar kojih<br />
nema tekstualnih karaktera automatski denisati kao numeri£ke varijable.<br />
Na primjer, znamo da je varijabla spol kategorijska varijabla sa vrijednostima:<br />
1 za mu²ki i 2 za ºenski spol. Kako pri £itanju rezultata analize ne bi<br />
morali pamtiti ²ta ozna£ava 1 a ²ta 2, poºeljno je da broj£anim vrijednostima<br />
kategorijskih varijabli dodijelimo i tekstualni opis.<br />
Stata koristi dvostepeni proces dodjeljivanja opisa vrijednostima kategorijskih<br />
varijabli. Prvo je potrebno denisati set sa opisom kategorija i tom<br />
setu dodijeliti naziv. To ¢emo uraditi uz pomo¢ naredbe label:<br />
. label define Spol 1 "mu²ki" 2 "ºenski"<br />
Dakle, ovim smo denisali opisni set sa nazivom Spol. U drugom koraku<br />
potrebno je ovako denisani set dodijeliti varijabli spol a za to koristimo<br />
naredbu:<br />
. label values spol Spol<br />
Obratite paºnju da se ime opisnog seta poklapa sa imenom varijable (osim<br />
velikog po£etnog slova).<br />
U praksi se nerijetko javljaju situacije u kojima jedan opisni set moºemo<br />
primjeniti na va²i varijabli. Na primjer, pretpostavimo da smo neki konstrukt<br />
mjerili sa tri tvrdnje na petostepenoj Likertovoj skali gdje je 1 apsolutno<br />
se ne slaºem, 2 ne slaºem se, 3 niti se slaºem niti se ne slaºem, 4 slaºem<br />
se, 5 apsolutno se slaºem. Odgovore ispitanika prema ove tri tvrdnje smo<br />
zabiljeºili unutar varijabli: item1, item2 i item3.<br />
U ovakvom slu£aju prvo bi trebali denisati opisni set, nazovimo ga Likert5,<br />
sa:<br />
. label define Likert5 1 "apsolutno se ne slaºem" 2 "ne slaºem se"<br />
3 "niti se slaºem niti se ne slaºem" 4 " slaºem se" 5 "apsolutno se ne slaºem"
POGLAVLJE 1. UVOD U STATU 14<br />
A zatim bi, u jednom koraku, svakoj varijabli dodijeliti ovako denisani<br />
set:<br />
. label values item1 item2 item3 likert5<br />
Naravno, sve ovo moºemo uraditi i preko ranije pomenutog Variables Managera,<br />
a kompletan postupak opisan je u Dodatku A.<br />
1.8 Nedostaju¢e vrijednosti<br />
Prazne ¢elije u tabeli sa podacima Stata automatski prepoznaje kao nedostaju¢e<br />
vrijednosti. Ove vrijednosti prikazane su u tabeli sa podacima sa<br />
ta£kom (.). Po£ev²i od verzije 8 postoji jo² 26 kodova koji se mogu iskoristiti<br />
za nedostaju¢e vrijednosti. Kodovi se ozna£avaju sa ta£kom koju prati<br />
malo slovo (od .a do .z).<br />
Nedostaju¢e vrijednosti za tekstualne podatke ozna£avaju se sa "" (ravni<br />
navodnici bez razmaka izmežu), ²to ne treba mje²ati sa " " (ravni navodnici<br />
sa razmakom).<br />
Vrlo £esto se u istraºivanjima nedostaju¢i podaci ozna£avaju sa specijalnim<br />
kodovima kao ²to su npr.: 88 nije primjenljivo, 99 nije utvrženo i sl.<br />
U slu£aju da dobijemo datoteku u kojoj je kori²ten ovakav na£in kodiranja<br />
nedostaju¢ih vrijednosti, nakon ²to importujemo podatke, potrebno je Stati<br />
jasno nazna£iti da 88, 99 (ili bilo koja druga sli£na oznaka) ne predstavlja<br />
broj nego nedostaju¢i podatak. Na primjer, pretpostavimo da su za varijablu<br />
primanja neki odgovori kodirani kao: 99 odbija odgovoriti i 999 ne moºe<br />
se sjetiti. Nakon ²to importujemo podatke u Satu potrebno je naredbom<br />
replace ili recode oznake 99 i 999 zamjeniti sa oznakama koje koristi Stata:<br />
. replace primanja = .n if primanja == 99<br />
. replace primanja = .m if primanja == 999<br />
ili<br />
. recode primanja 99 = .n<br />
. recode primanja 999 = .m
POGLAVLJE 1. UVOD U STATU 15<br />
Ukoliko se u £itavom skupu podataka, za sve varijable koristila ista oznaka,<br />
recimo da je to znaka: −9, onda jednostavno moºemo ukucati:<br />
. recode _all -9 = .<br />
Da li unutar neke varijable postoje nedstaju¢i podaci moºemo provjeriti<br />
ako ukucamo naredbu inspect ime_varijable.<br />
Vrijedi napomenuti da, za razliku od drugih statisti£kih paketa, Stata<br />
nedostaju¢e vrijednosti tretira kao beskona£no velike brojeve, s tim da je<br />
.< .a < .b < ... < .z. Ovo uvijek treba imati na umu kako bi izbjegli<br />
potencijalne gre²ke pri denisanju odgovaraju¢ih matematskih izraza.<br />
Na primjer, recimo da u bazi od 199 ispitanika imamo 134 ºene, 62 mu-<br />
²karca i 3 ispitanika koji nisu naveli podatak o spolu. Pretpostavimo da za<br />
potrebe analize ºelimo da prebrojimo broj ºena. Obzirom da smo unutar varijable<br />
spol brojem 1 ozna£ili mu²karce, a sa brojem 2 ºene, provjeru moºemo<br />
izvr²iti tako da ukucamo:<br />
. count if spol>1 & spol1<br />
137<br />
dobili bi broj 137 jer bi 3 ispitanika koja nisu navela podatak o spolu u²la u<br />
prebrojavanje. To bi se desilo jer nismo eksplicitno nazna£ili da se nedostaju¢e<br />
vrijednosti ne trebaju ra£unati.<br />
1.9 Upravljanje podacima<br />
U ovom dijelu nau£i¢emo osnovne operacije koje se ti£u upravljanja podacima.<br />
Ove operacije odnose se na selektiranje ºeljenih varijabli i opservacija,<br />
2 Ne zaboravimo da ta£ka (.) ozna£ava dosta veliku numeri£ku vrijednost.
POGLAVLJE 1. UVOD U STATU 16<br />
rekodiranje varijabli, transformaciju varijabli, preoblikovanje skupa podataka<br />
(engl. reshaping) i pretvaranje jedne vrste podataka u drugu.<br />
Prvo je bitno da poznajemo operatore koji se koriste u relacionim i aritmeti£kim<br />
izrazima. Naj£e²¢e kori²teni operatori predstavljeni su u narednoj<br />
tabeli 1.1.<br />
Operator Zna£enje Napomena<br />
== jednako kao koristi se u relacionim izrazima<br />
= proizvodi koristi se u aritm. operacijama<br />
, == realcioni operatori koriste se nakon izraza if<br />
= ili ~= razli£ito od desni alt + 1 za simbol ~<br />
! ili ~ nije<br />
&<br />
i<br />
| ili desni alt + w za simbol |<br />
+, -, *, /, ^ aritmeti£ki operatori desni alt + 3 za simbol ^<br />
Tablica 1.1: Operatori unutar State<br />
Obratiti paºnju na razliku izmežu = i ==. Simbol jednakosti (=) se<br />
obi£no koristi kada dodjeljujemo vrijednosti varijabli. Na primjer:<br />
. gen wage = salary/(hours*weeks)<br />
dok se dvostruki simbol jednakosti (==) koristi kada ºelimo da napravimo<br />
komparaciju.<br />
. replace fulltime = 1 if hours == 40<br />
1.9.1 Selektiranje i brisanje varijabli<br />
Operacija selektiranja varijabli i opservacija moºe biti korisna kada imamo<br />
skup sa velikim brojem podataka, a za analizu ºelimo upotrijebiti samo jedan<br />
njegov dio. To zna£i da ¢emo odabrati samo one varijable i/ili opservacije<br />
koje nam trebaju.<br />
Pretpostavimo od svih varijabli ºelimo zadrºati samo tri varijable: id, v1<br />
i v2. To moºemo uraditi koriste¢i naredbu keep:
POGLAVLJE 1. UVOD U STATU 17<br />
. keep id v1 v2<br />
Alternativno, ako ºelimo da izbacimo varijable, koristi¢emo naredbu drop:<br />
. drop id v1 v2<br />
Naredbama keep i drop mijenjamo sadrºaj skupa podataka koji se nalazi<br />
u memoriji. To zna£i da varijable koje smo izbacili nisu izbrisane u datoteci<br />
sa podacima. Ukoliko ºelimo da varijable izbri²emo i sa diska onda, nakon<br />
²to ih izbacimo iz memorije, potrebno je da promjene snimimo na disk preko<br />
naredbe save.<br />
Jo² jedna bitna naredba je clear. Ovom naredbom bri²emo sve varijable<br />
iz memorije.<br />
1.9.2 Selektiranje i brisanje opservacija<br />
Naredbe drop i keep moºemo korsititi i za selektovanje ispitanika koji zadovoljavaju<br />
odrežene uslove. Uzmimo za primjer varijablu eduk koja se odnosi<br />
na nivo formlanog obrazovanja ispitanika, gdje je: 1 osnovna ²kola, 2 <br />
srednja ²kola, 3 fakultet, 4 postdiplomski studij. Kada tabeliramo vrijednosti<br />
ove varijable dobijamo sljede¢i output:<br />
. tab eduk, missing<br />
Obrazovanje Freq. Percent Cum.<br />
Zavrsena osnovna skola 5 2.51 2.51<br />
Zavrsena srednja skola 145 72.86 75.38<br />
Zavrsen fakultet 44 22.11 97.49<br />
Zavrsen postidiplomski studij 5 2.51 100.00<br />
Output 1.3<br />
Total 199 100.00<br />
Pretpostavimo da ºelimo analizirati samo ispitanike koji imaju fakultetsko<br />
ili vi²e obrazovanje. Da bi smo selektovali i u memoriji ostavili samo<br />
opservacije koje ispunjavaju taj kriterij ukuca¢emo:
POGLAVLJE 1. UVOD U STATU 18<br />
. keep if (eduk >= 3)<br />
(150 observations deleted)<br />
Stata nas obavje²tava da je iz memorije izbrisano 150 opservacija ²to<br />
zna£i da je za dalji rad ostalo 49 ispitanika koji ispunjavaju traºeni kriterij.<br />
Ako pogledamo prethodnu tabelu, jasno je da se tih 49 ispitanika odnosi<br />
na one koji imaju zavr²en fakultet (44 ispitanika) i postdiplomski studij (5<br />
ispitanika).<br />
Mežutim, ²ta da smo ºeljeli odabrati samo osobe ºenskog pola koje imaju<br />
srednjo²kolsko obrazovanje? Ponovo ¢emo prvo tabelirali odgovore naredbom<br />
tab. Obratimo paºnju da postoje 3 ispitanika koja nisu navela podatak<br />
o spolu.<br />
. tab spol, missing<br />
Spol Freq. Percent Cum.<br />
Muski 62 31.16 31.16<br />
Zenski 134 67.34 98.49<br />
. 3 1.51 100.00<br />
Total 199 100.00<br />
Output 1.4<br />
Naredba za selektovanje osoba ºenskog pola koje imaju zavr²enu srednju<br />
²kolu glasi:<br />
. keep if (eduk==2 & spol==2)<br />
(104 observations deleted)<br />
Nakon ove naredbe Stata nas obavje²tava da je iz memorije izbacila 104<br />
opservacije od ukupnih 199. Istu stvar mogli smo posti¢i da smo ukucali:<br />
. use ime_datoteke if (eduk==2) & (spol==2)<br />
Na ovaj na£in bi direktno sa hard diska, iz datoteke u kojoj su spremljeni<br />
podaci, u memoriju u£itali samo one ispitanike koji imaju zavr²enu srednju<br />
²kolu i koji su ºenskog spola.
POGLAVLJE 1. UVOD U STATU 19<br />
Jo² nekoliko primjera vezanih za selektovanje i brisanje opservacija je<br />
prikazano u tabeli 1.2.<br />
Naredba<br />
Opis<br />
. keep if id!=51 & id!=85 Izbacuje opservacije sa id 51 i 85<br />
. drop in 6 Izbacuje opservaciju pod rednim brojem 6<br />
. drop in 2/4 Izbacuje opservacije 2, 3 i 4<br />
Tablica 1.2<br />
1.9.3 Generiranje novih i transformacija postoje¢ih varijabli<br />
Nove varijable generiramo preko komandi generate i egen. Sintaksa glasi:<br />
. gen new_variable = exp<br />
gdje new_variable ozna£ava ime varijable koju kreiramo a exp je funkcija ili<br />
izraz koji koristimo za kreiranje varijable.<br />
U tabeli 1.3 su dati neki od £e²¢e kori²tenih izraza za generiranje novih<br />
varijabli ili transformacije podataka.<br />
Izraz<br />
ln(x) ili log(x)<br />
exp(x)<br />
sqrt(x)<br />
x^2<br />
x1*x2 Proizvod x 1 i x 2<br />
Tablica 1.3<br />
Opis<br />
Prirodni logaritam od varijable x<br />
Eksponencijalna funkcija varijable x<br />
Kvadratni korijen od x<br />
x na kvadrat<br />
Na primjer, pretpostavimo da ºelimo transformirati metrijsku varijablu<br />
var1 tako ²to ¢emo na njene vrijednosti primjeniti funkciju prirodnog logaritma<br />
ln(x). Dovoljno je ukucati:<br />
. gen lnvar1=ln(var1)<br />
£ime smo kreirali novu varijablu lnvar1 koja sadrºi logaritamske vrijednosti<br />
izvorne varijable var1.
POGLAVLJE 1. UVOD U STATU 20<br />
Naredba gen moºe biti korisna i kada ºelimo napravimo identi£nu kopiju<br />
izvorne varijable. Na primjer, logaritamsku transformaciju mogli smo uraditi<br />
i na sljede¢i na£in:<br />
. gen lnvar1=var1<br />
. replace lnvar1 = ln(lnvar1)<br />
Na ovaj na£in smo kreirali novu varijablu lnvar1 koja je po sadrºaju identi£na<br />
ve¢ postoje¢oj varijabli var1. U sljede¢em koraku smo na novokreiranu<br />
varijablu primjenili logaritamsku transformaciju. Krajnji rezultat je isti kao<br />
i u prethodnom slu£aju.<br />
Pretpostavimo da smo ºeljeli transformirati vrijednosti varijable var1, bez<br />
kreiranja nove varijable. Za to smo se mogli posluºiti naredbom replace:<br />
. replace var1 = ln(var1)<br />
¢ime smo sve izvorne vrijednosti varijable var1 zamijenili njihovom logaritamskom<br />
vrijedno²¢u. Potrebno je obratiti paºnju na to da je sadrºaj<br />
varijable promjenjen iako je njen naziv ostao isti.<br />
Vrlo £esto je na osnovu vrijednosti postoje¢ih varijabli potrebno izra£unati<br />
njihov prosjek. Na primjer, zamislimo da imamo tri varijable nazvane:<br />
item1, item2, item3, kojima smo na petostepenoj Likertovoj skali mjerili neki<br />
konstrukt. Odgovori za prvih pet ispitanika prikazani su na outputu 1.5.<br />
. list<br />
id item1 item2 item3<br />
1. 1 3 2 5<br />
2. 2 4 2 4<br />
3. 3 2 4 4<br />
4. 4 . 3 1<br />
5. 5 5 5 2<br />
Output 1.5<br />
Pretpostavimo da ºelimo izra£unati novu varijablu (nazovimo je prosjek1 )<br />
koja ¢e predstavljati prosje£nu vrijednost koju svaki ispitanik ima po osnovu<br />
pomenute tri varijable. Prvi na£in je da koristimo izraz:
POGLAVLJE 1. UVOD U STATU 21<br />
. gen prosjek_k = (item1 + item2 + item3)/3<br />
£ime smo za svakog ispitanika sabrali vrijednosti odgovora i podijelili tako<br />
dobijenu sumu sa brojem varijabli. Rezultat je prikazan na outputu 1.6 u<br />
koloni prosjek1.<br />
. list<br />
id item1 item2 item3 prosjek1<br />
1. 1 3 2 5 3.333333<br />
2. 2 4 2 4 3.333333<br />
3. 3 2 4 4 3.333333<br />
4. 4 . 3 1 .<br />
5. 5 5 5 2 4<br />
Output 1.6<br />
Obratimo paºnju da za ispitanika broj 4 nije izra£unata prosje£na vrijednost<br />
jer nemamo podatka za item1. Ovaj primjer pokazuje da ¢e Stata u<br />
slu£aju da ne postoji podatak po samo jednoj varijabli u potpunosti presko-<br />
£iti tu opservaciju i kao kona£ni rezultat izraza ¢e takože biti nedostaju¢a<br />
vrijednost.<br />
Sre¢om, u okviru naredbe egen postoji funkcija rowmean (ili skra¢eno<br />
rmean) koja pri izra£unavanju prosjeka uzima u obzir samo validne podatke,<br />
zanemaruju¢i nedostaju¢e vrijednosti. Puna sintaksa bi bila:<br />
. egen prosjek2 = rmean(item1 item2 item3)<br />
a rezultat je prikazan u okviru outputa 1.7
POGLAVLJE 1. UVOD U STATU 22<br />
. list<br />
id item1 item2 item3 prosjek1 prosjek2<br />
1. 1 3 2 5 3.333333 3.333333<br />
2. 2 4 2 4 3.333333 3.333333<br />
3. 3 2 4 4 3.333333 3.333333<br />
4. 4 . 3 1 . 2<br />
5. 5 5 5 2 4 4<br />
Output 1.7<br />
Za razliku od prethodnog poku²aja, vidimo da je sada izra£unat prosjek<br />
i za ispitanika broj 4.<br />
1.9.4 Rekodiranje vrijednosti varijable<br />
Rekodiranje se odnosi na zamjenu postoje¢ih vrijednosti neke varijable sa<br />
novim vrijednostima. U zavisnosti od ciljeva analize razlikuju se dvije vrste<br />
rekodiranja. Prva vrsta odnosi se na konverziju metrijskih varijabli u kategorijalne,<br />
dok se druga vrsta odnosi na rekodiranje postoje¢ih vrijednosti<br />
kategorijalni varijabli. Iako nije obavezno, poºeljno je varijable sa rekodiranim<br />
vrijednostima snimiti kao zasebne varijable. Na taj na£in ¢e se sa£uvati<br />
nepromjenjene vrijednosti izvorne varijable.<br />
1.9.4.1 Pretvaranje metrijskih varijabli u kategorijalne<br />
Pretpostavimo da imamo varijablu prot u okviru koje su zabiljeºeni podaci<br />
o ostvarenom godi²njem protu preduze¢a i da cilj analize zahtjeva da sva<br />
preduze¢a podjelimo u dvije grupe: a) ona koja posluju sa gubitkom i b) ona<br />
koja posluju sa dobitkom. Kako bi to postigli potrebno je kreirati novu kategorijalnu<br />
varijablu (nazovimo je pos_rezultat) koja ¢e imati dvije kategorije:<br />
1 gubitak i 2 dobit.<br />
Prvi na£in na koji ovo moºemo uraditi je da upotrijebimo komandu<br />
replace:<br />
. gen pos_rezultat=.<br />
. replace pos_rezultat =1 if (profit0 & profit
POGLAVLJE 1. UVOD U STATU 23<br />
Potrebno je voditi ra£una o tome da li unutar varijable prot ima nedostaju¢ih<br />
vrijednosti ili ne. U slu£aj da imamo nedostaju¢e vrijednosti bilo bi<br />
pogre²no u posljednjoj naredbi ne uklju£iti naznaku za to i recimo napisati<br />
samo:<br />
. replace pos_rezultat =2 if (profit>0) //pogre²no<br />
jer bi u tom slu£aju sve opservacije sa nedostaju¢im vrijednostima u²le u<br />
kategoriju 2 (dobitak) ²to nije poºeljno.<br />
Drugi na£in je da iskoristimo naredbu recode. U ovom slu£aju sintaksa<br />
je mnogo kra¢a:<br />
. recode profit (min/0=1) (0/max=2), gen (pos_rezultat)<br />
Tre¢i na£in je da se rekodiranje obavi uz pomo¢ naredbe egen i opcije<br />
group. Ovaj na£in je poºeljan u slu£aju kada ºelimo da dobijemo grupe sa<br />
jednakim brojem opservacija. Sintaksa glasi:<br />
. egen newvariable = cut (oldvariable), group(# broj grupa)<br />
Tako na primjer, ako bi sva preduze¢a u zavisnosti od visine njihovog pro-<br />
ta ºeljeli podjeliti u tri jednake grupe onda bi konkretna naredba izgledala:<br />
. egen pos_rezultat = cut (profit), group(3)<br />
1.9.4.2 Rekodiranje vrijednosti kategorijalne varijable<br />
Kada je rije£ o kategorijalnim varijablama istraºiva£ se naj£e²¢e susre¢e sa<br />
dvije situcije. U prvoj situaciji potrebno je rekodirati vrijednosti kategorijalne<br />
varijable tako da ostane isti broj kategorija ali sa druga£ijim redosljedom.<br />
Na primjer, pretpostavmo da imamo varijablu item1 gdje kategorije<br />
prestavljaju odgovore na petosteponoj Likertovoj skali: 1 apsolutno se ne<br />
slaºem, 2 ne slaºem se, 3 niti se slaºem niti se ne slaºem, 4 slaºem
POGLAVLJE 1. UVOD U STATU 24<br />
se, 5 apsolutno se slaºem. Vidimo da item1 ima pet nivoa koji se kre¢u<br />
u rasponu od apsolutnog neslaganja (1) do apsolutnog slaganja (5).<br />
Ukoliko ºelimo da obrnemo redoslijed nivoa tako da imaju suprotan slijed,<br />
onda moramo rekodirati vrijednosti varijable item1. To je najlak²e posti¢i<br />
upotrebom naredbe recode:<br />
. recode item1 (1=5) (2=4) (3=3) (4=2) (5=1), gen (item1r)<br />
Druga situacija se javlja kada ve¢i broj kategorija neke varijable ºelimo<br />
svesti na manji broj kategorija. Na primjer, ako ºelimo odgovore sa petostepene<br />
Likertove skale spremljene unutar varijable item1 svesti na samo tri<br />
kategorije: 1 (neslaganje), 2 (neutralan) i 3 (slaganje), moºemo iskoristiti<br />
sljede¢u sintaksu:<br />
. recode item1 (1 2=1) (3=2) (4 5=3), gen (item1r)<br />
Unutar naredbe recode mogli smo odmah denisati i opise kategorija.<br />
Na primjer:<br />
. recode item1 (1 2 = 1 "Ne slaºem se") (3 = 2 "Nemam stav")<br />
(4 5 = 3 "Slaºem se") (else=.), gen (item1r)<br />
Za razliku od prethodne komande ovdje smo koristili i else=. uslov<br />
kojim smo kao nedostaju¢e podatake deklarisali sve vrijednosti koje izlaze<br />
iz raspona skale od 1 do 5. Kori²tenje ove opcije moºe biti korisno ako smo<br />
u tabeli sa podacima imali oznake kao ²to su npr.: 6 nije siguran, 7 <br />
odbija da odgovori i sli£no.<br />
Nave²¢emo jo² jedan primjer. Recimo da za varijablu primanja imamo<br />
sljede¢u distribuciju odgovora:
POGLAVLJE 1. UVOD U STATU 25<br />
. tab primanja, missing<br />
Visina<br />
primanja Freq. Percent Cum.<br />
ispod 200 KM 10 5.03 5.03<br />
200-299 KM 2 1.01 6.03<br />
300-399 KM 5 2.51 8.54<br />
400-599 KM 11 5.53 14.07<br />
600-699 KM 9 4.52 18.59<br />
700-799 KM 9 4.52 23.12<br />
800-899 KM 14 7.04 30.15<br />
900-999 KM 7 3.52 33.67<br />
1.000-1.099 KM 16 8.04 41.71<br />
1.100-1.199 KM 11 5.53 47.24<br />
1.200-1.299 KM 19 9.55 56.78<br />
1.300 i vise 80 40.20 96.98<br />
. 6 3.02 100.00<br />
Output 1.8<br />
Total 199 100.00<br />
Pretpostavimo da varijablu ºelimo rekodirati tako da ispitanike svrstamo<br />
u jedan od tri razreda: 1 niska primanja (do 599 KM), 2 srednja primanja<br />
(600-1.299 KM) i 3 visoka primanja (1.300 KM i vi²e). Sintaksa bi izgledala<br />
ovako:<br />
. recode primanja (min/4=1) (5/11=2) (12/max =3), gen (primanja_r)<br />
Dakle, u okviru naredbe recode smo prvo denisali tri nove kategorije i<br />
kriterije koje opservacija treba zadovoljoti da bi bila svrstana u jednu od ove<br />
tri kategorije. Opcija gen je posluºila da rekodirane vrijednosti spremimo<br />
unutar zasebne varijable primanja_r £ime smo izvornu varijablu primanja<br />
ostavili nepromijenjenom.<br />
Nakon toga ostaje jo² da novokreiranoj varijabli damo ²iri opis (label) i<br />
da svakoj kategoriji pridruºimo odgovaraju¢i opis (value label):<br />
. label variable primanja_r "Primanja (R)"<br />
. label define Primanja_r 1 "niska" 2 "srednja" 3 "visoka"<br />
. label values primanja_r Primanja_r<br />
U posljednjem koraku ¢emo tabelirati vrijednosti novokreirane varijable<br />
kako bi projerili da li smo £itav postupak uradili ispravno.
POGLAVLJE 1. UVOD U STATU 26<br />
. tab primanja_r, missing<br />
Primanja<br />
(R) Freq. Percent Cum.<br />
niska 28 14.07 14.07<br />
srednja 85 42.71 56.78<br />
visoka 80 40.20 96.98<br />
. 6 3.02 100.00<br />
Total 199 100.00<br />
Output 1.9<br />
Ako novodobijene frekvencije odgovora (output 1.9) uporedimo sa prethodnim<br />
(output 1.8) vidimo da broj opservacija unutar kategorija korespondira<br />
sa onim ²to smo ºeljeli posti¢i. Samim tim zaklju£ujemo da je postupak<br />
rekodiranja uspje²no obavljen:
Dodatak A<br />
Variables Manager<br />
Dijalo²ki okvir Variables Manager moºemo pozvati tako ²to na toolbaru kliknemo<br />
na odgovaraju¢u ikonu (slika A.1).<br />
Slika A.1: Poloºaj ikone za Variables Manager na toolbaru<br />
Variables Manager (slika A.2) moºemo iskoristiti za promjenu imena varijabli<br />
(Name), dodavanje duºeg opisa varijablama (Label), dodjeljivanje opisa<br />
vrijednostima kategorijske varijable (Value Label), promjenu tipa pohrane<br />
varijable (Type) i format prikazivanja vrijednosti unutar varijable (Format).<br />
27
DODATAK A. VARIABLES MANAGER 28<br />
Slika A.2: Primarni prozor Variables Manager-a<br />
Sve opcije su direktne i dovoljno jasne same po sebi. Eventualne nejasno¢e<br />
mogu se javiti samo kod dodjeljivanja opisa vrijednostima kategorijske<br />
varijable. Zbog toga ¢emo £itav postupak objasniti u dva koraka.<br />
Korak 1: Denisanje seta sa opisom kategorija<br />
Na desnoj strani prozora Variables Manager (slika A.2), pored padaju¢eg<br />
menija Value Label nalazi se gumb Manage..., a klikom na njega dobijamo<br />
okvir Manage Value Labels (slika A.3).<br />
Slika A.3: Po£etni dijalo²ki okvir<br />
Klikom na gumb Create Label otvori¢e se prozor kao na slici A.4.
DODATAK A. VARIABLES MANAGER 29<br />
Slika A.4: Denisanje opisa za kategorije varijable spol<br />
U polje Label name upisujemo naziv opisnog seta (Spol u ovom slu£aju).<br />
U polje Value unosimo jednu po jednu broj£anu vrijednost kojoj zatim u polju<br />
Label dodjeljujemo tekstualni opis. Nakon ²to zavr²imo kliknemo na gumb<br />
Add. Po unosu svih vrijednosti i opisa kliknemo na gumb OK.<br />
Korak 2: Pridruºivanje opisa kategorija eljenoj varijabli<br />
Nakon ²to smo se vratili u prozor Variables Manager, potrebno je odabrati<br />
ºeljenu varijablu te iz padaju¢eg menija Value Label odabrati novokreirani<br />
opisni set i kliknuti na gumb Apply kako bi vrijednostima varijable pridruºili<br />
opise koji se nalaze u datom setu (slika A.5).
DODATAK A. VARIABLES MANAGER 30<br />
Slika A.5: Pridruºivanje opisnog seta Spol varijabli spol<br />
Kao ²to moºemo vidjeti sa slike A.6 za varijablu spol u koloni Value Label<br />
pojavio se naziv na²eg seta Spol.<br />
Slika A.6: Varijabli spol je pridruºen odgovaraju¢i opisni set £ime je<br />
postupak zavr²en
III<br />
Analiza validnosti mjernih skala<br />
5. ANALIZA VALIDNOSTI MJERNIH SKALA<br />
5.1. EKSPLORATIVNA I KONFIRMATIVNA FAKTORSKA ANALIZA<br />
Da bi provjerili validnost mjernih skala i konstrukata proveli smo faktorsku analizu. Pod<br />
faktorskom analizom podrazumjevamo statistički metod koji se upotrebljava da bi pronašli<br />
manji set neobserviranih varijabli (također se koristi izraz latentne varijable, faktori ili<br />
dimenzije) koje mogu „objasniti“ veze između većeg broja opserviranih varijabli (takođe<br />
se koristi izraz manifestne varijable).<br />
Faktorska analiza se primjenjuje za tri glavna zadatka. Prvi zadatak je identifikovanje<br />
dimenzija koje nisu odmah uočljive kroz proces sumiranja podataka (data summarization).<br />
Nakon što shvatimo i objasnimo ovako dobijene dimenzije, podatke možemo opisati sa<br />
mnogo manjim brojem koncepata nego da to činimo uz pomoć orginalnih individualnih<br />
varijabli. Drugi zadatak je redukcija podataka (data reduction) koji se nadovezuje na<br />
sumiranje podataka na način da se za svaku dimenziju (faktor) izračunava empirijska<br />
vrijednost (faktorski skor) koja zamjenjuje vrijednosti orginalno korištenih individualnih<br />
varijabli. Treći zadatak, za koji se može koristiti faktorska analiza, je testiranje apriornih<br />
hipoteza o strukturi i vezama između individualnih (manifestnih varijabli).<br />
U kontekstu ova tri zadatka možemo posmatrati dva potpuno različita pristupa faktorskoj<br />
analizi: eksplorativnu faktorsku analizu (EFA) i konfirmativnu faktorsku analizu (CFA).<br />
Ključne razlike između ova dva pristupa prikazane su u tabeli 22.<br />
Tabela 22 – Razlike između EFA i CFA<br />
EFA (Data-driven)<br />
CFA (Theory-driven)<br />
Restrikcije N/A Da<br />
Nestandardizirano rješenje N/A Da<br />
Standardiziranio rješenje Da Da<br />
Rotacija faktora Da N/A<br />
Faktorski skorovi Da N/A<br />
Testiranje hipoteza N/A Da<br />
Goodness-of-fit N/A Da<br />
Softverski paketi<br />
Izvor: Albright and Park (2009)<br />
Paketi opšte namjene (SPSS,<br />
STATA...)<br />
Mplus, LISREL, Amos, EQS,<br />
SAS CALIS<br />
112
III<br />
Analiza validnosti mjernih skala<br />
Eksplorativna faktorska analiza se koristi prvenstveno za identifikovanje faktora u<br />
situacijama kada istraživač nema a priori ideju o tome koji faktori postoje i koje<br />
manifestne varijable su indikatori eventualnih faktora. U tom smislu EFA ne stavlja<br />
nikakve restrikcije na podatke te se na bazi korelacija koje postoje između manifestnih<br />
varijabli matematski izvode faktori. Pri tome se pretpostavlja da svaki faktor utiče na svaku<br />
manifestnu varijablu (slika 7). Obično se kaže da je EFA pristup vođen podacima (data<br />
driven). Na slici 7 je prikazan EFA model sa dva faktora i osam manifestnih varijabli.<br />
Slika 7 – Eksplorativni faktorski model („oblique“ rotacija) sa 8 manifestnih varijabli<br />
Izvor: Brown (2006)<br />
S druge strane, konfirmativna faktorska analiza se prvenstveno koristi za testiranje a<br />
priori hipoteza o faktorskoj strukturi. Za razliku od EFA, istraživač u ovom pristupu ima<br />
predstavu o tome koji faktori postoje i koje manifestne varijable su indikatori svakog<br />
faktora. Istraživač u tom smislu stavlja značajne, ali smislene restrikcije na veze između<br />
opserviranih varijabli u faktorskom modelu (npr. ove restikcije se najčešće odnose na to da<br />
se pojedine varijable mogu učitavati na samo jedan faktor, a ne na sve faktore kao u EFA).<br />
Stoga se za CFA kaže da je to pristup vođen teorijom (theory driven). Na slici 8 je prikazan<br />
CFA model sa dva faktora gdje se prve četiri varijable učitavaju na prvi, a druge četiri na<br />
drugi faktor).<br />
113
III<br />
Analiza validnosti mjernih skala<br />
Slika 8 – Konfirmativni faktorski model sa 8 manifestnih varijabli<br />
Izvor: Brown (2006)<br />
114
UNIVERZITET U SARAJEVU<br />
EKONOMSKI FAKULTET U SARAJEVU<br />
Eksplorativna faktorska analiza 1<br />
Autor:<br />
prof. dr Emir Agić<br />
Sarajevo, 10. august 2017. godine<br />
1<br />
NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />
njegovih dijelova bez prethodnog pisanog pristanka autora.<br />
1
Sadržaj<br />
1. Uvod ................................................................................................................................ 3<br />
2. Intuitivno objašnjenje EFA .......................................................................................... 3<br />
3. Ciljevi EFA ..................................................................................................................... 5<br />
4. Koraci unutar EFA ....................................................................................................... 5<br />
4.1. Ocjena prikladnosti podataka za EFA ...................................................................... 7<br />
4.2. Odabir pristupa izdvajanja faktora i metode estimacije ......................................... 12<br />
4.2.1. Razlaganje varijanse unutar varijable ............................................................. 12<br />
4.2.2. EFA pristup..................................................................................................... 13<br />
4.2.3. PCA pristup .................................................................................................... 14<br />
4.2.4. Ključne razlike između EFA i PCA ............................................................... 15<br />
4.2.5. Koji pristup koristiti? ...................................................................................... 16<br />
4.2.6. Metode estimacije ........................................................................................... 17<br />
4.3. Određivanje broja faktora ...................................................................................... 18<br />
4.4. Rotacija faktora ...................................................................................................... 25<br />
4.4.1. Zbog čega nam je potrebna faktorska rotacija? .............................................. 25<br />
4.4.2. Pojam rotacije faktora ..................................................................................... 25<br />
4.4.3. Vrste rotacije ................................................................................................... 26<br />
4.4.4. Koji metod rotacije izabrati? .......................................................................... 27<br />
4.5. Interpretacija i imenovanje faktora ........................................................................ 28<br />
4.6. Respecifkacija faktorskog modela ......................................................................... 29<br />
4.6.1. Kada je potrebno respecificirati faktorski model? .......................................... 29<br />
4.6.2. Šta podrazumjevamo pod respecifikacijom faktorskog modela? ................... 29<br />
4.6.3. Šta ako respecifikacija ne pomogne? .............................................................. 30<br />
4.7. Provjera pouzdanosti .............................................................................................. 32<br />
4.8. Upotreba faktora u drugim analizama .................................................................... 35<br />
4.8.1. Faktorski skorovi ............................................................................................ 35<br />
4.8.2. Sumarne skale ................................................................................................. 38<br />
5. Kako napisati sažetak analize .................................................................................... 40<br />
6. Prilozi ............................................................................................................................ 43<br />
References ................................................................................................................................ 44<br />
2
1. UVOD<br />
Eksplorativna faktorska analiza (engl. Exploratory factor analysis - EFA) se odnosi na skup<br />
statističkih tehnika za sažimanje podataka kojima se veći broj opserviranih varijabli predstavlja<br />
pomoću manjeg broja neopserviranih (latentnih) varijabli koje nazivamo faktorima. Same<br />
tehnike sažimanja podataka se baziraju na analizi obrazaca korelacija koje postoje između<br />
opserviranih varijabli. Upravo ta povezanost između opserviranih varijabli je osnovna ideja na<br />
kojoj počiva faktorska analiza, jer se pretpostavlja da varijable koje međusobno jako koreliraju<br />
u stvari mjere aspekte istog latentnog konstrukta. Takav skup međusobno povezanih<br />
opserviranih varijabli nazivamo faktorom. Drugim riječima, faktor u suštini predstavlja<br />
hipotetičku latentnu varijablu (konstrukt) koja objašnjava zašto određene opservirane varijable<br />
međusobno koreliraju i šta je najmanji zajednički sadržilac koji ih povezuje (Taylor, 2004, p. 1).<br />
Samim tim, EFA omogućava da informacije iz mnoštva opserviranih varijabli predstavimo<br />
pomoću manjeg broja faktora uz minimalan gubitak informacije (Burns & Burns, 2008;<br />
Zikmund, Babin, Carr, & Griffin, 2009).<br />
2. INTUITIVNO OBJAŠNJENJE EFA<br />
Da bi smo intuitivno razumjeli suštinu eksplorativne faktorske analize, poslužimo se sljedećim<br />
primjerom.<br />
Primjer 1<br />
Pretpostavimo da smo anketirali 200 studenata smjera Marketing kako bi utvrdili motive koji<br />
su ih opredijelili za odabir navedenog smjera. Upitnik za mjerenje motivacije za upis smjera se<br />
sastojao od šest tvrdnji mjerenih na petostepenoj Likertovoj skali predstavljenih u tabeli 1.<br />
Tabela 1<br />
Item<br />
Tvrdnja<br />
01 Uz poznavanje marketinga je lakše pronaći zaposlenje.<br />
02 Sa marketingom vjerujem da mogu imati bolja primanja.<br />
03 Ovaj smjer mi može pomoći da lakše pokrenem vlastiti biznis.<br />
04 U marketingu nema mnogo matematike<br />
05 Na ovom smjeru se najlakše dolazi do diplome.<br />
06 Ovaj smjer je lakši u odnosu na druge smjerove.<br />
Zamislimo da nas interesuje da saznamo kako motivi predstavljeni u tabeli 1 utiču na ostvareni<br />
uspjeh studenata mjeren prosjekom ocjena po završetku studiranja. Odgovor bi mogli pokušati<br />
dobiti korištenjem regresione analize gdje bi šest tvrdnji regresirali na prosjek ocjena. Međutim,<br />
vrlo je vjerovatno da bi u tako kreiranom regresionom modelu došlo do narušavanja<br />
pretpostavke o nepostojanju multikolinearnosti. Naime, o ako pogledamo sadržaj stavki iz<br />
upitnika, možemo očekivati da će neke od tvrdnji međusobno jako korelirati. Na primjer, vrlo<br />
je vjerovatno da će između tvrdnji “lakoća polaganja ispita” i “lakši u odnosu na druge<br />
smjerove” postojati znatna korelacija i preklapanje.<br />
Da bi provjerili ovu pretpostavku, izračunali smo korelacije između prethodno navedenih šest<br />
tvrdnji i predstavili ih u formi korelacione matrice unutar tabele 2. Obzirom da svaka varijabla<br />
3
sama sa sobom korelira perfektno, na dijagonali su vrijednosti korelacija jednake broju jedan.<br />
Korelacije u ćelijama iznad i ispod dijagonale su istovjetne za odgovarajući par varijabli. Zbog<br />
toga su predstavljeni samo koeficijenti u donjem dijelu matrice.<br />
Tabela 2 - Korelaciona matrica<br />
Lakoća<br />
zaposlenja<br />
Očekivana<br />
primanja<br />
Započinjanje<br />
vlastitog<br />
biznisa<br />
Nema<br />
matematike<br />
Lakoća<br />
polaganja<br />
ispita<br />
Lakši u<br />
odnosu<br />
na druge<br />
smjerove<br />
Lakoća zaposlenja 1.000<br />
Očekivana primanja .773 1.000 Faktor 1<br />
Započinjanje vlastitog<br />
biznisa<br />
.599 .688 1.000<br />
Nema matematike -.236 .052 .087 1.000<br />
Faktor 2<br />
Lakoća polaganja ispita .115 -.056 .012 .711 1.000<br />
Lakši u odnosu na druge<br />
smjerove<br />
-.105 .109 -.035 .812 .552 1.000<br />
Empirijski podaci iz korelacione matrice u tabeli 2 dodatno potvrđuju utisak da postoji<br />
preklapanje između pojedinih tvrdnji. Ako bolje osmotrimo obrasce korelacija unutar<br />
korelacione matrice možemo primijetiti da šest opserviranih varijabli možemo podijeliti u dvije,<br />
međusobno odvojene, grupe. U prvoj grupi se nalaze tvrdnje: “lakoća zaposlenja”, “očekivana<br />
primanja” i “započinjanje vlastitog biznisa”. Ove tvrdnje jako koreliraju jedna sa drugom. S<br />
druge strane, tri preostale tvrdnje: “nema matematike”, “lakoća polaganja ispita” i “lakši u<br />
odnosu na druge smjerove” također međusobno jako koreliraju. Ono što je posebno bitno uočiti<br />
je da tvrdnje iz prve grupe (itemi 1-3) vrlo slabo koreliraju sa varijablama iz druge grupe (itemi<br />
4-6). Sve ovo upućuje na zaključak da tvrdnje iz upitnika ne mjere šest različitih motiva već<br />
samo dva konstrukta (faktora) vezana za motivaciju pri upisu smjera.<br />
Ostaje nam još da pokušamo identifikovati i imenovati koja su to dva konstrukta ili faktora. To<br />
ćemo uraditi tako što ćemo utvrditi šta je najmanji zajednički sadržilac koji povezuje varijable<br />
koje međusobno koreliraju unutar identifikovanih konstrukata. U konkretnom slučaju, ono što<br />
se provlači kao zajednička nit za sadržaj itema 1-3 jesu očekivanja koja studenti imaju u<br />
pogledu karijere nakon završetka smjera. Iz tog razloga ovaj konstrukt ćemo nazavati “izgledi<br />
za karijeru”. Najmanji zajednički sadržilac za iteme 4-6 jesu percepcije vezane za lakoću<br />
završavanja odabranog smjera, pa ćemo ovaj konstrukt nazvati “pragmatična motivacija”.<br />
Identifikacijom i imenovanjem konstrukata kojima se mogu objasniti uočeni obrasci korelacija<br />
dobili smo faktorsko rješenje (engl. factor solution). U suštini, faktorsko rješenje u<br />
prethodnom primjeru su dvije nove latentne varijable koje u daljoj regresionoj analizi možemo<br />
iskoristiti kao zamjenu za šest originalno opserviranih varijabli.<br />
Prethodni primjer je dovoljno jednostavan da se ilustruje suština faktorske analize. Analizirali<br />
smo vizuelno korelacionu matricu, uočili obrasce koje smo interpretirali i došli do<br />
odgovarajućih zaključaka. Postavlja se pitanje zašto nam uopšte treba faktorska analiza kada<br />
smo sve uradili ručno. Odgovor je zbog toga što se u praksi susrećemo sa mnogo kompleksnijim<br />
obrascima korelacija u odnosu na onu koja je predstavljena u tabeli 2. Naime, sa povećanjem<br />
4
oja varijabli raste veličina korelacione matrice i kompleksnost međusobnih odnosa između<br />
varijabli pa vizuelno identifikovanje obrazaca korelacija postaje ekstremno težak ili nemoguć<br />
zadatak.<br />
Dakle, iz prethodno navedenog primjera možemo vidjeti da je eksplorativna faktorska analiza<br />
jedna vrsta heuristike koja se bazira na premisi da se opservirane varijable koje međusobno<br />
koreliraju i dijele zajedničku varijansu mogu svesti na manji broj neopserviranih (latentnih)<br />
varijabli koje nazivamo faktorima i koji u suštini predstavljaju hipotetske konstrukte. Ovi<br />
konstrukti nisu mjerljivi direktno, sami po sebi, već se izvode iz ocjena koje imamo za<br />
opservirane varijable (Yong & Pearce, 2013) (Yong & Pearce, 2013, p. 80). Zbog toga u<br />
kontekstu faktorske analize opservirane varijable zovemo još i manifestnim varijablama ili<br />
varijablama indikatorima.<br />
3. CILJEVI EFA<br />
Na osnovu do sada izloženog možemo identifikovati tri primarna cilja eksplorativne faktorske<br />
analize:<br />
● Identifikacija latentnih varijabli, odnosno faktora, koji objašnjavaju korelacije i varijansu<br />
sadržanu u većem broju opserviranih varijabli (Sarstedt & Mooi, 2014). Kod eksplorativne<br />
faktorske analize istraživač često nema a priori očekivanja u pogledu broja ili prirode<br />
faktora koji će biti otkriveni tokom analize. Zato se kaže da je EFA pristup vođen podacima<br />
(engl. data-driven approach). Kao što joj ime kaže, u suštini je riječ o eksplorativnoj analizi<br />
koja nam omogućuje da istražimo i eventualno identifikujemo glavne dimenzije na bazi<br />
kojih ćemo generirati teoriju (Williams, Brown, & Onsman, 2012).<br />
● Ispitivanje psihometrijskih karakteristika mjernih skala i demonstriranje njihove<br />
(uni)dimenzionalnosti (DeCoster, 1998; Osborne, 2015, p. 1). Pojednostavljeno rečeno, ovo<br />
znači da EFA koristimo kada želimo utvrditi koja pitanja iz upitnika možemo grupisati jer<br />
mjere isti konstrukt. Imajući na umu ovaj cilj, jasno je zašto je EFA često prvi korak kada<br />
se pravi skala za mjerenje konstrukta od interesa (Yong & Pearce, 2013). Naime, istraživač<br />
koji kreira upitnik za mjerenje novog konstrukta obično počinje s velikim brojem pitanja,<br />
odnosno pojedinačnih stavki skale. Zatim se uz pomoć faktorske analize te stavke<br />
prečišćavaju i sažimaju da bi se dobio manji broj usaglašenih podskala (Pallant, 2011).<br />
● Sažimanje podatka na način da se veze i obrasci unutar njih mogu lako interpretirati i<br />
razumjeti (Yong & Pearce, 2013, p. 79). Ukoliko mnoštvo opserviranih varijabli možemo<br />
predstaviti manjim brojem faktora bez većeg gubitka informacija postigli smo određenu<br />
ekonomiju opisa. To je u skladu sa pravilom štedljivosti (engl. parsimony rule) koje kaže<br />
da je objašnjenje koje uključuje manji broj varijabli bolje od onog koje uključuje veći broj<br />
varijabli. Sažimanjem podatka se smanjuje kompleksnost i time olakšava proces donošenja<br />
odluka (Zikmund et al., 2009). Iz ovog cilja proizlazi upotreba faktorske analize za<br />
reduciranje većeg broja opserviranih varijabli na manji broj latentnih varijabli kako bi se<br />
pojednostavila dalja analiza i adresirao problem multikolinearnosti (Williams et al., 2012).<br />
4. KORACI UNUTAR EFA<br />
Sama eksplorativna faktorska analiza je iterativni proces tokom kojeg analitičar prolazi kroz<br />
nekoliko koraka.<br />
5
1. Ocjena prikladnosti podataka za faktorsku analizu. U ovom koraku se provjerava da li<br />
uopšte ima smisla raditi faktorsku analizu i da li su ispunjene odgovarajuće pretpostavke.<br />
2. Odabir pristupa i metode estimacije. Suština ovog koraka je donošenju odluke o tome<br />
koji pristup faktorskoj analizi primijeniti i koji metod estimacije odabrati. Naime, iz<br />
narednog izlaganja ćemo vidjeti da eksplorativna faktorska analiza nije jedna tehnika, već<br />
generički naziv za nekoliko različitih tehnika estimacije koje imaju isti cilj, ali koje mogu<br />
dati donekle različita faktorska rješenja.<br />
3. Određivanje broja faktora za izdvajanje. U ovom koraku je potrebno donijeti odluku o<br />
optimalnom broju faktora kojima će se objasniti uočeni obrasci korelacija bez znatnog<br />
gubitka informacija. Iako je odluka o broju faktora u krajnjoj instanci subjektivna, postoji<br />
nekoliko kriterija kojima se istraživač može voditi kako bi bio siguran da je ispravno<br />
odabrao broj faktora koje treba zadržati za dalju analizu.<br />
4. Rotacija faktora. U idealnom faktorskom rješenju, svaki faktor je jako povezan sa tačno<br />
određenim skupom opserviranih varijabli i ne korelira sa drugim faktorima. U tom slučaju<br />
se lako mogu uočiti najmanji zajednički sadržioci koji povezuje varijable indikatore i<br />
imenovati faktori. Međutim, u praksi se rijetko desi da dobijemo idealno rješenje. Kako bi<br />
se olakšala mogućnost interpretacije radi se rotacija faktora. U ovom koraku analitičar mora<br />
donijeti odluku o tehnici rotacije koju će primijeniti.<br />
5. Tumačenje i imenovanje faktrora. Dobijenim faktorima je potrebno dodijeliti smislene<br />
nazive koji će “uhvatiti” suštinu konstrukta na koji se faktor odnosi. Dobro imenovani<br />
faktori bi trebali pružiti precizan opis konstrukta.<br />
6. Respecifikacija faktorskog rješenja. Nekada će se desiti da dobijeno faktorsko rješenje<br />
nije sasvim zadovoljavajuće. Na primjer, možda se desilo da se neke varijable indikatori<br />
istovremeno učitavaju na više faktora ili ne možemo identifikovati najmanji zajednički<br />
sadržilac koji bi omogućio imenovanje faktora i sl. Tada istraživač može odlučiti da ponovi<br />
analizu uz određene modifikacije.<br />
7. Provjera pouzdanosti. Nakon što smo identifikovali faktore, poželjno je provjeriti njihovu<br />
pouzdanost i validnost. Potpuno testiranje pouzdanosti i validnosti moguće je obaviti samo<br />
unutar okvira konfirmativne faktorske analize (CFA). Kad je riječ o EFA analitičari<br />
uobičajeno koriste Kronbahov alfa koeficijent kako bi ispitali pouzdanost dobijenog<br />
faktorskog rješenja.<br />
8. Upotreba faktora u drugim analizama. Nakon što smo završili sa EFA, moguće je da<br />
dobijene faktore želimo iskoristiti u drugim analizama. U ovom koraku je potrebno donijeti<br />
odluku o tome kako ćemo kreirati nove varijable koje će u daljim analizama predstavljati<br />
dobijene faktore.<br />
Kao što možemo primjetiti, EFA je kompleksna tehnika i unutar većine koraka imamo više<br />
opcija na raspolaganju. U daljem izlaganju ćemo na konkretnom primjeru ilustrovati kako uz<br />
pomoć State uraditi eksplorativnu faktorsku analizu. Primjer je ilustracija koja ima za cilj<br />
predstaviti uobičajeni proces eksplorativne faktorske analize.<br />
Primjer 2<br />
6
Da bi planirao odgovarajuću strategiju za privlačenje novih klijenata, menadžment je pokušao<br />
identifikovati faktore koji determinišu izbor potrošača kad je riječ o odabiru tržnog centra. Na<br />
petostepenoj Likertovoj skali mjerene su percepcije važnosti za 15 stavova koji su prikazani u<br />
tabeli 3. Pored toga zabilježen je i podatak o spolu ispitanika. Prikupljeni podaci su uneseni u<br />
datoteku pod nazivom izbor_tc2.dta.<br />
Tabela 3 – Upitnik za ispitivanje stavova pri izboru tržnog centra<br />
Molimo Vas da ocjenom od 1 do 5 označite stepen<br />
slaganja sa dole navedenim stavovima.<br />
Apsolutno se ne<br />
slažem<br />
Ne slažem se<br />
Niti se slažem<br />
niti se ne slažem<br />
Slažem se<br />
Apsolutno se<br />
slažem<br />
Važno je gdje se nalazi lokacija tržnog centra. 1 2 3 4 5<br />
Važno je da tržni centar raspolaže sa dovoljno parking prostora. 1 2 3 4 5<br />
Važno je da tržni centar često organizuje prodajne promocije<br />
(besplatne probe i sl.).<br />
7<br />
1 2 3 4 5<br />
Nije mi važno da tržni centar ima najpovoljnije cijene. (R) 1 2 3 4 5<br />
Bitno je da tržni centar često organizuje nagradne igre. 1 2 3 4 5<br />
Bitno mi je da tržni centar ima kompetentno osoblje. 1 2 3 4 5<br />
Meni je važno da tržni centar ima dovoljan broj blagajni. 1 2 3 4 5<br />
Važno mi je da u tržnom centru budem ljubazno primljen. 1 2 3 4 5<br />
Bitno mi je da tržni centar ima ugodnu atmosferu. 1 2 3 4 5<br />
Meni je važan vanjski izgled tržnog centra. 1 2 3 4 5<br />
Bitno mi je radno vrijeme tržnog centra. 1 2 3 4 5<br />
Bitno mi je da tržni centar ima uslužno osoblje. 1 2 3 4 5<br />
Meni je važno da je higijena unutar tržnog centra na<br />
zadovoljavajućem nivou.<br />
1 2 3 4 5<br />
Bitan mi je stajling i dekor unutar tržnog centra. 1 2 3 4 5<br />
Bitno mi je da unutar tržnog centra mogu naći raznolik asortiman<br />
proizvoda.<br />
Napomena: (R) označava reverzno postavljeno pitanje.<br />
1 2 3 4 5<br />
Potrebno je utvrditi: a) Da li se ovi stavovi mogu „grupisati“ kako bi se bolje razumjela<br />
očekivanja potrošača, b) Da li se navedeni stavovi mogu reducirati na manji broj faktora radi<br />
njihovog lakšeg korištenja u daljim analizama.<br />
U prilogu 1 se nalazi korelaciona matrica za ovaj skup podataka. Ako je pažljivo proučimo<br />
vidjećemo da da nije jednostavno uočiti obrasce korelacija na način na koji smo to uradili ranije<br />
u primjeru 1. Zbog toga ćemo upotrijebiti EFA da bi pronašli obrasce korelacija i dobili<br />
odgovore na postavljena pitanja.<br />
4.1. OCJENA PRIKLADNOSTI PODATAKA ZA EFA<br />
Na samom početku je potrebno provjeriti da li su ispunjene osnovne pretpostavke za korištenje<br />
eksplorativne faktorske analize. Potrebno je obratiti pažnju na sljedeće:
Slučajni uzorak. Ukoliko zaključke iz analize želimo generalizirati na širu populaciju, trebalo<br />
bi da su jedinice populacije u uzorak odabrane potpuno slučajno.<br />
Veličina uzorka. Za određivanje veličine uzorka se najčešće gleda omjer potrebnog broja<br />
opservacija u odnosu na broj varijabli koje koristimo u analizi. Uobičajeno se primjenjuje<br />
pravilo 10:1 koje kaže da bi broj validnih opservacija trebao biti deset puta veći od broja<br />
varijabli koje ubacujemo u analizu (Burns & Burns, 2008; Sarstedt & Mooi, 2014, 2014, p. 240;<br />
Yong & Pearce, 2013). Drugim riječima, ako za EFA koristimo 10 varijabli indikatora,<br />
minimalna veličina uzorka nakon što oduzmemo opservacije sa nedostajućim podacima bi<br />
trebala biti 10 (opservacija) x 10 (indikatora) = 100 opservacija. Broj opservacija u odnosu na<br />
broj varijabli nikad ne bi trebao biti manji od 5:1 (Burns & Burns, 2008; Yong & Pearce, 2013),<br />
a ako želimo biti sigurni da su izdvojeni faktori stabilni i da ih možemo validirati u ponovljenim<br />
istraživanjima onda se preporučuje omjer od čak 30:1 (Yong & Pearce, 2013).<br />
Obzirom da prethodno pravilo obično pruža samo grubu indikaciju u pogledu veličine uzorka,<br />
često se koristi i indikator zajedničke varijanse (engl. communality). Ovaj pojam ćemo<br />
detaljnije objasniti kasnije, a ovdje ćemo pomenuti da su MacCallum et al. (1999) dali nekoliko<br />
preporuka u vezi sa potrebnom veličinom uzorka u zavisnosti od iznosa zajedniče varijanse.<br />
Prema njima, ako sve varijable u analizi imaju communality > 0.6 uzorak može imati manje od<br />
100 opservacija. Ako je communality blizu 0.5 poželjno je imati uzorak veličine 100-200<br />
opservacija. Kada je communality za sve ili većinu varijabli < 0.5, ili imamo mali broj faktora<br />
mjerenih sa šest ili više varijabli, dovoljna veličina uzorka je između 100-200 opservacija.<br />
Međutim, ako u istoj situaciji imamo veliki broj faktora ili ako su faktori mjereni sa tri ili manje<br />
varijabli, preporučeno je imati uzorak veličine 300 opservacija.<br />
Vrste varijabli. Faktorska analiza je pogodna za kontinuirane varijable. Međutim, u praksi se<br />
često koriste i ordinalne varijable (podaci na Likertovoj skali i sl.). Korištenje ordinalnih<br />
varijabli nije problematično pod uslovom da takve skale imaju pet ili više podioka i da su<br />
razmaci između podioka jednaki (Sarstedt & Mooi, 2014). Postoje i metode estimacije koje su<br />
razvijene za kategorijske i dihotomne varijable ali one izlaze iz okvira ove knjige 2 .<br />
Između opserviranih varijabli postoji dovoljna poveznaost. Prethodno smo objasnili da se<br />
suština faktorske analize ogleda u prepoznavanju obrazaca korelacija koje postoje između<br />
opserviranih varijabli. Zato primjena faktorske analize ima smisla jedino kada opservirane<br />
varijable međusobno koreliraju u nekom omjeru. U principu, ako korelacije između varijabli<br />
ne prelaze 0.30 onda nema svrhe koristiti faktorsku analizu (Tabachnick & Fidell, 2007). Za<br />
precizniju provjeru ove pretpostavke na raspolaganju su dva indikatora. Prvi je Kaiser–Meyer–<br />
Olkin (KMO) pokazatelj adekvatnosti uzorka 3 . Njegova vrijednost se kreće u rasponu od 0 do<br />
1, gdje vrijednosti bliže jedinici ukazuju na veću kompaktnost obrazaca korelacija, a to opet<br />
znači da bi u faktorskoj analizi trebali dobiti međusobno različite i pouzdane faktore<br />
(Tabachnick & Fidell, 2007). U tabeli 4 se nalaze preporuke u pogledu pragova vezanih za ovaj<br />
indikator.<br />
2<br />
Ukoliko je neophodno koristiti dihotomne ili ordinalne varijable faktorska analiza se može obaviti korištenjem<br />
matrice sa polihoričnim korelacijama (engl. polychoric correlation matrix) umjesto podrazumjevane matrice sa<br />
Personovim korelacijama. Za takvu analizu je prvo potrebno genrisati pomenutu matricu korištenjem paketa<br />
polychoric. Nakon toga, analizu možemo uraditi upotrebom naredbe factormat koja će pripremljenu matricu sa<br />
polihoričnim korelacijama koristiti kao input za dalju analizu. Za više detalja pogledati:<br />
https://stats.idre.ucla.edu/stata/faq/how-can-i-perform-a-factor-analysis-with-categorical-or-categorical-andcontinuous-variables/<br />
3<br />
Nekada se za ovaj pokazatelj koristi i skraćenica MSA (engl. Measure of sampling adequacy).<br />
8
Tabela 4 – Tumačenje KMO pokazatelja<br />
Vrijednost KMO<br />
pokazatelja<br />
Adekvatnost<br />
korelacija za EFA<br />
< 0.50 neprihvatljiva<br />
0.50-0.59 loša<br />
0.60-0.69 slaba<br />
0.70-0.79 prosječna<br />
0.80-0.89 vrlo dobra<br />
Izvor: Kaiser (1974)<br />
0.90 ≤ odlična<br />
Drugi indikator za provjeru prikladnosti podataka za faktorsku analizu je Bartlettov test<br />
sfericiteta kojim se testira nulta hipoteza da između opserviranih varijabli u populaciji nema<br />
korelacije. U većim uzorcima rezultat testa će gotovo uvijek biti signifikantan pa on nema istu<br />
specifičnu težinu kao prethodni indikator. Zbog toga se pri donošenju konačnog suda o tome<br />
da li su podaci prikladni za faktorsku analizu treba više osloniti na KMO pokazatelj (Sarstedt<br />
& Mooi, 2014).<br />
Ne postoji ekstremna multikolinearnost. 4 Obzirom da je neophodno da opservirane varijable<br />
u nekoj mjeri međusobno koreliraju, u EFA je postojanje umjerene multikolinearnosti čak<br />
poželjno (Hair, Black, Babin, Anderson, & Tatham, 2006). Međutim, nije poželjno da<br />
opservirane varijable koreliraju izrazito visoko (ekstremna multikolinearnost, r > 0.9) ili<br />
perfektno (singularnost r = 1.0), jer je tada teško procijeniti jedinstveni doprinos varijabli<br />
faktoru(Field, 2009). Jedan od načina na koji možemo provjeriti postojanje ekstremne<br />
multikolinearnosti je da izračunamo determinantu korelacione matrice. Ako je ona veća od<br />
0.00001, to je indikator da ne postoji ekstremna multikolinearnost (Field, 2009). U suprotnom,<br />
potrebno je provjeriti korelacionu matricu, identifikovati varijable koje međusobno jako<br />
koreliraju i eventualno razmotriti izbacivanje nekih od tih varijabli. Ekstremna<br />
multikolinearnost ne predstavlja problem ako za izdvajanje faktora koristimo pristup glavnih<br />
komponenti – PCA (Field, 2009).<br />
Opservacije su međusobno nezavisne. Eksplorativna faktorska analiza se ne može koristiti<br />
ako imamo povezane opservacije. Npr. ako smo iste ispitanike ankertirali više puta sa istim<br />
upitnikom. U takvim slučajevima u analizu bi unijeli „vještačke korelacije“ koje se ne javljaju<br />
zbog toga što u pozadini imamo latentne faktore, već zbog toga što su isti ispitanici odgovarali<br />
na ista pitanja više puta (Sarstedt & Mooi, 2014).<br />
Linearnost. Odnosi između opserviranih varijabli bi trebali biti linearni. Možemo je provjeriti<br />
ukoliko koristimo matricu dijagrama raspršenosti (engl. scatterplot matrix). Ova pretpostavka<br />
se u praksi rijetko provjerava.<br />
Ne postoje univarijantne netipične opservacije (outlieri). Ova pretpostavka se provjerava<br />
crtanjem boxplot-a za svaku indikatorsku varijablu. Obzirom da se EFA obično primjenjuje na<br />
Likertovim skalama kod njih po prirodi stvari teško možemo imati netpične vrijednosti. Na<br />
4<br />
9
primjer, odgovori na krajnjim podiocima petostepene Likertove skale se ne smatraju netipičnim<br />
vrijednostima pa se u tom slučaju pretpostavka ne provjerava.<br />
Međutim, kod Likertovih skala je potrebno obratiti pažnju na ispitanike koji nisu posvetili<br />
dovoljno vremena za popunjavanje upitnika (engl. unengaged respodents). Nezainteresovani<br />
ispitanici često će popuniti upitnik zaokružujući samo jedan podiok skale. Na primjer, na svaku<br />
stavku iz upitnika ispitanik će zaokružiti “5, 5, 5, 5…”. Mogući su i drugi obrasci jednoličnog<br />
odgovaranja. Ovakve ispitanike je moguće detektovati korištenjem reverzno postavljenih<br />
pitanja ili korištenjem tzv. zamki (engl. attention traps) 5 . Pod zamkama podrazumjevamo<br />
stavke u upitniku koje imaju za cilj da detektuju da li ispitank uopšte čita pitanja. Na primjer,<br />
ako prilikom davanja odgovora na niz tvrdnji iznenada naiđete na stavku: “Molimo Vas da ovu<br />
tvrdnju preskočite” ili “Molimo Vas za ovu stavku zaokružite broj 2”, riječ je o zamci kojom<br />
se nastoje uhvatiti nezainteresovani ispitanici koji odgovaraju mehanički.<br />
Univarijantna i multivarijantna normalnost. EFA ne postavlja stroge zahtjeve u pogledu<br />
pretpostavki o rasporedu varijabli (Leech et al., 2005). Univarijantna normalnost, koja se<br />
odnosi na normalnost rasporeda pojedinačnih varijabli indikatora, je bitna jedino ako netipične<br />
vrijednosti znatno utiču na korelacije između varijabli. To se u EFA rijetko dešava zbog prirode<br />
podataka (Likertove skale, obično veliki uzorci i sl.). Provjera univarijantne i multivarijantne<br />
normalnost je vrlo bitna jedino ako u narednom koraku odlučimo koristi maximum likelihood<br />
estimaciju.<br />
Primjer 2 - nastavak<br />
Za potrebe naše analize provjerićemo veličinu uzorka i da li su podaci pogodni za faktorsku<br />
analizu. Pretpostavke vezane za netipične vrijednosti i normalnost nećemo provjeravati<br />
obzirom da su podaci prikupljeni pomoću Likertove skale i obzirom da nećemo koristiti<br />
maximum likelihood metod estimacije. Kako je svaki ispitanik popunio upitnik samo jednom<br />
znamo i da je ispunjena pretpostavka o nezavisnosti.<br />
Da bi provjerili veličinu uzorka u našem primjeru, koristićemo naredbu summarize.<br />
. summarize<br />
Variable | Obs Mean Std. Dev. Min Max<br />
-------------+--------------------------------------------------------<br />
id | 0<br />
spol | 318 1.622642 .4854897 1 2<br />
lokacija | 332 4.376506 .9487418 1 5<br />
parking | 332 4.527108 .8875712 1 5<br />
promocije | 333 4.66967 .7315268 1 5<br />
-------------+--------------------------------------------------------<br />
cijene | 331 1.761329 1.1936 1 5<br />
nag_igre | 328 4.542683 .9276626 1 5<br />
komp_osob | 328 4.469512 .8417528 1 5<br />
br_blagajni | 327 4.489297 .7826974 1 5<br />
ljubaznost | 328 4.756098 .5432032 1 5<br />
-------------+--------------------------------------------------------<br />
atmosfera | 328 3.496951 1.094882 1 5<br />
izgled | 328 3.945122 .8761401 1 5<br />
rad_vrijeme | 327 4.143731 .8512795 1 5<br />
5<br />
Za više detalja pogledati: http://statwiki.kolobkreations.com/index.php?title=Data_screening<br />
10
usl_osob | 332 4.695783 .6077896 1 5<br />
higijena | 332 4.400602 .8366959 1 5<br />
-------------+--------------------------------------------------------<br />
dekor | 332 3.960843 .9591206 1 5<br />
asortiman | 332 4.259036 .9060436 1 5<br />
U koloni “Obs” je prikazan broj opservacija po svakoj varijabli indikatoru. Broj varira od 327<br />
do 333. Ovo znači da je ukupna veličina uzorka 333 opservacije ali da po nekim varijablama<br />
imamo nedostajuće podatke što će u konačnici smanjiti veličinu dostupnog uzorka za analizu<br />
jer će iz analize biti elimisane sve opservacije koje po bilo kojoj varijabli imaju nedostajaće<br />
vrijednosti (tzv. listwise deletion). Već na osnovu ovog outputa vidimo da je sigurno da ćemo<br />
imati više od 10 opservacija po jednoj varijabli: 10 x 15 = 150 što je potrebna veličina uzorka<br />
uz omjer 10:1.<br />
U okviru outputa je data deskriptivna statistika, a kolone “Min” i “Max” ćemo iskoristiti da<br />
obavimo logičku kontrolu unesenih podataka. Vidimo da se za sve varijable vrijednosti nalaze<br />
u rasponu od 1 do 5 što odgovara rasponu petostepene Likertove skale, a na osnovu čega<br />
zaključujemo da pri unosu podataka nije bilo slučajnih omaški.<br />
Za provjeru prikladnosti podataka za faktorsku analizu koristićemo paket factortest. Ovaj paket<br />
ne dolazi sa osnovnom verzijom State i potrebno ga je prvo instalirati sa:<br />
. findit factortest<br />
Sama naredbe ima sljedeću sintaksu:<br />
factortest varlist<br />
gdje se varlist odnosi na spisak varijabli indikatora u faktorskoj analizi. U našem primjeru<br />
imamo petnaest varijabli indikatora (lokacija - asortiman), pa će biti:<br />
. factortest lokacija-asortiman<br />
Determinant of the correlation matrix<br />
Det = 0.011<br />
Bartlett test of sphericity<br />
Chi-square = 1413.617<br />
Degrees of freedom = 105<br />
p-value = 0.000<br />
H0: variables are not intercorrelated<br />
Kaiser-Meyer-Olkin Measure of Sampling Adequacy<br />
KMO = 0.816<br />
Na osnovu outputa vidimo da Kaiser-Meyer-Olkin mjera adekvatnosi uzorka iznosi 0.816, što<br />
je vrlo dobar rezultat na osnovu kojeg zaključujemo da je korelacijska matrica pogodna za<br />
faktorsku analizu. Bartlettov test sfericiteta χ 2 (105) = 1413.62, p = 0.000 je signifikantan što<br />
znači da možemo odbaciti nultu hipoteza da između opserviranih varijabli u populaciji nema<br />
korelacije. Determinanta korelacione matrice iznosi 0.011 i veća je od 0.00001 što implicira da<br />
11
unutar podataka ne postoji ekstremna multikolinearnost. Dakle, na osnovu svega možemo<br />
zaključiti da su podaci kojima raspolažemo prikladni za eksplorativnu faktorsku analizu.<br />
4.2. ODABIR PRISTUPA IZDVAJANJA FAKTORA I METODE ESTIMACIJE<br />
Generalno postoje dva pristupa koja se koriste da bi se izdvojili faktori. Prvi pristup je<br />
uobičajena eksplorativna faktorska analiza (EFA), a drugi je analiza glavnih komponenti<br />
(PCA). Iako oba metoda imaju isti cilj između EFA i PCA postoje važne konceptualne razlike.<br />
U nastavku su objašnjene specifičnosti oba prisupa.<br />
4.2.1. Razlaganje varijanse unutar varijable<br />
EFA i PCA se razlikuju u pogledu varijanse koja se uzima u obzir tokom same analize. Kod<br />
PCA pristupa se pri ekstrakciji faktora pretpostavlja da je varijansa unutar svake varijable<br />
zajednička varijansa koja se u potpunosti može objasniti izdvajanjem faktora. 6 Ova razlika je<br />
predstavljena na slici 1.<br />
Slika 1 – Razlika između PCA i EFA pristupa u pogledu varijanse koja ulazi u analizu<br />
Izvor: (Sarstedt & Mooi, 2014)<br />
Podsjetimo se da varijable koje međusobno koreliraju dijele dio zajedničke varijanse. Kako je<br />
osnovna ideja faktorske analize da grupišemo varijable koje međusobno jako koreliraju, bitno<br />
je utvrditi koliki iznos varijanse unutar svake varijable se dijeli sa ostalim varijablama u grupi.<br />
Dakle, ukupna varijansa (engl. total variance) unutar svake opservirane varijable koja ulazi u<br />
faktorsku analizu može se podijeliti na dvije komponente:<br />
● Zajedničku varijansu (engl. communality) koja predstavlja dio ukupne varijanse unutar<br />
varijable koju ta varijabla dijeli sa ostalim varijablama. Može se reći i da je to dio ukupne<br />
varijanse objašnjen izdvojenim faktorima.<br />
● Unikatnu varijansu (engl. uniqueness) koja je dio ukupne varijanse unutar varijable koji<br />
nije objašnjen korelacijama sa drugim varijablama, odnosno ekstrahovanim faktorima.<br />
Unikatna varijansa obuhvata specifičnu varijansu (engl. specific variance) koja je<br />
6<br />
Faktori se unutar PCA nazivaju komponentama, ali ćemo zbog konzistentnosti ostaviti naziv faktori.<br />
12
svojstvena samo datoj varijabli i varijansu koja nastaje zbog greške u mjerenju (engl. error<br />
variance).<br />
Kako u faktorsku analizu ulaze standardizovane varijable ukupna varijansa unutar svake<br />
varijable je jednaka broju 1, što znači da je:<br />
ukupna varijansa = zajednička varijansa + unikatna varijansa<br />
(1) (communality) (uniqueness)<br />
Dakle, što varijabla više korelira sa drugim varijablama njena zajednička varijansa će biti veća,<br />
a unikatna varijansa manja. Varijabla koja čitavu svoju varijansu dijeli sa drugim varijablama<br />
imaće communality = 1 i uniqueness = 0. S druge strane, ako varijabla slabije korelira sa drugim<br />
varijablama njena zajedniča varijansa će biti manja, a unikatna varijansa veća. Varijabla koja<br />
ni jedan dio svoje varijanse ne dijeli sa ostalim varijablama imaće communality = 0 i uniqueness<br />
= 1.<br />
Kod PCA pristupa se ne pravi razliku između zajedničke i unikatne varijanse. Prilikom<br />
ekstrakcije komponenti (faktora) u analizu ulazi sva varijansa svojstvena opserviranim<br />
varijablama (Tabachnick & Fidell, 2007) pri čemu se pretpostavlja da je ukupna varijansa<br />
jednaka zajedničkoj varijansi i da ne postoji jedinstvena varijansa (Fabrigar, Wegener,<br />
MacCallum, & Strahan, 1999).<br />
S druge strane, EFA uvažava činjenicu da svaka varijabla ima i unikatnu varijansu. Obzirom<br />
da se pravi distinkcija između zajedničke i unikatne varijanse, prije same ekstrakcije faktora se<br />
pokušava estimirati i eliminisati unikatna varijansa tako da se u samoj analizi izdvajanje faktora<br />
bazira samo na zajedničkoj varijansi (Tabachnick & Fidell, 2007).<br />
Pored toga što se razlikuju u pogledu varijansi koje ulaze u samu analizu, EFA i PCA se<br />
razlikuju i u pogledu kauzalne strukture, odnosno prirode veza između faktora i varijabli<br />
indikatora. U nastavku je objašnjena ova razlika.<br />
4.2.2. EFA pristup<br />
Kad je riječ o kauzalnoj strukturi, EFA pristup se bazira na modelu zajedničkih faktora (engl.<br />
common factor model) koji pretpostavlja da su korelacije između opserviranih varijabli<br />
posljedica postojanja jedne ili više latentnih varijabli koje vrše kauzalni uticaj na opservirane<br />
varijable ( Fabrigar et al., 1999; O'Rourke, Hatcher, & Stepanski, 2005). Primjer jedne takve<br />
kauzalne strukture je dat na slici 2.<br />
Slika 2 – Konceptualna šema modela zajedničkih faktora sa dva faktora i šest opserviranih<br />
varijabli<br />
13
Model zajedničkih faktora matematski se može predstaviti sljedećim izrazom:<br />
Y b F b F b F U<br />
i<br />
<br />
i 1 1<br />
<br />
i 2 2<br />
... <br />
ij j<br />
<br />
i<br />
gdje je<br />
Yi = standardizovana opservirana varijabla i<br />
bij = standardizovano učitavanje varijable i na faktor j<br />
Fj = zajednički faktori<br />
Ui = jedinstrveni faktor vezan za varijablu i<br />
Dakle, svaka opservirana varijabla unutar modela je linearna funkcija jednog ili više<br />
zajedničkih faktora i jedinstvenog faktora vezanog za datu varijablu. Zajednički faktori (engl.<br />
common factors) su neopservirane latentne varijable koje objašnjavaju dijeljenu varijansu<br />
unutar opserviranih varijabli. S druge strane, unikatni faktori (engl. unique factors) su<br />
neopservirane latentne varijable koje objašnjavaju unikatnu varijansu svake pojedinačne<br />
opservirane varijable koja preostane nakon što se u obzir uzmu korelacije između opserviranih<br />
varijabli (Fabrigar et al., 1999). Unikatni faktori ne koreliraju niti sa zajedničkim faktorima niti<br />
međusobno (Malhotra, 2010).<br />
4.2.3. PCA pristup<br />
S druge strane, kod PCA pristupa nemamo pretpostavku o kauzalnoj strukturi. PCA je<br />
jednostavno tehnika za sažimanje većeg broja opserviranih varijabli na manji broj komponenti<br />
koje obuhvataju većinu ukupne varijanse (O'Rourke et al., 2005). Primjer takve kauzalne<br />
strukture je predstavljen na slici 3.<br />
14
Slika 3 – Konceptualna šema modela glavnih komponenti sa dvije komponente i šest<br />
opserviranih varijabli<br />
Osnovna ideja PCA metode je pokušaj opisa varijacije unutar skupa opserviranih varijabli uz<br />
pomoć skupa izvedenih nekoreliranih varijabli, od kojih je svaka posebna linearna kombinacija<br />
originalno opserviranih varijabli. Drugim riječima, PCA je transformacija opserviranih varijabli<br />
Yi u nove varijable (komponente) Cp koje matematski možemo predstaviti kao:<br />
C b Y b Y b Y<br />
p<br />
<br />
p1 1<br />
<br />
p 2 2<br />
... <br />
pi i<br />
gdje je<br />
Cp = komponenta p<br />
Yi = standardizovana opserivarana varijabla i<br />
bpi = ponder uticaja opservirane varijable i na komponentu p<br />
Tokom PCA pokušava se utvrditi linearna kombinacija varijabli koja će pomoći da se iz<br />
opserviranih varijabli izvuče maksimalan iznos varijanse. Nove varijable (komponente) su<br />
izvedene prema opadajućem redoslijedu važnosti. Koeficijenti za prvu komponentu se izvode<br />
tako da maksimiziraju varijansu što je više moguće (Rabe-Hesketh & Everitt, 2004). Nakon<br />
toga se traži sljedeća linearna kombinacija koja će objasniti maksimalnu proporciju preostale<br />
varijanse. Proces se nastavlja dok se ne izvuče sva varijansa (Burns & Burns, 2008).<br />
4.2.4. Ključne razlike između EFA i PCA<br />
Dakle, dvije najvažnije konceptualne razlike između ova dva metoda tiču se teoretskih<br />
pretpostavki o kauzalnoj strukturi koja stoji u pozadini ova dva pristupa (engl. underlaying<br />
casual structure) i varijanse koja se koristi pri ektrakciji faktora što je sažeto u tabeli 5.<br />
Tabela 5 - EFA vs. PCA<br />
15
EFA<br />
- Kauzalna struktura postulira da faktori<br />
utiču na opservirane varijable (slika 2).<br />
- Pokušava objasniti što veći broj<br />
obrazaca korelacija sa što manjim<br />
brojem faktora.<br />
- Ukupna varijansa se dijeli na zajedničku<br />
i unikatnu. U analizi se koristi samo<br />
zajednička varijansa (slika 1).<br />
- Prikladnija za identifikovanje latentnih<br />
konstrukata<br />
PCA<br />
- Kauzalna struktura postulira da se<br />
opservirane varijable agregiraju u<br />
komponente (slika 3).<br />
- Pokušava ukupnu varijansu predstaviti<br />
sa manjim brojem komponenti uz<br />
minimalan gubitak informacije.<br />
- Ne pravi se razlika između zajedničke i<br />
unikatne varijanse. U analizi se koristi<br />
ukupna varijansa (slika 1).<br />
- Prikladnija za sažimanje podataka.<br />
4.2.5. Koji pristup koristiti?<br />
Među statističarima ne postoji jasan stav u pogledu toga koji pristup koristiti i kada. Na jednoj<br />
strani imamo one koji naglašavaju da PCA nije pravi metod faktorske analize i da ga u<br />
potpunosti treba izbjegavati. Drugi pak naglašavaju da između PCA i EFA ne postoji veća<br />
razlika jer će oba pristupa dati sličan krajnji rezultat ili da je u određenim situacijama PCA čak<br />
superiornija u odnosu na EFA (Costello & Osborne, 2005, p. 2).<br />
Generalno govoreći, EFA pristup ima bolje teoretsko uporište jer je se zasniva na realnijoj<br />
pretpostavci da unutar svake varijable postoji unikatna varijansa koja ne može biti objašnjena<br />
izdvojenim faktorima. Međutim, ta pretpostavka je ujedno i više restriktivna što nekad može<br />
dovesti do komplikacija tokom analize (Sarstedt & Mooi, 2014). S druge strane, PCA je<br />
matematski jednostavnija, što ne iznenađuje obzirom da je razvijena u vrijeme kada se analiza<br />
obavljala bez pomoći računara. Ona zato predstavlja dobar kompromis u pogledu smanjenja<br />
kompleksnih matematskih proračuna bez znatnog narušavanja validnosti dobijenih rezultata<br />
(Osborne, 2015, p. 1).<br />
Imajući u vidu sve navedeno, u literaturi se često može naći preporuka da je PCA poželjnije<br />
koristi ako je primarni cilj empirijsko sažimanje podataka. Drugim riječima, PCA je bolji izbor<br />
kada istraživač u daljoj analizi ne želi upotrijebiti sve originalno mjerene opservirane varijable<br />
ali još uvijek želi iskoristiti informaciju koju one sadrže (DeCoster, 1998). S druge strane, EFA<br />
je bolje koristi ako želimo identifikovati latentne konstrukte koji objašnjavaju obrasce<br />
korelacija između neopserviranih varijabli (Singh, 2007), odnosno kada se traži teoretsko<br />
uporište za za dobijene faktore (Tabachnick i Fidell, 2007).<br />
Gledano sa praktičnog aspekta, vrlo rijetko će se desiti da na istim podacima ove dvije tehnike<br />
daju suštinski različite rezultate (Drennan, 2009). Zato ne iznenađuje što se u praksi rješenja<br />
dobijena na bazi PCA vrlo malo razlikuju u odnosu na rješenja dobijena korištenjem EFA. Field<br />
(2009) navodi da se značajnije razlike mogu pojaviti ako imamo nizak communality (< 0.40) i<br />
u studijama sa relativno malim brojem opserviranih varijabli (< 20).<br />
Treba imati na umu i da će u uslovima kada postoji umjerena količina dijeljene varijanse i kada<br />
nema korelacija između faktora, oba metoda rezultirati istim rješenjem ali će PCA precijeniti<br />
postotak objašnjene varijanse (Costello & Osborne, 2005, p. 2). Uprkos ovome, činjenica je da<br />
16
se PCA češće koristi. Njenoj popularnosti nesumnjivo doprinosi i to što je to podrazumjevani<br />
metod ekstrakcije u mnogim popularnim statističkim softverskim paketima, uključujući SPSS<br />
i SAS (Costello & Osborne, 2005, p. 1).<br />
U konačnici, možemo zaključiti da postoje oprečna mišljenja koliko su bitne razlika između<br />
PCA i EFA. Iako se baziraju na različitoj logici, obje tehnike imaju slične ciljeve i daju slične<br />
rezultate. Razlike u rezultatima između EFA i PCA su obično nevažne ako imamo dovoljno<br />
veliki uzorak, odnosno ako je broj opservacija bar pet puta veći od broja opserviranih varijabli.<br />
(Dancey & Reidy, 2011) Zbog toga se u većini softverskih paketa ove dvije grupe tehnika<br />
kombinuju u jedan set rutina (Drennan, 2009). Također, rezultati iz obje analize se prezentiraju<br />
i interpretiraju na potpuno identičan način. Iz navedenih razloga neki istraživači u praksi često<br />
primjenjuju pragamtični pristup koji se ogleda u tome da se na istom setu podataka primjene<br />
obje tehnike kako bi se vidjelo koja daje bolje rješenje.<br />
4.2.6. Metode estimacije<br />
Nakon što se opredijelimo za generalni pristup izdvajanju faktora, potrebno je odabrati metod<br />
estimacije kojim će se procijeniti parametri modela. Procjena pondera (engl. weights ili<br />
loadings) koji pružaju najefektivniji sažetak orginalnog varijabiliteta je od posebnog interesa<br />
(Mazzocchi, 2008). U slučaju PCA potrebno je procijeniti samo pondere uticaja varijabli na<br />
komponente (engl. componet loadings). Ovi ponderi su na slici 3 predstavljeni koeficijentima<br />
bpi. Obzirom na matematsku jednostavnost PCA modela, navedene pondere je moguće<br />
estimirati samo na jedan način. U suštini, to znači da smo odabirom PCA pristupa već odabrali<br />
jedini mogući metod estimacije.<br />
Kod EFA pristupa, pored učitavanja varijabli na faktore (engl. factor loadings) predstavljenih<br />
na slici 2 sa koeficijentima bij, potrebno je procijeniti i iznos unikatne varijanse (Ui). Postoji<br />
više metoda estimacije koje možemo koristiti u tu svrhu. Metodi koji su dostupni unutar State<br />
prikazani su u tabeli 6.<br />
Tabela 6 - Metode estimacije u Stati<br />
Metoda estimacije Naredba u Sati Napomena<br />
Principal component analysis<br />
pca varlist<br />
Principal component factoring factor varlist, pcf Podrazumijevani metod u SPSS-u<br />
Principal factoring factor varlist, pf Podrazumijevani metod u Stati<br />
Principal factoring with iterated<br />
communalities<br />
Maximum likelihood factoring<br />
factor varlist, ipf<br />
factor varlist, ml<br />
Svaki metod estimacije se zasniva na različitim početnim pretpostavkama što može dovesti do<br />
različitih rezultata (Mazzocchi, 2008). Međutim, postoji vrlo malo informacija o relativnim<br />
prednostima i manama svake od ovih metoda. Costello i Osborne (2005) navode da je u<br />
akademskim člancima često teško utvrditi koji metod estimacije je tačno korišten i zašto.<br />
17
Dodatnu konfuziju imamo u pogledu terminologije, obzirom da za iste metode postoje različiti<br />
nazivi. 7<br />
Generalno se može reći da najveća razlika postoji između maximum likelihood factoring (MLF)<br />
u odnosu na ostale metode estimacije. Najveća prednost MLF-a je što omogućava izračunavanje<br />
indikatora reprezentativnosti modela (engl. goodness of fit) i testiranje signifikantnosti<br />
estimiranih parametara. Međutim, mana MLF-a je što zahtijeva ispunjenje pretpostavke o<br />
multivarijantnoj normalnosti. Ukoliko je data pretpostavka značajno narušena, MLF može dati<br />
iskrivljenje rezultate (Fabrigar et al., 1999). Ostale metode estimacije su znatno robusnije na<br />
narušavanje pretpostavki vezanih za normalnost.<br />
Ipak, iako će se estimirani parametri donekle razlikovati u zavisnosti od odabranog metoda<br />
estimacije, u većini slučajeva dobijena rješenja će suštinski biti ista ili vrlo slična (Fabrigar et<br />
al., 1999). Samim tim, istraživač se i ovdje može voditi pragmatičnim pristupom koji<br />
podrazumjeva da se isporba više metoda estimacije i odabere ona koja po mišljenju istraživača<br />
daje najbolje rezultate.<br />
Primjer 2 - nastavak<br />
U našem slučaju odabrali smo EFA pristup i Principal component factoring (pcf) metod<br />
estimacije.<br />
4.3. ODREĐIVANJE BROJA FAKTORA<br />
Nakon što odabremo metod estimacije, potrebno je donijeti odluku o broju faktora koje ćemo<br />
zadržati. Obzirom da je EFA iterativni proces koji se nastavlja sve dok se ne ”objasni” ukupna<br />
varijansa to znači da će se na kraju procesa izdvojiti onoliko faktora koliko smo imali<br />
opserviranih varijabli u analizi.<br />
Međutim, poenta čitave analize je da izdvojimo manji broj faktora koji će objasniti većinu<br />
varijanse bez gubitka korisnih informacija. Zbog toga u ovom koraku moramo donijeti odluku<br />
o tome koliki broj faktora izdvojiti i zadržati za interpretaciju. Jasno je da će biti potrebno<br />
praviti određeni kompromis. Ako izdvojimo veći broj faktora, proporcija “objašnjene” ukupne<br />
varijanse biće veća, ali s druge strane to može ići na uštrb pravila štedljivosti i ciljeva zbog<br />
kojih radimo faktorsku analizu. Jednostavno rečeno, nije poželjno izdvojiti ni previše (engl.<br />
overextraction), ni premalo (engl. underextraction) faktora jer obje situacije mogu imati loše<br />
posljedice na konačni rezultat. Naime, ako se izdvoji premalo faktora, onda je moguće je da<br />
nismo identifikovali sve bitne konstrukte. S druge strane, ako smo zadržali prevelik broj faktora<br />
interpretacija faktora postaje teška ili nemoguća. Zbog toga je potrebno naći odgovarajući<br />
balans.<br />
S obzirom na navedeno, ne iznenađuje što pojedini autori smatraju da je određivanje<br />
optimalnog broja faktora vjerovatno važnije od odabira pristupa i metode estimacije<br />
(Tabachnick & Fidell, 2007). Problem je što je odluka o broju faktora u krajnjoj istanci<br />
subjektivna. Istraživač je taj koji ima zadnju riječ o tome koliki broj faktora je optimalan.<br />
7<br />
Na primjer, ono što se unutar State naziva Principal component factoring u statističkom paketu SPSS se naziva<br />
Principal Component Analysis. Dakle, ako isti skup podataka analiziramo u Stati koristeći pcf metod ekstrakcije,<br />
dobićemo iste rezultate kao kad u SPSS-u koristimo pca metod estimacije.<br />
18
Ipak, imajući u vidu važnost ove odluke, razvijeno je nekoliko različitih procedura koje<br />
istraživačima pomažu pri određivanju optimalnog broja faktora.<br />
Kajzerov kriterij. Poznat je i pod nazivima K1 kriterij ili kriterij latentnog korijena (engl.<br />
Latent root criterion). Prema ovom kriteriju potrebno je zadržati sve faktore koji imaju<br />
karakterističnu vrijednost veću od 1. Pod karakterističnom vrijednošću (engl. eigenvalue)<br />
podrazumijevamo ukupnu varijansu svih varijabli objašnjenu datim faktorom.<br />
Da bi razumjeli ideju koja stoji u pozadini ovog kriterija, zamislimo da smo izabrali PCA<br />
pristup za izdvajanje faktora. Kod PCA pristupa, svaka varijabla u analizu unosi jednu jedinicu<br />
varijanse. Na primjer, ako u analizi koristimo 15 varijabli, ukupna varijansa koju treba<br />
“objasniti” biće jednaka broju 15. Imajući ovo u vidu, nema pretjeranog smisla zadržavati<br />
faktore koji objašnjavaju manje varijanse nego je uneseno sa pojedinačnom varijablom pa se<br />
stoga izdvajaju samo faktori koji imaju eigenvalue > 1. Iako je u većini softverskih paketa ovo<br />
podrazumijevani kriterij, u literaturi se nerijetko naglašava da je riječ o nepreciznoj proceduri<br />
povezanoj sa brojnim problemima (Fabrigar et al., 1999)(Fabrigar et al., 1999; Costello<br />
& Osborne, 2005).<br />
Dijagram prevoja (engl. Scree plot). Ova procedura koju je razvio Catell (1966)<br />
podrazumijeva crtanje dijagrama gdje su faktori predstavljeni na x-osi, a karakteristične<br />
vrijednosti faktora na y-osi, kao što je predstavljeno na slici 4.<br />
Slika 4 – Primjer dijagrama prevoja<br />
Na slici 4 možemo vidjeti ono o čemu smo do sada govorili — svaki naredni faktor “objašnjava”<br />
manje varijanse od prethodnog — pa se eigenvalue smanjuje sa svakim narednim izdvojenim<br />
faktorom. Na dijagramu se vizuelno traži tačka preloma (engl. point of inflexion), odnosno<br />
karkateristični “lakat” koji označava faktor nakon kojeg kriva na dijagramu postaje relativno<br />
horizontalna. Horizontalni dio krive govori da svaki naredni faktor objašnjava samo marginalne<br />
iznose varijanse u odnosu na faktore koji se nalaze prije tačke preloma i da je stoga riječ o<br />
irelevantnim faktorima. U literaturi ne postoji jasan konsenzus u pogledu toga kako tumačiti<br />
tačku preloma. Neki autori navode da treba zadržati onoliko faktora koliko indicira tačka<br />
preloma (Fabrigar et al., 1999; O'Rourke et al., 2005; Sarstedt & Mooi, 2014). Drugo i nešto<br />
češće mišljenje je da tačka koja se nalazi neposredno prije tačke preloma indicira broj faktora<br />
koji treba zadržati (Costello & Osborne, 2005)Hair et al., 2006, p. 120).<br />
19
Pored oprečnih savjeta u pogledu broja faktora koje treba zadržati na bazi tačke preloma, drugi<br />
bitan nedostatak je česta dvosmislenost dobijenog dijagrama. Nisu rijetke situacije da na<br />
dijagramu nije moguće jasno uočiti tačku preloma. U takvim situacijama odluka o broju faktora<br />
je vrlo subjektivna i istraživač se ne može u potpunosti osloniti na ovu proceduru.<br />
Paralelna analiza (engl. Parallel analysis). Horn (1965) je predložio paralelnu analizu (PA)<br />
kao dopunu Kajzerovog kriterija. Ova procedura se smatra zlatnim standardom za određivanje<br />
broja faktora (Braeken i Assen, 2016). Kod PA se stvarne karakteristične vrijednosti porede sa<br />
slučajno dobijenim karakterističnim vrijednostima koje se izračunavaju na bazi slučajno<br />
generisane matrice podataka iste veličine i istog broja varijabli (Hayton, Allen i Scarpello,<br />
2004). Tabachnick and Fidell (2007) opisuju da proces ima tri koraka. Prvo se generiše slučajni<br />
set podataka sa istim brojem varijabli i opservacija. Zatim se na tako definisanim slučajnim<br />
podacima ponavlja faktorska analiza i kod svakog ponavljanja se bilježe karakteristične<br />
vrijednosti. Na kraju se slučajno dobijene karakteristične vrijednosti uprosječe za svaki faktor<br />
i porede sa karakterističnim vrijednostima iz stvarnih podataka. Zadržavaju se samo faktori čije<br />
su stvarne karakteristične vrijednosti veće od onih koje su dobijene za slučajno generisane<br />
podatke. Dakle, PA uzima u obzir varijabilitet koji je rezultat specifičnosti uzorkovanja i može<br />
se posmatrati kao korekcija Kajzerovog kriterija jer pruža egzaktnu polaznu osnovu za<br />
eliminaciju faktora čija varijansa nije veća od one koja bi se očekivala kod nasumičnih podataka<br />
gdje ne postoje nikakve latentne dimenzije (Subotić, 2013).<br />
Međutim i pored toga što je PA najprecizniji pristup za utvrđivanje broja faktora ona se znatno<br />
slabije koristi u odnosu na pretodne dva pristupa. Osnovni razlog je to što PA dugo vremena<br />
nije bila dostupna u većini široko rasprostranjenih softverskih paketa za statističku obradu<br />
podataka (Williams et al., 2012).<br />
Procenat ekstrahovane varijanse. Suština ovog pristupa je u tome da zadržimo sve faktore<br />
koji “objašnjavaju” određeni postotak varijanse (npr. 5 ili 10%). Druga varijanta ovog kriterija<br />
se bazira na zadržavanju onoliko faktora koliko je potrebno da se objasni određeni kumulativni<br />
iznos varijanse. U društvenim naukama se obično uzima da je to najmanje 50% (Sarstedt<br />
& Mooi, 2014) ili 60% ukupne varijanse (Hair et al., 2006(Malhotra, 2010). Vidimo da su<br />
procenti koji se koriste kao kriterij arbitrarni pa je ovaj pristup često kritikovan zbog prevelike<br />
subjektivnosti (O'Rourke et al., 2005).<br />
Kriterij interpretabilnosti. Ovo je vjerovatno pristup koji je najviše u duhu faktorske analize.<br />
Njegova suština je u tome da se zadrže faktori koji se mogu smisleno tumačiti i opisati.<br />
(O'Rourke et al., 2005)) predlažu nekoliko kriterija koji nam mogu pomoći da se utvrdi da li su<br />
faktori interpretabilni: a) izvedeni faktor bi trebao biti povezan bar sa tri varijable indikatora,<br />
b) varijable indikatori koje su vezane za isti faktor bi trebale međusobno dijeliti isto<br />
konceptualno značenje i c) faktorsko rješenje nakon rotacije bi trebalo imati tzv. jednostavnu<br />
strukturu, što znači da se svaka varijabla indikator primarno učitava samo na jedan faktor.<br />
A priori kriterij. Suština ovog kriterija da istraživač unaprijed odredi broj faktora koje treba<br />
izdvojiti. Obično se koristi kada želimo replicirati rezultate prethodnih istraživanja i izdvojiti<br />
isti broj faktora koji su ranije otkriveni. Na primjer, ako znamo da je u prethodnim<br />
istraživanjima na bazi istog upitnika izdvojeno pet faktora, možemo se voditi time da i mi<br />
trebamo izdvojiti pet faktora. Većina statističkih paketa omogućava korisniku da specificira<br />
20
tačan broj faktora, što omogućava laku implementaciju ovog pristupa. 8 Ipak, situacije u kojima<br />
unaprijed znamo broj i karakteristike faktora zalaze u područje konfirmativne faktorske analize<br />
koju je metodološki ispravnije koristiti ako želimo validirati nalaze iz ranijih istraživanja<br />
(Sarstedt & Mooi, 2014).<br />
Obzirom na sve navedeno, postavlja se pitanje koji je pristup najbolje koristiti. U praksi<br />
istraživači najčešće kombinuju više kriterija kako bi dobili jasniju sliku o broju faktora koje<br />
treba zadržati. Obično se za dobijanje inicijalnog rješenja koristi Kajzerov kriterij. Zatim se<br />
gleda dijagram prevoja, procenat izdvojene varijanse i šta sugeriše paralelna analiza. U<br />
narednim koracima se za svako dobijeno rješenje utvrđuje interpretabilnost. Ukoliko ne postoji<br />
konsenzus jer svaki pristup sugeriše drugačije rješenje, onda se analiza ponavlja nekoliko puta.<br />
Pri tome se svaki put izdvaja različit broj faktora sve dok se ne dođe do zadovoljavajućeg<br />
rezultata i konačne odluke.<br />
Primjer 2 - nastavak<br />
U našem primjeru krenućemo sa Kajzerovim pristupom. Naredba za izdvajanje faktora je:<br />
factor varlist, mineigen(1) pcf<br />
gdje se varlist odnosi na varijable koje ubacujemo u analizu, opcija minegen(1) Stati daje<br />
instrukciju da izdvoji sve faktore sa karakterističnom vrijednošću većom od 1. Obzirom da smo<br />
se ranije odlučili za principal-component factor metod estimacije to smo u naredbi eksplicitno<br />
naveli korištenjem opcije pcf. U konkretnom slučaju biće<br />
. factor lokacija-asortiman, mineigen(1) pcf<br />
(obs=323)<br />
Factor analysis/correlation Number of obs = 323<br />
Method: principal-component factors Retained factors = 5<br />
Rotation: (unrotated) Number of params = 65<br />
--------------------------------------------------------------------------<br />
Factor | Eigenvalue Difference Proportion Cumulative<br />
-------------+------------------------------------------------------------<br />
Factor1 | 4.63347 3.09505 0.3089 0.3089<br />
Factor2 | 1.53842 0.15158 0.1026 0.4115<br />
Factor3 | 1.38684 0.26955 0.0925 0.5039<br />
Factor4 | 1.11729 0.06808 0.0745 0.5784<br />
Factor5 | 1.04922 0.24954 0.0699 0.6483<br />
Factor6 | 0.79968 0.05187 0.0533 0.7017<br />
Factor7 | 0.74781 0.08891 0.0499 0.7515<br />
Factor8 | 0.65890 0.05443 0.0439 0.7954<br />
Factor9 | 0.60447 0.09610 0.0403 0.8357<br />
Factor10 | 0.50837 0.02220 0.0339 0.8696<br />
Factor11 | 0.48617 0.02576 0.0324 0.9020<br />
Factor12 | 0.46042 0.04562 0.0307 0.9327<br />
Factor13 | 0.41479 0.09563 0.0277 0.9604<br />
Factor14 | 0.31916 0.04418 0.0213 0.9817<br />
Factor15 | 0.27498 . 0.0183 1.0000<br />
--------------------------------------------------------------------------<br />
LR test: independent vs. saturated: chi2(105) = 1418.09 Prob>chi2 = 0.0000<br />
Factor loadings (pattern matrix) and unique variances<br />
8<br />
Na primjer, ako Stati želimo dati instrukciju da izdvoji n faktora, koristeći pricipal-component factor metod<br />
estimacije, naredba će biti: factor varlist, factor(5) pcf<br />
21
-------------------------------------------------------------------------------<br />
Variable | Factor1 Factor2 Factor3 Factor4 Factor5 | Uniqueness<br />
-------------+--------------------------------------------------+--------------<br />
lokacija | 0.5523 -0.3748 0.6044 -0.0264 -0.0447 | 0.1865<br />
parking | 0.6242 -0.3354 0.5008 -0.0305 -0.1318 | 0.2288<br />
promocije | 0.4808 -0.4021 -0.1859 -0.0381 -0.0056 | 0.5711<br />
cijene | -0.3206 0.5572 0.4896 0.1697 0.0515 | 0.3155<br />
nag_igre | 0.4764 -0.5498 -0.3676 -0.0463 -0.0049 | 0.3334<br />
komp_osob | 0.6377 0.1358 -0.0674 0.3375 -0.1855 | 0.4220<br />
br_blagajni | 0.6625 0.0227 -0.1426 -0.0575 -0.2917 | 0.4518<br />
ljubaznost | 0.6576 0.2517 -0.1647 0.3949 -0.1778 | 0.2896<br />
atmosfera | 0.4302 0.3856 -0.1394 -0.3776 -0.2886 | 0.4210<br />
izgled | 0.5854 0.3346 -0.0493 -0.2503 0.0073 | 0.4802<br />
rad_vrijeme | 0.5814 -0.0302 0.4226 0.1709 0.3546 | 0.3274<br />
usl_osob | 0.6297 0.2359 -0.1140 0.4826 -0.0718 | 0.2968<br />
higijena | 0.6377 0.2434 0.0452 -0.3340 0.2294 | 0.3680<br />
dekor | 0.5582 0.2271 0.0225 -0.4480 0.1940 | 0.3979<br />
asortiman | 0.3455 0.0245 -0.3056 0.1747 0.7560 | 0.1845<br />
-------------------------------------------------------------------------------<br />
U prvom dijelu outputa, vidimo da je prema Kajezorovom kriteriju zadržano ukupno pet faktora<br />
kod kojih je eigenvalue > 1. U koloni “Proportion” vidimo relativni ponder svakog faktora u<br />
ukupnoj varijasni. Prvi faktor objašnjava 30,9% ukupne varijanse, drugi 10,3% itd. Pet<br />
izdvojenih faktora zajedno objašnjava 64,8% ukupne variajanse. U gornjem desnom uglu<br />
možemo vidjeti da krajnja veličina uzorka, nakon što su eliminisane sve opservacije koje imaju<br />
nedostajuće podatke po jednoj ili više varijabli, iznosi 323 opservacije.<br />
Drugi dio outputa pod nazivom „Factor loadings (pattern matrix) and unique variances“<br />
predstavlja inicijalno nerotirano rješenje sa koeficijentima učitavanja varijabli indikatora na<br />
faktore. Učitavanja na faktor (engl. factor loadings) predstavljaju korelaciju između<br />
manifestne varijable i datog faktora. Veličina koeficijenta upućuje na važnost varijable pri<br />
definisanju dimenzionalnosti faktora. Negativna vrijednost indicira inverzni uticaj na faktor.<br />
Više riječi o ovom outputu će biti riječi na početku narednog koraka.<br />
Sada ćemo od State zatražiti dijagram prevoja:<br />
screeplot, yline(1)<br />
22
Slika 5 – Dijagram prevoja za podatke iz primjera 2<br />
Opcija yline(1) poslužila je da na dijagramu povućemo horizontalnu liniju kojoj odgovara<br />
eigenvalue = 1, odnosno ranije pomenuti Kajzerov kriterij. Možemo vidjeti da se posljednji<br />
veći pad, nakon kojeg krivudava linija postane ravnija, dešava na prelazu iz tačke 5 u tačku 6<br />
na x-osi. Samim tim tačka 6 bi predstavljala tačku preloma. Ako se vodimo time da treba<br />
izdvojiti onoliko faktora koliko ih ima prije tačke preloma, onda možemo zaključiti da nam<br />
dijagram prevoja sugeriše izdvajanje 5 faktora.<br />
Na kraju ćemo uraditi i paralelnu analizu (PA) za koju nam je potreban paket paran 9 . Ovaj paket<br />
se bazira na klasičnoj paralelnoj analizi (Horn 1965) i naknadno razvijenoj Monte Carlo<br />
nadogradnji (Dinno, 2009). Naredba je:<br />
. paran lokacija-asortiman, factor(pcf) iter(100) graph quietly seed(1)<br />
Opcija factor(pcf) se odnosi na metod estimacije i pristup koji koristimo 10 , iter(100) se odnosi<br />
na broj slučajno generisanih setova podataka, 11 graph je za dobijanje grafika, opcija quetly služi<br />
da “potisnemo” nepotrebni dio outputa (da Stata ne prikazuje dio rezultata koji se izračuna ali<br />
nam nije bitan za tumačenje) i na kraju seed(1) je opcija koja nam pomaže da repliciramo<br />
istovjetan output 12 .<br />
9<br />
Za više detalja pogledati: Dinno, Alexis (2009): Implementing Horn’s parallel analysis for principal component<br />
analysis and factor analysis. In The Stata Journal 9 (2), pp. 291–298.<br />
10<br />
Da nismo naveli ovu opciju, podrazumjevalo bi se da koristimo PCA.<br />
11<br />
Bez navođenja, podrazumjevani broj je 30. Veći broj rezultira većom preciznošću ali za velike skupove<br />
podataka može rezultirati dugim vremenom izračuna.<br />
12<br />
Naime, obzirom da Stata genriše slučajne setove, rezultat PA može u manjoj mjeri varirati od analize do analize.<br />
Opcija seed daje nalog Stati da uvijek koristi isti skup slučajno generisanih setova (u našem primjeru označenih<br />
sa brojem 1) kako bi se omogućila replikacija rezultata ako ponovimo komandu za PA na istom skupu podataka.<br />
23
Results of Horn's Parallel Analysis for principal components factors<br />
100 iterations, using the mean estimate<br />
--------------------------------------------------<br />
Component Adjusted Unadjusted Estimated<br />
or Factor Eigenvalue Eigenvalue Bias<br />
--------------------------------------------------<br />
1 3.3213835 4.6334689 1.3120854<br />
2 .24694682 1.538416 1.2914692<br />
3 .18858222 1.3868391 1.1982569<br />
4 -.01766087 1.1172929 1.1349537<br />
5 -.0358335 1.0492158 1.0850493<br />
6 -.25974195 .79967721 1.0594192<br />
7 -.27466194 .74781008 1.022472<br />
8 -.31743126 .65890033 .97633159<br />
9 -.35729036 .60447159 .96176195<br />
10 -.42242302 .50837348 .9307965<br />
11 -.39904981 .48617454 .88522434<br />
12 -.39549569 .46041884 .85591453<br />
13 -.40650338 .41479451 .82129788<br />
14 -.43008702 .31916459 .7492516<br />
15 -.44073359 .27498223 .71571583<br />
--------------------------------------------------<br />
Criterion: retain adjusted factors > 0<br />
Prema Hornovom kriteriju trebali bi izdvojiti faktore za koje su nekorigovane karakteristične<br />
vrijednosti (kolona „Unadjusted Eigenvalue“) veće od nekorigovanih (kolona „Estimated<br />
Bias“). Output pokazuje da je to slučaj za prva tri faktora. Vrijednosti na bazi dobijenog outputa<br />
su grafički predstavljene na slici 6.<br />
Slika 6 – Rezultati paralelne analize<br />
Isprekidana linija (observed) je identična liniji koju smo ranije imali na dijagramu prevoja.<br />
Linija sa tačkicama (random) predstavlja dijagram prevoja za prosječne karakteristične<br />
24
vrijednosti dobijene za slučano generisane podatke. Korigovane karakteristične vrijednosti<br />
(adjusted) su predstavljene punom linijom. Hornov kriterij odgovara tačci koja se nalazi prije<br />
mjesta gdje linija sa korigovanim vrijednostima siječe horizontalnu liniju koja se nalazi na y =<br />
1, što je u ovom slučaju jednako broju 3 na x-osi.<br />
Dakle, doslovno tumačenje rezultata PA indicira da bi trebali zadržati tri faktora. Međutim,<br />
obratimo pažnju da je razlika između korigovanih i nekorigovanih vrijednosti za faktore 4 i 5<br />
izuzetno mala, što se vidi i na grafiku gdje se korigovana linija za vrijednosti na x-osi od 4 do<br />
5 gotovo poklapa sa horizontalnom linijom na y = 1. To implicira da je potrebno zadržati<br />
minimalno tri faktora ali uz mogućnost da se stvarni broj faktora može nalaziti u rasponu od 3<br />
do 5.<br />
Na osnovu svega možemo zaključiti da postoji konsenzus između Kajzerovog kriterija,<br />
dijagrama prevoja i paralelne analize u pogledu toga da je u redu inicijalno zadržati 5 faktora.<br />
Obzirom da tih 5 faktora objašnjava više od 60% varijanse možemo reći da je ispunjen i kriterij<br />
koji se tiče procenta ekstrahovane varijanse. U nastavku ćemo pokušati tumačiti 5 zadržanih<br />
faktora pa ćemo vidjeti da li je broj faktora optimalan i po kriteriju interpretabilnosti.<br />
4.4. ROTACIJA FAKTORA<br />
Nakon što smo odredili broj faktora, dobijene rezultate bi trebalo interpretirati. Korištenjem<br />
naredbe za estrakciju faktora prema Kajzerovom kriteriju Stata nam je u okviru ranijeg<br />
outputa 13 već dala rezultate rješenja za pet faktora. Međutim, iako inicijalno rješenje daje<br />
naznaku o vezi između varijabli indikatora i faktora, ono rijetko rezultira faktorima koje je lako<br />
interpretirati jer nerotirani faktori istovremeno koreliraju sa mnoštvom varijabli.<br />
4.4.1. Zbog čega nam je potrebna faktorska rotacija?<br />
Obično postoji nekoliko problema sa nerotiranim rješenjem. Prvo, u takvom rješenju se dobije<br />
da je prvi faktor ujedno i generalni faktor, što znači da se većina varijabli jako učitava na njega.<br />
Najčešće je to posljedica činjenice da su se podaci prikupljali anketiranjem čime se u analizu<br />
unosi određeni stepen "vještačkih" (engl. spurious) korelacija. Pri tumačenju nas interesuju<br />
odnosi između varijabli nakon što eliminišemo ove neželjene korelacije. Drugi problem je<br />
faktorska složenost (engl. factorial complexity) koja odražava činjenicu da se neke varijable<br />
učitavaju na dva ili više faktora. Treći problem je što se većina učitavanja obično nalazi u<br />
srednjem rasponu (između 0,50 i 0,70) pa je teško razlučiti koja varijabla pripada kojem faktoru<br />
(Norman & Streiner, 2003). Sve ovo otežava interpretaciju dobijenog rezultata, pa je se za<br />
prevazilaženje navedenih problema poželjno koristiti rotaciju faktora.<br />
4.4.2. Pojam rotacije faktora<br />
Sam termin "rotacija", se koristi kako bi se opisalo pomjeranje faktorskih osa na način da se što<br />
više približe grupama varijabli kao što je prikazano na slici 7. Nakon pomjeranja osa postiže se<br />
mnogo jasniji obrazac faktorskih učitavanja. Dakle, osnovni cilj rotacije je da se pokušaju dobiti<br />
čistiji rezultati faktorske analize koje istraživač može lakše interpretirati.<br />
13<br />
Pogledati dio outputa pod nazivom „Factor loadings (pattern matrix) and unique variances“ kojeg smo dobili u<br />
ranijem koraku.<br />
25
Slika 7 - Grafičko predstavljanje rotacije faktora<br />
Izvor: Field (2000)<br />
Ako pogledamo sliku 7 možemo uočiti da se nakon rotacije grupe varijabli indikatora koje su<br />
predstavljene kružićima nalaze mnogo bliže faktorskim osama. Prva grupa varijabli, koja se<br />
prije rotacije nalazila u gornjem desnom kvadrantu, će nakon rotacije imati mnogo jača<br />
učitavanja na faktor 2. Druga grupa varijabli, koja se prije rotacije nalazila u donjem desnom<br />
kvadrantu, će nakon rotacije imati mnogo jača učitavanja na faktor 1.<br />
4.4.3. Vrste rotacije<br />
Zavisno od ugla pod kojim se održava razmak između x i y-ose postoje dvije vrste rotacija.<br />
Ortogonalne (engl. orthogonal) rotacije rezultiraju faktorima koji međusobno ne koreliraju jer<br />
se prilikom rotacije između osa održava ugao od 90°. Kose (engl. oblique) rotacije dozvoljavaju<br />
da faktori u nekoj mjeri međusobno koreliraju obzirom da prilikom rotacije ugao između osa<br />
ne mora biti 90°. Unutar ove dvije generalne vrste postoji nekoliko algoritama za provođenje<br />
same rotacije. Stata ih nudi sedam i oni su predstavljeni unutar tabele 7.<br />
Tabela 7 - Prikaz različitih algoritama za rotacije unutar statističkog paketa Stata<br />
Rotacija* Vrsta Naredba u Stati Napomena<br />
Varimax Ortogonalna rotate Podrazumjevana rotacija u Stati<br />
Varimax sa Kajzerovom<br />
normalizacijom<br />
Ortogonalna rotate, kaiser Podrazumjevana rotacija u<br />
SPSS-u<br />
Quartimax Ortogonalna rotate, quartimax<br />
Equamax Ortogonalna rotate, equamax<br />
Oblimin Kosa rotate, oblimin<br />
Promax Kosa rotate, promax<br />
* Napomena: naredba rotate se koristi isključivo nakon naredbe factor.<br />
Ortogonalne rotacije su matematski jednostavnije i daju rješenja koja se lakše interpretiraju.<br />
Unutar ove kategorije najčešće se koristi Varimax rotacija koja predstavlja podrazumjevanu<br />
rotaciju u većini statističkih paketa.<br />
Međutim, u društvenim naukama su rijetke situacije kada u stvarnosti očekujemo da su faktori<br />
međusobno potpuno nezavisni i da uopšte ne koreliraju. Iako je rešenja dobijena uz pomoć<br />
26
kosih rotacija nekada teže protumačiti i opisati, smatra se da će one dati identičan ili bolji<br />
rezultat u odnosu na ortogonalne. Nema posebno preferiranog metoda kose rotacije. Iako su<br />
matematski algoritmi na kojima se baziraju različiti, sve metode iz ove kategorije daju slične<br />
rezultate (Osborne, 2015).<br />
4.4.4. Koji metod rotacije izabrati?<br />
Istraživača ništa ne sprječava da pokuša doći do rješenja koristeći nekoliko različitih metoda<br />
rotacije i da na kraju odabere onu metodu koja je rezultirala po njegovom mišljenju najboljim,<br />
odnosno najsmislenijim rješenjem. Pri tome se smatra da je rješenje koje daje tzv. jednostavnu<br />
strukturu ujedno i najbolje rješenje. Jednostavnu strukturu (engl. simple structure) imamo<br />
kada svaka varijabla indikator ima visoko učitavanje na samo jedan faktor, dok su njena<br />
učitavanja na ostale faktore vrlo niska < |.30| (Costello & Osborne, 2005).<br />
Bitno je napomenuti da sama rotacija ne mijenja osnovne aspekte analize. Na primjer, iako će<br />
karakteristične vrijednosti (engl. eigenvalues) biti drugačije, ukupno "objašnjena" varijansa i<br />
broj izdvojenih faktora će ostati isti.<br />
Primjer 2 - Nastavak<br />
U našem primjeru ćemo iskoristiti Varimax rotaciju sa Kajzerovom normalizacijom:<br />
. rotate, kaiser blank (.30)<br />
Factor analysis/correlation Number of obs = 323<br />
Method: principal-component factors Retained factors = 5<br />
Rotation: orthogonal varimax (Kaiser on) Number of params = 65<br />
--------------------------------------------------------------------------<br />
Factor | Variance Difference Proportion Cumulative<br />
-------------+------------------------------------------------------------<br />
Factor1 | 2.31493 0.07231 0.1543 0.1543<br />
Factor2 | 2.24262 0.14515 0.1495 0.3038<br />
Factor3 | 2.09748 0.19531 0.1398 0.4437<br />
Factor4 | 1.90217 0.73414 0.1268 0.5705<br />
Factor5 | 1.16803 . 0.0779 0.6483<br />
--------------------------------------------------------------------------<br />
LR test: independent vs. saturated: chi2(105) = 1418.09 Prob>chi2 = 0.0000<br />
27
Rotated factor loadings (pattern matrix) and unique variances<br />
-------------------------------------------------------------------------------<br />
Variable | Factor1 Factor2 Factor3 Factor4 Factor5 | Uniqueness<br />
-------------+--------------------------------------------------+--------------<br />
lokacija | 0.8779 | 0.1865<br />
parking | 0.8089 | 0.2288<br />
promocije | 0.5784 | 0.5711<br />
cijene | -0.8248 | 0.3155<br />
nag_igre | 0.7851 | 0.3334<br />
komp_osob | 0.7025 | 0.4220<br />
br_blagajni | 0.4638 0.4059 0.3422 | 0.4518<br />
ljubaznost | 0.8040 | 0.2896<br />
atmosfera | 0.6743 | 0.4210<br />
izgled | 0.6523 | 0.4802<br />
rad_vrijeme | 0.6387 0.4116 | 0.3274<br />
usl_osob | 0.7998 | 0.2968<br />
higijena | 0.6972 | 0.3680<br />
dekor | 0.7248 | 0.3979<br />
asortiman | 0.8608 | 0.1845<br />
-------------------------------------------------------------------------------<br />
(blanks represent abs(loading) |0,30| (Burns & Burns,<br />
2008).<br />
Kad je riječ o imenovanju faktora bitno je napomenuti da je to subjektivni proces. Nekada je<br />
preporučljivo zamoliti više osoba da, nezavisno jedni od drugih, pokušaju imenovati faktore<br />
tako što će naći najmanje zajedničke sadržioce koji povezuju varijable indikatore. Ako su na<br />
taj način dobijeni nazivi međusobno slični onda možemo biti sigurni da su faktori pravilno<br />
imenovani (Huck, 2012).<br />
Primjer 2 -Nastavak<br />
Iz prethodno dobijenog outputa možemo vidjeti da se na faktor 1 učitavaju varijable<br />
kompetentnost osoblja, broj blagajni, ljubaznost i uslužnost osoblja. Najmanji zajednički<br />
sadržilac koji povezuje ove varijable su zaposlenici tržnog centra koji su u dodiru sa kupcima.<br />
Samim tim ovaj faktor ćemo nazvati “Osoblje”. Jedini eventualni izuzetak je varijabla broj<br />
blagajni. Ona se unakrsno učitava i na faktor 2 i nešto slabije na faktor 4. Pored toga,<br />
koeficijenti učitavanja za ovu varijablu su relativno niski. Obzirom da pomenuta varijabla ima<br />
otprilike jednako učitavanje na dva faktora, jasno je da se ona ne uklapa baš najbolje u<br />
faktorsko rješenje i da je kandidat za eliminaciju.<br />
28
Na faktor 2, pored već pomenute varijable broj blagajni, učitavaju se varijable atmosfera,<br />
vanjski izgled, higijena i dekor/stajling. Ovo su prvenstveno elementi estetskog doživljaja<br />
tržnog centra pa smo taj faktor odlučili da nazovemo “Izgled”.<br />
Faktor 3 je povezan sa tri varijable indikatora lokacija, parking i radno vrijeme. Sve tri varijable<br />
se odnose na elemente koji su vezani za pristupačnost tržnog centra kupcima pa ćemo ovaj<br />
faktor nazvati “Pogodnost pristupa”.<br />
Na faktor 4 se primarno učitavaju varijable cijene, promocije i nagradne igre. Sve tri varijable<br />
su povezane sa različitim novčanim benefitima koje kupci mogu ostvariti posjetom tržnom<br />
centru pa smo shodno tome ovaj faktor nazvali “Novčani benefiti”. Obratimo pažnju da je<br />
koeficijent učitavanja za varijablu cijene negativan. Ako se prisjetimo upitnika (tabela 3) to ne<br />
iznenađuje obzirom da je tvrdnja vezana za cijene bila negativno konotirana. Negativan<br />
predznak samo indicira da vrijednost varijable korelira u suprotnom smjeru u odnosu na ostale<br />
varijable koje se učitavaju na dati faktor.<br />
Konačno, na faktor 5 se učitava samo varijabla asortiman. Ovo implicira da je ta varijabla priča<br />
za sebe. Dakle, možemo zakljkučiti da je jedan od bitnih aspekata izbora tržnog centra<br />
vjerovatno i raznolikost asortimana, ali obzirom da je taj faktor predstavljen samo jednom<br />
varijablom, preporuka je da se ona izostavi iz faktorske analize. Ukoliko se ukaže potreba,<br />
varijablu asortiman uvijek možemo koristiti kao zasebnu varijablu u daljnim analizama.<br />
4.6. RESPECIFKACIJA FAKTORSKOG MODELA<br />
Ranije smo rekli da je optimalno rješenje ono koje ima jednostavnu strukturu, što znači da svaka<br />
varijabla ima jako učitavanje na samo jedan faktor i da varijable koje se učitavaju na isti faktor<br />
imaju isto konceptualno značenje. Također, poželjno je da svaki faktor ima najmanje tri<br />
varijable indikatora.<br />
4.6.1. Kada je potrebno respecificirati faktorski model?<br />
Međutim, nekada će se desiti da nakon rotacije imamo: a) varijable koje nemaju visoko<br />
učitavanje niti na jedan faktor, b) varijable koje imaju visok iznos unikatne varijanse 14 i c)<br />
varijable koje imaju unakrsna učitavnja (engl. cross-loading) na dva ili više faktora. Hair et al.<br />
(2006) predlažu da se u ovakvim situacijama razmotri respecifikacija modela koja može<br />
uključivati nekoliko opcija:<br />
1. Izbacivanje problematičnih varijabli iz analize.<br />
2. Korištenje alternativnog metoda rotacije.<br />
3. Smanjenje/povećanje broja zadržanih faktora.<br />
4. Odabir drugačijeg pristupa izdvajanju faktora ili metode estimacije.<br />
4.6.2. Šta podrazumjevamo pod respecifikacijom faktorskog modela?<br />
14<br />
Obično se smatra da varijabla ima visok iznos unikatne varijanse ako on prelazi 50% ukupne varijanse (Hair et<br />
al., 2006, p. 131)<br />
29
Pod pojmom respecifikacije faktorskog modela podrazumijevamo ponavljanje cjelokupne<br />
analize ali uz modifikacije. Na primjer, možemo pokušati izbaciti problematične varijable (one<br />
koje se unakrsno učitavaju, imaju nisko učitavanje ili stoje same za sebe) i ponoviti analizu da<br />
vidimo da li je problem riješen.<br />
Ponekad je potrebno uraditi više uzastopnih respecifikacija. Istraživač može koristiti<br />
pragmatični pristup, što znači da je moguće eksperimentisati sa različitim opcijama ili njihovim<br />
kombinacijama dok se ne dobije zadovoljavajući rezultat. Ukoliko istraživač smatra da je<br />
neophodno uraditi više modifikacija, najbolje je svaku obaviti zasebno. Na primjer, ako<br />
smatramo da je potrebno izbaciti više od jedne varijable preporučljivo je izbacivati ih jednu po<br />
jednu, uz ponavljanje analize nakon izbacivanja svake pojedinačne varijable. Bez obzira koje<br />
opcije koristilii i koliko respecifikacija uradili, krajnji cilj je da se dobije faktorsko rješenje koje<br />
ima empirijsko i konceptulano utemeljenje (Hair et al., 2006).<br />
4.6.3. Šta ako respecifikacija ne pomogne?<br />
Ukoliko nakon nekoliko ponovljenih respecifikacija imamo situaciju da se relativno veliki broj<br />
varijabli indikatora i dalje unakrsno učitava na više faktora, ili ako ne možemo naći najmanji<br />
zajednički sadržilac koji povezuje grupisane varijable, to implicira da vjerovatno postoji<br />
problem sa podacima. Problem se može javiti ukoliko je uzorak nedovoljne veličine i u tom<br />
slučaju je potrebno prikupiti još podataka (Costello & Osborne, 2005). Ukoliko veličina uzorka<br />
nije sporna, onda je vjerovatno da postoji problem sa sadržajnom validnošću pitanja koje<br />
ispitanici nisu razumjeli kada su odgovarali. U tom slučaju istraživač bi trebao odbaciti<br />
prikupljene podatke i istraživanje započeti od početka, tj. od ponovnog dizajniranja upitnika.<br />
Primjer 2 - Nastavak<br />
U našem slučaju smo respecificirali inicijalno faktorsko rješenje tako što smo prvo izbacili<br />
varijablu asortiman koristeći naredbe:<br />
. factor lokacija-dekor, mineigen(1) pcf<br />
(output izostavljen)<br />
. rotate, varimax kaiser blank (0.30)<br />
(output izostavljen)<br />
Korištenje Kajzerovog kriterija u ponovljenoj analizi je rezultiralo zadržavanjem četiri faktora<br />
koja su u potpunosti odgovarala prethodno dobijenim i opisanim faktorima. Obzirom da je<br />
varijabla broj blagajni i dalje imala unakrsno učitavanje, odlučili smo da je izbacimo i<br />
ponovimo analizu još jedanput. Finalno rješenje je predstavljeno u okviru sljedećeg outputa:<br />
. factor lokacija-komp_osob ljubaznost-dekor, mineigen(1) pcf<br />
(obs=324)<br />
Factor analysis/correlation Number of obs = 324<br />
Method: principal-component factors Retained factors = 4<br />
Rotation: (unrotated) Number of params = 46<br />
--------------------------------------------------------------------------<br />
Factor | Eigenvalue Difference Proportion Cumulative<br />
-------------+------------------------------------------------------------<br />
Factor1 | 4.15549 2.61630 0.3197 0.3197<br />
30
Factor2 | 1.53918 0.20694 0.1184 0.4381<br />
Factor3 | 1.33224 0.21955 0.1025 0.5405<br />
Factor4 | 1.11269 0.33763 0.0856 0.6261<br />
Factor5 | 0.77506 0.02244 0.0596 0.6857<br />
Factor6 | 0.75262 0.09563 0.0579 0.7436<br />
Factor7 | 0.65699 0.08108 0.0505 0.7942<br />
Factor8 | 0.57591 0.03126 0.0443 0.8385<br />
Factor9 | 0.54465 0.06765 0.0419 0.8804<br />
Factor10 | 0.47700 0.05994 0.0367 0.9171<br />
Factor11 | 0.41706 0.04696 0.0321 0.9491<br />
Factor12 | 0.37009 0.07909 0.0285 0.9776<br />
Factor13 | 0.29100 . 0.0224 1.0000<br />
--------------------------------------------------------------------------<br />
LR test: independent vs. saturated: chi2(78) = 1183.63 Prob>chi2 = 0.0000<br />
(dio outputa izostavljen)<br />
Zatim smo uradili rotaciju:<br />
. rotate, varimax kaiser blank (0.30)<br />
Factor analysis/correlation Number of obs = 324<br />
Method: principal-component factors Retained factors = 4<br />
Rotation: orthogonal varimax (Kaiser on) Number of params = 46<br />
--------------------------------------------------------------------------<br />
Factor | Variance Difference Proportion Cumulative<br />
-------------+------------------------------------------------------------<br />
Factor1 | 2.13787 0.01228 0.1645 0.1645<br />
Factor2 | 2.12559 0.05249 0.1635 0.3280<br />
Factor3 | 2.07310 0.27005 0.1595 0.4874<br />
Factor4 | 1.80305 . 0.1387 0.6261<br />
--------------------------------------------------------------------------<br />
LR test: independent vs. saturated: chi2(78) = 1183.63 Prob>chi2 = 0.0000<br />
Rotated factor loadings (pattern matrix) and unique variances<br />
---------------------------------------------------------------------<br />
Variable | Factor1 Factor2 Factor3 Factor4 | Uniqueness<br />
-------------+----------------------------------------+--------------<br />
lokacija | 0.8704 | 0.2077<br />
parking | 0.8030 | 0.2708<br />
promocije | 0.5979 | 0.5543<br />
cijene | -0.8344 | 0.2983<br />
nag_igre | 0.7837 | 0.3433<br />
komp_osob | 0.6818 | 0.4424<br />
ljubaznost | 0.8009 | 0.2831<br />
atmosfera | 0.6583 | 0.5303<br />
izgled | 0.6629 | 0.4715<br />
rad_vrijeme | 0.6838 | 0.4222<br />
usl_osob | 0.8344 | 0.2533<br />
higijena | 0.7144 | 0.3887<br />
dekor | 0.7431 | 0.3946<br />
---------------------------------------------------------------------<br />
(blanks represent abs(loading)
na iste faktore pa i njihovi nazivi ostaju isti. Ovako dobijeno krajnje rješenje objašnjava 62.7%<br />
ukupne varijanse što je sasvim zadovoljavajući postotak.<br />
4.7. PROVJERA POUZDANOSTI<br />
Nakon što smo identifikovali koje tvrdnje predstavljaju faktore, trebali bi provjeriti njihovu<br />
pouzdanost i validnost. Obzirom da se testiranje validnosti radi putem konfirmativne faktorske<br />
analize (CFA), u ovom koraku ćemo testirati samo pouzdanost primjenom Kronbahovog alfa<br />
koeficijenta kojim se mjeri interna konzistentnost skale. Koeficijent alfa varira u rasponu od 0<br />
do 1, gdje veće vrijednosti označavaju veću internu konzistentnost. U tabeli 8 su data ubičajena<br />
tumačenja dobijenog alfa koeficijenta.<br />
Tabela 8 – Vrijednosti i tumačenje Kronbahovog alfa koeficijenta<br />
Cronbach's<br />
Alpha<br />
≥ .9<br />
≥ .8<br />
≥ .7<br />
≥ .6<br />
≥ .5<br />
Interna<br />
konzistentnost<br />
Odlična<br />
Dobra<br />
Prihvatljiva<br />
Upitna<br />
Slaba<br />
< .5 Neprihvatljiva<br />
Izvor: George and Mallery (2003)<br />
U literaturi obično preporučuje da vrijednost ovog koeficijenta bude 0.7 ili veća. Preporuka se<br />
bazira na radu kojeg je objavio Nunnally (1978) u kojem je data sugestija da bi u ranim fazama<br />
istraživanja (npr. tokom razvoja skale) koeficijent alfa trebao biti minimalno 0.7 dok bi u<br />
primijenjenim istraživanjima trebao biti viši od 0.8 ili 0.9. Drugi istraživači smatraju da ovu<br />
generalnu preporuku treba imati u vidu ali da prihvatljiva visina koeficijenta zavisi od<br />
specifičnosti svake studije. Tako Hair et al. (2006) navode da se u eksplorativnim studijama<br />
vrjednosti veće od 0.6 mogu uzeti kao prihvatljive. Kod tumačenja i računanja Kronbahovog<br />
alfa koeficijenta kao mjere interne konzistentnosti trebamo obratiti pažnju na dvije stvari:<br />
Prvo, sa porastom broja itema unutar skale dolazi do inflacije vrijednosti izračunatog<br />
koeficijenta. Zato je za skale sa većim brojem stavki poželjno primijeniti strožije kriterije u<br />
pogledu visine dobijenog koeficijenta. Cortina (1993) je u svojoj studiji demonstrirao da skale<br />
koje imaju jako niske međukorelacije između itema (r < |.30|) mogu imati relativno visok<br />
koeficijent alfa (> 0.7) kako se broj itema približava 20.<br />
Drugo, istraživači trebaju biti oprezni ukoliko skala sadrži negativno konotirane tvrdnje jer one<br />
narušavaju internu konzistentnost. Zato ih je prije računanja Kronbah alfe koeficijenta potrebno<br />
rekodirati, odnosno “obrnuti” reverzno postavljena pitanja, tako da njihovi odgovori imaju isti<br />
smijer kao i odgovori na ostala pitanja koja čine istu skalu. 15<br />
15<br />
Stata obično zna prepoznati koja pitanja su negativno konotirana (smjer varijable na outputu je naznačen u<br />
koloni "Sign" sa + ili -). To znači da je svejedno da li koristimo rekodiranu ili originalnu varijablu kada<br />
32
Treće, alfa koeficijent nije pokazatelj unidimenzionalnosti skale. Naime, nisu rijetke situacije<br />
da se visoka alfa vrijednost interpretira kao potvrda toga da tvrdnje mjere jednu dimenziju<br />
konstrukta. Korištenje alfa koeficijenta u tu svrhu je pogrešno jer je moguće imati visoku<br />
vrijednost koeficijenta uprkos tome što skala ima više dimenzija (Cortina, 1993).<br />
Primjer 2 - Nastavak<br />
Kronbahov alfa koeficijent u Stati možemo dobiti korištenjem naredbe:<br />
. alpha varlist, item casewise asis<br />
Opcija item pokazuje dodatni output na osnovu kojeg možemo vidjeti kako se mijenja<br />
Kronbahov alfa koeficijent ako izbacimo pojedinačnu varijablu. Stata podrazumjevano koristi<br />
pairwise opciju za tretiranje nedostajućih podataka. Ukoliko želimo koristi konzervativniji<br />
casewise pristup, što je podrazumjevani pristup u SPSS-u, onda tu opciju trebamo ekspicitno<br />
zatražiti.<br />
Stata automatski prepoznaje reverzno postavljena pitanja i pravi automatsku korekciju pri<br />
računanju Cronbach alpha keficijenta. Ipak, ako to želimo izbjeći potrebno je ukucati opciju<br />
asis.<br />
U našem primjeru, prvo ćemo izračunati pouzdanost za varijable koje su učitavaju na faktor<br />
“Pogodnost pristupa”:<br />
. alpha lokacija parking rad_vrijeme, item<br />
Test scale = mean(unstandardized items)<br />
average<br />
item-test item-rest interitem<br />
Item | Obs Sign correlation correlation covariance alpha<br />
-------------+-----------------------------------------------------------------<br />
lokacija | 332 + 0.8807 0.6931 .3266258 0.6031<br />
parking | 332 + 0.8527 0.6578 .3883341 0.6465<br />
rad_vrijeme | 327 + 0.7544 0.4945 .5796668 0.8144<br />
-------------+-----------------------------------------------------------------<br />
Test scale | .4322956 0.7770<br />
-------------------------------------------------------------------------------<br />
Najvažniji dio outputa je prikazan u zadnjem redu „Test scale“, zadnje kolone „alpha“. Tu<br />
možemo pročitati da ukupni Kronbahov alfa koeficijent za tri itema koja predstavljaju faktor<br />
iznosi 0.777. Na osnovu preporuka unutar tabele 8 zaključujemo da skala kojom se mjeri taj<br />
faktor ima prihvatljivu pouzdanost.<br />
U zadnjoj koloni, iznad ukupnog alfa koeficijenta, nalaze se vrijednosti koje pokazuje koliki bi<br />
bio novi ukupni alfa koeficijent ako bi izostavili datu varijablu. Na primjer, ukoliko bi iz skale<br />
izbacili varijablu radno vrijeme ukupni alfa koeficijent za preostale varijable bi porastao sa<br />
0.777 na 0.814. Na ovaj način možemo identifikovati varijable koje znatno narušavaju<br />
pouzdanost i eliminisati ih kako bi poboljšali pouzdanost skale. Naravno, treba biti oprezan i<br />
računamo pouzdanost jer bi trebali dobiti identičan rezultat. Međutim, u nekim drugim softverskim paketima to<br />
nije slučaj pa je potrebno uraditi rekodiranje.<br />
33
eliminisati samo one varijable čijim izbacivanjem će se ukupni alfa znatno popraviti. U našem<br />
primjeru, poboljšanje koje bi dobili izbacivanjem varijable radno vrijeme nije dovoljno da<br />
opravda njenu eliminaciju iz skale.<br />
Što se tiče ostatka outputa, pomenućemo kolonu “item-test correlation” koja pokazuje koliko<br />
svaka varijabla indikator korelira sa skalom. Međutim, korisniji pokazatelj se nalazi u koloni<br />
“item-rest correlation” 16 gdje možemo vidjeti koliko varijabla korelira sa skalom koja se<br />
izračunava na bazi preostalih varijabli. Poželjno je da taj koeficijent bude što veći. Varijable<br />
koje imaju nisku korelaciju vjerovatno ne mjere isti konstrukt kao ostale varijable.<br />
U nastavku ćemo izračunati pouzdanost za varijable kojima se mjere ostali faktori. Počećemo<br />
sa faktorom „Izgled“:<br />
. alpha dekor higijena izgled atmosfera, item<br />
Test scale = mean(unstandardized items)<br />
average<br />
item-test item-rest interitem<br />
Item | Obs Sign correlation correlation covariance alpha<br />
-------------+-----------------------------------------------------------------<br />
dekor | 332 + 0.7355 0.4650 .3038058 0.6094<br />
higijena | 332 + 0.7359 0.5186 .3068702 0.5843<br />
izgled | 328 + 0.7203 0.4976 .3173451 0.6051<br />
atmosfera | 328 + 0.7003 0.3846 .3380832 0.6890<br />
-------------+-----------------------------------------------------------------<br />
Test scale | .3165488 0.6860<br />
-------------------------------------------------------------------------------<br />
Vidimo da ukupni alfa koeficijent za “Izgled” iznosi 0.686. Prema kriterijima iz tabele 8 riječ<br />
je o skali upitne pouzdanosti. Međutim, obzirom da je koeficijent blizu granice od 0.7 i da se<br />
radio o eksplorativnoj studiji, smatramo da je pouzdanost ove skale u tom kontekstu<br />
zadovoljavajuća.<br />
Pouzdanost skale kojom se mjeri faktor „Osoblje“ iznosi:<br />
. alpha komp_osob ljubaznost usl_osob, item<br />
Test scale = mean(unstandardized items)<br />
average<br />
item-test item-rest interitem<br />
Item | Obs Sign correlation correlation covariance alpha<br />
-------------+-----------------------------------------------------------------<br />
komp_osob | 328 + 0.8420 0.5206 .2036996 0.7598<br />
ljubaznost | 328 + 0.7882 0.5962 .2506154 0.6356<br />
usl_osob | 332 + 0.8271 0.6275 .2035504 0.5772<br />
-------------+-----------------------------------------------------------------<br />
Test scale | .2192884 0.7343<br />
-------------------------------------------------------------------------------<br />
Na osnovu dobijenog outputa vidimo da varijable kojima se mjeri faktor “Osoblje” imaju<br />
prihvatljivu pouzdanost obzirom da ukupni alfa iznosi 0.734.<br />
16<br />
U SPSS-u se ovaj pokazatelj naziva Corrected Item-Total Correlation.<br />
34
Konačno, urađena je pouzdanost za faktor „Finansijski benefiti“:<br />
. alpha promocije cijene nag_igre, item<br />
Test scale = mean(unstandardized items)<br />
average<br />
item-test item-rest interitem<br />
Item | Obs Sign correlation correlation covariance alpha<br />
-------------+-----------------------------------------------------------------<br />
promocije | 333 + 0.5876 0.2853 .5236112 0.6280<br />
cijene | 331 - 0.8358 0.4710 .2389983 0.5109<br />
nag_igre | 328 + 0.7937 0.5257 .2531447 0.4110<br />
-------------+-----------------------------------------------------------------<br />
Test scale | .3381371 0.6278<br />
-------------------------------------------------------------------------------<br />
Output pokazuje da ukupni alfa koeficijent za “Finansijske benefite” iznosi 0.628 pa<br />
zaključujemo da je riječ o skali upitne pouzdanosti. Ukoliko bi u daljim istraživanjima željeli<br />
mjeriti ovaj konstrukt, morali bi poboljšati način na koji ga mjerimo. Ipak, obzirom da je riječ<br />
o eksplorativnoj studiji, možemo reći da je pouzdanost u tom kontekstu zadovoljavajuća.<br />
Također, obratimo pažnju da je Stata ispravno prepoznala da je tvrdnja koja se tiče cijena bila<br />
negativno konotirana (kolona “Sign”) i da je to uzeto u obzir prilikom izračunavanja<br />
pouzdanosti.<br />
4.8. UPOTREBA FAKTORA U DRUGIM ANALI ZAMA<br />
Sjetimo se da je jedan od ciljeva faktorske analize sažimanje podataka pri čemu veći broj<br />
varijabli indikatora pokušavamo reducirati na manji broj faktora. U suštini ovo znači da<br />
moramo kreirati nove varijable koje će u daljoj analizi predstavljati faktore. Istraživaču na<br />
raspolaganju stoje dvije opcije u pogledu toga kako identifikovane faktore može iskoristiti u<br />
daljim analizama: faktorski skorovi i sumarne skale.<br />
4.8.1. Faktorski skorovi<br />
Faktorski skor (engl. factor score) je linerana kombinacija varijabli indikatora optimalno<br />
ponderisanih na bazi faktorskih učitavanja. Postoji nekoliko različitih metoda za izračunavanje<br />
faktorskih skorova. Prva je metoda ponderisanog prosjeka (engl. weighted average method)<br />
gdje se faktorski skor za svakog ispitanika računa prema sljedećoj formuli:<br />
F W X W X W X<br />
i<br />
<br />
i 1 1<br />
<br />
i 2 2<br />
... <br />
ik k<br />
gdje je<br />
Fi = faktorski skor za faktor i<br />
Wi = ponderi (koji su jednaki faktorskim učitavanjima)<br />
Xk = varijable indikatori<br />
k = broj varijabli indikatora<br />
Dakle, ako prema ovoj metodi želimo izračunati faktorski skor za prvi faktor kao pondere ćemo<br />
iskoristiti faktorska učitavanja iz finalnog rješenja nakon rotacije:<br />
35
Fpogodnost<br />
_ pristupa<br />
0.87 lokacija 0.80 parking ... 0.19 dekor<br />
Ako u gornju formulu iz skupa podataka uvrstimo odgovore za prvog ispitanika dobićemo da<br />
njegov faktorski skor za prvi faktor iznosi:<br />
F<br />
_<br />
0.87 4 0.80 5 ... 0.19 4<br />
pogodnost<br />
pristupa<br />
Na isti način možemo izračunati faktorske skorove za ostale identifikovane faktore. Nakon toga,<br />
čitav proces se ponavlja dok ne izračunamo faktorske skorove za svakog ispitanika.<br />
Metoda ponderisanog prosjeka je najjednostavniji način na koji možemo izračunati faktorske<br />
skorove. Ona nam pomaže da shvatimo osnovni princip po kojem se kreiraju faktorski skorovi,<br />
a koji se ogleda u tome da se pri njihovom izračunavanju u obzir uzima snaga učitavanja<br />
pojedinačnih varijabli na svaki faktor. Ipak, ovaj metod se u praksi rijetko upotrebljava (Field,<br />
2009) jer razlika u veličini faktorskih učitavanja može znatno varirati u zavisnosti od odabrane<br />
metode estimacije i vrste rotacije (DiStefano, Christine, Zhu, Min & Mîndrilă, & Diana, 2009).<br />
Umjesto ponderisanog prosjeka, obično se koristi jedan od tri rafiniranija metoda izračunavanja<br />
optimalnih pondera (Wi) u prethodno navedenoj formuli.<br />
Regresioni metod je obično podrazumjevani metod za izračunavnje faktorskih skorova u<br />
većini softverskih paketa uključujući i Statu. Osnovna prednost ovog metoda je što maksimizira<br />
validnost dobijenih skorova. Pojam validnosti se u ovom slučaju odnosi na obim u kojem će<br />
dobijeni faktorski skor korelirati sa faktorom kojeg predstavlja. Problem sa regresionim<br />
metodom je što korelacije mogu biti nejednoznačne (skor može korelirati sa drugim faktorima<br />
čak iako su dobijeni faktori teoretski ortogonalni), neprecizne (skorovi mogu međusobno<br />
korelirati čak iako faktori ne koreliraju) i pristrasne (dobijeni skor ne predstavljati stvarni<br />
faktorski skor) (DiStefano et al., 2009).<br />
Bartletov metod izračunava faktorske skorove uz najveću moguću nepristrasnost ali žrtvujući<br />
nešto od validnosti i preciznosti (DiStefano et al., 2009).<br />
Anderson-Rubinov metod osigurava najveću preciznost korelacija između dobijenih<br />
faktorskih skorova. Najprikladnije ga je koristiti kada dobijeni faktori teoretski međusobno ne<br />
koreliraju jer u tom slučaju ni dobijeni faktorski skorovi međusobno neće korelirati (Mazzochi,<br />
2008). Međutim, to dolazi na uštrb dodatno smanjene validnosti. Ovaj metod nije podržan u<br />
Stati.<br />
Dakle, svaki od ovih metoda ima svoje prednosti i nedostatke. 17 Bez obzira na razlike, osnovni<br />
princip kod svih metoda ostaje isti — varijable indikatori koje najviše koreliraju sa faktorom<br />
će pri izračunavanju faktorskog skora imati najveći ponder.<br />
Osnovna prednost korištenja faktorskih skorova ogleda se u tome što su usko povezani sa<br />
rezultatima same faktorske analize i preciznije predstavljaju dobijene faktore. Također,<br />
korištenje regresionih faktorskih skorova će najčešće rezultirati varijablama koje međusobno<br />
ne koreliraju, što može biti prednost ako se u daljim analizama želimo u potpunosti riješiti<br />
multikolinearnosti.<br />
17<br />
Za za više detalja pogledati: DiStefano et al. (2009)<br />
36
Osnovni nedostatak faktorskih skorova je vezan za činjenicu da njihova vrijednost može varirati<br />
u zavisnosti od toga koja metoda estimacije i rotacije je korištena. To može predstavljati<br />
problem ukoliko želimo replicirati rezultate u ponovljenim istraživanjima (DiStefano et al.,<br />
2009; Howitt & Cramer, 2011). Pored ovoga, interpretiranje faktorskih skorova nije u<br />
potpunosti intuitivno jer sve varijable iz analize kroz pondere imaju uticaj na faktorski skor<br />
(Hair et al., 2006).<br />
Primjer 2 - Nastavak<br />
Izračunavanje faktorskih skorova u Stati se obavlja korištenjem naredbe predict nakon završene<br />
faktorske analize:<br />
. predict fs_pristup fs_izgled fs_osoblje fs_benefiti<br />
(regression scoring assumed)<br />
(output izostavljen)<br />
Ovim smo Stati dali instrukciju da u skupu sa podacima kreira četiri nove varijable – fs_pristup,<br />
fs_izgled, fs_osoblje i fs_benefiti – unutar kojih će se nalazati faktorski skorovi svakog<br />
ispitanika izračunati korištenjem regresionog metoda. 18 Imena varijabli su proizvoljna, a prefiks<br />
fs smo odabrali da naznačimo da je riječ o varijablama koje sadrže faktorske skorove.<br />
Deskriprivna statistika za faktorske skorove:<br />
. tabstat fs_pristup fs_izgled fs_osoblje fs_benefiti, s(mean sd p50 count min max<br />
skew k) format(%9.3f)<br />
stats | fs_pri~p fs_izg~d fs_oso~e fs_ben~i<br />
---------+----------------------------------------<br />
mean | -0.000 0.000 0.000 -0.000<br />
sd | 1.000 1.000 1.000 1.000<br />
p50 | 0.273 0.152 0.307 0.436<br />
N | 324.000 324.000 324.000 324.000<br />
min | -4.519 -4.297 -6.136 -4.341<br />
max | 1.412 2.697 2.225 1.969<br />
skewness | -1.639 -0.841 -2.045 -1.844<br />
kurtosis | 6.424 4.668 10.745 6.827<br />
--------------------------------------------------<br />
Možemo uočiti da faktorski skorovi imaju prosjek vrlo blizu nule sa SD = 1.<br />
18<br />
Za izračunavanje faktorskih skorova korištenjem Bartletovog metoda morali bi upotrijebiti opciju barttlet:<br />
predict varlist, bartlett<br />
37
4.8.2. Sumarne skale<br />
Sumarnu skalu (engl. summated scale) ili kompozitni skor (engl. composite score) možemo<br />
definisati kao prosti prosjek varijabli indikatora koje imaju smisleno učitavanje na dati faktor: 19<br />
KS<br />
i<br />
gdje je<br />
X<br />
1<br />
X<br />
2<br />
... X<br />
k<br />
<br />
k<br />
KSi = kompozitni skor za faktor i<br />
Xk = varijable indikatori<br />
k = broj varijabli indikatora<br />
Na primjer, ako smo dobili da su varijable X1, X2, i X5 indikatori fakora 1, a ispitanik A po te tri<br />
varijable ima ocjene: 4, 5 i 3, onda će kompozitni skor za datog ispitanika A po faktoru 1 biti:<br />
(4 + 5 + 3) / 3 = 4. U nastavku se za ispitanika A izračunavaju kompozitni skorovi za ostale<br />
faktore, a onda se postupak ponavlja za ostale ispitanike. 20<br />
Osnovne prednosti korištenja sumarnih skala su jednostavnost, intuitivnost i lakoća repliciranja<br />
rezultata u ponovljenim istraživanjima. S druge strane, glavni nedostatak je što rezultirajuće<br />
varijable mogu u nekoj mjeri međusobno korelirati i što se zanemaruje činjenica da različite<br />
varijable mogu imati različite pondere sa kojima se učitavaju na faktor. Također, korištenje<br />
sumarnih skala zahtjeva detaljniju analizu aspekata pouzdanosti i validnosti (Hair et al., 2006).<br />
Ukoliko ti aspekti nisu zadovoljeni ne bi trebali formirati sumarne skale.<br />
Primjer 2 - Nastavak<br />
Iako izračunavanje kompozitnih skorova za svakog ispitanika djeluje kao naporan zadatak, u<br />
Stati možemo iskoristiti komandu egen koje će pomoći da sve izračunamo automatski. Prvo<br />
ćemo izračunati kompozitne skorove za prva tri faktora:<br />
. egen ks_pristup = rmean(lokacija parking rad_vrijeme)<br />
(2 missing values generated)<br />
. egen ks_izgled = rmean(dekor higijena izgled atmosfera)<br />
(3 missing values generated)<br />
. egen ks_osoblje = rmean(komp_osob ljubaznost usl_osob)<br />
(3 missing values generated)<br />
19<br />
Nekada se koristi i prosti zbir. Međutim, računanjem prosjeka se olakšava interpretacija obzirom da će se<br />
novo dobijene vrijednosti nalaziti u rasponu originalne skale. Pored toga dobija se validnija vrijednost za<br />
ispitanike koji su preskočili odgovor na neku od tvrdnji.<br />
20<br />
Ako neka varijabla ima negativno učitavanje na faktor, prije izračunavanja kompozitnog skora može se<br />
"obrnuti" da ima isti smjer kao i ostale varijable koje se učitavaju na taj faktor. Time se olakšava interpretacija i<br />
poređenje dobijenih skorova za različite faktore. To se radi uz pomoć naredbe recode koja je objašnjena u<br />
ranijim materijalima.<br />
38
Ovim smo Stati dali instrukciju da u skupu sa podacima kreira tri nove varijable: ks_pristup,<br />
ks_izgled i ks_osoblje – unutar kojih će se nalazati kompozitni skorovi za svakog ispitanika.<br />
Obratimo pažnju da nam je ostalo još da izračunamo kompozitni skor za faktor „Finansijski<br />
benefiti“ kod kojeg je tvrdnja cijena bila negativno konotirana. Za razliku od ostalih tvrdnji,<br />
gdje veći broj na Likertovoj skali označava veće slaganje, kod tvrdnje cijena je situacija<br />
obrnuta.<br />
Ako neki item ima negativno učitavanje na faktor, prije izračunavanja kompozitnog skora<br />
poželjno ga je "obrnuti" da ima isti smjer kao i ostali itemi koje se učitavaju na taj faktor.<br />
Drugim riječima, trebamo rekodirati varijablu cijena tako da: a) vrijednost 1 (apsolutno se ne<br />
slažem) postane vrijednost 5 (aposlutno se slažem), vrijednost 2 (ne slažem se) postane<br />
vrijednost 4 (slažem se) itd. A to postižemo uz pomoć naredbe recode:<br />
. recode cijene (1=5) (2=4) (3=3) (4=2) (5=1), gen (cijene_r)<br />
(300 differences between cijene and cijene_r)<br />
Naredbom smo generirali novu varijablu koja se zove cijene_r i koja sadrži "ispravljene" ili<br />
"obrnute" vrijednosti orginalne varijable cijene, a koje idu u istom smijeru kao i vrijednosti<br />
ostalih varijabli koje se učitavaju na dati faktor. Ostalo nam je još samo da generiramo<br />
kompozitni skor:<br />
. egen ks_benefiti = rmean(promocije cijene_r nag_igre)<br />
(2 missing values generated)<br />
Obratite pažnju da smo za izračunavanje kompozitnog skora koristili novokreiranu varijablu<br />
cijene_r. Deskriptivna statistika za kompozitne skorove biće:<br />
. tabstat ks_pristup ks_izgled ks_osoblje ks_benefiti, s(mean sd p50 count min max<br />
skew k) format(%9.3f)<br />
stats | ks_pri~p ks_izg~d ks_oso~e ks_ben~i<br />
---------+----------------------------------------<br />
mean | 4.355 3.950 4.642 4.482<br />
sd | 0.745 0.678 0.546 0.734<br />
p50 | 4.667 4.000 5.000 4.667<br />
N | 333.000 332.000 332.000 333.000<br />
min | 1.000 1.000 1.000 1.000<br />
max | 5.000 5.000 5.000 5.000<br />
skewness | -2.016 -1.223 -2.552 -1.977<br />
kurtosis | 8.074 6.140 14.087 7.525<br />
--------------------------------------------------<br />
Nakon što smo izračunali faktorske i kompozitne skorove, pogledajmo kako oni međusobno<br />
koreliraju:<br />
39
. correlate fs_pristup fs_izgled fs_osoblje fs_benefiti<br />
(obs=324)<br />
| fs_pri~p fs_izg~d fs_oso~e fs_ben~i<br />
-------------+------------------------------------<br />
fs_pristup | 1.0000<br />
fs_izgled | 0.0000 1.0000<br />
fs_osoblje | -0.0000 -0.0000 1.0000<br />
fs_benefiti | -0.0000 0.0000 0.0000 1.0000<br />
Obratimo pažnju da varijable sa faktorskim skorovima međusobno ne koreliraju jer ne dijele<br />
zajedničku varijansu.<br />
. correlate ks_pristup ks_izgled ks_osoblje ks_benefiti<br />
(obs=332)<br />
| ks_pri~p ks_izg~d ks_oso~e ks_ben~i<br />
-------------+------------------------------------<br />
ks_pristup | 1.0000<br />
ks_izgled | 0.3508 1.0000<br />
ks_osoblje | 0.3886 0.4558 1.0000<br />
ks_benefiti | 0.2697 0.2110 0.2641 1.0000<br />
S druge strane, varijable sa kompozitnim skorovima međusobno koreliraju u izvjesnoj mjeri<br />
obzirom da dijele jedan dio zajedničke varijanse.<br />
Na kraju ćemo napomenuti da smo u ovom primjeru izračunali i faktorske i kompozitne skorove<br />
kako bi ilustrovali postupak kao i njihove međusobne razlike. U stvarnoj analizi istraživač se<br />
treba odlučiti za jednu od ove dvije opcije imajući u vidu njihove prednosti, nedostatke i<br />
specifične ciljeve dalje analize.<br />
5. KAKO NAPISATI SAŽETAK ANALIZE<br />
Primjer 2 - Nastavak<br />
Petnaest tvrdnji mjerenih na Petostepenoj likertovoj skali i vezanih za percepciju važnosti<br />
razloga koje kupci razmatraju pri odabiru tržnog centra analizirano je putem eksplorativne<br />
faktorske analize. Veličina uzorka sa kompletnim podacima (n = 323) je bila zadovoljavajuća<br />
sa omjerom od preko 21 ispitanika po varijabli. Kaiser-Meyer-Olkin mjera adekvatnosi uzorka<br />
iznosila je KMO = 0.816 što je više od minimalno preporučenih 0.6. Bartlettov test sfericiteta<br />
(χ2(105) = 1413.62, p = 0.000) je bio signifikantan, dok je determinata korelacione matrice<br />
iznosila 0.011. Imajući u vidu sve navedeno zaključeno je da su prikupljeni podaci prikladni za<br />
eksplorativnu faktorsku analizu.<br />
Inicijalna analiza je provedena na svih petnaest varijabli indikatora koristeći prinicpal<br />
component factoring metod estimacije. Vodeći se Kajzerovim kriterijom zadržano je pet faktora<br />
koji su imali karakterističnu vrijednost veću od 1. Ovih pet faktora je objašnjavalo 64.83%<br />
ukupne varijanse. Dijagram prevoja i rezultati paralelne analize su dodatno potvrdili odluku o<br />
zadržavanju pet faktora.<br />
Nakon Varimax rotacije sa Kajzerovom normalizacijom utvrđeno je da se varijable broj<br />
blagajni i raznolikost asortimana ne uklapaju dobro u inicijalno faktorsko rješenje. Varijabla<br />
40
oj blagajni je imala nisko i približno jednako unakrsno učitavanje na dva faktora, dok se<br />
sadržajem nije najbolje uklapala niti na jedan faktor. S druge strane, varijabla raznolikost<br />
asortimana je bila jedina varijabla koja se učitavala na peti faktor. Utvrđeno je i da ova varijabla<br />
dijeli veoma mali iznos zajedničke varijanse (18%) sa ostalim varijablama. Imajući u vidu<br />
preporuku da bi se latentni konstrukti trebali mjeriti sa bar tri indikatorske varijable, u prvom<br />
koraku smo eliminisali varijablu raznolikost asortimana. Nakon njene eliminacije, korištenje<br />
Kajzerovog kriterija u ponovljenoj analizi je rezultiralo zadržavanjem četiri faktora. Obzirom<br />
da se varijabla broj blagajni i dalje nije dobro uklapala u dobijeno rješenje ona je eliminisana<br />
u drugom koraku čime smo dobili finalno rješenje sa četiri faktora koja objašnjavaju 62.61%<br />
ukupne varijanse što je prikazano u tabeli 9.<br />
Tabela 9 – Faktorska učitavanja nakon Varimax rotacije sa Kajezerovom normalizacijom<br />
Item<br />
41<br />
Faktorska učitavanja<br />
1 2 3 4 Komunalitet<br />
Lokacija tržnog centra .870 .792<br />
Dovoljno parking prostora .803 .729<br />
Česte prodajne promocije (besplatne probe i sl.) .598 .446<br />
Najpovoljnije cijene (R) -.834 .702<br />
Česte nagradne igre .784 .657<br />
Kompetentno osoblje .682 .558<br />
Ljubazan prijem .801 .717<br />
Ugodna atmosfera .658 .470<br />
Vanjski izgled tržnog centra .663 .529<br />
Radno vrijeme tržnog centra .684 .578<br />
Uslužno osoblje .834 .747<br />
Zadovoljavajući nivo higijene .714 .611<br />
Stajling i dekor unutar tržnog centra .743 .605<br />
Karakteristične vrijednosti (Eigenvalues) 2.138 2.126 2.073 1.803<br />
% ukupne varijanse 16.45 16.35 15.95 13.87<br />
Napomena: KMO = 0.810; Batlett χ2(78) = 1179.91, p = 0.000; prikazana su samo faktorska učitavanja > |.30|<br />
Faktor 1 je nazvan “Pogodnost pristupa” i odnosi se stvari koje kupcima olakšavaju pristup<br />
tržnom centru kao što su: lokacija, parking i dužina radnog vremena. Faktor 2 se odnosi na<br />
“Izgled” tržnog centra koji se manifestuje preko atmosfere, izgleda, higijene i unutrašnjeg<br />
dekora. Faktor 3 smo nazvali “Osoblje” obzirom da se tvrdnje koje se učitavaju na taj faktor<br />
odnose na kompetentnost, ljubaznost i uslužnost osoblja koje je u dodiru sa kupcima. Faktor 4<br />
je imenovan “Novčani benefiti” jer povezuje tvrdnje koje se odnose na finansijske koristi koje<br />
kupci mogu ostvariti u tržnom centru kroz cijene, promocije i nagradne igre.<br />
Po završetku faktorske analize, provjerena je interna konzistentnost skale izračunavanjem<br />
Kronbah alfa koeficijenta. Imajući u vidu eksplorativni karakter studije, koeficijent alfa je bio<br />
zadovoljavajući.<br />
Na kraju su kreirani kompozitni skorovi na bazi prosjeka varijabli koje se primarno učitavaju<br />
na svaki od četiri faktora, gdje veći skor označava veću važnost faktora pri donošenju odluke o
izboru tržnog centra. Prije kreiranja skorova negativno konotirana tvrdnja vezana za cijene je<br />
rekodirana tako da njene vrijednosti imaju isti smjer kao i vrijednosti ostalih varijabli.<br />
Deskriptivna statistika i rezultati analize pouzdanosti su predstavljeni u tabeli 10.<br />
Tabela 10 – Deskriptivna statistika i rezultati analize pouzdanosti za četiri faktora izbora tržnog<br />
centra (n = 332)<br />
Broj itema M (SD) Skewness Kurtosis Cronbach’s α<br />
Pogodnost pristupa 3 4.36 (.75) -2.02 8.07 .777<br />
Izgled 4 3.95 (.68) -1.22 6.14 .686<br />
Osoblje 3 4.64 (.55) -2.55 14.09 .734<br />
Novčani benefiti 3 4.48 (.73) -1.98 7.53 .628<br />
Na osnovu rezultata u tabeli 10 možemo zaključiti da je interakcija sa zaposlenim osobljem<br />
najvažniji faktor kojeg kupci razmatraju pri izboru tržnog centra, dok je izgled najmanje bitan.<br />
Ipak, pri tumačenju važnosti trebamo biti oprezni obzirom da distribucije za sva četiri faktora<br />
znatno nakrivljene prema pozitivnim ocjenama i da su razlike u prosjecima vrlo male.<br />
42
6. PRILOZI<br />
Prilog 1 – Korelaciona matrica za petnaest indikatorskih varijabli<br />
. pwcorr lokacija-asortiman<br />
| lokacija parking promoc~e cijene nag_igre komp_o~b br_bla~i<br />
-------------+---------------------------------------------------------------<br />
lokacija | 1.0000<br />
parking | 0.6868 1.0000<br />
promocije | 0.2322 0.3113 1.0000<br />
cijene | -0.1390 -0.1433 -0.2917 1.0000<br />
nag_igre | 0.2255 0.2701 0.3504 -0.4754 1.0000<br />
komp_osob | 0.2593 0.2956 0.1365 -0.1173 0.2851 1.0000<br />
br_blagajni | 0.2515 0.3448 0.2756 -0.2018 0.3177 0.4542 1.0000<br />
ljubaznost | 0.1915 0.2565 0.2614 -0.1248 0.1827 0.4452 0.4166<br />
atmosfera | 0.0692 0.1576 0.0860 -0.0706 0.0838 0.1774 0.3298<br />
izgled | 0.1838 0.2286 0.1753 -0.0727 0.1598 0.3336 0.3504<br />
rad_vrijeme | 0.4784 0.4295 0.1800 -0.0087 0.1751 0.3037 0.2537<br />
usl_osob | 0.1984 0.2808 0.2412 -0.1039 0.1701 0.4884 0.2628<br />
higijena | 0.2826 0.2976 0.2025 -0.0791 0.1817 0.2876 0.3482<br />
dekor | 0.2105 0.2479 0.1750 -0.1276 0.1374 0.2813 0.2731<br />
asortiman | 0.0146 0.0425 0.1661 -0.1399 0.2012 0.1561 0.1653<br />
| ljubaz~t atmosf~a izgled rad_vr~e usl_osob higijena dekor<br />
-------------+---------------------------------------------------------------<br />
ljubaznost | 1.0000<br />
atmosfera | 0.2764 1.0000<br />
izgled | 0.3445 0.3441 1.0000<br />
rad_vrijeme | 0.2882 0.1248 0.2940 1.0000<br />
usl_osob | 0.6152 0.2369 0.2892 0.3033 1.0000<br />
higijena | 0.3214 0.3123 0.3997 0.3186 0.3235 1.0000<br />
dekor | 0.2516 0.2582 0.3895 0.2432 0.2283 0.4940 1.0000<br />
asortiman | 0.1812 0.0423 0.1673 0.2869 0.2149 0.2333 0.1647<br />
| asorti~n<br />
-------------+---------<br />
asortiman | 1.0000<br />
43
References<br />
Burns, R., & Burns, R. (2008). Business research methods and statistics using SPSS. Los<br />
Angeles, London: SAGE.<br />
Cortina, J. M. (1993). What Is Coefficient alpha? An Examination of Theory and<br />
Applications. Journal of Applied Psychology, 78(1), 98–104.<br />
Costello, A. B., & Osborne, J. W. (2005). Best Practices in Exploratory Factor Analysis::<br />
Four Recommendations for Getting the Most From Your Analysis. Practical Assessment,<br />
Research & Evaluation, 10(7), 1–9.<br />
Dancey, C. P., & Reidy, J. (2011). Statistics Without Maths for Psychology (5th ed.): Pearson<br />
Prentice Hall.<br />
DeCoster, J. (1998). Overview of Factor Analysis. Retrieved from http://www.stathelp.com/notes.html<br />
DiStefano, Christine, Zhu, Min & Mîndrilă, & Diana. (2009). Understanding and Using<br />
Factor Scores:: Considerations for the Applied Researcher. Practical Assessment, Research<br />
& Evaluation, 14(20).<br />
Drennan, R. D. Statistics for Archaeologists: A Common Sense Approach (2nd ed.).<br />
Interdisciplinary Contributions to Archaeology: Springer.<br />
Fabrigar, L. R., Wegener, D. T., MacCallum, R. C., & Strahan, E. J. (1999). Evaluating the<br />
use of exploratory factor analysis in psychological research. Psychological Methods, 4(3),<br />
272–299. https://doi.org/10.1037/1082-989X.4.3.272<br />
Field, A. (2009). Discovering Statistics Using SPSS: Introducing Statistical Methods (3rd<br />
ed.): SAGE Publications Ltd.<br />
George, D., & Mallery, P. (2003). SPSS for Windows step by step: A simple guide and<br />
reference, 11.0 update (4th ed.). Boston: A & B.<br />
Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. D. (2006). Multivariate<br />
Data Analysis (6th ed.): Pearson Prentice Hall.<br />
Howitt, D., & Cramer, D. (2011). Introduction to Statistics in Psychology (5th ed.): Pearson<br />
Prentice Hall.<br />
Huck, S. W. (2012). Reading Statistics and Research (6th ed.): Pearson Education, Inc.<br />
Malhotra, N. K. (2010). Marketing Reseaerch: An Applied Orientation (6th ed.): Prentice<br />
Hall.<br />
Mazzocchi, M. (2008). Statistics for marketing and consumer research. London: SAGE<br />
Publications Ltd.<br />
Norman, G. R., & Streiner, D. L. (2003). PDQ statistics (3rd ed.). PDQ series. Hamilton,<br />
Ont., London: B.C. Decker.<br />
Nunnally, J. C. (1978). Psychometric theory (2nd). New York: McGraw-Hill.<br />
O'Rourke, N., Hatcher, L., & Stepanski, E. J. (2005). A step-by-step approach to using SAS®<br />
for univariate & multivariate statistics (2. ed., 1. print). Cary, NC: SAS Inst. Retrieved<br />
from http://www.loc.gov/catdir/enhancements/fy0625/2005051062-d.html<br />
Osborne, J. W. (2015). What Is Rotating in Exploratory Factor Analysis? Practical<br />
Assessment, Research & Evaluation, 20(2), 1–7.<br />
Pallant, J. (2011). SPSS Priručnik za preživljavanje: Postupni vodič kroz analizu podataka<br />
pomoću SPSS-a (4th ed.): Mikro knjiga.<br />
Rabe-Hesketh, S., & Everitt, B. (2004). A handbook of statistical analyses using Stata (3rd<br />
ed.). Boca Raton Fla.: Chapman & Hall/CRC.<br />
44
Sarstedt, M., & Mooi, E. (2014). A concise guide to market research: The process, data, and<br />
methods using IBM SPSS Statistics (2nd ed. 2014). Springer Texts in Business and<br />
Economics. Berlin, Heidelberg, s.l.: Springer Berlin Heidelberg. Retrieved from<br />
http://www.guide-market-research.com/<br />
Singh, K. (2007). Quantitative social research methods. Thousand Oaks, Calif., London: Sage<br />
Publications.<br />
Subotić, S. (2013). Pregled metoda za utvrđivanje broja faktora i komponenti (u EFA i PCA).<br />
Primenjena psihologija, 6(3), 203–229.<br />
Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics (5th ed.): Pearson<br />
Education, Inc.<br />
Taylor, A. (2004). A Brief Introduction to Factor Analysis.<br />
Williams, B., Brown, T., & Onsman, A. (2012). Exploratory factor analysis:: A five-step<br />
guide for novices. Australasian Journal of Paramedicine, 8(3), 1–13.<br />
Yong, A. G., & Pearce, S. (2013). A Beginner’s Guide to Factor Analysis:: Focusing on<br />
Exploratory Factor Analysis. Tutorials in Quantitative Methods for Psychology, 9(2), 79–<br />
94.<br />
Zikmund, W. G., Babin, B. J., Carr, J. C., & Griffin, M. (2009). Business Research Methods<br />
(8th ed.): Cengage Learning.<br />
45
UNIVERZITET U SARAJEVU<br />
EKONOMSKI FAKULTET U SARAJEVU<br />
Osnove inferencijalne statistike 1<br />
Autor:<br />
prof. dr Emir Agić<br />
Sarajevo, 04. april 2017. godine<br />
1<br />
NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />
njegovih dijelova bez prethodnog pisanog pristanka autora.<br />
1
Sadržaj<br />
I OSNOVE INFERENCIJALNE STATISTIKE ............................................................................. 3<br />
1. Teoretske distribucije ................................................................................................... 3<br />
1.1. Pojmovno određenje teoretske distribucije .............................................................. 3<br />
1.2. Uobičajene teoretske distribucije ............................................................................. 4<br />
1.3. Procjena oblika distribucije ...................................................................................... 4<br />
1.4. Opservirana nasuprot teoretskoj distribuciji ............................................................ 5<br />
1.5. Upotreba teorestksih distribucija ............................................................................. 5<br />
2. Normalna distribucija i njene karakteristike ............................................................. 5<br />
3. Standardna normalna distribucija .............................................................................. 6<br />
3.1. Standardizacija podataka ......................................................................................... 7<br />
3.2. Standardna ili z-distribucija ..................................................................................... 9<br />
3.3. Standardna normalna distribucija i vjerovatnoća ..................................................... 9<br />
3.4. Područja ispod krive normalne distribucije ............................................................. 9<br />
3.5. Tablične vrijednosti za standardnu normalnu distribuciju ..................................... 10<br />
3.6. Kritične z-vrijednosti ............................................................................................. 12<br />
4. Primjena standardne normalne distribucije ............................................................. 14<br />
5. Sampling distribucija i standardna greška ............................................................... 18<br />
5.1. Greška mjerenja i uzorkovanja .............................................................................. 18<br />
5.2. Sampling distribucija ............................................................................................. 19<br />
5.3. Procjena standardne greške .................................................................................... 20<br />
6. Centralni granični teorem .......................................................................................... 21<br />
7. Estimacija i interval povjerenja ................................................................................. 23<br />
7.1. Preciznost estimacije .............................................................................................. 23<br />
7.2. Interval povjerenja ................................................................................................. 24<br />
8. Studentova t-distribucija ............................................................................................ 26<br />
8.1. Problem malog uzorka i primjene z-distribucije .................................................... 26<br />
8.2. Rješenje problema: t-distribucija ........................................................................... 26<br />
8.3. Statističke tablice za t-distribuciju ......................................................................... 27<br />
8.4. Standardna greška i interval povjerenja za t-distribuciju ....................................... 28<br />
9. Binomna distribucija................................................................................................... 29<br />
9.1. Karakteristike binomne distribucije ....................................................................... 29<br />
9.2. Aritmetička sredina i standardna devijacija binomne distribucije ......................... 33<br />
9.3. Normalna aproksimacija binomne distribucije ...................................................... 34<br />
9.4. Provjera preciznosti aproksimacije binomne distribucije ...................................... 36<br />
9.5. Sampling distribucija proporcije i standardna greška proporcije .......................... 36<br />
2
I<br />
OSNOVE INFERENCIJALNE STATISTIKE<br />
1. TEORETSKE DISTRIBUCIJE<br />
Teoretske distribucije su temelj na kojima počiva statistička <strong>teorija</strong>. U ovom kratkom uvodu<br />
objasnićemo šta podrazumijevamo pod teoretskom distribucijom, predstaviti neke od<br />
uobičajenih teoretskih distribucija i vidjeti u kakvom se odnosu nalaze sa empirijskim<br />
(opserviranim) distribucijama.<br />
1.1. POJMOVNO ODREĐENJE TEORETSKE DISTRIBUCIJE<br />
U poglavlju X smo dali pregled mjera centralne tendencije i disperzije kao načina opisivanja<br />
podataka i upoznali se sa pojmom distribucije frekvencija i relativne distribucije frekvencija. U<br />
bliskoj vezi sa relativnom distribucijom frekvencija je pojam teoretske distribucije. Teoretska<br />
distribucija ili distribucija vjerovatnoće (engl. probability distribution) je ništa drugo do<br />
relativna distribucija frekvencija za beskonačno veliki uzorak opservacija koja je opisana<br />
matematskom formulom.<br />
Na primjer, pretpostavimo da iz populacije slučajnim odabirom selektujemo ispitanike i<br />
bilježimo vrijednost njihovih mjesečnih primanja što je predstavljeno na slici 1.<br />
Slika 1 – Teoretska distribucija i kriva gustoće za mjesečna primanja<br />
Izvor: hipotetski podaci<br />
Kako se broj ispitanika povećava, tako se vrhovi stupaca na histogramu za neprekidnu varijablu<br />
"mjesečna primanja" sve više i više približavaju glatkoj krivoj na slici 1. Ova kriva se naziva<br />
krivom gustoće (engl. density curve) i opisuje oblik relativne distribucije frekvencija koji bi se<br />
teoretski trebao javiti za opservacije iz populacije koja je predmetom studije.<br />
3
1.2. UOBIČAJENE TEORETSKE DISTRIBUCIJE<br />
Statističari su identifikovali nekoliko uobičajenih distribucija vjerovatnoće. Na slici 2 su<br />
predstavljene samo neke od tih distribucija. Možemo primjetiti da između različitih distribucija<br />
postoje poveznice. Na primjer, vidimo da se pod određenim uslovima neke prekidne distribucije<br />
(binomna, hipergeometrijska i Posaonova) mogu aproksimirati normalnom distribucijom. Iz<br />
normalne distribucije se izvode: a) Studentova t-distribucija koja u odnosu na normalnu ima<br />
nešto više raspršene vrijednostima oko sredine, b) χ 2 (hi-kvadrat) distribucija koju dobijemo<br />
ako saberemo kvadrirane vrijednosti varijabli koje slijede normalnu distribuciju i c) log<br />
normalna distribucija koja se odnosi na raspodjelu slučajne varijable čije su logaritmaske<br />
vrijednosti normalno distribuirane. 2<br />
Slika 2 – Neke od uobičajenih teoretskih distribucija<br />
Izvor: Sean Owen<br />
Najpoznatija teoretska distribucija za kontinuirane varijable je normalna distribucija, dok je za<br />
diskretne (prekidne) varijable najpoznatija binomna distribucija.<br />
Iako dolaze u raznim oblicima, svim teoretskim distribucijama zajedničko je to da zbir<br />
vjerovatnoća ispod krive gustoće uvijek mora biti jednak 1.<br />
1.3. PROCJENA OBLIKA DISTRIBUCIJE<br />
Prije bilo kakve analize podataka, poželjno je da se upoznamo sa vlastitim podacima tako što<br />
ćemo ispitati oblik njihove distribucije. Procjena oblika distribucije (engl. distribution-fitting)<br />
podrazumjeva analizu distribucije frekvencija određene opservirane varijable kako bi se<br />
donijela odluka o tome koju teoretsku distribuciju prati data varijabla. Procjena se u praksi<br />
najčešće vrši na bazi uzorka i to na način da vizualno, ili uz pomoć sepcijaliziranog softvera,<br />
pokušamo utvrditi u kojoj mjeri se empirisjka distribucija frekvencija za podatke iz uzorka<br />
poklapa sa nekom od poznatih teoretskih distribucija. Odabir odgovarajuće teoretske<br />
distribucije je bitan iz razloga što nam omogućava smanjenje greški prilikom statističke analize,<br />
a samim tim i izbjegavanje pogrešnih zaključaka i donošenje loših odluka.<br />
2<br />
Više o međusobnoj povezanosti različitih teoretskih distribucija možete pročitati na: http://tinyurl.com/gnptgqw<br />
4
1.4. OPSERVIRANA NASUPROT TEORETSKOJ DISTRIBUCIJI<br />
Nakon što se identifikuje odgovarajuća teoretska distribucija, ona se može upotrijebiti kako bi<br />
se razumjeli opservirani obrasci unutar podataka. U tom kontekstu, možemo reći da opservirana<br />
distribucija frekvencija za slučajnu varijablu X pokazuje koliko puta se neka vrijednost<br />
pojavljuje unutar skupa podataka, a teoretska distribucija pokazuje koliko puta bi se ta<br />
vrijednost trebala pojaviti ukoliko slučajna varijabla X unutar populacije slijedi jednu od<br />
uobičajenih distribucija vjerovatnoće.<br />
1.5. UPOTREBA TEORESTKSIH DISTRIBUCIJA<br />
Već smo rekli da su teoretske distribucije temelj na kojima počiva statistička <strong>teorija</strong>. Bitnost<br />
njihove uloge proizilazi iz toga što su korisne za rješavanje mnogih poslovnih i drugih problema<br />
jer nam pomažu pri utvrđivanju vjerovatnoće da će se desiti događaj od interesa, da će se<br />
opservacija naći unutar određenog intervala i sl. Pored ovoga, teoretske distribucije<br />
omogućavaju da poredimo varijanse ili stvarne i očekivane frekvencije, kako bi utvrdili<br />
vjerovatnoću na osnovu koje možemo donijeti sud o tome da li dobijene razlike predstavljaju<br />
stvarni efekat ili su rezultat slučajnih fluktuacija prilikom uzorkovanja. Sa nekim od ovih<br />
primjena upoznaćemo se detaljnije na primjeru normalne distribucije.<br />
2. NORMALNA DISTRIBUCIJA I NJENE KARAKTERISTIKE<br />
Vjerovatno najvažnija teoretska distribucija u statistici je normalna distribucija. Naime, uočeno<br />
da prirodne varijacije za mnoge fenomene u prirodnim i društvenim naukama slijede normalnu<br />
distribuciju. Na primjer, ako izaberemo slučajni uzorak 100 osoba i na histogramu prikažemo<br />
njihove visine, vjerovatno je da će taj histogram slijediti oblik normalne distribucije.<br />
Normalna distribucija ima centralnu ulogu u statističkoj teoriji jer se na nju naslanja većina<br />
parametrijskih procedura uključujući i testove signifikantnosti. Matematski izraz za normalnu<br />
distribuciju glasi:<br />
f ( x)<br />
<br />
1<br />
e<br />
2<br />
2<br />
( x )<br />
2<br />
2<br />
Ova prilično komplikovana formula opisuje krivu normalne distribucije. Obzirom da su π i e<br />
konstante, oblik krive normalne distribucije zavisi prvenstveno od aritmetička sredine (μ) i<br />
standardne devijacije (σ). Iz tog razloga normalna distribucija se često označava sa N(μ,σ), gdje<br />
N govori da se radi o normalnoj distribuciji.<br />
Primjer 2.1<br />
Pretpostavimo da smo na bazi uzorka prikupili podatke o prosječnim neto platama tokom jedne<br />
kalendarske godine u tri različite industrije. Nakon što su podaci obrađeni, ustanovljeno je da u<br />
industriji A imamo N(1000, 250), što znači da je prosječna plata 1.000 KM i da je standardna<br />
devijacija 250 KM. U industriji B je N(1000, 300), dok je u industriji C N(1000, 200). Dakle,<br />
5
prosječna primanja su identična u sve tri industrije ali je disperzija oko aritmetičke sredine<br />
drugačija. Pretpostavimo da imamo i industriju D gdje je N(1100, 200). Na slici 3 su prikazane<br />
ove četiri distribucije.<br />
Slika 3 – Distribucija plata unutar četiri industrije<br />
Ako pogledamo sliku 3 uočićemo da prethodna formula u suštini definiše porodicu krivih koje<br />
se razlikuju u pogledu disperzije (σ) i centralne tendencije (μ). U svim ostalim aspektima<br />
članovi porodice imaju iste karakteristike koje se ogledaju u sljedećem:<br />
1. Simetričnost. Proporcija vrijednosti koje se nalazi ispod aritmetičke sredine jednaka je<br />
proporciji vrijednosti koje se nalazi iznad aritmetičke sredine.<br />
2. Unimodalnost. Svaka normalna distribucija ima jedan maksimum i njegova vrijednost<br />
je identična vrijednosti aritmetičke sredine, medijane i moda.<br />
3. Oblik zvona. Vidimo da je većina vrijednosti koncentrisana oko aritmetičke sredine (μ)<br />
i primjetan je opadajući trend kako se krećemo prema krajevima distribucije.<br />
4. Normalna distribucija je asimptomska (engl. asymptotic) jer njeni krajevi nikada ne<br />
dotiču X osu.<br />
U stvarnosti se rijetko dešava da prikupljeni podaci imaju ovako savršenu distribuciju.<br />
Međutim, za praktičnu primjenu najčešće je dovoljno da opserivrana distribucija frekvencija<br />
približno slijedi teoretsku normalnu distribuciju jer će tada izračuni vjerovatnoće i rezultati<br />
testiranja hipoteza biti približno tačni.<br />
3. STANDARDNA NORMALNA DISTRIBUCIJA<br />
Normalna distribucija je detaljno izučena i bilo koja pojedinačna vrijednost ili opservacija<br />
unutar teoretske normalne distribucije ima tačno pridruženu vjerovatnoću. Međutim, prije nego<br />
predstavimo ove vjerovatnoće i njihove intervale potrebno je da se upoznamo sa konceptom<br />
standardizacije i standardne normalne distribucije.<br />
6
3.1. STANDARDIZACIJA PODATAKA<br />
Kada u obzir uzmemo da svaka varijabla čiji raspored slijedi normalnu distribuciju može imati<br />
različitu aritmetičku sredinu (μ) i standardnu devijaciju (σ), broj unikatnih normalnih<br />
distribucija postaje praktično beskonačan. Ovo može stvoriti problem ako želimo porediti<br />
vrijednosti između različitih distribucija.<br />
Primjer 3.1<br />
Pretpostavimo da su tri komercijalista, svaki na području svog kantona, tokom mjeseca<br />
ostvarila prihod od prodaje predstavljen u tabeli 1. Pored toga u tabeli je za svaki kanton data<br />
prosječna prodaja i njen varijabilitet za sve ostale komercijaliste koji rade za istu kompaniju.<br />
Tabela 1 – Usporedba prodajnog rezultata za trojicu komercijalista<br />
Komercijalista<br />
Rejon<br />
Ostvarena prodaja Prosječna prodaja Standardna<br />
komerc. u KM na rejonu u KM (μ) devijacija u KM (σ)<br />
A Kantnon Sarajevo 20.400 17.200 5.000<br />
B Posavski kanton 10.200 8.800 1.040<br />
C Tuzlanski kanton 12.700 13.300 4.000<br />
Ukoliko uporedimo ostvarenu prosječnu prodaju doći ćemo do zaključka da je u pogledu<br />
rezultata najbolji komercijalista A sa prodajnim rezultatom od 20.400 KM, dok je najlošiji<br />
komercijalista B koji je ostvario samo 10.200 KM. Međutim, ne smijemo zaboraviti da broj<br />
potencijalnih klijenata i njihova platežna sposobnost varira od kantona do kantona. Ovo se može<br />
vidjeti u tabeli 1 gdje je najveća prosječna prodaja svih komercijalista ostvarena u Kantonu<br />
Sarajevo, a najmanja u Posavskom kantonu. Obzirom na različite uslove koji karakterišu svaki<br />
kanton, nije pošteno direktno porediti prodajni rezultat i zaključiti da je komercijalista A duplo<br />
bolji od komercijaliste B.<br />
Na koji način ćemo onda napraviti usporedbu i saznati koji komercijalista je ostvario najbolji<br />
rezultat?<br />
Da bi mogli dati odgovor na postavljeno pitanje, moramo orginalne vrijednosti dobijene u<br />
različitim uslovima učniti međusobno uporedivim. Način na koji to možemo izvesti je da<br />
izvorne vrijednosti dobijene u različitim kantonima pretvorimo u vrijednosti izražene na<br />
zajedničkoj skali. Postupak kojim se dvije različite skale mogu svesti na zajedničku mjeru<br />
naziva se standardizacijom, a jedna od najčešće korištenih metoda standardizacije sastoji u<br />
tome da sve orginalne vrijednosti pretvorimo u vrijednosti izražene preko standardne devijacije:<br />
orginalna vrijednost prosjek<br />
standardna vrijednost ( z ) =<br />
standardna devijacija<br />
Ovakvom transformacijom smo dobili standardnu ili z-vrijednost (engl. z-score) koja nam<br />
govori koliko je orginalna vrijednost udaljena od prosjeka mjereno u jedinicama standardne<br />
devijacije.<br />
U slučaju primjera sa komercijalistima iskoristićemo podatke iz tabele 1 da izračunamo z-<br />
vrijednosti za svakog komercijalistu:<br />
7
z(komercijalista A) = (20.400 – 17.200)/5000 = +0,64<br />
z(komercijalista B) = (10.200 – 8.800)/1040 = +1,35<br />
z(komercijalista C) = (12.700 – 13.300)/4000 = −0,15<br />
Pozicija izračunatih vrijednosti unutar standardne normalne distribucije je prikazana na slici 4.<br />
Slika 4 – Standardizovane vrijednosti komercijalista<br />
Dakle, za komercijalistu A sa prosječnom prodajom od 20.400 KM standardizovana vrijednost<br />
iznosi z = +0,64 i to znači da se on unutar distribucije nalazi 0,64 standardnih devijacija iznad<br />
prosjeka ostalih komercijalista sa područja Kantona Sarajevo. Istovremeno, komercijalista B se<br />
nalazi 1,35 standardne devijacije iznad prosjeka ostalih komercijalista unutar Posavskog<br />
kantona. Ovo znači da je komercijalista B, kada se u obzir uzmu različiti uslovi poslovanja u<br />
ova dva knatona, u relativnom omjeru efikasniji od kolege A iz Kantona Sarajevo. Konačno,<br />
komercijalista C ima negativnu standardnu vrijednosti z = −0,15 što govori da se on nalazi nešto<br />
ispod prosjeka svojih kolega iz Tuzlanskog kantona.<br />
Primjer 3.2<br />
Pretpostavimo da su tokom istraživanja kupci zamoljeni da izraze preferencije prema marci A<br />
i da su dobijeni rezultati distribuirani sa N(5,2). U međuvremenu, proizvođač je napravio<br />
izmjene na proizvodu nakon čega je drugi tim istraživača ponovo mjerio preferencije potrošača.<br />
Igrom slučaja, oni su koristili drugačiju skalu kojom su zabilježili vrijednosti N(15,5). Da li su<br />
preferencije ispitanika koji je na prvoj skali imao ocjenu 7, a na drugoj skali ocjenu 22, veće<br />
prije ili nakon izmijena? Obzirom da dvije skale na kojima su mjerene preferencije očito imaju<br />
drugačija svojstva, teško je napraviti direktno poređenje.<br />
Zbog toga ćemo za uporedbu koristiti standardne vrijednosti. Ako orginalnu vrijednost prve<br />
skale konvertujemo u z-vrijednost dobićemo da je z = (7 − 5)/2 = +1.0. Ovo nam govori da se<br />
rezultat prvog mjerenja za odabranog ispitanika nalazi tačno jednu standardnu devijaciju iznad<br />
prosjeka uzorka. Ako je isti ispitanik u ponovljenom istraživanju na drugoj skali imao 22,<br />
standardna vrijednost će biti z = (22-15)/5 = +1.4, što upućuje na to da je modifikacija proizvoda<br />
iz njegove perspektive bila uspješna.<br />
8
Obratimo pažnju da z-vrijednosti ne govore ništa direktno o apsolutnim iznosima i da na osnovu<br />
njih možemo vršiti samo relativne uporedbe. Na primjer, možemo uporediti relativnu prodaju<br />
komercijalista na različitim područjima ili uporediti relativni iznos poreza kojeg je pojedinac<br />
platio 2001. sa onim iz 2016. godine, ali na osnovu z-vrijednosti ne možemo reći ništa o<br />
apsolutnom iznosu prodaje ili plaćenog poreza.<br />
3.2. STANDARDNA ILI Z-DISTRIBUCIJA<br />
Vrijednosti bilo koje normalno distribuirane varijable možemo pretvoriti u standardizovane<br />
vrijednosti korištenjem prethodno navedene formule. U tom slučaju, rezultirajuća distribucija<br />
se naziva se standardnom normalnom distribucijom ili z-distribucijom. Ona se označava sa<br />
N(0,1), što znači da ima prosjek 0 i standardnu devijaciju 1, kao što se može vidjeti na slici 4.<br />
Iako standardizacija omogućava kompariranje rezultata mjerenih na različitim skalama bitno je<br />
napomenuti da ona ne mijenja osnovne aspekte orginalne distribucije. Prvo, sve opservacije<br />
zadržavaju isti relativni položaj kao i u orginalnoj distribuciji. Samim tim i proporcije između<br />
njih ostaju identične. Drugo, oblik z-distibucije ostaje nepromjenjen. Ako je orginalna<br />
distribucija bila nesimetrična i z-distribucija će imati nesimetričan oblik. Ovo je bitno upamtiti<br />
jer nekada istraživači naprave grešku misleći da mogu „normalizovati" nesimetrično<br />
distribuiranu varijablu time što će je pretvoriti u z-vrijednosti, što nije tačno.<br />
Standardna normalna distribucija ima svojstva koja se mogu primjeniti na sve probleme u<br />
kojima varijabla ima normalan raspored što će biti ilustrovano u narednim sekcijama.<br />
3.3. STANDARDNA NORMALNA DISTRIBUCIJA I VJEROVATNOĆA<br />
Zašto je važna normalna distribucija? Statističari su iskoristili činjenicu da se preko prosjeka<br />
(μ) i standardne devijacije (σ) matematski može predstaviti oblik normalne distribucije kako bi<br />
izračunali vjerovatnoću pojave bilo koje numeričke vrijednosti unutar normalno distribuirane<br />
varijable. Drugim riječima, bilo koja pojedinačna vrijednost ili opservacija unutar teoretske<br />
normalne distribucije ima tačno pridruženu vjerovatnoću. Na bazi toga je izračunato koliki<br />
postotak od ukupnog broja vrijednosti ili opservacija se nalazi u određenim intervalima. Upravo<br />
ove dobro poznate vjerovatnoće su razlog zašto veliki broj statističkih testova podrazumjeva<br />
normalnu distribuciju.<br />
3.4. PODRUČJA ISPOD KRIVE NORMALNE DISTRIBUCIJE<br />
Primjer 3.2<br />
Da bi ilustrovali ove koncepte poslužimo se sa sljedećim primjerom. Pretpostavimo da je<br />
utvrđeno da iznos novca kojeg turisti potroše tokom sedmičnog boravka u jednom hotelskom<br />
kompleksu slijedi normalnu distribuciju sa prosjekom μ = 1.000 KM i standardnom devijacijom<br />
σ = 200 KM. Na slici 5 je grafički predstavljena ova distribucija. Ispod x-ose nalaze se izvorne<br />
vrijednosti u KM, standardizovane z-vrijednosti koje označavaju udaljenosti opservirane<br />
dnevne potrošnje od aritmetičke sredine izražen u broju standardnih devijacija i pridružene<br />
vjerovatnoće (p). Šta znače ove vjerovatnoće i kako ih interpretiramo?<br />
9
Slika 5 - Područja ispod krive normalne distribucije za varijablu sa μ = 1.000 KM i σ = 200<br />
KM<br />
Prvo, standardizovana vrijednost koja je jednaka aritmetičkoj sredini ima z = 0 i p = 0,50.<br />
Obzirom da je teoretska normalna distribucija unimodalna i savršeno simetrična, ovo znači da<br />
se 50% vrijednosti distribucije se nalazi ispod aritmetičke sredine, a 50% iznad aritmetičke<br />
sredine. Dakle, možemo reći da tokom boravka polovica turista potroši 1.000 KM ili manje,<br />
dok ostalih pola potroši 1.000 KM ili više.<br />
Drugo, najveći broj standardizovanih vrijednosti je koncentrisan oko aritmetičke sredine.<br />
Međutim, kako se od aritmetičke sredine krećemo prema krajevima distribucije vjerovatnoća<br />
da se pojavi vrijednost znatno različita od prosjeka opada. Tako na udaljenosti z = ±1 od<br />
prosjeka, vjerovatnoća pojave individualne vrijednosti iznosi p = 0,159. Ovo znači da će se<br />
15,9% opservacija na lijevoj strani distribucije nalaziti ispod −1 SD, dok će se 15,9%<br />
opservacija na desnoj strani distribucije nalaziti iznad +1 SD. Ukoliko zbrojimo ove dvije<br />
vrijednosti dobićemo da se 15,9% + 15,9% = 31,8% opservacija ili vrjednosti u normalnoj<br />
distribuciji nalazi izvan raspona od ±1 SD. Preostalih 100% − 31,8% = 68,2% opservacija će se<br />
nalaziti unutar površine koju čini raspon od −1 SD do +1 SD. Polovica od ovog broja, tj. 34,1%<br />
svih opservacija će se nalaziti između −1 SD i aritmetičke sredine, dok će se druga polovica<br />
nalaziti između aritmetičke sredine +1 SD.<br />
Treće, koristeći se istom računicom doći ćemo do zaključka da će se 95,6% svih vrijednosti<br />
normalne distribucije nalaziti unutar raspona od −2 SD do +2 SD, dok će ih se 99,8% nalaziti<br />
unutar raspona od −3 SD do +3 SD.<br />
3.5. TABLIČNE VRIJEDNOSTI ZA STANDARDNU NORMALNU DISTRIBUCIJU<br />
Statističari su utvrdili koliki procenat distribucije će se nalaziti između aritmetičke sredine i<br />
bilo koje z-vrijednosti. Tablice u kojima se nalaze ovakvi podaci obično se nalaze u dodatku<br />
10
svakog statističkog udžbenika. Kako je proporcija između dvije vrijednosti N(μ,σ) jednaka<br />
proporciji između korespondirajućih vrijednosti u N(0,1), možemo iskoristiti z-vrijednost da<br />
dobijemo proporciju koja se nalazi na bilo kojem položaju ispod krive normalne distribucije.<br />
Vratimo se na raniji primjer i uzmimo da je slučajno odabrani posjetilac tokom boravka u<br />
hotelskom kompleksu potrošio 1.256 KM. Njegova pozicija je unutar distribucije je prikazana<br />
na slici 6. Koliko turista je tokom boravka potrošilo više novca u odnosu na odabranog<br />
ispitanika?<br />
Slika 6 - Pozicija ispitanika sa orginalnom vrijednosti 1.256 KM i z = +1,28<br />
Kako bi dali odgovor na ovo pitanje moramo utvrditi proporciju turista koji imaju veće izdatke<br />
od 1.256 KM i koji se na slici 6 nalaze u osjenčenom području. U tu svrhu poslužićemo se<br />
statističkim tablicama za normalnu distribuciju i standardnim (z) vrijednostima.<br />
U tabeli 2 predstavljen je samo dio cjelokupne tablice za normalni raspored iz koje se čitaju z-<br />
vrijednosti i njima pridružene odgovarajuće proporcije. Tako vidimo da vrijednosti z = 0,00<br />
odgovara broj .50. Već znamo da z = 0 predstavlja prosjek standardne normalne distribucije, a<br />
proporcija .50 govori da 50% turista tokom sedmičnog boravka izdvaja manje od prosjeka koji<br />
iznosi 1.000 KM.<br />
Tabela 2 – Tablične z-vrijednosti<br />
z 0.00 0.01 0.02 ... .... 0.08 ....<br />
0.0 .5000 .4960 .4920 .4681<br />
0.1 .4602 .4562 .4522 .4286<br />
...<br />
1.2 .3849 .3869 .3888 .1003<br />
...<br />
Posjetilac koji sedmično troši 1.256 KM na usluge hotelskog kompleksa imaće standardizovanu<br />
vrijednost z = (167,7 − 119 ) / 38 = +1,28. Vrijednosti z = 1,28 u tablici odgovara broj .1003<br />
koji govori da 10% ostalih posjetilaca ima veće sedmične izdatke u odnosu na odabranog<br />
ispitanika.<br />
11
3.6. KRITIČNE Z-VRIJEDNOSTI<br />
U praksi se obično koriste nešto precizniji rasponi od prethodno navedenih "okruglih"<br />
vrijednosti kao što su ±2 ili ±3 SD. Standardizovane vrijednosti na osnovu kojih se definišu ti<br />
precizniji rasponi nazivaju se kritičnim vrijednostima (engl. critical values) i koriste se kod<br />
testova signifikantnosti. U tabeli 3 i na slici 7 su prikazane najčešće korištene kritične z-<br />
vrijednosti koje se označavaju sa zα gdje se α (alfa) odnosi na područje koje se nalazi na repu<br />
normalne distribucije (engl. tail area). Obzirom da je distribucija simetrična i da postoje dva<br />
repa, centralno područje se definiše kao 1−2α.<br />
Tabela 3 - Kritične z-vrijednosti za oba kraja distribucije<br />
α = tail area central area = 1 – 2α zα<br />
0.05 0.90 z.05 = ±1.645<br />
0.025 0.95 z.025 = ±1.96<br />
0.005 0.99 z.005 = ±2.58<br />
Sa slike 7 vidimo da će se 90% opservacija za bilo koju normalno distribuiranu varijablu<br />
nalaziti u rasponu ±1,645 standardne devijacije oko aritmetičke sredine. Zbog toga kažemo da<br />
kritična vijednost z = ±1,645 korespondira sa centralnim područjem 0,90. Ostalih 10%<br />
opservacija će se nalaziti na krajevima distribucije, i to 5% na lijevom i 5% na desnom repu. U<br />
primjeru sa izdacima turista, to bi značilo da se 90% svih zabilježenih vrijednosti kretalo u<br />
rasponu od 671 do 1.329 KM. Od preostalih vrijednosti njih 5% je bilo manje od 671 KM, dok<br />
je 5% bilo veće od 1.329 KM. Na sličan način tumačimo i ostale kritične vrijednosti.<br />
Slika 7 – Kritične z-vrijednosti za oba kraja distribucije<br />
U praksi nas često interesuju i kritične vrijednosti na samo jednom kraju standardne normalne<br />
distribucije. U tabeli 4 i na slikama 8 i 9 su date kritične vrijednosti kojima se odvaja 5%,<br />
odnosno 1% opservacija na jednom kraju distribucije. U ovom slučaju, centralno područje se<br />
definiše kao 1 − α.<br />
12
Tabela 4 - Kritične z-vrijednosti za jedan kraj distribucije<br />
α = tail area central area = 1 – α zα<br />
0.05 0.95 z.05 = ±1.645<br />
0.01 0.99 z.005 = ±2.325<br />
Ako se vratimo na prethodni primjer, vidimo da će se u normalnoj distribuciji 95% opservacija<br />
nalaziti ispred kritične vrijednosti z = +1,645, dok će se preostalih 5% opservacija nalaziti iza<br />
te kritične vrijednosti. Isto tako, 99% svih opservacija će se nalaziti ispred z = +2,325, a 1% iza<br />
te kritične vrijednosti (slika 8).<br />
Slika 8 - Kritične z-vrijednosti za desni kraj distribucije<br />
Na sličan način interpretiramo negativne kritične z-vrijednosti ako je riječ o lijevom kraju<br />
distribucije (slika 9). Na primjer, z = −1,645 je kritična vrijednost koja definiše granicu prije<br />
koje će se nalaziti 5% opservacija, dok će se preostalih 95% nalaziti iza date vrijednosti.<br />
Slika 9 - Kritične z-vrijednosti za lijevi kraj distribucije<br />
13
Obratimo pažnju da vrijednost z = ±1.645 koristimo i u situacijama kada nas istovremeno<br />
interesuju oba kraja distribucije (slika 7) ili kada nas interesuje samo jedan kraj distribucije<br />
(slike 8 i 9). U prvoj situaciji ta kritična vrijednost definiše α područje na koje otpada 10%<br />
opservacija na oba kraja distribucije, dok se u drugoj situaciji definiše α područje na koje otpada<br />
5% opservacija na jednom kraju distribucije. Ova distinkcija je bitna u kontekstu jednosmjernih<br />
i dvosmjernih testova signifikantnosti o kojima ćemo govoriti kasnije.<br />
4. PRIMJENA STANDARDNE NORMALNE DISTRIBUCIJE<br />
Standardizovane vrijednosti možemo iskoristiti i za definisanje granica unutar kojih će se<br />
slučajno odabrana opservacija nalaziti sa određenim stepenom sigurnosti.<br />
Primjer 4.1a<br />
Utvrđeno je da životni vijek određene marke automobilskih guma slijedi normalnu distribuciju<br />
sa aritmetičkom sredinom 50.000 kilometara i standardnom devijacijom od je 7.500 kilometara.<br />
Ukoliko smo kupili jednu takvu gumu kolika je vjerovatnoća da će njen životni vijek biti kraći<br />
od 35.000 kilometara?<br />
Prvo trebamo izračunati standardizovanu vrijednost za donju granicu koja nas interesuje:<br />
z = (35.000 − 50.000)/7.500 = −2<br />
Nakon što smo utvrdili da vrijednosti 35.000 km odgovara standardizovana vrijednost z = −2<br />
potrebno je unutar tablica utvrditi proporciju koja se nalazi ispod krive normalne distribucije u<br />
osjenčenom dijelu prikazanom na slici 10. Ukoliko nemamo tablice možemo iskoristiti sljedeću<br />
Stata naredbu da dobijemo traženu proporciju:<br />
. display normal(-2)<br />
.02275013<br />
Komanda nam prikazuje vrijednost kumulativne funkcije distribucije (engl. cumulative<br />
distribution function - CDF) za standardnu normalnu distribuciju procijenjenu u tačci z = −2,<br />
odnosno vjerovatnoću P[z < −2] 3 . Na slici 10 ova je vjerovatnoća predstavljena osjenčenom<br />
površinom ispod krive u rasponu od − ∞ (minus beskonačno) do z = −2.<br />
3<br />
Da smo željeli dobiti proporciju za površinu koja ispod normalne krive koja se nalazi iznad z = -2 koristili bi<br />
naredbu: display 1-normal(-2)<br />
14
Slika 10 – Proporcija automobilskih guma koje imaju životni vijek kraći od 35.000 km<br />
Dakle, vjerovatnoća da će životni vijek gume biti mani od 35.000 kilometara je manja od 2,3%.<br />
Primjer 4.1b<br />
Kolika je vjerovatnoća da će guma trajati između 35.000 i 45.000 kilometara?<br />
U ovom slučaju interesuje nas proporcija koja se nalazi između dvije tačke ispod krive normalne<br />
distribucije. Prvo je potrebno izračunati z-vrijednosti koje odgovaraju datim tačkama. Već<br />
ranije smo izračunali da vrijednosti 35.000 km odgovara z = −2, i da se 2,3% svih opservacija<br />
nalazi prije te tačke. Ostaje nam da izračunamo z-vrijednost za 45.000 km:<br />
z = (45.000 − 50.000)/7.500 = −0,67<br />
Proporcija opservacija koje se nalaze prije te tačke je:<br />
. display normal(-0.67)<br />
.2514289<br />
Vjerovatnoća da će životni vijek gume biti manji od 45.000 kilometara je 25,1%.<br />
Od ove vjerovatnoće je potrebno oduzeti vjerovatnoću da će životni vijek biti kraći od 35.000<br />
kilometara. Obzirom da od ranije imamo podatak o tome, biće: p = 0,2514289 − 0,02275013 =<br />
0,22867877<br />
15
Slika 11 – Proporcija automobilskih guma koje imaju životni vijek između 35.000 i 45.000 km<br />
Dakle, vjerovatnoća da će životni vijek gume biti između 35.000 i 45.000 kilometara iznosi<br />
22,9%. Ovoj vjerovatnoći odgovara osjenčena površina na slici 11.<br />
Primjer 4.1c<br />
Proizvođač želi odrediti garanciju za prodate gume. Za koju kilometražu treba dati garanciju<br />
ako želimo da stopa reklamacija ne bude veća od 3% (slika 12)?<br />
Slika 12 – Proporcija od 3% automobilskih guma na lijevom kraju distribucije<br />
U ovom slučaju imamo dvije nepoznanice z i x:<br />
z = (x − 50.000)/7.500<br />
Da bi odredili x moramo prvo odrediti z. Proporcija kilometraže između 50% (z = 0) i 3% (z =<br />
?) biće 0,50 − 0,03 = 0,47. Potrebnu z-vrijednost možemo potražiti unutar statističkih tablica.<br />
U tablicama bi trebali naći proporciju koja je najbliža 0,47, a zatim sa margina pročitati z-<br />
vrijednost koja odgovara toj proporciji. Drugi način je da iskoristimo naredbu unutar State:<br />
. display invnormal(0.03)<br />
-1.8807936<br />
16
Iz dobijenog outputa vidimo da je z = −1,88 i to nam govori da će samo 3% opservacija nalaziti<br />
prije ove standardne vrijednosti. Da bi standardnu pretvorili u orginalnu vrijednost (x) u<br />
prethodnu formulu ćemo ubaciti:<br />
−1,88 = (x − 50.000)/7.500<br />
x = 50.000 − 14.100 = 35.900 km<br />
Dakle, ukoliko proizvođač želi da stopa reklamacija bude ispod 3% potrebno je da garanciju za<br />
životni vijek guma postavi na 35.900 km.<br />
Primjer 4.2<br />
Pretpostavimo da je utvrđeno da prosječni mjesečni izdaci za hranu domaćinstava u populaciji<br />
slijede normalnu distribuciju N(700,100). U kojem rasponu će se nalaziti izdaci 95%<br />
domaćinstava?<br />
Da bi mogli reći koji je to raspon moramo znati granice izvan koji će se nalaziti preostalih 5%<br />
vrijednosti. Tih 5% utvrđujemo nalaženjem z-vrijednosti koja će „odsjeći" 2,5% opservacija na<br />
svakom kraju distribucije. Od ranije znamo da proporciji od 2,5% odgovara kritična vrijednost<br />
z = ±1.96. Dakle, možemo reći da će se mjesečni izdaci na hranu u 95% slučajeva nalaziti u<br />
intervalu od −1.96σ ispod prosjeka i +1.96σ iznad prosjeka, što možemo napisati kao:<br />
z = (X − μ)/σ<br />
±1.96 = (X − μ)/σ<br />
X − μ = ±1.96σ<br />
X = μ ± 1.96σ<br />
Naravno, u krajnjoj instanci interesuje nas potrošnja izražena u orginalnim jedinicama (KM) pa<br />
ćemo dobijene vrijednosti izražene u jedinicama standardne devijacije morati pretvoriti u<br />
orginalne vrijednosti. U našem primjeru, granice koje tražimo biće na:<br />
X1,2 = 700 ± 1.96 x 100 KM<br />
X1 = 700 – 196 =504 KM<br />
X2 = 70 + 196 = 896 KM<br />
Dakle, u 95% slučajeva mjesečni izdaci na hranu nalaziće se u rasponu od 504 KM do 896 KM.<br />
Ovo možemo reći i na sljedeći način: Ako bi iz populacije slučajno odabrali jedno domaćinstvo,<br />
možemo biti 95% sigurni da će se njegovi izdaci nalaziti negdje u rasponu od 504 KM do 896<br />
KM.<br />
Slika 13 – Raspon u kojem će se nalaziti 95% izdataka za hranu<br />
17
Ovdje je potrebno obratiti pažnju da smo pri izračunu raspona tačno znali koliki su prosječni<br />
izdaci na hranu unutar populacije (μ) i koliko iznosi standardna devijacija za populaciju (σ).<br />
Ono što smo pokušali utvrditi je raspon unutar kojeg će se nalaziti izdaci (X). Međutim šta se<br />
dešava ako ne znamo parametre populacije? O ovome će biti riječi u narednoj sekciji.<br />
5. SAMPLING DISTRIBUCIJA I STANDARDNA GREŠKA<br />
U dosadašnjem izlaganju oslanjali smo se na to da znamo parametre normalne distribucije.<br />
Međutim, u praksi ćemo vrlo rijetko imati situacije u kojima su nam poznate karakteristike<br />
populacije. Umjesto toga, sud o populaciji i procjenu parametara najčešće ćemo donositi na<br />
bazi uzorka.<br />
5.1. GREŠKA MJERENJA I UZORKOVANJA<br />
Primjer 5.1<br />
Pretpostavimo da želimo utvrditi prosječne mjesečne izdatke na kozmetičke proizvode u BiH i<br />
da smo prikupili podatke na bazi uzorka koji se sastojao od 25 slučajno odabranih ispitanica.<br />
Nakon što smo prikupili podatke, izračunali smo da prosječni izdaci iznose 79,2 KM. Da li<br />
možemo tvrditi da su ovo stvarni izdaci za kozmetičke proizvode u populaciji? Ne možemo, jer<br />
zbog greški mjerenja i uzorkovanja prosjek uzorka nikada u potpunosti neće odgovarati<br />
stvarnom prosjeku.<br />
Greška mjerenja (engl. measurement errors) nastaje ako ne mjerimo precizno ono što želimo.<br />
Najčešće se javlja kada mjerimo kompleksne pojave ili ako je riječ o osjetljivim pitanjima na<br />
koja ispitanik može namjerno dati pogrešan odgovor. U takvim situacijama procjenjeni<br />
parametri na bazi uzorka će se razlikovati od stvarnih parametara unutar populacije.<br />
Greška uzorkovanja (engl. sampling error) odnosi se na stepen u kojem se uzorak razlikuje<br />
od populacije koju predstavlja. Statistički gledano, greška uzorkovanja predstavlja razliku<br />
između nepoznatnog parametra u populaciji (μ) i njegove procjene (x̄ ̄) izračunate na bazi<br />
podataka u uzorku.<br />
Postoje tri potencijalna razloga zbog kojih dolazi do greške uzorkovanja:<br />
18
1. Greška okvira (engl. frame error) nastaje kada se populacija iz koje uzimamo uzorak<br />
razlikuje od stvarne populacije. Na primjer, ako smo anketiranje obavili putem online<br />
ankete moguće je da ispitanice koje koriste Internet imaju viša primanja i da zbog toga na<br />
kozmetiku izdvajaju više u odnosu na populaciju koja obuhvata i ispitanice koji ne koriste<br />
Internet. U takvom uzorku prosječni izdaci za kozmetičke preparate biće iznad stvarnog<br />
prosjeka populacije.<br />
2. Pristrasnost uzorka (engl. nonresponse error) se javlja ako tokom samog procesa odabira<br />
postoji tendencija da određeni ispitanici u uzorku budu više zastupljeni u odnosu na druge.<br />
Na primjer, ako je akentiranje obavljeno putem telefona moglo se desiti da je u uzorak ušlo<br />
više nezaposlenih žena jer su u momentu telefonskog poziva bile kod kuće. Prosječni izdaci<br />
u takvom uzorku će biti ispod stvarnog prosjeka u populaciji obzirom da nezaposlene<br />
ispitanice manje troše na kozmetiku.<br />
3. Slučajna greška (engl. random error) nastaje zbog samih fluktuacija tokom procesa<br />
uzorkovanja. Čak i kada smo primjenili adekvatan metod odabira uzorka, može se desiti da<br />
uzorak pukom slučajnošću obuhvati više ispitanica čija je potrošnja iznad ili ispod stvarnog<br />
prosjeka.<br />
Imajući u vidu postojanje grešaka vezanih za mjerenje i uzorkovanje, jasno je da na bazi uzorka<br />
nikada ne možemo potpuno precizno utvrditi vrijednost parametra u populaciji. Međutim, ono<br />
što možemo uraditi je da izračunamo raspon unutar kojeg će se parametar populacije nalaziti sa<br />
određenim stepenom sigurnosti. A da bi to mogli uraditi potrebno je da se prvo upoznamo sa<br />
konceptom sampling distribucije i standardne greške.<br />
5.2. SAMPLING DISTRIBUCIJA<br />
Kako bi ilustrovali koncept sampling distribucije, vratimo se na naš primjer vezan za izdvajanja<br />
na kozmetičke preparate i zamislimo da stvarni prosječni izdaci u populaciji iznose µ = 76 uz<br />
standardnu devijaciju σ = 15,5. Ova distribucija je prikazana u gornjem lijevom dijelu slike 14.<br />
Već znamo da smo na bazi uzorka dobili da je x̄ = 79,2 KM. Zatim pretpostavimo da smo<br />
ponovili proces uzorkovanja, slučajno odabrali novih 25 ispitanica i izračunali da njihova<br />
prosječna potrošnja iznosi x̄ = 74,1 KM. Zatim smo nastavili uzimati nove uzorke i za narednih<br />
pet uzoraka iste veličine dobili smo sljedeće rezultate: 78,1 KM, 80,2 KM, 75,5 KM, 73,9 KM<br />
i 69,4 KM. Prosjek svakog od ovih uzoraka predstavlja procjenu stvarnih izdataka u populaciji.<br />
Iako su neke od ovih procjena iznad, a neke ispod stvarnih izdataka, u većini slučajeva one su<br />
vrlo blizu stvarnog prosjeka (μ).<br />
Ako bi nastavili započeti proces uzorkovanja i dobijene prosjeke za veoma veliki broj uzoraka<br />
jednake veličine predstavili preko histograma, njihova distribucija frekvencija bi težila da<br />
obrazuje krivu. Takva kriva formirana na bazi aritmetičkih sredina uzoraka iste veličine uzetih<br />
iz iste populacije naziva se distribucijom aritmetičkih sredina uzoraka ili sampling<br />
distribucijom (engl. sampling distribution of the mean).<br />
19
Slika 14 – Distribucija aritmetičkih sredina za 1.000 uzoraka veličine n = 5, 10 i 25 ispitanika<br />
Na slici 14 su predstavljene tri sampling distribucije dobijene na bazi 1.000 uzoraka ali gdje je<br />
sama veličina pojedinačnih uzoraka bila različita. Primjećujemo da sampling distribucije imaju<br />
nekoliko svojstava:<br />
1. Sampling distribucije imaju normalan raspored. Ovo će biti tačno ukoliko distribucija<br />
populacije ima normalan raspored ili ako su uzorci koje uzimamo iz populacije dovoljno<br />
veliki. Činjenica da sa porastom veličine uzorka sampling distribucija teži da ima normalan<br />
raspored je izuzetno bitna i predstavlja osnovu na kojoj se bazira jedan od najvažnijih<br />
teorema u statistici – centralni granični teorem – o kojem će biti više riječi kasnije.<br />
2. Sampling distribucija ima svoju aritmetičku sredinu koju nazivamo opštim ili očekivanim<br />
prosjekom (engl. overall mean ili expected value of the mean). Očekivana vrijednost<br />
prosjeka biće jednaka prosjeku populacije ukoliko smo iz populacije uzeli dovoljno veliki<br />
broj uzoraka. Obzirom da u našem primjeru u sva tri slučaja (n = 5, 10, 25) uzeli veliki broj<br />
uzoraka (1.000) opšti prosjek je jednak prosjeku unutar populacije (μ = 76).<br />
3. Sampling distribucija ima svoju standardnu devijaciju koju nazivamo standardnom<br />
greškom (engl. standard error of the mean). Šta nam govori standardna greška? Kao što<br />
standardna devijacija pokazuje prosječnu razliku (devijaciju) između pojedinačne<br />
opservacije unutar distribucije i prosjeka distribucije, tako nam i standardna greška<br />
pokazuje kolika je razlika između prosjeka uzorka i opšteg prosjeka. Drugim riječima,<br />
standardna greška je mjera reprezentativnosti koja govori koliko možemo pogriješiti kada<br />
kažemo da prosjek uzorka predstavlja prosjek populacije.<br />
5.3. PROCJENA STANDARDNE GREŠKE<br />
Naravno, izdvajanje velikog broja uzoraka iste veličine iz populacije kako bi procijenili<br />
parametre populacije nije praktično. Najčešće imamo na raspolaganju samo jedan uzorak na<br />
osnovu kojeg moramo izvršiti procjenu i donijeti zaključke. A najbolja procjena koju možemo<br />
napraviti na bazi jednog uzorka je da pretpostavimo da i u populaciji prosječni izdaci iznose<br />
20
isto toliko. Međutim, koliku grešku možemo očekivati u našoj procjeni? Odnosno, kolika je<br />
standardna greška?<br />
Formula za izračunavanje standardne greške glasi:<br />
SE<br />
M<br />
SD<br />
<br />
n<br />
Iz formule uočavamo da veličina standardne greške zavisi od dvije stvari:<br />
a) Standardne devijacije. Ako vrijednosti opservacija u uzorku znatno variraju, moramo<br />
pretpostaviti da i vrijednosti unutar populacije znatno variraju. Zbog greške uzorkovanja<br />
ova pretpostavka može biti pogrešna ali se moramo osloniti na nju jer je to jedina<br />
informacija koju imamo. Dakle, što je veća standardna devijacija uzorka biće veća i<br />
standardna greška.<br />
b) Veličine uzorka. Obratimo pažnju da je varijabilitet prosječnih vrijednosti sampling<br />
distribucije manji nego varijabilitet izvornih vrijednosti unutar populacije (slika 14).<br />
Ovo je razumljivo, obzirom da u slučaju populacije imamo pojedinačne opservacije koje<br />
mogu imati znatna odstupanja od prosjeka. Međutim, pojedinačne ekstremne vrijednosti<br />
će biti "ublažene" unutar uzorka jer zajedno sa ostalim opservacijama ulaze u prosjek<br />
uzorka. Što je veći uzorak kojeg uzimamo iz populacije, ovo "ublaživanje" će biti veće<br />
i prosjek uzoraka će biti više koncentrisani oko stvarnog prosjeka populacije. Samim<br />
tim će i standardna greška biti manja. Ovo se jasno vidi na slici 14 gdje se standardna<br />
greška smanjuje (SE = 6,9, 4,9 i 3,1) sa povećanjem veličine uzorka (n = 5, 10, 25).<br />
Jednostavno rečeno, što imamo veći uzorak to će standardna greška biti manja.<br />
Obratimo pažnju i da se standardna greška ne smanjuje u direktnoj proporciji sa<br />
veličinom uzorka, nego u proporciji sa kvadratnim korijenom veličine uzorka. Ovo<br />
znači da ukoliko želimo prepoloviti standardnu grešku trebamo uzeti ne dvostruko, već<br />
četverostruko veći uzorak.<br />
6. CENTRALNI GRANIČNI TEOREM<br />
Mnogi testovi signifikantnosti počivaju na ideji normalne distribucije. Zato se često navodi<br />
pretpostavka o normalnosti distrubucije kao zahtjev koji je potrebno ispuniti ukoliko želimo da<br />
rezultati testova budu nepristrasni i validni. Ova pretpostavka je razumljiva obzirom da je iz<br />
dosadašnjeg izlaganja jasno da teoretska normalna distribucija omogućava da primjenimo<br />
dobro poznate vjerovatnoće na podatke koji slijede normalan raspored.<br />
Međutim, u praksi su česte situacije kada ne znamo ništa o tome kako je varijabla distribuirana<br />
u populaciji ili pretpostavljamo da njena distribucija znatno odstupa od normalnog rasporeda.<br />
Da li to znači da se u takvoj situaciji ne možemo osloniti na statističke testove? Srećom,<br />
odgovor je ne nužno. Naime, pretpostavka normalne distribucije ne odnosi se na normalnu<br />
distribuciju orginalnih podataka u uzorku, već na normalnu distribuciju aritmetičkih sredina<br />
uzoraka. Drugim riječima, ne traži se da orginalna varijabla ima normalan raspored već da<br />
sampling distribucija ima normalan raspored.<br />
21
Kako procijeniti da li sampling distribucija ima normalan raspored? Odgovor na to pitanje daje<br />
Centralni granični teorem (engl. Central limit theorem) koji kaže:<br />
"Za populaciju sa aritmetičkom sredinom μ i standardnom devijacijom σ, raspored<br />
aritmetičkih sredina svih prostih slučajnih uzoraka veličine n imaće približno normalan<br />
raspored pod pretpostavkom da imamo dovoljno veliki uzorak" 4 .<br />
U suštini ovo znači da će sampling distribucija slučajne varijable X uvijek imati normalnu<br />
raspodjelu ukoliko imamo dovoljno veliki uzorak, bez obzira na oblik orginalne distribucije<br />
podataka iz uzorka. Djelovanje Centralnog graničnog teorema je predstavljeno na slici 15.<br />
Slika 15 – Promjene oblika sampling distribucije sa porastm veličine uzoraka<br />
U praksi se postavlja pitanje šta se podrazumijeva pod dovoljno velikim uzorkom koji će<br />
osigurati da Centralni granični teorem rezultira sampling distribucijom sa normalnim<br />
rasporedom?<br />
Nema jednoznačnog odgovora na ovo pitanje. Ako varijabla od interesa u populaciji ima<br />
normalan raspored čak i uzorci male veličine (n < 10) će biti dovoljni da se osigura normalan<br />
raspored sampling distribucije. Ako varijabla u populaciji nema normalan raspored neki<br />
istraživači zastupaju stav da će već uzorci veličine 10 ili 12 opservacija biti dovoljni da se<br />
osigura normalnost sampling distribucije. Ipak, u literaturi se najčešće pod „dovoljno velikim<br />
uzorkom" podrazumijeva uzorak sa 30 ili više opservacija. Dakle, smatra se da će sampling<br />
distribucija uz uzorak veličine n ≥ 30 uvijek imati normalan raspored bez obzira na stvarni oblik<br />
distribucije u populaciji.<br />
Na slici 15 možemo da pratimo promjenu oblika sampling distribucije sa povećanjem veličine<br />
uzoraka. Kada varijabla u populaciji ima normalan raspored, čak i vrlo mali uzorci (n = 2) će<br />
rezultirati sampling distribucijom koja ima normalan raspored. U ostalim situacijama tako mali<br />
uzorci najčešće nisu zadovoljavajući. Ipak, sa porastom veličine uzorka ove razlike se smanjuju<br />
i već sa uzorkom veličine n = 30, imamo međusobno identične sampling distribucije koje slijede<br />
normalan raspored, bez obzira na oblik orginalne distribucije u populaciji.<br />
4<br />
Lind and Mason, Basic Statistics for Business and Economics, p. 227.<br />
22
7. ESTIMACIJA I INTERVAL POVJERENJA<br />
U velikom broju statističkih analiza, aritmetička sredina uzorka i standardna greška se koriste<br />
kao osnova na kojoj se gradi dalje statističko zaključivanje. Estimacija (engl. estimation)<br />
podrazumjeva upotrebu ovih mjera (statistike uzorka) kako bi se procijenila obilježja populacije<br />
(parametri).<br />
Primjer 7.1<br />
Zamislimo da menadžmentu kompanije koja se bavi proizvodnjom mliječnih proizvoda želimo<br />
dati preporuku o obimu proizvodnje i cijeni u narednom periodu. Kako bi izbjegli da preporuku<br />
dajemo na bazi nepotpunih informacija, prva stvar koju želimo saznati je koliko mjesečno<br />
potrošači izdvajaju na mliječne proizvode. Dakle, potrebno je da procijenimo iznos prosječne<br />
potrošnje u populaciji (μ). Obzirom da ne raspolažemo podacima za čitavu populaciju,<br />
zamislimo da smo na bazi slučajnog uzorka anketirali n = 100 ispitanika. Zatim smo na bazi<br />
podataka iz uzorka izračunali da prosječna potrošnja iznosi 98,6 KM uz standardnu devijaciju<br />
od 32,3 KM. Najbolje što sljedeće možemo uraditi je da pretpostavimo da će stvarna prosječna<br />
potrošnja u populaciji (μ) biti istovjetna procjeni koju smo dobili na bazi uzorka (x̄ ). Drugim<br />
riječima, iskoristićemo prosjek uzorka (x̄ ) za procjenu stvarne potrošnje u populaciji (μ).<br />
Pojedinačni brojevi koji smo izračunali na bazi podataka u uzorku i koje koristimo za procjenu<br />
parametara u populaciji predstavljaju tzv. tačkaste procjene (engl. point estimate).<br />
7.1. PRECIZNOST ESTIMACIJE<br />
Na osnovu izlaganja o sampling distribuciji znamo da će prosjek svakog uzorka (x̄ ) više ili<br />
manje odstupati od prosjeka populacije (μ). Samim tim, vjerovatno je i da tačkasta procjena<br />
nije u potpunosti tačna pa se postavlja pitanje koliko je ona zaista precizna? Drugim riječima,<br />
kada smo pretpostavili da je x̄ jednako μ koliko smo eventualno pogriješili?<br />
Na ovo pitanje odgovor nam daje standardna greška koja pruža informaciju o prosječnoj<br />
razlici (devijaciji) između očekivane vrijednosti (μ) i tačkaste procjene prosjeka na bazi uzorka<br />
(x̄ ). Odnosno, standardna greška nam govori o tome koliko možemo pogriještiti kada kažemo<br />
da je naša jedinična procjena jednaka stvarnoj vrijednosti u populaciji. Ako se vratimo na raniji<br />
primjer i izračunamo standardnu grešku dobićemo:<br />
SE = SD/√n = 32,3/√100 = 3,23<br />
Kako interpretiramo standardnu grešku? Zahvaljujući centralnom graničnom teoremu znamo<br />
da će u situaciji kada imamo dovoljno veliki uzorak sampling distribucija imati normalan<br />
raspored bez obzira na oblik distribucije u populaciji. Ovo saznanje smo iskoristili da sampling<br />
distribuciju za naš primjer predstavimo na slici 16. Obzirom da je standradna greška u stvari<br />
samo drugi naziv za standardnu devijaciju sampling distribucije, sve koncepte koje smo koristili<br />
ranije kada smo analizirali položaj pojedinačnih opservacija unutar normalne distribucije<br />
možemo primjeniti i ovdje. Jedina razlika je da u slučaju sampling distribucije više ne govorimo<br />
o položaju pojedinačnih opservacija već o položaju parametra populacije.<br />
23
Slika 16 – Sampling distribucija za x̄ = 98,6 i SE = 3,23<br />
Na primjer, ako se poslužimo znanjem o područjima ispod standardne normalne krive, onda<br />
znamo da će raspon od ±2 SE obuhvatiti vrijednosti između 98,6 − (2 x SE) = 92,14 i 98,6 + (2<br />
x SE) = 105,06 KM i da će se u tom rasponu nalaziti 95,6% svih opservacija. Isto tako će<br />
raspon od ±3 SE obuhvatiti vrijednosti koje se nalaze između 88,91 i 108,29 KM i u tom rasponu<br />
će se nalazit 99,8% svih opservacija.<br />
Dakle, sa 95,6%, odnosno sa 99,8% sigurnosti možemo tvrditi da će se stvarni prosjek<br />
populacije nalaziti negdje unutar tih raspona. To je ujedno i odgovor na naše pitanje o tome<br />
koliku grešku možemo očekivati kada kažemo da prosječna potrošnja iznosi 98,6 KM. Na bazi<br />
podataka iz uzorka najbolje što možemo reći je da se stvarna prosječna potrošnja u populaciji<br />
nalazi negdje između 92,14 KM i 105,06 KM (uz 4,4% mogućnost da smo pogriješili), odnosno<br />
između 88,91 i 108,29 KM (uz 0,2% mogućnost da smo pogriješili).<br />
7.2. INTERVAL POVJERENJA<br />
Granice unutar kojih sa određenim stepenom vjerovatnoće možemo očekivati da se nalazi<br />
parametar populacije nazivamo intervalom povjerenja (engl. confidence interval). Pri<br />
definisanju intervala povjerenja u praksi se najčešće koristimo uobičajenim "okruglim"<br />
rasponima kao što su 90%, 95% i 99% i odgovarajućim kritičnim z-vrijednostima.<br />
Pretpostavimo da u primjeru 7.1 vezanom za izdatke na mliječne proizvode želimo konstruisati<br />
interval povjerenja od 95%. U tom slučaju z = 1,96 siječe normalnu krivu sampling distribucije<br />
tako da površina ispod krive obuhvata 2,5% vrijednosti na lijevom i 2,5% vrijednosti na desnom<br />
kraju distribucije, dok će se u rasponu od −1,96 SE do +1,96 SE nalaziti 95% preostalih<br />
opservacija. Na osnovu toga možemo izvesti formulu za izračunavanje gornje i donje granice<br />
intervala povjerenja:<br />
z = (x̄ − μ) / SE<br />
±1,96 = (x̄ − μ) / SE<br />
±1,96 × SE = x̄ − μ<br />
μ = x̄ ± (1,96 × SE)<br />
x̄ − (1,96 × SE) ≤ μ ≤ x̄ + (1,96 × SE)<br />
24
ili<br />
98,6 − (3,23 x 1,96) ≤ μ ≤ 98,6 + (3,23 x 1,96)<br />
98,6 − 6,3 ≤ μ ≤ 98,6 + 6,3<br />
92,3 ≤ μ ≤ 104,9.<br />
Dakle, sa 95% sigurnošću možemo tvrditi da se stvarni mjesečni izdaci na mliječne proizvode<br />
nalaze u rasponu između 92,3 KM i 104,9 KM. Drugim riječima, ako bi prikupili podatke na<br />
bazi velikog broja uzoraka veličine n = 100, očekivali bi da njihov prosjek u 95% slučajeva<br />
bude između 92,3 KM i 104,9 KM.<br />
Primjer 7.2<br />
Ako želimo koristiti drugi interval povjerenja, potrebno je samo uzeti drugu kritičnu vrijednost.<br />
Na primjer, ako hoćemo biti 99% sigurni da se stvarni prosjek nalazi unutar intervala povjerenja<br />
trebamo koristiti standardnu vrijednost z = 2,58, koja siječe normalnu krivu tako da površina<br />
ispod krive obuhvata 0,5% opservacija na lijevom i 0,5% opservacija na desnom kraju<br />
distribucije pa će biti:<br />
x̄ − (2,58 × SE) ≤ μ ≤ x̄ + (2,58 × SE)<br />
98,6 − (3,23 × 2,58) ≤ μ ≤ 98,6 + (3,23 × 2,58)<br />
98,6 − 8,3 ≤ μ ≤ 98,6 + 8,3<br />
90,3 ≤ μ ≤ 106,9.<br />
Kako još možemo interpetirati interval povjerenja? U slučaju intervala povjerenja od 95%<br />
možemo reći: Ako bi iz populacije uzeli 100 uzoraka iste veličine i za svaki izračunali interval<br />
povjerenja, 95 tako dobijenih intervala bi sadržavalo stvarni prosjek populacije što je prikazano<br />
na slici 17.<br />
Slika 17 – Intervali povjerenja za 7 uzoraka iste veličine<br />
Na slici 17 vidimo 7 uzorka iste veličine uzetih iz iste populacije gdje x̄ označava aritmetičku<br />
sredinu datog uzorka a linija sa strjelicama na kraju predstavlja interval povjerenja od 95%.<br />
Stvarni prosjek u populaciji je označen vertikalnom linijom (μ). Prvo što uočavamo je da zbog<br />
fluktuacije uzorkovanja svaki uzorak ima različitu aritmetičku sredinu (x̄ ). Drugo, iako je većina<br />
intervala obuhvatila stvarni prosjek unutar populacije (crvene linije) u jednom slučaju se to nije<br />
25
desilo (zelena linija za x̄ 5). Da smo imali 100 uzoraka sa intervalom povjerenja 95%, u pet<br />
uzoraka mogli bi očekivati da se desi slična situacija kao za x̄ 5, gdje interval povjerenja ne bi<br />
obuhvatio istinski parametar populacije.<br />
8. STUDENTOVA T-DISTRIBUCIJA<br />
U dosadašnjem izlaganju smo govorili o primjeni normalne distribucije i z-vrijednosti da<br />
odredimo vjerovatnoće javljanja opservacije u određenom intervalu. Vjerovatnoće koje<br />
dobijemo na osnovu normalne distribucije su dovoljno precizne kada je poznata standardna<br />
devijacija unutar populacije ili kada imamo dvoljno veliki uzorak (n ≥ 30) koji će osigurati<br />
djelovanje Centralnog graničnog teorema.<br />
8.1. PROBLEM MALOG UZORKA I PRIMJENE Z-DISTRIBUCIJE<br />
Ukoliko ne znamo standardnu devijaciju populacije i imamo mali uzorak, ne možemo biti<br />
sigurni da će sampling distribucija u potpunosti pratiti lijepo oblikovanu normalnu krivu.<br />
Samim tim vjerovatnoće koje se baziraju na normalnoj distribuciji neće biti najpreciznije i<br />
moraju se uskladiti za velličinu uzorka iz dva razloga: Prvo, znamo da SD izračunata na bazi<br />
podataka iz uzorka predstavlja samo procjenu stvarne vrijednosti SD u populaciji. Kako formula<br />
za izračunavanje SD uzorka u denominatoru sadrži n – 1, procjena SD u populaciji će biti manje<br />
precizna kako se veličina uzorka smanjuje. Drugo, mali uzorak može uticati na preciznost SE<br />
jer njen izračun zavisi od SD. Krajnja posljedica je da će z-vrijednosti biti nedovoljno precizne<br />
za male uzorke.<br />
8.2. RJEŠENJE PROBLEMA: T-DISTRIBUCIJA<br />
Kako bi riješio ovaj problem statističar William Gosset, koji se potpisivao pod pseudonimom<br />
"Student" je kreirao tzv. t-distribuciju. Ova distribucija je po svemu slična normalnoj<br />
distribuciji osim što njen oblik zavisi i od veličine uzorka. U dovoljno velikim uzorcima t-<br />
distribucija je gotovo identična normalnoj z-distribuciji. Međutim, kako se veličina uzorka<br />
smanjuje ona postaje više spljoštena u sredini a deblja na krajevima. Ovo praktično znači da će<br />
u manjim uzorcima više opservacija biti dalje od aritmetičke sredine (slika 18).<br />
Slika 18 – Uporedba z i t distribucije<br />
26
Tačan oblik t-distribucije će zavisiti od broja stepena slobode (engl. degrees of freedom - df).<br />
Koncept stepena slobode nije jednostavan za razumjeti i njegovo objašnjavanje izlazi iz okvira<br />
ove knjige 5 . Bitno je zapamtiti da današnji softverski paketi broj stepena slobode izračunavaju<br />
automatski za većinu testova. U slučaju t-distribucije, broj stepena slobode jednak je veličini<br />
uzokra minus jedan (df = n − 1).<br />
Na slici 18 je dat prikaz t-distribucije za 2 (df = 3 −1) i 11 (df = 13 − 1) stepena slobode.<br />
Možemo primjetiti kako t-distribucija teži ka normalnoj distribuciji sa porastom veličine<br />
uzorka. Slična situacija se dešava i sa kritičnim t-vrijednostima koje sa povećanjem uzorka teže<br />
da se izjednače sa z-vrijednostima što se vidi u tabeli 5.<br />
Tabela 5 – Uobičajene kritične t-vrijednosti za oba kraja distribucije i uzroke različite veličine<br />
Studentove t-vrijednosti u<br />
zavisnosti od veličine uzorka<br />
Normalna z-<br />
vrijednost<br />
10 20 30 40<br />
Nivo povjerenja<br />
99% 3,17 2,85 2,75 2,70 2,58<br />
95% 2,23 2,09 2,04 2,02 1,96<br />
90% 1,81 1,72 1,70 1,68 1,64<br />
Dakle, osnovna prednost t-distribucije je što daje preciznije vjerovatnoće od z-distribucije kada:<br />
a) znamo da su vrijednosti varijable u populaciji normalno distribuirane ali ne znamo<br />
standardnu devijaciju i imamo mali uzorak (obično se definiše kao n < 30) i b) ne znamo ništa<br />
o populaciji, imamo mali uzorak (obično se definiše kao n < 30) ali podaci u uzorku slijede<br />
približno normalan raspored na osnovu kojeg možemo pretpostaviti da i vrijednosti u populaciji<br />
imaju normalnu distribuciju.<br />
Zbog svega navedenog se unutar softverskih paketa obično koristi t-distribucija. Svi zaključci<br />
na bazi velikih uzorka i t-distribucije će biti istovjetni onima do kojih bi došli korištenjem z-<br />
distribucije, dok će zaključci u manjim uzorcima biti precizniji u odnosu na one bazirane na z-<br />
distribuciji.<br />
8.3. STATISTIČKE TABLICE ZA T-DISTRIBUCIJU<br />
Statističke tablice za t-vrijednosti daju vjerovatnoću povezanu sa položajem pojedinačne<br />
opservacije unutar distribucije uz dati broj stepena slobode. Pored ovoga, u tablicama t-<br />
vrijednosti ćemo naći dva skupa vjerovatnoća, za jednosmjerne i dvosmjerne testove. Na<br />
primjer, ukoliko imamo uzorak veličine n = 12 i zainteresirani smo za p = 0,05, u tablici ćemo<br />
vidjeti da uz tu vjerovatnoću i dati broju stepena slobode (df = n − 1 = 11) kritična t-vrijednost<br />
za dvosmjerni test iznosi t = 2,201. Ova situacija je ilustrovana na slici 19.<br />
5<br />
Za vrlo dobro objašnjenje koncepta stepena slobode za one-sample t-test, hi-kvadrat test i regresionu analizu,<br />
pogledati blog post:<br />
http://blog.minitab.com/blog/statistics-and-quality-data-analysis/what-are-degrees-of-freedom-in-statistics<br />
27
Slika 19 – Kritične vrijednosti unutar t-distribucije za 11 stepana slobode između kojih se nalazi<br />
95% opservacija<br />
Sa slike 19 primjećujemo da t-vrijednost od ±2,201 vezana za df = 11 presijeca krivu tako da<br />
na krajevima ostaje 2,5% vrijednosti distribucije, što je u zbiru 5% koji odgovaraju vrijednosti<br />
p = 0,05.<br />
8.4. STANDARDNA GREŠKA I INTERVAL POVJERENJA ZA T-DISTRIBUCIJU<br />
Na isti način kao u slučaju z-distribucije, t-vrijednosti možemo iskoristiti da izračunamo<br />
standardnu grešku i interval povjerenja. Na primjer, pretpostavimo da smo za procjenu<br />
mjesečnih izdvajanja na mliječne proizvode umjesto uzorka veličine 100 ispitanika koristili<br />
uzorak veličine n = 12 ispitanika i da smo dobili da je aritmetička sredina 98,6 KM uz<br />
standardnu devijaciju 32,3 KM. U tom slučaju standardna greška bi bila:<br />
SE = SD/√n = 32,3/√12 = 9,32 KM<br />
Ovu vrijednost možemo iskoristiti za izračunavanje intervala povjerenja:<br />
95% CI = x̄ ± (kritična t-vrijednost × SE)<br />
Već znamo da tablična da kritična vrijednost za 95% interval povjerenja i df = 11 iznosi t =<br />
2,201. Stoga ćemo imati:<br />
95% CI = 98,6 KM ± (2,201 × 9,32 KM)<br />
= 98,6 KM ± 20,5 KM<br />
= od 78,1 KM do 119,1 KM.<br />
Dakle, sa 95% sigurnošću možemo tvrditi da će se stvarni prosjek popuacije nalaziti u rasponu<br />
između 78,1 KM i 119,1 KM.<br />
28
9. BINOMNA DISTRIBUCIJA<br />
Jedna od osnovnih teoretskih distribucija za diskontinuirane varijable je binomna distribucija<br />
(engl. binomial distribution). Njena upotreba je česta u procesima kontrole kvalitete, ispitivanju<br />
javnog mijenja, medicinskim istraživanjima, osiguranju i sl. Slučajna varijabla koja ima<br />
binomni raspored označava se sa B(n,p), gdje B govori da se radi o binomnoj distribuciji, a n i<br />
p su parametri te distribucije. Matematski izraz za binomnu distribuciju glasi:<br />
n !<br />
x !( n x )!<br />
x<br />
nx<br />
P( x ) <br />
p (1 p)<br />
Njime se opisuje vjerovatnoća dobijanja ishoda (x) iz niza nezavisnih događaja (n), ako je u<br />
svakom događaju vjerovatnoća pojedinačnog ishoda jednaka (p).<br />
9.1. KARAKTERISTIKE BINOMNE DISTRIBUCIJE<br />
Da bi smo razumjeli šta ova formula znači, u nastavku ćemo predstaviti tri primjera upotrebe<br />
binomne distribucije. Ovi primjeri međusobno dijele nekoliko zajedničkih osobina koje ujedno<br />
predstavljaju i glavne karakteristike binomne distribucije.<br />
Primjer 9.1a<br />
Ukoliko isti novčić bacimo 10 puta zaredom kolika je vjerovatnoća da ćemo 7 puta dobiti<br />
pismo?<br />
Primjer 9.1b<br />
Pretpostavimo da je poznato da se u toku proizvodnog procesa javlja 2% neispravnih proizvoda.<br />
Ako smo odabrali slučajni uzorak od 25 proizvoda, kolika je vjerovatnoća da će uzorak<br />
sadržavati 3 ili više defektna proizvoda?<br />
Primjer 9.1c<br />
Ako od ranije znamo da u populaciji svih korisnika mobilnog Interneta njih 40% koristi<br />
provajderske usluge BH Telecom-a, kolika je vjerovatnoća da od 10 slučajno odabranih<br />
korisnika za anketiranje njih 7 ili više budu korisnici BH Telecom-a?<br />
Ono što je zajedničko u sva tri slučaja je sljedeće:<br />
1. Primjeri se odnose na događaje ili procese kod kojih je moguć jedan od dva ishoda koji se<br />
međusobno isključuju. Samim tim, ishod događaja će se bilježiti na binarnoj varijabli koja<br />
može uzeti jednu od dvije vrijednosti: 0 ili 1.<br />
2. U prvom primjeru sa bacanjem novčića ishod može biti: (0) glava ili (1) pismo. U drugom<br />
primjeru događaj se odnosi na sam izbor proizvoda u uzorak, a moguć je jedan od dva<br />
ishoda: (0) izabrani proizvod je ispravan ili (1) izabrani proizvod nije ispravan. U trećem<br />
primjeru, nakon odabira ispitanika u uzorak, moguć je samo jedan od dva rezultata: (0)<br />
odabrani korisnik ne koristi usluge BH Telecom-a i (1) odabrani korisnik koristi usluge BH<br />
Telecom-a.<br />
29
3. Dobijeni podaci se sumiraju brojanjem kako bi dobili ukupan broj ishoda (x). Tako ćemo<br />
prebrojati broj puta kada je palo pismo, broj neispravnih proizvoda ili broj korisnika BH<br />
Telecom-a koji su ušli u uzorak. Rezultat brojanja će biti cijeli broj, što je razlog zbog kojeg<br />
se binomna distribucija klasifikuje kao diskretna distribucija.<br />
4. Broj događaja (n) je fiksiran i poznat. Tako, unaprijed znamo da novčić bacamo 10 puta, da<br />
ćemo imati uzorak od 25 proizvoda i uzorak od 10 korisnika.<br />
5. Događaji su nezavisni. Ovo znači da ishod prethodnog događaja ne utiče na ishod sljedećeg<br />
ili bilo kojeg narednog događaja. Na primjer, ako je prilikom prvog bacanja novčića palo<br />
pismo, to ni na koji način ne utiče na ishod u bilo kojem narednom bacanju.<br />
6. Vjerovatnoća dobijanja pojedinačnog ishoda je istovjetna u svakom događaju. Ako imamo<br />
fer novčić vjerovatnoća da padne pismo iznosi p = 0,5. U slučaju kontrole kvalitete znamo<br />
da vjerovatnoća proizvodnje jednog neispravnog proizvoda iznosi p = 0,02. U zadnjem<br />
primjeru znamo da u populaciji svih korisnika mobilnog Interneta njih 40% koristi<br />
provajderske usluge BH Telecom-a. Samim tim vjerovatnoća da ćemo u uzorak odabrati<br />
korsinika BH Telecoma iznosi p = 0,4.<br />
Ovih pet karakteristika predstavlja ujedno i glavne uslove za primjenu binomne distribucije pa<br />
se kaže da će diskretna varijabla X (karakteristika 2), koja se odnosi na na zbir ishoda (0 ili 1)<br />
unutar konačnog broja n nezavisnih događaja (karakteristike 3 i 4), slijediti binomnu<br />
distribuciju ukoliko se vjerovatnoća dobijanja ishoda ne mijenja od događaja do događaja<br />
(karakteristika 5).<br />
Prethodnu formulu možemo iskoristiti da izračunamo vjerovatnoću za različite ishode (x) u<br />
naša tri primjera i da vizuelno predstavimo oblike binomne distribucije (slike 20, 21 i 22).<br />
Primjer 9.1a - rješenje<br />
U prvom primjeru smo 10 puta zaredom bacali novčić. Broj ishoda gdje smo dobili pismo (x)<br />
slijedi binomni raspored sa n = 10 i p = 0,5. Vjerovatnoća da dobijemo pismo sedam puta (x =<br />
7) iznosi 11,7% i izračunava se na sljedeći način:<br />
10!<br />
7 107<br />
P(7) 0,5 (1 0,5) 0,1171875<br />
7 !(10 7)!<br />
ili pomoću State:<br />
. display binomialp(10, 7, 0.5)<br />
.1171875<br />
Komanda daje vjerovatnoću da ćemo dobiti tačno 7 puta pismo P[x = 7] unutar binomne<br />
distribucije gdje je n = 10 i p = 0,50.<br />
Vjerovatnoću svih ostalih ishoda bacanja novčića možemo izračunati koristeći istu formulu, a<br />
ako bi dobijene vjerovatnoće predstavili grafički dobili bi binomnu distribuciju predstavljenu<br />
na slici 20.<br />
30
Slika 20 – Binomna distribucija za B(10, 0,5)<br />
Na slici 20 možemo primjetiti da ćemo najčešće imati rezultat u kojem će 10 bacanja rezultirati<br />
sa time da dobijemo pet puta pismo. Vjerovatnoća za da će se desiti upravo ovakav rezultat (x<br />
= 5) iznosi 24,6%.<br />
Primjer 9.1b - rješenje<br />
U drugom primjeru znamo da broj neispravnih proizvoda (x) slijedi binomnu distribuciju sa n<br />
= 25 i p = 0,02. Vjerovatnoća da uzorak neće sadržavati ni jedan neispravan proizvod biće:<br />
25!<br />
0 250<br />
P(0) 0,02 (1 0,02) 0,60346<br />
0!(25 0)!<br />
Na isti način računamo vjerovatnoću za 1, 2 i 3 neispravna proizvoda:<br />
25!<br />
1 251<br />
P(1) 0,02 (1 0,02) 0,3078<br />
1!(25 1)!<br />
25!<br />
2 252<br />
P(2) 0,02 (1 0,02) 0,0754<br />
2!(25 2)!<br />
25!<br />
3 253<br />
P(3) 0,02 (1 0,02) 0,0101<br />
3!(25 3)!<br />
Rezultati ishoda formiraju binomnu distriuciju koja je predstavljena na slici 21.<br />
31
Slika 21 – Binomna distribucija za B(25, 0,02)<br />
Distribucija na slici 21 pokazuje da uzorak od 25 slučajno izabranih proizvoda u oko 60,4%<br />
slučajeva neće sadržavati ni jedan defektan proizvod, u oko 30,8% slučajeva će sadržavat jedan<br />
defektan proizvod, dok će u oko 7,5% slučajeva će sadržavati dva defektna proizvoda.<br />
Vjerovatnoća da će se u uzorku naći tri defektna proizvoda (x = 3) je manja od 1,3% i to je<br />
ujedno odgovor na ranije postavljeno pitanje.<br />
Primjer 9.1c - rješenje<br />
I konačno, vjerovatnoća izbora određenog broja korisnika BH Telecoma (x) u uzorak veličine<br />
(n = 10) iz populacije u kojoj znamo da je p = 0,4 je predstavljena na slici 22.<br />
Slika 22 – Binomna distribucija za B(10, 0,4)<br />
Na slici 22 vidimo da vjerovatnoća da od 10 slučajno odabranih korisnika mobilnog Interneta<br />
njih sedam (x = 7) budu klijenti BH Telecoma iznosi 4,25%, što možemo provjeriti uz pomoć<br />
State:<br />
. display binomialp(10, 7, 0.4)<br />
.04246733<br />
32
Na isti način možemo dobiti vjerovatnoće za 8, 9 i 10 korisnika koje iznose: 1,06%, 0,16% i<br />
0,01%. Ako zbrojimo ove vrijednosti dobićemo: P[x ≥ 7] = 4,25 + 1,06 + 0,16 + 0,01 = 5,48%<br />
što je odgovor na postavljeno pitanje.<br />
Alternativno, umjesto da izračunavamo i sabiremo vjerovatnoće pojedinačnih ishoda, mogli<br />
smo upotrijebiti naredbu:<br />
. display binomialtail(10, 7 ,0.4)<br />
.05476188<br />
Naredba prikazuje vjerovatnoću dobijanja 7 ili više pozitivnih ishoda P[x ≥ 7] u binomnoj<br />
distribuciji sa n = 10 i p = 0,40.<br />
Pretpostavimo da smo željeli izračunati vjerovatnoću da će uzorak obuhvatiti 6 ili manje<br />
korisnika BH Telecom-a. U tom slučaju upotrijebili bi naredbu:<br />
. display binomial(10, 6, 0.4)<br />
.94523812<br />
Naredba prikazuje vjerovatnoću dobijanja 6 ili manje pozitivnih ishoda P[x ≤ 6] u binomnoj<br />
distribuciji sa n = 10 i p = 0,40.<br />
Zadatak 9.1<br />
Student je izašao na test iz Marketing analitike. Test se sastoji od 10 pitanja unutar kojih su<br />
ponuđena četiri moguća odgovora (a, b, c i d). Obzirom da se nije spremao gradivo, student ne<br />
zna odgovor ni na jedno pitanje pa je odlučio da odgovore zaokruži „na sreću“. Kolika je<br />
vjerovatnoća da će odgovoriti tačno na 4 pitanja? Kolika je vjerovatnoća da će tačno odgovoriti<br />
na 5 ili više pitanja? Kolika je vjerovatnoća da će imati 3 ili manje tačnih odgovora?<br />
9.2. ARITMETIČKA SREDINA I STANDARDNA DEVIJACIJA BINOMNE<br />
DISTRIBUCIJE<br />
Aritmetička sredina (μ) i standardna devijacija (σ) binomne distribucije može se izračunati<br />
korištenjem sljedećih formula:<br />
μ = np<br />
σ = √(np(1 − p))<br />
Čime u naša tri primjera dobijamo da je:<br />
Primjer 9.1a: μ = 25 × 0,02 = 0,5 σ = √(25 × 0.02 × (1 − 0,02)) = 0,49<br />
Primjer 9.1b: μ = 10 × 0,5 = 5 σ = √(10 × 0.5 × (1 − 0,5)) = 1,58<br />
Primjer 9.1c: μ = 10 × 0,4 = 4 σ = √(10 × 0.4 × (1 − 0,4)) = 1,55<br />
Aritmetička sredina u binomnoj distribuciji predstavlja očekivanu vrijednost ishoda (x). U<br />
slučaju sa odabirom proizvoda to bi značilo da u uzorku veličine 25 proizvoda u prosjeku<br />
možemo očekivati 0,5 nesipravnih proizvoda. Kako je nemoguće imati pola nesipravnog<br />
proizvoda, ovaj broj je poželjno zaokružiti. Ako pogledamo grafik na slici 21 vidimo da je<br />
33
vjerovatnije da se u uzorku neće naći ni jedan neispravan proizvod pa aritmetičku sredinu<br />
možemo zaokružiti na cjelobrojnu vrijednost μ = 0 i reći da u uzorku od 25 slučajno odabranih<br />
proizvoda, u prosjeku možemo očekivati da nema ni jedan neispravan proizvod.<br />
9.3. NORMALNA APROKSIMACIJA BINOMNE DISTRIBUCIJE<br />
U situacijama kada je broj događaja veliki teoretske distribucije za diskontinuirane varijable<br />
možemo aproksimirati pomoću normalne distribucije. Normalna distribucija će biti dobra<br />
zamjena za binomnu distribuciju ako je ispunjen jedan od sljedećih uslova:<br />
Ako je p = 0,5 ili vrlo blizu te vrijednosti. Kako se povećava razlika u vjerovatnoći između dva<br />
moguća ishoda, binomna distribucija postaje sve više i više asimetrična. Prethodni primjeri nam<br />
pokazuju da će binomna distribucija biti simetrična ako je p = 0,5 (slika 20).<br />
Binomne vjerovatnoće imaju barem približno simetričan raspored oko aritmetičke sredine. Ovaj<br />
zahtjev će biti ispunjen ako su očekivani ishod np i njegova inverzna vrijednost n(1−p) veći od<br />
broja 5.<br />
Iz drugog uslova je jasno da će simetričnost distribucije znatno zavisiti od veličine uzorka (n).<br />
Kako n raste, binomna distribucija se sve više približava normalnoj distribuciji. Kada je broj n<br />
veliki, a verovatnoća uspeha p nije ekstremno mala, oko 95% observacija slučajne varijable<br />
X~B(n, p) će se nalaziti unutar raspona od −2 do +2 standardne devijacije.<br />
Primjer 9.3<br />
Procijenjeno je da unutar uže gradske jezgre broj porodica koje nisu pretplatnici ni jedne<br />
kablovske televizije iznosi 10%. Uzet je slučajni uzorak od 100 porodica. Kolika je<br />
vjerovatnoća da će uzorak obuhvatiti tačno 12 porodica koje nisu pretplatnici kablovske<br />
televizije?<br />
Obratimo pažnju na to da je svih pet uslova za binomnu distribuciju ispunjeno. Međutim, ručno<br />
izračunavanje vjerovatnoće prema ranijoj formuli bi bilo izuzetno zahtjevno i nepraktično.<br />
Stoga ćemo prvo provjeriti da li su ispunjeni uslovi za aproksimaciju binomne distribucije.<br />
np = 100 × 0,10 = 10<br />
n(1−p) = 100 × (1 − 0,10) = 90<br />
Obzirom da je ispunjen uslov da su np > 5 i n(1−p) > 5 binomna distribucija može biti<br />
aproksimirana normalnom distribucijom koja ima aritmetičku sredinu μ = 10 i standardnu<br />
devijaciju σ = 3 (slika 23).<br />
34
Slika 23 – Normalna aproksimacija binomne distribucije kada je n = 100 i p = 0,10<br />
Da bi smo odgovorili na pitanje i izračunali vjerovatnoću, u nastavku možemo primijeniti sve<br />
ono što smo naučili kada smo govorili o normalnoj distribuciji. Potrebno je prvo izračunati<br />
standardizovanu vrijednost za x = 12, a zatim toj standardizovanoj vrijednosti pridružiti<br />
odgovarajuću vjerovatnoću iz tablica za z-distribuciju ili je izračunati koristeći statistički<br />
softver. Vjerovatnoća koju tražimo grafički je predstavljena površinom stupca za x = 12 na slici<br />
23.<br />
Obratimo samo pažnju na jedan mali detalj. Naime, obzirom da koristimo normalnu krivu za<br />
aproksimaciju binomne distribucije, vidimo da stupac za x = 12 počinje malo ranije na x = 11,5<br />
i završava na x = 12,5. Na osnovu toga zaključujemo da površini stupca x = 12 u okviru binomne<br />
distribucije, odgovara površina u rasponu od 11,5 do 12,5 ispod krive normalne distribucije, što<br />
je u stvari vjerovatnoća koja nas interesuje kako bi mogli dati odgovor na postavljeno pitanje<br />
(slika 24).<br />
Vrijednost u iznosu od 0,5 koju, u zavisnosti od vrste problema, moramo dodati ili oduzeti od<br />
odabrane vrijednosti (x) u situaciji kada diskretnu binomnu distribuciju aproksimiramo<br />
kontinuiranom normalnom distribucijom naziva se faktorom korekcije za kontinuitet (engl.<br />
continuity correction factor). Njegovo izračunavanje je važno ukoliko kalkulacije obavljamo<br />
ručno jer većina softverskih paketa ovu korekciju radi automatski.<br />
Dakle, površina stupca koji nas interesuje se izračunava:<br />
z -vrijednost za x = 11,5 biće: (11,5 − 10)/3 = 0,50<br />
z -vrijednost za x = 12,5 biće: (12,5 − 10)/3 = 0,83<br />
Odatle slijedi da je vjerovatnoća:<br />
P(0,50 ≤ z ≤ 0,83) = P(0,83) - P(0,50)<br />
= 0,7967 6 − 0,6914 7<br />
= 0,1053<br />
6<br />
P(0,83) = 0,7967 je vrijednost koju možemo naći u tablicama za z-distribuciju i govori da se 79,67% opservacija<br />
nalazi lijevo od z = 0,83.<br />
7<br />
P(0,50) = 0,6914 je vrijednost koju možemo naći u tablicama za z-distribuciju i govori da se 69,14% opservacija<br />
nalazi lijevo od z = 0,83.<br />
35
Slika 24 – Vjerovatnoća da će uzorak obuhvatiti tačno 12 porodica<br />
Dakle, vjerovatnoća da će naš uzorak obuhvatiti tačno 12 porodica koje nisu pretplatnici<br />
kablovkse televizije iznosi 10,53% i predstavljena je na slici 24.<br />
9.4. PROVJERA PRECIZNOSTI APROKSIMACIJE BINOMNE DISTRIBUCIJE<br />
Da bi provjerili koliko je precizna procijena dobijena na bazi aproksimacije iskoristićemo<br />
naredbu:<br />
. display binomialp(100, 12, 0.1)<br />
.09878801<br />
Možemo vidjeti da se procjena koju smo dobili na bazi normalne aproksimacije (10,53%)<br />
donekle, ali ne previše, razlikuje od stvarne vjerovatnoće (9,88%).<br />
Zadatak 9.2a<br />
Koja je vjerovatnoća da u uzorku dobijemo 10 ili više porodica koje nisu pretplatnici kablovske<br />
televizije?<br />
Zadatak 9.2b<br />
Menadžer restorana je na bazi višegodišnjeg iskustva procijenio da se od ukupnog broja gostiju<br />
koji prvi put dođu u restoran, njih 70% vrati ponovo. Ako je tokom sedmice u restoranu ručalo<br />
80 gostiju, kolika je vjerovatnoća da će njih 60 ili više ponovo svratiti u restoran?<br />
9.5. SAMPLING DISTRIBUCIJA PROPORCIJE I STANDARDNA GREŠKA<br />
PROPORCIJE<br />
Vrlo često istraživači žele procijeniti procentualno učešće, odnosno proporciju, jedne kategorije<br />
u ukupnoj populaciji. Na primjer, može nas interesovati procjena proporcije ljudi koji<br />
konzumiraju određenu marku čokolade, koji posjeduju automobil i sl. Slično kao što smo kod<br />
normalne distribucije koristili sampling distribuciju aritmetičkih sredina uzorka i standardnu<br />
36
grešku i ovdje možemo upotrijebiti slične koncepte kako bi estimirali proporciju unutar<br />
populacije na bazi podataka iz uzorka.<br />
Sampling distribuciju proporcija (engl. sampling distribution of proportion) dobijamo tako<br />
što iz populacije uzimamo ponovljene slučajne uzorke iste veličine (n) i za svaki uzorak<br />
bilježimo proporciju pozitivnih ishoda (p̂ ). Generalni oblik sampling distribucije proporcija<br />
uzoraka ima oblik binomne distribucije.<br />
U slučaju da su ispunjeni odgovarajući uslovi, sampling distribuciju proporcije uzoraka<br />
možemo aproksimirati normalnom distribucijom.<br />
Primjer 9.5<br />
Pretpostavimo da proizvođač novog lijeka tvrdi da se nuspojave lijeka javljaju u 5% slučajeva.<br />
Da bi testirali ovu tvrdnju proizvođača, na bazi slučajnog uzorka prikupljeni su podaci od n =<br />
50 pacijenata koji su koristili lijek. Utvrđeno je da je 6 pacijenata imalo nuspojave što je 12%<br />
svih pacijenata u uzorku (p̂ = 0,12). Prije nego donesemo sud i zaključimo da je tvrdnja<br />
proizvođača neistinita moramo u obzir uzeti mogućnost da naša jedinična procjena posljedica<br />
nije u potpunosti tačna, obzirom da će zbog prirode uzorkovanja ona uvijek u nekoj mjeri<br />
odstupati od stvarne vrijednosti u populaciji. Dakle, potrebno je utvrditi koliko je naša procjena<br />
na bazi uzorka precizna, a to ćemo uraditi tako što ćemo konstruisati 95% interval povjerenja.<br />
Prije nego konstruišemo interval povjerenja potrebno je ispitati da li su ispunjene sljedeće<br />
pretpostavke:<br />
1. Uzorak (n) bi morao biti jednak ili manji od 5% svih ispitanika u populaciji (N). U našem<br />
slučaju, ako 50 pacijenata iz uzorka ne čini više od 5% svih pacijenata koji su uzeli lijek,<br />
uslov je ispunjen.<br />
2. Kako bi se osiguralo da sampling distribucija ima normalan raspored, uzorak (n) bi trebao<br />
biti dovoljno velik ili bi proporcija kategorije u uzroku (p̂ ) trebala biti blizu 0,5. Možemo<br />
reći da je ova pretpostavka ispunjena ako je ispunjen bilo koji od ova dva uslova: a)<br />
proizvod n x p̂ ≥ 5 ili b) proizvod n(1−p̂ ) ≥ 5. Za naše podatke proizvod je 50 × 0,12 = 6,<br />
dok je 50 × 0,88 = 44, tako da možemo smatrati da sampling distribucija ima normalan<br />
raspored.<br />
Obzirom da su obje pretpostavke ispunjene i da će sampling distribucija imati približno<br />
normalan raspored, ista logika koju smo primjenili ranije za konstruisanje intervala povjerenja<br />
oko aritmetičke sredine može se primjeniti i ovdje. Formula za određivanje granica 95%<br />
intervala povjerenja za proporciju glasi:<br />
95% CI = p̂ ± (1.96 × standardna greška)<br />
Standardna greška za proporciju se izračunava po sljedećoj formuli:<br />
SE <br />
ˆ p(1 ˆ p)<br />
n<br />
gdje se p̂ odnosi na proporciju kategorije unutar uzorka (6/50 = 0,12) , a n je veličina uzorka.<br />
37
Za uzorak od 50 slučajno odabranih pacijenata, biće:<br />
SE = √(0,12 × (1 − 0,12)/50 = √(0,12 × 0,88)/50) = 0,046 ili 4,6%<br />
Prema tome, 95% interval povjerenja za proporciju je:<br />
95% CI = p̂ ± (1.96 × SE)<br />
= 0,12 ± (1.96 × 0,046)<br />
= 0,12 ± 0,09 = od 0,03 do 0,21<br />
Sa 95% sigurnošću možemo tvrditi da će se stvarna proporcija pacijenata koji će iskusiti<br />
nuspojave od novog lijeka nalaziti negdje između 3% i 21%. Obzirom da ovaj interval<br />
povjerenja obuhvata 5%, tvrdnju proizvođača ne možemo odbaciti kao neistinitu.<br />
38
UNIVERZITET U SARAJEVU<br />
EKONOMSKI FAKULTET U SARAJEVU<br />
Testiranje hipoteza 1<br />
Autor:<br />
prof. dr Emir Agić<br />
Sarajevo, 04. april 2017. godine<br />
1<br />
NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />
njegovih dijelova bez prethodnog pisanog pristanka autora.<br />
1
Sadržaj<br />
I Testiranje hipoteza ........................................................................................................... 3<br />
1. Uvod ................................................................................................................................ 3<br />
2. Koraci ............................................................................................................................. 3<br />
2.1. Formulisanje statističke hipoteze ............................................................................. 4<br />
2.1.1. Nulta i alternativna hipoteza ............................................................................. 4<br />
2.1.2. Neusmjerene i usmjerene hipoteze ................................................................... 5<br />
2.2. Odabir statističkog testa ........................................................................................... 5<br />
2.2.1. Testovi za ispitivanje veza između varijabli ..................................................... 6<br />
2.2.2. Testovi za ispitivanje razlika između grupa ..................................................... 6<br />
2.3. Odabir kriterija odlučivanja i nivoa statističke značajnosti ..................................... 7<br />
2.4. Izračunavanje statistike testa .................................................................................... 8<br />
2.5. Donošenje odluke: kritično područje ..................................................................... 10<br />
2.6. Donošenje odluke: p-vrijednost ............................................................................. 12<br />
3. Greška prvog i drugog tipa ........................................................................................ 13<br />
3.1. Snaga testa ............................................................................................................. 13<br />
3.2. Odnos između greške tipa I, II i snage testa .......................................................... 15<br />
3.3. Odnos između snage testa, veličine uzorka i veličine efekta ................................. 16<br />
4. Najčešće pogreške vezane za testove signifikantnosti .............................................. 17<br />
4.1. Nivo značajnosti je arbitraran ................................................................................ 17<br />
4.2. Lažno pozitivni rezultati ........................................................................................ 17<br />
4.3. p-vrijednost nije isto što i rizik da napravimo grešku I tipa .................................. 18<br />
4.4. p-vrijednost nije vjerovatnoća dobijanja istog rezultata ........................................ 18<br />
4.5. p-vrijednost zavisi od veličine uzorka ................................................................... 19<br />
4.6. Statistička signifikantnost nije isto što i praktična signifikantnost ........................ 20<br />
5. Veličina efekta ............................................................................................................. 20<br />
2
I<br />
Testiranje hipoteza<br />
1. UVOD<br />
Pod testiranjem hipoteza podrazumjevamo statističke procedure kojima se testiraju različite<br />
tvrdnje koje se odnose na obilježja populacije - parametre. Uzmimo na primjer tvrdnju da 25%<br />
svih korisnika smart telefona u BiH posjeduje telefon marke Apple. Ovo je tvrdnja o parametru<br />
(proporciji) populacije (svi korisnici u BiH) za kategorijsku varijablu (marka smart telefona).<br />
S druge strane, tvrdnja da prosječna mjesečna neto plata u BiH iznosi 832 KM je isto tako<br />
tvrdnja o parametru (prosjeku) populacije (svi zaposleni u BiH) za metrijsku varijablu (neto<br />
plata). U oba slučaja tvrdimo da je parametar jednak nekoj vrijednosti.<br />
Dalje, ako kažemo da između godina školovanja i prosječne neto plate u BiH postoji uzajamna<br />
povezanost, onda imamo tvrdnju o parametru (koeficijentu korelacije) između dvije metrijske<br />
varijable (godine školovanja i prosječna neto plata) unutar jedne populacije (svi zaposleni u<br />
BiH).<br />
Kod testova koji se bave testiranjem razlika između grupa želimo testirati tvrdnje da se dvije<br />
ili više različitih populacija međusobno razlikuju u pogledu vrijednosti parametara za neku<br />
zavisnu varijablu. Na primjer, tvrdnja da se prosječna neto plata razlikuje između kantona je<br />
tvrdnja o razlici između parametara (prosjeka) unutar nekoliko populacija (kantoni) za zavisnu<br />
metrijsku varijablu (plata).<br />
2. KORACI<br />
Da bi ilustrovali sam postupak testiranja hipoteza, poslužićemo se jednostavnim primjerom.<br />
Primjer 2.1<br />
Pretpostavimo da, proizvođač tvrdi da je prosječni životni vijek baterija iznosi μ = 42 mjeseci<br />
sa σ = 9 mjeseci. Kako bi provjerili ovu tvrdnju, izdvojili smo slučajni uzorak od 30 baterija na<br />
bazi kojeg smo izračunali da prosječan životni vijek iznosi x̄ = 39 mjeseci. Da li ovaj rezultat<br />
osporava tvrdnju proizvođača? Obzirom da je prosjek dobijen na bazi uzorka, uvijek je moguće<br />
da je eventualna razlika između prosjeka uzorka i onoga što tvrdi proizvođač posljedica slučajne<br />
greške, odnosno varijacija svojstvenih uzorkovanju. Kolika je vjerovatnoća da je opservirana<br />
razlika posljedica slučajnosti ako stvarni prosječni životni vijek baterija zaista iznosi μ = 42<br />
mjeseci?<br />
Sama procedura testiranja hipoteza ima nekoliko koraka:<br />
1. Formulisanje statističke hipoteze<br />
2. Odabir statističkog testa<br />
3. Odabir nivoa značajnosti<br />
4. Izračunavanje statistike testa<br />
5. Donošenje odluke o prihvatanju ili odbacivanju hipoteze<br />
U nastavku ćemo proći kroz svaki od ovih koraka.<br />
3
2.1. FORMULISANJE STATISTIČKE HIPOTE ZE<br />
Statistička hipoteza je tvrdnja o obilježjima populacije (parametrima) u formi koja obično<br />
implicira razliku između grupa ili vezu između varijabli.<br />
Formulisanje statističke hipoteze polazi od istraživačkog problema u okviru kojeg je potrebno<br />
identifikovati tvrdnju o parametru populacije. Na primjer, u konkretnom slučaju jasno je da se<br />
tvrdnja odnosi na prosjek životnog vijeka baterije (µ) za koji proizvođač kaže da iznosi 42<br />
mjeseca. Kako bi testirali tvrdnju proizvođača moramo je uporediti sa nekom alternativom koja<br />
se u ovom slučaju odnosi na prosijek koji smo dobili na bazi uzorka i prema kojem životni vijek<br />
baterije iznosi 39 mjeseci. Dakle, u suštini testiramo postojanje razlika između prosjeka u dvije<br />
grupe: grupe koju predstavlja naš uzorak gdje je x̄ = 39 i grupe u kojoj je µ = 42, što bi prema<br />
tvrdnji proizvođača trebala biti vrijednost parametra u populaciji svih proizvedenih baterija.<br />
Iz ovog primjera uočavamo da se hipoteza uvijek odnosi na situaciju koja može biti ili istinita<br />
ili netačna. Dakle, postoje samo dvije alternative koje trebamo razmotriti kako bi provjerili datu<br />
hipotezu:<br />
H0: Prosječan životni vijek baterije iznosi 42 mjeseca (tvrdnja proizvođača)<br />
H1: Prosječan životni vijek baterije je različit od 42 mjeseca<br />
ili skraćeno napisano:<br />
H0: µ = 42 mjeseca<br />
H1: µ ≠ 42 mjeseca<br />
2.1.1. Nulta i alternativna hipoteza<br />
Ove dvije opcije oslikavaju ono što nazivamo nultom i alternativnom hipotezom. Nulta<br />
hipoteza (H0) je pretpostavka o tome da ne postoji: (a) veza između varijabli ili (b) razlika<br />
između grupa i smatramo je tačnom sve dok ne prikupimo dovoljno dokaza koji je opovrgavaju.<br />
Ona u suštini predstavlja standard ili referentnu vrijednost prema kojoj poredimo dokaze koji<br />
idu u prilog alternativnoj hipotezi. Veoma je važno napomenuti da nulta hipoteza ne može biti<br />
dokazana ili ne dokazana. Ona je ili istinita ili nije. Najviše što možemo reći jeste da li smo<br />
uspjeli naći dovoljno dokaza na osnovu kojih ćemo nultu hipotezu odbaciti ili zadržati.<br />
Alternativna hipoteza (H1) izražava postojanje veze između varijabli ili razlike između grupa<br />
i ona se prihvata ako se skupi dovoljno dokaza za odbacivanje nulte hipoteze. Alternativna<br />
hipoteza odražava ono što istraživač smatra da je istina.<br />
Pri formulisanju nulte i alternativne hipoteze treba imati na umu nekoliko stvari.<br />
Prvo, nulta i alternativna hipoteza ne smiju sadržavati nikakve informacije iz samog uzorka.<br />
Obratimo pažnju da smo pri formulaciji hipoteze koristili tvrdnju proizvođača (42 mjeseca), a<br />
ne podatke do kojih smo došli na bazi uzorka (39 mjeseci).<br />
Drugo, nulta hipoteza uvijek odražava status-quo situaciju. Drugim riječima, ukoliko se ne<br />
odbaci nulta hipoteza onda ne treba poduzimati nikakve dalje akcije. S druge strane,<br />
4
alternativna hipoteza odražava ono što istraživač smatra da je istina i na bazi čega bi mogli<br />
poduzeti odgovarajuće akcije.<br />
Treće, nulta hipoteza u sebi uvijek sadrži znak jednakosti. U slučaju kada testiramo vezu između<br />
dvije varijable nulta hipoteza pretpostavlja da je koeficijent korelacije između njih jednak nuli.<br />
Kada se radi o testiranju razlika, ova jednakost znači da između dvije grupe nema razlike.<br />
Drugim riječima, nulta hipoteza pretpostavlja da obje grupe u stvari pripadaju istoj populaciji,<br />
da stvarna razlika između njih ne postoji (jednaka je nuli) i da opservirana razlika između<br />
statistike uzorka (x̄ = 39) i parametra populacije (µ = 42) predstavlja samo rezultat slučajnosti<br />
nastao zbog greške uzorkovanja.<br />
2.1.2. Neusmjerene i usmjerene hipoteze<br />
Ako prilikom formulisanja hipoteza nismo specificirali da li očekujemo da je stvarni prosjek<br />
veći ili manji od tvrdnje proizvođača. Zbog toga smo koristili simbol "≠". U ovakvim<br />
slučajevima, kada nas jednostavno interesuje da li postoji razlika između grupa, kažemo da se<br />
radi o neusmjerenoj ili dvosmjernoj hipotezi (engl. two-tailed hypothesis).<br />
Alternativna hipoteza može sadržavati i dosta određenije predviđanje o ishodu analize koje<br />
možemo prestaviti sa simbolima "" i tada govorimo o usmjerenim hipotezama (engl.<br />
one-tailed hypothesis). Na primjer, ako unaprijed pretpostavimo da je stvarni životni vijek<br />
baterije manji od onoga što tvrdi proizvođač imali bi:<br />
H0: µ ≥ 42 mjeseca (tvrdnja proizvođača)<br />
H1: µ < 42 mjeseca<br />
Zašto je bitno razlikovati da li je riječ o dvosmjerno ili jednosmjerno formulisanoj hipotezi?<br />
Zbog toga što usmjerene hipoteze omogućavaju istraživaču da pri njihovom testiranju koristi<br />
usmjerene statističke testove (engl. one-tailed tests) koji imaju veću snagu da detektuju<br />
postojanje signifikantnih razlika između grupa ukoliko te razlike zaista postoje u odnosu na<br />
dvosmjerne statističke testove (engl. two-tailed tests).<br />
2.2. ODABIR STATISTIČKOG TESTA<br />
Testiranje hipoteza u osnovi podrazumjeva primjenu odgovarajućeg statističkog testa na bazi<br />
čijeg rezultata prihvatamo ili odbacujemo hipotezu. Statistički test je matematska procedura<br />
ili formula koju koristimo da analiziramo podatke prikupljene na bazi uzorka kako bi donijeli<br />
odluku da li je hipoteza o parametrima populacije istinita ili ne. Statistički testovi se baziraju<br />
na istim konceptualnim osnovama o kojima smo govorili u prethodnom poglavlju X i koji se<br />
odnose na teoretske distribucije, standardizovane vrijednosti, standardne greške i intervale<br />
povjerenja.<br />
Obzirom da korištenje pogrešnog testa može dovesti do potpuno pogrešnih zaključaka<br />
istraživanja, izbor adekvatnog testa za analiziranje prikupljenih podataka je od krucijalne<br />
važnosti. Generalno govoreći, statističke testove možemo podijeliti u dvije generalne grupe: a)<br />
Testovi kojima se testira veza između varijabli i b) Testovi kojima se testiraju razlike između<br />
grupa.<br />
5
2.2.1. Testovi za ispitivanje veza između varijabli<br />
Kod testova kojima se testira veza između varijabli imamo situaciju da unutar iste populacije<br />
želimo testirati tvrdnju da postoji veza između dvije ili više varijabli. Utvrđivanje<br />
signifikantnosti koeficijenta korelacije je vjerovatno najpoznatiji test kojim se testira tvrdnja o<br />
vezi između varijabli. Testovi koji se bave korelacijama će biti detaljnije obrađeni u zasebnom<br />
poglavlju X.<br />
2.2.2. Testovi za ispitivanje razlika između grupa<br />
Kod testova kojima s testira razlika želimo utvrditi da li se dvije ili više različitih populacija<br />
međusobno razlikuju prema određenom parametru. Obzirom da postoji široka lepeza dostupnih<br />
testova za ispitivanje razlika, istraživač se često suočava sa dilemom koji test koristiti u datoj<br />
situaciji. Da bi izabrali adekvatan statistički test za testiranje razlika moramo razmotriti<br />
nekoliko različitih aspekata samog istraživačkog problema. Ovi aspekti se odnose na: a) broj<br />
grupa između kojih testiramo razlike, b) vrstu povezanosti između grupa i c) tip zavisne<br />
varijable. U skladu sa navedenim aspektima kreirana je tabela 1 sa preporukama za odabir<br />
odgovarajućeg testa.<br />
Tabela 1 – Kriteriji za odabir testa<br />
Tip<br />
zavisne<br />
varijable<br />
Jedna<br />
grupa<br />
(one-sample<br />
tests)<br />
Testovi za testiranje razlika<br />
između dvije grupe<br />
(two-sample tests)<br />
Nezavisne<br />
grupe<br />
Povezane<br />
grupe<br />
Testovi za testiranje razlika<br />
između tri ili više grupa<br />
(k-sample tests)<br />
Nezavisne<br />
grupe<br />
Povezane<br />
grupe<br />
Neparametarski<br />
testovi<br />
Nominalna<br />
Ordinalna<br />
Binomni<br />
test ili χ 2 test<br />
proporcije<br />
χ 2 test<br />
proporcije<br />
χ2 test<br />
nezavisnosti<br />
Mann-<br />
Whitney U<br />
test<br />
McNemar<br />
test<br />
Wilcoxonov<br />
test<br />
χ2 test<br />
nezavisnosti<br />
Kruskal-<br />
Wallis test<br />
Cochran Q<br />
test<br />
Friedman<br />
test<br />
Parametarski<br />
testovi<br />
Kontinuira<br />
na<br />
z ili t-test na<br />
bazi jednog<br />
uzorka<br />
Nezavisni t-<br />
test<br />
Zavisni t-test<br />
Jednofaktorska<br />
ANOVA<br />
ANOVA sa<br />
ponovljenim<br />
mjerenjima<br />
Prvo trebamo utvrditi tip zavisne varijable, tj. da li je riječ o kategorijalnoj (nominalna,<br />
ordinalna) ili kontinuiranoj (intervalna, racio) zavisnoj varijabli. U kontekstu statističkih<br />
testova za testiranje razlika između grupa, nezavisna varijabla 8 je ona varijabla na osnovu koje<br />
se formiraju grupe između kojih se testiraju razlike. S druge strane, zavisna varijabla<br />
predstavlja kriterij po kojem se vrši testiranje razlika između grupa definisanih pomoću<br />
nezavisne varijable.<br />
8<br />
Često se naziva i eksperimentalna varijabla ili prediktor.<br />
6
Na primjer, ako nas interesuje razlika u prosječnoj neto plati između muškaraca i žena,<br />
nezavisna varijabla će biti spol (varijabla na osnovu koje su formirane grupe), a zavisna<br />
varijabla će biti prosječna neto plata (varijabla koja sadrži kriterij za testiranje).<br />
Iznimka po ovom pitanju su one-sample testovi koji su specifični po tome što nemamo<br />
nezavisnu varijablu na osnovu koje možemo definisati grupe već samo kriterij po kojem se vrši<br />
testiranje.<br />
U zavisnosti od toga kako je mjerene zavisna varijabla testove možemo podijeliti na<br />
parametarske i neparametarske testove. Neparametarki testovi su testovi koji se primarno<br />
primjenjuju kada je zavisna varijabla nominalnog ili ordinalnog tipa. S druge strane<br />
parametarske testove primjenjujemo kada je zavisna varijabla metrijskog tipa i kada su<br />
ispunjene određene pretpostavke o čemu ćemo govoriti kasnije.<br />
Drugo što trebamo utvrditi je broj grupa za koje testiramo razlike. U tom kontekstu govorimo<br />
o testovima na bazi jednog, dva ili više uzoraka. Ovdje pojam "uzorak" treba shvatiti uslovno.<br />
Kad kažemo test na bazi jednog uzorka (engl. one-sample test) to samo znači da u uzorku<br />
nemamo podatke za dvije ili više grupa već samo za jednu. Oni se koriste u situacijama kada<br />
želimo testirati hipotezu da se statistika našeg uzorka, za koji imamo pojedinačne opservacije<br />
unutar baze podataka, signifikantno ne razlikuje u odnosu na: a) statistiku drugog uzorka za<br />
koji nemamo pojedinačne opservacije unutar naše baze podataka ili b) stvarne ili hipotetičke<br />
parametre populacije.<br />
Treće, u slučaju kada imamo dvije ili više grupa trebamo utvrditi da li je riječ o nezavisnim ili<br />
zavisnim grupama. Nezavisne grupe javljaju se u situaciji kada mjerenje u jednoj grupi nije<br />
moglo imati nikakvog uticaja na mjerenje u drugim grupama. Na primjer, visina prosječne neto<br />
plate koja je izmjerena za žene ne zavisi od visine plate koja je izmjerena za muškarce obzirom<br />
da su ovo dvije odvojene grupe. Zavisne grupe najčešće srećemo u situacijama kada je<br />
mjerenje obavljeno dva puta na istim ispitanicima pa rezultat u ponovljenom mjerenju može<br />
zavisiti od prethodno dobijenog rezultata Na primjer, ako smo mjerili performanse prodajnih<br />
predstavnika prije treninga i nakon treninga, grupe se formiraju na bazi samog mjerenja ali su<br />
ispitanici isti.<br />
Primjer 2.1 - nastavak<br />
U našem primjeru sa prosječnim vijekom trajanja baterija, cilj nam je ispitati da li postoji razlika<br />
između pretpostavljene aritmetičke sredine populacije i aritmetičke sredine uzorka. Obzirom<br />
da u uzorku nemamo nezavisnu varijablu na osnovu koje možemo formirati grupe i da nam je<br />
cilj provjeriti da li se statistika našeg uzorka (x̄ = 39) signifikantno razlikuje od pretpostavljenog<br />
parametra populacije (µ = 45), jasno je da se radi o one-sample testu. Kriterij (životni vijek<br />
baterije) po kojem testiramo razliku je metrijskog tipa, što upućuje na zaključak da u tabeli 1<br />
trebamo odabrati one-sample z-test ili t-test. 9<br />
2.3. ODABIR KRITERIJA ODLUČIVANJA I NIVOA STATISTIČKE ZNAČAJNOSTI<br />
Tokom prethodnih izglaganja već smo nekoliko puta pominjali da se testiranje hipoteza odnosi<br />
na provjeru tvrdnji o parametrima populacije i da prilikom testiranja utvrđujemo da li je veza<br />
9<br />
Preciznije rečeno, t-test možemo koristititi bez obzira na veličinu uzorka, dok bi z-test trebali koristiti samo ako<br />
je uzorak jednak ili veći od 30.<br />
7
između varijabli, odnosno razlika između grupa, statistički signifikantna. U primjeru koji se<br />
odnosi na životni vijek baterije ispostavilo se da prosječan životni vijek baterije u uzorku iznosi<br />
39 mjeseci, što je manje od 42 mjeseca koliko iznosi životni vijek prema tvrdnji proizvođača.<br />
Da li samo na bazi ove razlike možemo reći da je tvrdnja proizvođača netačana? Ne baš.<br />
Kada smo govorili o sampling distribuciji vidjeli smo da će se aritmetička sredina uzorka u<br />
nekoj mjeri uvijek razlikovati u odnosu na stvarnu aritmetičku sredinu populacije. Obzirom da<br />
je prosjek x̄ = 39 dobijen na bazi uzorka, uvijek je moguće da je on rezultat slučajnosti. Možda<br />
se jednostavno desilo da je naš uzorak obuhvatio primjerke baterija čiji je životni vijek znatno<br />
ispod ili iznad stvarnog prosjeka.<br />
Zbog toga se postavlja pitanje kolika je vjerovatnoća da je razlika koju smo utvrdili na bazi<br />
uzorka rezultat slučajnosti zbog fluktuacija svojstvenih procesu uzorkovanja? Da li se dobijeni<br />
rezultat može očekivati relativno često ili je riječ o rezultatu koji je zaista različit i neočekivan?<br />
Drugim riječima, da li utvrđena razlika predstavlja stvarni efekt koji nezavisna varijabla ima na<br />
zavisnu varijablu ili je razlika samo dio uobičajene varijacije koja se javlja zbog greške<br />
uzorkovanja?<br />
Da bi smo dali odgovor na ova pitanja moramo unaprijed specificirati kriterij odlučivanja<br />
(engl. decision rule) koji koristimo za prihvatanje ili odbacivanje nulte hipoteze. Ovaj kriterij<br />
se u procesu testiranja hipoteza naziva nivoom statističke značajnosti (α) i definiše se kao<br />
rizik koji smo spremni prihvatiti da odbacimo nultu hipotezu ako je ona zaista istinita.<br />
U društvenim naukama se kao standard za odbacivanje nulte hipoteze uzima to da vjerovatnoća<br />
slučajnog javljanja opservirane razlike iznosi manje od 1 prema 20, pod pretpostavkom da je<br />
nulta hipoteza zaista tačna. Drugim riječima, ako utvrdimo da je vjerovatnoća dobijanja nekog<br />
rezultata manja od 5% (p < 0.05), odbacićemo nultu hipotezu i zaključiti da se opservirani<br />
rezultat na bazi uzroka zaista razlikuje od očekivane vrijednosti unutar populacije.<br />
U direktnoj vezi sa nivoom statističke značajnosti nalaze se kritične vrijednosti koje smo<br />
koristili da definišemo intervale povjerenja unutar standardne normalne distribucije 11 . Svaka<br />
od navedenih kritičnih vrijednosti ima pridruženu p-vrijednost, a njihov međusobni odnos<br />
vidjećemo u narednoj sekciji.<br />
2.4. IZRAČUNAVANJE STATISTIKE TESTA<br />
Sljedeći korak je da izračunamo stvarnu vjerovatnoću i uporedimo je sa odabranim kriterijem<br />
odlučivanja, odnosno nivoom statističke značajnosti. Drugim riječima, u kontekstu ranijeg<br />
primjera interesuje nas da utvrdimo kolika je vjerovatnoća da na bazi slučajnog uzorka<br />
dobijemo prosjek od 39 mjeseci, ako je stvarni prosjek u populaciji 42 mjeseci.<br />
Primjer 2.1 – nastavak<br />
Za dobijanje odgovora na ovo pitanje poslužićemo se karkateristikama sampling distribucije.<br />
Naime, osnovna ideja testa bazira se na tome da vidimo da li naš uzorak dolazi iste populacije<br />
u kojoj je stvarni prosjek u populaciji μ = 42. Ako je to slučaj onda bi se prosjek uzorka (39<br />
mjeseci) unutar sampling distribucije trebao nalaziti u intervalu povjerenja od 95%, što<br />
11<br />
Vidi tabele sa kritičnim z-vrijednostima u poglavlju: "Osnove inferencijalne statistike“, podnaslov „Normalna<br />
distribucija i vjerovatnoća".<br />
8
odgovara odabranom nivou statičke značajnosti od 5% (α = 0,05). Dakle, test na osnovu kojeg<br />
testiramo hipotezu svodi se na izračunanje z-vrijednosti i poređenje te vrijednosti sa kritičnom<br />
vrijednošću koja u slučaju 95% intervala povjerenja iznosi z = ± 1,96. Ovo je prikazano na slici<br />
1.<br />
Numerička vrijednost koju dobijemo na bazi statističkog testa se naziva statistikom testa (engl.<br />
test statistic). Izračunava se na bazi podataka iz uzorka i služi nam da odredimo da li treba<br />
zadržati ili odbaciti nultu hipotezu.<br />
Slika 1 – Sampling distribucija je osnova na kojoj počiva testiranje hipoteza<br />
Podsjetimo se da sampling distribuciju dobijamo tako što iz populacije nastavljamo uzimati<br />
uzorke iste veličine i mjeriti njihove prosjeke. Centralni granični teorem kaže da će u većim<br />
uzorcima (n > 30) ovi prosjeci biti simetrično distribuirani oko prosjeka populacije koji u našem<br />
primjeru iznosi 42 mjeseci. Prosječna varijacija tako izračunatih aritmetičkih sredina uzoraka<br />
bila bi jednaka standardnoj grešci. Obzirom da je nepraktično uzimati veći broj uzorka,<br />
standardnu grešku možemo procijeniti i na bazi ranije date formule pa ćemo u našem primjeru<br />
imati da je:<br />
SE = σ/√n<br />
SE = 9/√30 = 1,64317<br />
Nakon što odstupanje prosjeka uzorka od prosjeka populacije podijelimo sa standardnom<br />
greškom dobićemo:<br />
Statistika testa zα/2 = (x̄ − μ)/SE<br />
Statistika testa z.025 = (39 − 42)/1,64317 ≈ −1,83<br />
U konkretnom slučaju, dobijena z-vrijednost od −1,83 predstavlja rezultat z-testa na bazi jednog<br />
uzorka i govori koliko je dobijeni prosjek na bazi uzorka daleko od očekivanog prosjeka na<br />
standarnoj normalnoj distribuciji. Ovu vrijednost je u narednom koraku potrebno uporediti sa<br />
kritičnom z-vrijednošću koja korespondira odabranom kriteriju odlučivanja, odnosno nivou<br />
statističke signifikantnosti.<br />
9
2.5. DONOŠENJE ODLUKE: KRITIČNO PODRUČJE<br />
Ostalo nam je još da vidimo koje z-vrijednosti snažno upućuju na to da je istinita alternativna,<br />
a ne nulta hipoteza. Kritično područje (engl. critical region) se odnosi na vrijednosti statistike<br />
testa za koje ne prihvaćamo nultu hipotezu H0. Kritično područje je u direktnoj je vezi sa<br />
odabranim nivoom statističke signifiknantosti α i time da li smo formulisali usmjerenu ili<br />
neusmjerenu hipotezu.<br />
Slika 2 – Distribucija statistike testa i kritična područja<br />
Obratimo pažnju da na slici 2 postoje tri vrste kritičnog područja:<br />
1. Lijevo usmjereno, kada odbacujemo H0 ako je statistika testa manja ili jednaka kritičnoj<br />
vrijednosti koja se nalazi na lijevom kraju distribucije vjerovatnoće;<br />
2. Desno usmjereno, kada odbacujemo H0 ako je statistika testa veća ili jednaka kritičnoj<br />
vrijednosti koja se nalazi na desnom kraju distribucije vjerovatnoće;<br />
3. Dvosmjerno, kada odbacujemo H0 ako je statistika testa veća ili jednaka od kritične<br />
vrijednosti koja se nalazi na desnom kraju distribucije vjerovatnoće, odnosno ako je<br />
statistika testa manja ili jednaka od kritične vrijednosti koja se nalazi na lijevom kraju<br />
distribucije vjerovatnoće.<br />
Primjer 2.1 – nastavak<br />
Obzirom da smo u našem primjeru formulisali neusmjerenu hipotezu, ukupni alpha nivo<br />
moramo podijeliti na dva kraja teoretske distribucije, jer nivou statističke signifikantnosti od α<br />
= 0,05 odgovara dvosmjerno kritično područje i kritična vrijednost od z.025 = −1.96.<br />
Dobijena statistika testa z = −1,83 je veća od kritične vrijednosti z = −1,96 i nalazi se unutar<br />
intervala povjerenja od 95%. Dakle, pri odabranom nivou statističke značajnosti od 5%<br />
nemamo dovoljno dokaza da možemo odbaciti nultu hipotezu. Drugim riječima, tokom<br />
testiranja dobili smo rezultat koji ukazuje na to da je prosjek uzorka (39) vjerovatno dio iste<br />
populacije u kojoj je μ = 42. Rezultat je prikazan na slici 3.<br />
10
Slika 3 – Distribucija aritmetičkih sredina uzoraka za životni vijek baterije i uzorke veličine n<br />
= 30<br />
Obratimo pažnju da smo testirali neusmjerenu hipotezu. Šta bi se desilo da smo unaprijed<br />
pretpostavili da proizvođač obmanjuje potrošače i da je stvarni prosječni vijek baterije manji<br />
od onoga što proizvođač tvrdi? Drugim riječima, da smo testirali jednosmjernu hipotezu:<br />
H0: µ ≥ 42 mjeseca<br />
H1: µ < 42 mjeseca<br />
Postupak izračunavanja i vrijednost statistike testa bi bila ista kao i ranije, ali bi se promijenilo<br />
kritično područje. Obzirom da se čitavo kritično područje sada nalazi samo na jednom kraju<br />
distribucije vjerovatnoće, kod usmjerene hipoteze nivou statističke signifikantnosti od α = 0,05<br />
odgovarala bi kritična vrijednost z.05 = −1,645. Samim tim, dobijena statistika testa bi se našla<br />
u kritičnom području jer je −1,83 > −1,645 pa bi mogli odbaciti nultu i prihvatiti alternativnu<br />
hipotezu.<br />
Slika 4 – Distribucija aritmetičkih sredina uzoraka za životni vijek baterije i uzorke veličine n<br />
= 30<br />
Ako pogledamo sliku 4, vidimo da kritično područje počinje lijevo od vrijednosti 39,30 kojoj<br />
odgovara standardizovana vrijednost z = −1,645. Obzirom da se dobijeni rezultat x̄ = 39 i<br />
11
pridružena mu vrijednost z = −1,83 nalazi u kritičnom području imali bi dovoljno dokaza da<br />
odbacimo nultu i prihvatimo alternativnu hipotezu.<br />
2.6. DONOŠENJE ODLUKE: P-VRIJEDNOST<br />
Nivo statističke značajnosti koji koristimo za prihvatanje ili odbacivanje nulte hipoteze može<br />
se izraziti i preko p-vrijednosti. Naime, umjesto da izračunatu statistiku testa upoređujemo sa<br />
tabličnim vrijednostima, uz pomoć softverskih paketa možemo direktno saznati u kojem<br />
stepenu se ona slaže sa nultom hipotezom. U tehničkom smislu, softver će izračunati statistiku<br />
testa i upariti je sa odgovarajućom vjerovatnoćom za datu teoretsku distribuciju (z, t, F itd.) i<br />
ispisati p-vrijednost.<br />
U tom kontekstu, p-vrijednost nije ništa drugo nego pokazatelj koji govori kolika je<br />
vjerovatnoća da je opservirana statistika testa, izračunata na bazi uzorka, različita od one koju<br />
bi imali pod pretpostavkom da je nulta hipoteza istinita.<br />
Primjer 2.1 – nastavak<br />
Dakle, ranije izračunatoj vrijednosti testa z = −1,83 odgovara p-vrijednost od 0,067. Ovo znači<br />
da pod pretpostavkom da je nulta hipoteza tačna, vjerovatnoća da je opservirana razlika rezultat<br />
slučajnosti iznosi 6,7%. Iako je riječ o relativno maloj vjerovatnoći (p = 0,067), ona je još uvijek<br />
veća od unaprijed prihvaćenog rizika (α = 0,05) pod kojim smo spremni odbaciti nultu hipotezu<br />
ako je ona zaista istinita. Zbog toga zaključujemo da nemamo dovoljno dokaza da odbacimo<br />
nultu hipotezu.<br />
Međutim, da smo formulisali jednosmjernu hipotezu, dobijenu p-vrijednost trebali bi<br />
prepoloviti pa bi imali p = 0,034 što je manje od α = 0,05. U tom slučaju bi nultu hipotezu mogli<br />
odbaciti sa rizikom od 3,4%.<br />
Metod prikaza rezultata testa preko p-vrijednosti je postao popularan iz razloga što većina<br />
softverskih paketa rezultate testiranja hipoteza prijavljuje preko p-vrijednosti. Time se<br />
istraživaču omogućava da na jednostavan način uporedi dobijenu p-vrijednost sa unaprijed<br />
prihvaćenim nivoom rizika, te da odluku o prihvatanju hipoteze donese na bazi jednostavne<br />
uporedbe ta dva broja. U slučaju kada je p-vrijednost manja od prihvaćenog nivoa rizika koji<br />
se obično definiše kao α = 0,05 hipoteza se prihvata. U suprotnom se odbacuje.<br />
12
3. GREŠKA PRVOG I DRUGOG TIPA<br />
Obzirom da je u proces testiranja hipoteza uvijek uključena probabilistička komponenta<br />
moguće je napraviti dvije vrste greški prikazane u tabeli 2.<br />
Tabela 2 – Moguće greške pri testiranju hipoteza<br />
Priroda stvari<br />
H0 je istinita<br />
H1 je istinita<br />
Prihvatili H0<br />
Ispravna odluka<br />
Greška II tipa<br />
Vjerovatnoća = β<br />
Odluka<br />
Prihvatili H1<br />
Greška I tipa<br />
Vjerovatnoća = α<br />
Ispravna odluka<br />
Snaga P = 1 - β<br />
Greška prvog tipa (označava se sa α) označava situaciju kada smo odbacili nultu hipotezu<br />
koja je u stvarnosti istinita. Drugim riječima, grešku prvog tipa smo napravili ako dobijemo<br />
statistički signifikantan rezultat testiranja u situaciji kada stvarni efekt ne postoji. U našem<br />
primjeru to bi značilo da prosječni životni vijek baterije nije manji od očekivanog, a mi smo<br />
došli do zaključka da jeste. Vodeći se tim pogrešnim zaključkom, odlučili bi uvesti izmjene u<br />
proizvodni proces i poboljšati kontrolu kvalitete praveći nepotrebne troškove.<br />
Greška drugog tipa (označava se sa β) javlja se kada ne uspijemo odbaciti neistinitu nultu<br />
hipotezu. Drugim riječima, grešku drugog tipa smo napravili ako smo došli do zaključka da<br />
rezultat testa nije statistički signifikantan u situaciji kad on to u stvarnosti jeste. U našem<br />
primjeru, to bi značilo da je prosječan životni vijek baterije zaista različit od očekivanog ali mi<br />
to nismo uspjeli utvrditi (tj. nismo imali dovoljno dokaza da odbacimo nultu hipotezu).<br />
3.1. SNAGA TESTA<br />
Koncept koji je usko povezan sa greškom drugog tipa je snaga testa. U statističkom smislu<br />
snaga testa (engl. power) predstavlja vjerovatnoću da ćemo odbaciti nultu hipotezu ako ona<br />
zaista nije istinita, odnosno da ćemo uspjeti detektovati efekat koji postoji kao statistički<br />
značajan.<br />
Primjer 2.1 – nastavak<br />
Za ilustraciju snage testa poslužićemo se ranijim primjerom gdje smo testirali:<br />
H0: µ0 ≥ 42 mjeseca<br />
H1: µ0 < 42 mjeseca<br />
Ako kao kriterij odlučivanja koristimo nivo statističke značajnosti α = 0,05, onda je za<br />
odbacivanje nulte hipoteze potrebno da statistika testa bude z < -1.645 12 . U tom slučaju možemo<br />
napisati:<br />
12<br />
Obzirom da je hipoteza jednosmjerna čitavo kritično područje (α) locirano je na gornjem kraju H 0 distribucije.<br />
U slučaju dvosmjerne hipoteze vrijednosti u kritičnom području bi imale vjerovatnoću jednaku α/2 pod H 0.<br />
13
z <br />
x <br />
SE<br />
0<br />
−1,645 = (x − 42)/1,643<br />
x = 42 − 1,645 × 1,643<br />
x = 42 − 2,703<br />
x = 39,297<br />
Vrijednost x = 39,30 predstavlja granicu za odbacivanje H0 uz nivo rizika da smo napravili<br />
grešku prvog tipa u iznosu od α = 0,05 . Ukoliko se aritmetička sredina (x̄ ) uzorka nalazi lijevo<br />
od od ove granice rezultat jednosmjernog testa biće statistički signifikantan, što je situacija koju<br />
imamo na slici 5a gdje se prosjek (x̄ = 39) nalazi u kritičnoj zoni, lijevo od granice (x = 39,30).<br />
Sada ćemo izračunati z-statistiku pod pretpostavkom da je istinita alternativna hipoteza tj. da je<br />
µ1 = 39 mjeseci:<br />
x 1 39,297 39<br />
z 0,181<br />
SE 1,643<br />
Dakle, pod pretpostavkom da je alternativna hipoteza istinita, ranije definisana vrijednost x =<br />
39,30 će od aritmetičke sredine sampling distribucije (µ1 = 39) biti udaljena z = +0,181<br />
standardnu devijaciju. Dobijenoj z-vrijednosti odgovara p = 0,4286.<br />
Slika 5 – Greške tipa I, II i snage testa uz α = 0,05<br />
Ako pogledamo sliku 5b to znači da će se 43% opservacija unutar sampling distribucije nalaziti<br />
u neosjenčenom dijelu desno iza vrijednosti x = 39,30. Obzirom da pretpostavljamo da je<br />
alternativna hipoteza istinita, taj neosjenčeni dio slike 5b predstavlja vjerovatnoću da<br />
14
napravimo grešku drugog tipa β i zaključimo da nema razlike između µ1 = 39 i µ0 = 42 kada u<br />
stvarnosti ta razlika postoji.<br />
Shodno ovome, ostalih 57% opservacija će se nalaziti u osjenčenom dijelu lijevo od x = 39,30.<br />
Osjenčeni dio slike 5b predstavlja snagu testa (P). Kako se aritmetička sredina x̄ = 39 nalazi u<br />
osjenčenom dijelu, test je imao dovoljnu snagu da detektuje tu razliku i dobili smo signifikantan<br />
rezultat uz nivo rizika α = 0,05.<br />
3.2. ODNOS IZMEĐU GREŠKE TIPA I, II I SNAGE TESTA<br />
Vjerovatnoća da napravimo grešku prvog tipa je obrnuto proporcionalna vjerovatnoći da<br />
napravimo grešku drugog tipa za uzorak fiksne veličine. Drugim riječima, ako smanjujemo<br />
rizik da napravimo grešku prvog tipa, povećavamo rizik da napravimo grešku drugog tipa i<br />
obratno.<br />
Da bi smo ilustrovali ovaj odnos zamislimo da smo prethodnu hipotezu željeli testirati uz nivo<br />
rizika α = 0,01. U tom slučaju, kritična zrijednost za odbacivanje nulte hipoteze morala bi biti<br />
manja od z < −2.325. Granica za odbacivanje nulte hipoteze nalazi se na:<br />
x = 42 − 2,325 × 1,643 = 38,18<br />
Ova granica je predstavljena na slici 6. Za razliku od prethodnog testa, sada se aritmetička<br />
sredina uzorka x̄ = 39 nalazi desno od granice, u neosjenečenom dijelu slike 6a. Samim tim,<br />
rezultat jednosmjernog testa nije signifikantan i uz nivo rizika α = 0,01 ne možemo odbaciti<br />
nultu hipotezu da je µ ≥ 42 mjeseca.<br />
Slika 6 – Greške tipa I, II i snage testa uz α = 0,01<br />
Ako pretpostavimo da je alternativna hipoteza istinita, z-statistika će iznositi:<br />
15
X 1 38,18 39<br />
z 0,499<br />
SE 1,643<br />
Što znači da će se granica x = 38,18 na slici 6b nalaziti lijevo od µ1 = 39. Sa slike 6b vidimo da<br />
se snaga testa smanjila i da iznosi približno 31%, dok se vjerovatnoća da smo napravili grešku<br />
drugog tipa povećala i iznosi 69%. Obzirom da je snaga testa manja, osjenčeni dio na slici 6b<br />
ne obuhvata µ1 = 39 pa test nije imao dovoljnu snagu da uz nivo rizika α = 0,01 razliku između<br />
µ1 = 39 i µ0 = 42 detektuje kao signifikantnu.<br />
Dakle, u situaciji kada se veličina uzorka (n) ne mijenja pokušaj smanjenja jedne, automatski<br />
povećava rizik od da druge vrstu greške. Drugim riječima, ako smanjujemo nivo rizika da<br />
napravimo grešku prvog tipa koji je predstavljen osjenčenim područjem α, smanjuje se i snaga<br />
testa koja je predstavljena osjenčenim područjem P = 1 − β. Istovremeno se povećava rizik da<br />
napravimo grešku drugog tipa (β).<br />
3.3. ODNOS IZMEĐU SNAGE TESTA, VELIČINE UZORKA I VELIČINE EFEKTA<br />
Proces testiranja hipoteza istraživaču daje mogućnost da kontroliše rizik greške prvog tipa je se<br />
nivo rizika (α) unaprijed fiksira na neku malu vrijednost. Ukoliko smo unaprijed fiksirali rizik<br />
greške prvog tipa na α = 0,05, onda grešku drugog tipa možemo smanjiti jedino ako povećamo<br />
veličinu uzorka. Ovo proizilazi iz činjenice da je standardna greška jednaka σ/√n. Samim tim,<br />
kako raste n smanjuje se SE.<br />
Uticaj veličine uzorka na snagu testa je prikazan na slici 7a. Vidimo da sa porastom veličine<br />
uzorka (n = 1, 3 i 7) dolazi do povećanja snage testa (P = 0,26, 0,53 i 0,84) iako razlika između<br />
prosjeka uzorka i pretpostavljenog prosjeka populacije ostaje ista (d = 1). Do povećanja snage<br />
testa dolazi jer veći uzorak omogućava precizniju procjenu parametara čime se preklapanje<br />
između dvije distribucije smanjuje.<br />
Slika 7 – Uticaj uzorka (n) i veličine efekta (d) na snagu testa<br />
Na slici 7b prikazan je uticaj veličine efekta (d), kojim se mjeri razlika između prosjeka uzorka<br />
(x̄ ) i pretpostavljenog prosjeka populacije (µ), na snagu testa. Što je izmjerena razlika veća,<br />
lakše ju je detektovati pa će i snaga testa biti veća.<br />
16
4. NAJČEŠĆE POGREŠKE VEZANE ZA TESTOVE SIGNIFIKANTNOSTI<br />
U prethodnom izlaganju upoznali smo se sa osnovnim statističkim konceptima vezanim za<br />
testiranje hipoteza. Vidjeli smo da je suština logike testiranja hipoteza bazirana na tome da se<br />
utvrdi kolika je vjerovatnoća da se opservirana razlika ili efekat javio kao rezultat slučajnosti<br />
pod pretpostavkom da je nulta hipoteza istinita. Kada se ispostavi da je ta vjerovatnoća dovoljno<br />
mala, nulta hipoteza se odbacuje i zaključujemo kako je dobijena razlika statistički<br />
signifikantna. Dakle, termin "statistički signifikantan" označava prvenstveno vjerovatnoću da<br />
je neka tvrdnja istinita i u nastavku ćemo se osvrnuti na često pogrešna shvatanja značenja<br />
termina "statističke signifikantnosti" i skrenuti pažnju na loše prakse kod provođenja testova<br />
signifkantnosti.<br />
4.1. NIVO ZNAČAJNOSTI JE ARBITRARAN<br />
Već smo rekli da se kao standard za odbacivanje nulte hipoteze uzima to da vjerovatnoća<br />
slučajnog javljanja opservirane razlike iznosi p < 0,05, što znači da rizik da ćemo odbaciti<br />
istinitu nultu hipotezu iznosi manje od 5%. Međutim, ovaj nivo od 5% je u potpunosti<br />
arbitraran. Na primjer, ako test pokaže p = 0,06 to još uvijek znači da vjerovatnoća da je<br />
opservirana razlika rezultat slučajnosti iznosi 6%. Rizik da ćemo odbaciti istinitu nultu hipotezu<br />
u tom slučaju je 6%, što nije mnogo više od uobičajenih 5%. Iz tog razloga, ponekad se u praksi,<br />
posebno u istraživanjima koja nemaju akademski već poslovni karakter, prihvata odbacivanje<br />
nulte hipoteze uz nivo statističke signifikantnosti od p < 0,10.<br />
4.2. LAŽNO POZITIVNI REZULTATI<br />
Potrebno je imati na umu šta se dešava kada radimo veliki broj testova. Na primjer, ako smo uz<br />
nivo rizika α = 0,05 proveli 100 testova koji su pokazali da postoji statistički signifikantan<br />
rezultat, vjerovatnoća je da se kod njih 5 javio lažno pozitivan rezultat.<br />
U praksi nije rijedak slučaj da naiđemo na istraživanja u kojima se se razlike testirale za svako<br />
pitanje iz marketinške skale koja broji nekoliko desetina pojedinačnih item-a. Najčešće se takva<br />
testiranja odnose na razlike u odgovorima između grupa formiranih na bazi demografskih<br />
varijabli kao što su spol, visina dohodka, radni status, stručna sprema i sl. Sasvim je očekivano<br />
da će se u takvoj situaciji desiti da se kod nekih pitanja javi "lažna" statistička signifikantnost.<br />
Što skala ima više pitanja, takvih lažno pozitivnih rezultata je sve više. Problem je što istraživač<br />
ne može reći koji rezultati su lažno pozitivni, osim što treba biti svjestan da ih ima.<br />
Zbog toga je poželjno da se pri testiranju hipoteza vodimo teorijom i da testiranje unaprijed<br />
ograničimo na varijable i grupe ispitanika koje su od stvarnog interesa za ciljeve istraživanja.<br />
Također, najbolji način da utvrdimo da li je riječ o lažno pozitivnom rezultatu bio bi da<br />
ponovimo istraživanje na novom uzorku i vidimo da li ćemo dobiti isti rezultat. Ako se ispostavi<br />
da je nešto statistički signifikantno u dvije odvojene studije, onda je vjerovatno riječ o stvarnom<br />
efektu. Kako je u praksi često nepraktično ponavljati istraživanje, možemo se upotrijebiti i tzv.<br />
"split-half" tehnika gdje se ispitanici iz uzorka slučajnim odabirom podijele u dva poduzorka u<br />
kojima se zatim obave zasebna testiranja. Ukoliko se ispostavi da je test statistički signifikantan<br />
u oba poduzorka možemo biti sigurniji da smo detektovali stvarni efekat. Jedini problem javlja<br />
se u slučaju kada nemamo dovoljno veliki broj ispitanika jer se dijeljenjem ukupnog uzorka<br />
smanjuje snaga testa.<br />
17
4.3. P-VRIJEDNOST NIJE ISTO ŠTO I RIZIK DA NAPRAVIMO GREŠKU I TIPA<br />
Čest je slučaj da se p-vrijednost pogrešno interpetira kao vjerovatnoća da smo odbacili tačnu<br />
nultu hipotezu, tj. vjerovatnoća da smo napravili grešku prvog tipa. Ovakva interpretacija<br />
pogrešna iz razloga što p-vrijednost ništa ne govori o stvarnoj istinitosti nulte hipoteze jer se<br />
pri izračunavanju p-vrijednosti pretpostavlja da je ona istinita i da je svaka razlika rezultat<br />
fluktucija koje nastaju zbog same prirode uzorkovanja. U stvarnosti ne možemo znati da li je<br />
nulta hipoteza istinita ili nije. Mi samo polazimo od pretpostavke da jeste.<br />
Teško je precizno utvrditi koliko iznosi stvarna greška da smo odbacili istinitu nultu hipotezu<br />
(α). Provodeći simulacije Sellke i ostali (2001) su došli do zaključka da uz p = 0,05 vjerovatnoća<br />
da je odbačena zaista istinita nulta hipoteza (α) iznosi najmanje 23%, a uobičajeno je bliža 50%.<br />
Istovremeno uz p = 0,01 vjerovatnoća da je napravljena greška prvog tipa (α) iznosi najmanje<br />
7%, odnosno uobičajeno je bliža 15%.<br />
4.4. P-VRIJEDNOST NIJE VJEROVATNOĆA DOBIJANJA ISTOG REZULTATA<br />
Nisu rijetke situacije kada istraživači interpretiraju dobijenu p-vrijednost kao vjerovatnoću da<br />
će se dobiti isti rezultat ako ponovimo istraživanje. Da bi objasnili zašto je ovakvo tumačenje<br />
pogrešno uzmimo da imamo sljedeću hipotezu:<br />
H0: prosječna plata u BiH je ≤ 800 KM<br />
H1: prosječna plata u BiH je > 800 KM.<br />
Da bi testirali navedenu hipotezu, pretpostavimo da smo na bazi slučajnog uzorka prikupili<br />
podatke i izračunali da je prosječna plata 900 KM. Zatim smo primjenili odgovarajući statistički<br />
test kako bi provjerili da li je razlika između prosjeka uzorka (900 KM) statistički signifikantna<br />
u odnosu na pretpostavljeni prosjek populacije (800 KM). Kao rezultat testa smo dobili da je p<br />
= 0,04999. S obzirom na to, odbacujemo nultu hipotezu jer je rezultat statistički signifikantan.<br />
Ako bi ponovili istraživanje na istovjetan način (iz populacije uzeli novi slučajni uzorak iste<br />
veličine) kolika je šansa da bi ponovo odbacili nultu hipotezu jer bi rezultat bio statistički<br />
signifikantan? Odgovor nije 95%, kako bi mnogi pretpostavili, već znatno manjih 50%. Da bi<br />
vidjeli zašto je to tako, pogledajmo sliku 8.<br />
18
Slika 8 – Vjerovatnoća da ponovo dobijemo signifikantan rezultat ako je rezultat u prvoj studiji<br />
bio signifikantan<br />
Na desnoj strani slike 8 je prikazan oblik distribucije ako je prosječna plata u populaciji zaista<br />
900 KM i ako njen raspored slijedi normalnu dsitribuciju. Kad uzimamo uzorak iz takve<br />
populacije, njegov prosjek će se nalaziti ili lijevo ili desno od aritmetičke sredine (H1) koja<br />
iznosi 900 KM. U 50% slučajeva će prosjek uzorka biti lijevo u plavom području, u ostalih 50%<br />
slučajeva će biti desno u neosjenčenom dijelu.<br />
Obzirom da u ponovljenom istraživanju opet testiramo H0 koja kaže da je plata ≤ 800 KM, ako<br />
se desi da prosjek uzorka bude u plavom području onda nećemo imati dovoljno dokaza da<br />
odbacimo H0. Dakle, vjerovatnoća da se će se aritmetička sredina drugog uzorka iste veličine<br />
nalaziti u plavom području, i da nećemo uspjeti ponovo odbaciti nultu hipotezu, iznosi 50%.<br />
4.5. P-VRIJEDNOST ZAVISI OD VELIČINE UZORKA<br />
Kada smo govorili o snazi testa vidjeli smo da dobijena statistika testa, a preko nje i p-<br />
vrijednost, zavisi od tri faktora: 1) opservirane razlike između aritmetičkih sredina, 2)<br />
standardne greške i 3) veličine uzorka. Promjena bilo koje od ove tri vrijednosti može uticati<br />
na promjenu statističke signifikantnosti. Posebno je važno obratiti pažnju na uticaj koji ima<br />
veličina uzorka.<br />
Primjer 2.1 – nastavak<br />
Da bi ilustrovali uticaj veličine uzorka vratimo se na primjer u kojem smo testirali hipotezu da<br />
je:<br />
H0: µ = 42 mjeseca<br />
H1: µ ≠ 42 mjeseca<br />
U tom primjeru smo na uzorku veličine n = 30 izračunali da statistika testa iznosi z = −1.82574<br />
i da toj vrijednosti odgovara vjerovatnoća p = 0,06724 na osnovu čega smo zaključili da rezultat<br />
nije signifikantan na nivou p < 0,05.<br />
Pogledajmo šta bi se desilo da smo imali uzorak veličine n = 100:<br />
19
z = (x̄ − μ)/σ/√n<br />
z = (39 − 42)/9/√100<br />
z = −3/0,9<br />
z = −3,33333 (p = 0,00086)<br />
Iako je razlika za koju smo proveli test ostala ista (3 mjeseca) rezultat je sada visoko statistički<br />
signifikantan.<br />
4.6. STATISTIČKA SIGNIFIKANTNOST NIJE ISTO ŠTO I PRAKTIČNA<br />
SIGNIFIKANTNOST<br />
Statistička signifikantnost se odnosi na vjerovatnoću da je detektovani efekat rezultat<br />
slučajnosti, pod pretpostavkom da je nulta hipoteza tačna. Međutim, statistička signifikantnost<br />
često ne mora imati mnogo veze sa praktičnom signifikantnošću.<br />
Primjer 2.1 – nastavak<br />
Da bi smo ilustrovali šta ovo znači pretpostavimo da smo u prethodnom primjeru imali uzorak<br />
veličine n = 100.000 i da je prosjek u uzorku umjesto dobijenih 39 bio 41,9 mjeseci. Statistika<br />
testa i pripadajuća p-vrijednost bi iznosila:<br />
z = (M − μ)/σ/ √n<br />
z = (41,9 − 42)/9/√100.000<br />
z = −0,1/0,02846<br />
z = −3,51364 (p = 0,00044)<br />
Iako je razlika za koju smo proveli test znatno manja (0,1 mjeseci) rezultat je sada statistički<br />
signifikantan sa visokim nivoom statističke signifikantnosti. Jednostavno, u situacijama kada<br />
imamo veliki uzorak i trivjalne razlike koje nemaju nikakvu praktičnu vrijednost mogu biti<br />
statistički signifikantne. S druge strane, u situacijama kada imamo mali uzorak, razlike koje su<br />
sa praktičnog aspekta bitne mogu biti statistički nesignifikantne.<br />
U kontekstu primjera sa životnim vijekom baterije, moramo se upitati kakav praktični značaj<br />
ima statistički signifikantna razlika između pretpostavljne i opservirane aritmetičke sredine?<br />
Na primjer, ako smo dobili statistički signifikantan rezultat koji kaže da je očekivani životni<br />
vijek baterije kraći za 3 mjeseca da li takav nalaz osigurava opravdanost poduzimanja<br />
odgovarajućih akcija? Ukoliko je odgovor pozitivan, onda pored statističke govorimo i<br />
praktičnoj signifikantnosti.<br />
5. VELIČINA EFEKTA<br />
Obzirom na raširenost prethodno navedenih pogreški vezanih za interpretaciju rezultata testova<br />
signifikantnosti, nisu rijetke situacije da se končani zaključci testiranja hipoteza ne shvataju u<br />
pravom kontekstu.<br />
Kako bi se bar u nekoj mjeri prevazišla ova ograničenja predloženo je da se pored same<br />
statistike testa i p-vrijednosti izračunava i veličina efekta. Pojednostavljeno rečeno, pod<br />
veličinom efekta (engl. effect size) se podrazumjeva niz indikatora kojima se pokušava utvrditi<br />
20
da li je statistički signifikantna razlika ili korelacija dovoljno velika da bi imala praktično<br />
značenje.<br />
Kad je riječ o mjerenju jačine korelacije, najpoznatiji indikatori kojim se izražava veličina<br />
efekta su Pearsonov koeficijent korelacije (r) i koeficijent determinacije (R 2 ). S druge strane,<br />
kod mjerenja veličine efekta za razliku između dvije grupe često se koristi Kohenov indikator<br />
(d). U slučaju da imamo više od dvije grupe, veličinu efekata možemo izmjeriti sa parcijalnim<br />
kvadriranim eta indikatorom (η 2 ). U tabeli 3 je dat prikaz odnosa između d, r i R 2 indikatora<br />
veličine efekta.<br />
Tabela 3 – Indikatori veličine efekta<br />
Cohenov standard d Procenat<br />
r R 2<br />
preklapanja<br />
2.0 18,9 .707 .500<br />
1.9 20,6 .689 .474<br />
1.8 22,6 .669 .448<br />
1.7 24,6 .648 .419<br />
1.6 26,9 .625 .390<br />
1.5 29,3 .600 .360<br />
1.4 31,9 .573 .329<br />
1.3 34,7 .545 .297<br />
1.2 37,8 .514 .265<br />
1.1 41,1 .482 .232<br />
1.0 44,6 .447 .200<br />
0.9 48,4 .410 .168<br />
Veliki efekat 0.8 52,6 .371 .138<br />
0.7 57,0 .330 .109<br />
0.6 61,8 .287 .083<br />
Srednji efekat 0.5 67,0 .243 .059<br />
0.4 72,6 .196 .038<br />
0.3 78,7 .148 .022<br />
Mali efekat 0.2 85,3 .100 .010<br />
0.1 92,3 .050 .002<br />
0.0 100 .000 .000<br />
Iz tabele 3 možemo primjetiti nekoliko stvari:<br />
Prvo, Cohen (1988) veličinu efekta definiše kao malu ako je d = .2 ili r = |.100|, srednju ako je<br />
d = .5 ili r = |.243| i veliku ako je d = .8 ili r = |.371|.<br />
Drugo, veličina efekta se može izraziti i kao "procenat preklapanja" između dvije distribucije.<br />
Tako na primjer za veličinu efekta od d = .5 preklapanje između dvije distribucije iznosi 67%.<br />
Treće, indikator d se može pretvoriti u indikator r i obrnuto. Na primjer, ako je d = .5, onda je<br />
r = |.243|.<br />
Četvrto, koeficijent determinacije (R 2 ) pokazuje postotak varijanse zavisne varijable koji je<br />
objašnjen nezavisnom varijablom. Na primjer, ako smo testirali razliku između prosječnih<br />
primanja za muškarce i žene i dobili da je d = .5, to znači da se 5,9% varijabiliteta prosječnih<br />
primanja može objasniti spolom ispitanika.<br />
21
Veličina efekta se računa na sljedeći način:<br />
gdje je<br />
Cohenov d = (x̄ grupa1 - xḡrupa2) / SDzajednička<br />
SD<br />
zajednička<br />
<br />
( SD SD )<br />
2 2<br />
grupa 1 grupa 2<br />
2<br />
Cohenov d možemo pretvoriti u koeficijent korelacije na koristeći se formulom:<br />
r = d / √(d2 + 4)<br />
Na primjer, pretpostavimo da smo dvije grupe potrošača uporedili u pogledu toga koliko puta<br />
mjesečno kupuju proizvod A i da smo dobili da prosjek za prvu grupu iznosi 7 komada (SD =<br />
3) a da za drugu grupu iznosi 9 komada (SD = 3). U tom slučaju veličina efekta iznosi d = .667<br />
odnosno r = .316.<br />
22
UNIVERZITET U SARAJEVU<br />
EKONOMSKI FAKULTET U SARAJEVU<br />
Parametarski testovi za testiranje razlika između<br />
grupa 1<br />
Autor:<br />
prof. dr Emir Agić<br />
Sarajevo, 04. april 2017. godine<br />
1<br />
NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />
njegovih dijelova bez prethodnog pisanog pristanka autora.<br />
1
Sadržaj<br />
I Parametarski testovi za testiranje razlika ..................................................................... 4<br />
1. Uvod ................................................................................................................................ 4<br />
2. Pretpostavke za primjenu parametarskih testova ..................................................... 4<br />
2.1. Normalnost ............................................................................................................. 5<br />
2.2. Ne postoje netipične opservacije ............................................................................. 5<br />
2.3. Homogenost varijanse .............................................................................................. 5<br />
2.4. Tip zavisne varijable ................................................................................................ 6<br />
2.5. Nezavisnost .............................................................................................................. 6<br />
2.6. Slučajni uzorak ......................................................................................................... 7<br />
2.7. Aritmetička sredina je adekvatan pokazatelj centralne tendencije .......................... 7<br />
2.8. Alternative parametarskim testovima ...................................................................... 8<br />
3. Parametarski testovi za jednu grupu .......................................................................... 8<br />
3.1. t-test na bazi jednog uzorka ..................................................................................... 8<br />
3.1.1. Provjera pretpostavki ........................................................................................ 9<br />
3.1.2. Izračunavanje statistike testa uz pomoć formule ............................................ 10<br />
3.1.3. Izračunavanje statistike testa uz pomoć State ................................................. 10<br />
3.1.4. Kako napisati rezultat testa ............................................................................. 11<br />
3.1.5. Dodatni primjeri i zadaci ................................................................................ 11<br />
4. Parametarski testovi za dvije grupe .......................................................................... 13<br />
4.1. Nezavisni t-test ....................................................................................................... 13<br />
4.1.1. Provjera pretpostavki ...................................................................................... 14<br />
4.1.2. Izračunavanje statistike testa uz pomoć formule ............................................ 15<br />
4.1.3. Izračunavanje statistike testa uz pomoć State ................................................. 15<br />
4.1.4. Kako napisati rezultat testa ............................................................................. 16<br />
4.1.5. Dodatni primjeri i zadaci ................................................................................ 17<br />
4.2. Zavisni t-test ........................................................................................................... 17<br />
4.2.1. Provjera pretpostavki ...................................................................................... 18<br />
4.2.2. Izračunavanje statistike testa pomoću formule ............................................... 19<br />
4.2.3. Izračunavanje statistike testa pomoću State ................................................... 19<br />
4.2.4. Kako napisati rezultat testa ............................................................................. 20<br />
4.2.5. Dodatni primjeri i zadaci ................................................................................ 20<br />
5. Parametarski testovi za tri ili više grupa .................................................................. 20<br />
5.1. Analiza varijanse (ANOVA).................................................................................. 20<br />
5.1.1. Zašto nam treba analiza varijanse? ................................................................. 20<br />
5.1.2. ANOVA bez State .......................................................................................... 21<br />
5.1.3. ANOVA uz pomoć State ................................................................................ 25<br />
5.1.4. Provjera pretpostavki ...................................................................................... 25<br />
5.1.5. Izračunavanje statistike testa uz pomoć State ................................................. 26<br />
5.1.6. Post Hoc testovi .............................................................................................. 26<br />
2
5.1.7. Kako napisati rezultat testa ............................................................................. 27<br />
5.1.8. Dodatni primjeri i zadaci ................................................................................ 27<br />
5.2. Analiza varijanse sa ponovljenim mjerenjima (RM ANOVA) .............................. 28<br />
5.2.1. RM ANOVA bez State ................................................................................... 29<br />
5.2.2. RM ANOVA uz pomoć State ......................................................................... 31<br />
5.2.3. Kako napisati rezultat testa ............................................................................. 34<br />
3
I<br />
Parametarski testovi za testiranje razlika<br />
1. UVOD<br />
Parametarskim testovima se procjenjuju vrijednosti nepoznatih parametara populacije kao što<br />
su aritmetička sredina, varijansa i kovarijansa. Samim tim, ovi testovi su vezani za zavisne<br />
varijable kontinuiranog tipa. Selekcija odgovarajućeg parametarskog testa zavisi od broja grupa<br />
između kojih se vrši testiranje razlika kao i od toga da li je riječ o međusobno nezavisnim ili<br />
zavisnim grupama, što je obrađeno u poglavlju „Testiranje hipoteza“ (vidjeti tabelu „Kriteriji<br />
za odabir testa“).<br />
2. PRETPOSTAVKE ZA PRIMJENU PARAMETARSKIH TESTOVA<br />
Bitno je imati na umu da se parametarski testovi baziraju na odgovarajućim pretpostavkama<br />
vezanim za populaciju iz koje je dobijen uzorak na kojem se vrši testiranje. Pod<br />
pretpostavkama (engl. assumptions) podrazumjevamo određene uslove koji moraju biti<br />
ispunjeni da bi se mogli osloniti na rezultate dobijene na bazi testova. U nekim slučajevima<br />
neispunjavanje pretpostavki ne mora nužno dovesti do pogrešnog zaključka. U drugim<br />
slučajevima narušavanje pretpostavki može u potpunosti obezvrijediti smisao analize. Iz tog<br />
razloga je vrlo bitno da osiguramo ispunjenje pretpostavki koje određena statististička<br />
procedura zahtjeva. U svakom istraživačkom radu uobičajeno je da se navede da li je ispitana<br />
ispunjenost pretpostavki koje su svojstvene analizama koje su korištene i do kakvih je<br />
zaključaka došlo u vezi toga. Ukoliko neka pretpostavka nije ispunjena potrebno je navesti šta<br />
je urađeno u vezi sa tim. Na primjer, kada nisu ispunjene neke od pretpostavki za primjenu<br />
parametarskih testova moguće je koristiti neparametarske testove koji se baziraju na manjem<br />
broju pretpostavki.<br />
U tabeli 1 je data usporedba osnovnih pretpostavki koje je potrebno ispuniti da bi zaključci do<br />
kojih dođemo na bazi parametarskih testova signifikantnosti bili validni. U nastavku je<br />
objašnjeno značenje navedenih pretpostavki.<br />
Tabela 1 – Pretpostavke koje moraju biti ispunjene da bi se primijenio odgovarajući<br />
parametarski test<br />
Zavisna<br />
varijabla<br />
Netipične<br />
vrijednosti<br />
Normalnost<br />
Homogenost<br />
varijanse<br />
Nezavisnost<br />
Sfernost<br />
Slučajni<br />
uzorak<br />
One-sample t-test kontin. da* da** da* da da<br />
Nezavisni t-test kontin. da* da*** da* da da<br />
Zavisni t-test kontin. da* da* da<br />
ANOVA kontin. da* da da* da da<br />
ANOVA sa ponav. kontin. da* da* da*** da<br />
Napomena: * Samo ako je veličina uzorka manja od n < 30; ** Samo ukoliko je poznata varijansa uzorka ili<br />
populacije u odnosu na koju se vrši usporedba; *** Samo ako softverski paket ne pruža mogućnost korekcije.<br />
4
2.1. NORMALNOST<br />
Ova pretpostavka znači da bi distribucija aritmetičkih sredina uzoraka (sampling distribucija)<br />
trebala imati normalnu raspodjelu. Narušavanje ove pretpostavke posebno je problematično<br />
kada imamo mali uzorak unutar kojeg orginalni podaci znatno odstupaju od normalne<br />
distribucije. U takvoj situaciji je vrlo vjerovatno da podaci ne slijedi normalnu raspodjelu ni u<br />
populaciji, a kako se zbog veličine uzorka se ne možemo osloniti na djelovanje Centralnog<br />
graničnog teorema onda je bolje je primjeniti neparametarski test.<br />
Obratimo pažnju da se normalnost ne odnosi na distribuciju zavisne varijable u uzorku, već na<br />
sampling distribuciju. Sjetimo se da Centralni granični teorem kaže da će sampling distribucija<br />
imati normalnu raspodjelu ukoliko imamo dovoljno veliki uzorak, bez obzira na oblik orginalne<br />
distribucije podataka iz uzorka. Dakle, parametarske testove možemo primjeniti čak i ako<br />
orginalni podaci nemaju normalnu distribuciju sve dok imamo dovoljno veliki uzorak. Šta se u<br />
datom slučaju podrazumijeva pod dovoljno velikim uzorkom možemo vidjeti u tabeli 2.<br />
Tabela 2 – Potrebna veličina uzorka ukoliko orginalni podaci u uzorku nemaju normalnu<br />
raspodjelu<br />
Parametarski test<br />
Veličina uzorka<br />
t-test na bazi jednog uzorka > 20<br />
t-test sa dva uzorka<br />
> 15 u svakoj grupi<br />
Jednofaktorska ANOVA > 15 ako imamo do 9 grupa ili > 20 ako imamo 10-12 grupa<br />
Izvor: Minitab<br />
Šta ako imamo manji uzorak? Ukoliko smo sigurni da podaci u populaciji za datu zavisnu<br />
varijablu slijede normalnu distribuciju i distribucija aritmetičkih sredina uzorka će biti<br />
normlana za uzorak bilo koje veličine. Ako pak ne znamo kako je varijabla od interesa<br />
distribuirana u populaciji onda je bolje primjeniti neki od alternativnih neparametarskih testova.<br />
Pretpostavku normalnosti provjeravamo putem histograma frekvencija i pomoću Shapiro-Wilk<br />
testa. Pogledati primjer 3.1 u narednoj sekciji kao ilustraciju postupka provjere ove<br />
pretpostavke.<br />
2.2. NE POSTOJE NETIPIČNE OPSERVACIJE<br />
Pod netipičnim opservacijama (engl. outliers) podrazumijevamo opservacije kod kojih se<br />
vrijednosti zavisne varijable znatno različitu od ostalih opservacija u uzorku. Ispunjenost ove<br />
pretpostavke je posebno bitna ukoliko raspolažemo sa uzorkom manje veličine. Netpipične<br />
vrijednosti možemo detektovati uz pomoć boxplot-a.<br />
2.3. HOMOGENOST VARIJANSE<br />
Ova pretpostavka se odnosi na to da bi grupe trebale imati jednaku varijansu. Drugim riječima,<br />
raspršenost opservacija bi trebala biti jednaka u svim grupama (slika 1).<br />
5
Slika 1 – Različita varijansa<br />
Izvor: Hipotetski podaci<br />
Nekada je neispunjavanje ove pretpostavke značilo potrebu primjene neparametarskih testova.<br />
Međutim, većina današnjih softverskih statističkih paketa automatski vrši korekciju dobijene<br />
statistike testa na način da ona bude validna čak i u situaciji kada je pretpostavka o homogenosti<br />
varijanse narušena.<br />
2.4. TIP ZAVISNE VARIJABLE<br />
Za sve parametarske tehnike podrazumjeva se da je zavisna varijabla kontinuiranog tipa i da je<br />
mjerena na intervalnoj ili proporcionalnoj skali.<br />
2.5. NEZAVISNOST<br />
Neki testovi podrazumijevaju da su opservacije ili grupe nezavisne jedna od druge. Na primjer,<br />
ako smo na bazi slučajnog uzorka mjerili ostvareni profit preduzeća u dvije države, sasvim je<br />
izvjesno da izmjerena visina profita u zemlji A ne zavisi od toga kako su poslovala preduzeća<br />
u zemlji B.<br />
Međutim, šta se dešava ako smo unutar iste grupe preduzeća mjerili profit na kraju dvije<br />
poslovne godine i želimo testirati da li je razlika u prosijeku signifikantna? Dio ovako<br />
prikupljenih podataka može izgledati kako je prikazanu u tabeli 3.<br />
Tabela 3 – Podaci o visini ostvarenog profita za četiri kompanije<br />
Naziv 2015 2016<br />
Firma A 10.234 KM 11.489 KM<br />
Firma B 86.908 KM 95.324 KM<br />
Firma C 23.006 KM 18.358 KM<br />
Firma D 47.056 KM 46.963 KM<br />
Vidimo da su u posmatranom periodu neke kompanije ostvarile više, a neke manje profita. Ono<br />
što je bitno uočiti jeste da imamo dva ponovljena mjerenja na istim subjektima i da zbog toga<br />
6
možemo očekivati korelaciju između 2015. i 2016. godine. Drugim riječima, ukoliko je firma<br />
ostvarila veći profit u 2015. možemo očekivati da će i u 2016. godini profit u toj firmi biti visok.<br />
Samim tim, ostvareni rezultat u 2016. godini zavisi od rezultata u 2015. godini i kažemo da<br />
opservacije nisu nezavisne.<br />
2.6. SLUČAJNI UZORAK<br />
Svi parametarski i neparametarski testovi značajnosti se baziraju na pretpostavci da su jedinice<br />
populacije u uzorak izabrane potpuno slučajno.<br />
2.7. ARITMETIČKA SREDINA JE ADEKVATAN POKAZATELJ CENTRALNE<br />
TENDENCIJE<br />
Činjenica da centralni granični teorem omogućava da primjenimo parametarski test u situaciji<br />
kada imamo veliki uzorak, ne znači nužno da to trebamo uvijek i uraditi. Naime, u situacijama<br />
kada medijana sa ekonomskog aspekta bolje reprezentuje centar distribucije poželjnije je<br />
primjeniti neki od neparametarskih testova.<br />
Na primjer, pretpostavimo da želimo testirati hipotezu da se prosječni dohodak domaćinstava<br />
u 2016. nije promijenio u odnosu na 2015. godinu. Obzirom da dohodak ima jako nakrivljenu<br />
distribuciju većina podataka je koncentrisana na lijevoj strani distribucije sa dugačkim repom<br />
koji se pruža prema desnom kraju (slika 2). Ovaj rep oslikava činjenicu da postoje domaćinstva<br />
čiji dohodak znatno odskače od prosjeka populacije. Ako se broj takvih domaćinstava povećao<br />
u 2016. godini, to će pomjeriti aritmetičku sredinu udesno i parametarski test može pokazati da<br />
postoji statistički signifikantna razlika. Na osnovu toga ćemo zaključiti da je došlo do promjene<br />
dohotka, što je tačno ako prihvatimo da je aritmetička sredina najbolji pokazatelj centralne<br />
tendencije i da oslikava realnu sliku.<br />
Slika 2 – Histogram dohotka domaćinstava u 2015 i 2106 godini<br />
Izvor: Hipotetski podaci<br />
Međutim, uvećanje bogatstva nekolicine milionera ne znači nužno da je i ostatak populacije<br />
iskusio povećanje dohotka. Ako pogledamo sliku 2, vidimo da obični građani ne žive bolje i da<br />
se medijana nije promijenila.<br />
7
Dakle, u situaciji kada aritmetička sredina nije najbolji opis realne situacije, nekada je bolje<br />
primjeniti neparametarski test. Posebno ako imamo nesimetričnu distribuciju čiji je lijevi kraj<br />
ograničen nulom ili kada dobijeni rezultat može znatno zavisiti od nekoliko ekstremnih<br />
vrijednosti unutar uzorka.<br />
2.8. ALTERNATIVE PARAMETARSKIM TESTOVIMA<br />
Ukoliko raspolažemo metrijskim podacima ali je narušena jedna ili više pretpostavki za<br />
primjenu parametarskih testova, neophodno je koristiti neku od neparametarskih alternativa za<br />
ordinalne varijable prikazanih u tabeli 4.<br />
Tabela 4 – Neparametarske alternative parametarskim testovima<br />
Parametarski test<br />
Nezavisni t-test<br />
Zavisni t-test<br />
Jednofaktorska ANOVA<br />
Jednofaktorska ANOVA sa<br />
ponovljenim mjerenjima<br />
Alternativni neparametarski test<br />
Mann-Whitney U test<br />
Wilcoxon test<br />
Kruskal-Wallis test<br />
Friedman test<br />
Neparametarski testovi se uglavnom baziraju na proceduri rangiranja opserviranih vrijednosti<br />
zavisne varijable po veličini, a zatim na poređenju novodobijenih rangova. Na taj način se<br />
neutrališe problem uticaja netipičnih vrijednosti, a sama raspodjela distribucije i homogenost<br />
varijanse prestaju imati bitnu ulogu. Ovi testovi su obrađeni u narednom poglavlju.<br />
3. PARAMETARSKI TESTOVI ZA JEDNU GRUPU<br />
3.1. T-TEST NA BAZI JEDNOG U ZORKA<br />
T-test na bazi jednog uzorka (engl. One sample t-test) se koristi u situaciji kada želimo testirati<br />
hipotezu o razlici između aritmetičke sredine jednog uzorka (x̄ 1) i aritmetičke sredine populacije<br />
(µ) ili drugog uzorka za koji nemamo podatke (x̄ 2). Statistika testa sa (n − 1) stepena slobode<br />
se izračunava po formuli:<br />
x <br />
t 0<br />
gdje je SE SD<br />
SE<br />
n<br />
U principu, t-test na bazi jednog uzorka je gotovo identičan z-testu na bazi jednog uzorka kojeg<br />
smo ranije detaljno obradili kroz primjer sa životnim vijekom baterija. Jedina razlika ogleda se<br />
u tome što t-test daje validniji rezultat ako imamo uzorak sa manje od 30 ispitanika. Iz tog<br />
razloga je u većini softverskih paketa implementiran samo t-test.<br />
Primjer 3.1<br />
Procijenjeno je da mjesečna potrošnja vode po stanaru u kantonu Sarajevo iznosi 3,46 m 3 .<br />
Prilikom mjerenja uobičajeno je da se potrošnja vode za cijelu zgradu očitava na jednom brojilu<br />
8
a zatim dijeli prema broju stanara. Istraživačka pretpostavka je da domaćinstva sa individualnim<br />
vodomjerima više štede kako bi platila samo onoliko koliko zaista potroše. Kako bi se provjerila<br />
ova pretpostavka, na bazi slučajnog uzorka odabrano je 25 stanova sa ugrađenim individualnim<br />
vodomjerima i mjerena je njihova mjesečna potrošnja vode. Utvrđeno je da potrošnja iznosi<br />
2,80 m 3 uz standardnu devijaciju 1,03 m 3 . Podaci su spremljeni u datoteku vodomjeri_ks.dta<br />
(varijabla potrosnja). Da li možemo zaključiti da uvođenje individualnih vodomjera smanjuje<br />
mjesečnu potrošnju vode?<br />
Dakle, interesuje nas da li je prosječna mjesečna potrošnja vode za 25 slučajno odabranih<br />
stanova sa individualnim vodomjerom manja u odnosu na prosječnu mjesečna potrošnja vode<br />
u populaciji. S obzirom na to, testiramo sljedeću usmjerenu hipotezu:<br />
H0: µ ≥ 3,46 m 3<br />
H1: µ < 3,46 m 3<br />
3.1.1. Provjera pretpostavki<br />
Međutim, prije nego provedemo test, obzirom da imamo manji uzorak (n < 30) potrebno je<br />
ispitati da li zavisna varijabla ima približno normalan raspored. Ovo možemo uraditi preko<br />
histograma frekvencija i provođenjem formalnog Shapiro-Wilk testa za ispitivanje normalnosti<br />
distribucije.<br />
. histogram potrosnja, normal<br />
Histogram pokazuje raspored zavisne varijable (potrosnja) koji slijedi približno normalnu<br />
distribuciju.<br />
. swilk potrosnja<br />
Shapiro-Wilk W test for normal data<br />
Variable | Obs W V z Prob>z<br />
-------------+--------------------------------------------------<br />
potrosnja | 25 0.98230 0.492 -1.451 0.92659<br />
9
Opservaciju o ispunjenju pretpostavke o normalnosti je potvrdio i Shapiro-Wilk test koji je<br />
nesignifikantan (p > 0,05),što znači da ne možemo tvrditi da raspored zavisne varijable odstupa<br />
znatno od normalne distribucije.<br />
Pretpostavku o nepostojanju netipičnih vrijednosti ćemo provjeriti tako što ćemo nacrtati<br />
boxplot:<br />
. graph box potrosnja<br />
Boxplot ne prikazuje postojanje netipičnih opservacija pa zaključujemo da je pretpostavka<br />
ispunjena.<br />
T-test na bazi jednog uzorka zahtjeva da je varijansa u uzorku otprilike jednaka varijansi u<br />
populaciji ukoliko imamo taj podatak. Ukoliko varijansa populacije nije poznata, možemo je<br />
procijeniti jedino na bazi uzorka pa ovu pretpostavku nije moguće testirati u našem primjeru.<br />
3.1.2. Izračunavanje statistike testa uz pomoć formule<br />
Statistiku testa možemo izračunati ručno korištenjem formule:<br />
x 0 2,80 3,46 0,66<br />
t 3,20<br />
SE 1,03 0,206<br />
25<br />
Ako bi konsultovali statističke tablice vidjeli bi da je dobijena statistika testa t = −3,20 za dati<br />
broj stepena slobode (25 − 1 = 24) signifikantna uz p < 0,05 na osnovu čega možemo odbaciti<br />
nultu hipotezu.<br />
3.1.3. Izračunavanje statistike testa uz pomoć State<br />
Testiranje hipoteze možemo uraditi i uz pomoć State. Naredba za provođenje t-testa na bazi<br />
jednog uzorka glasi:<br />
ttest zavisna_varijabla == vrijednost aritmetičke sredine populacije<br />
10
U našem primjeru zavisna varijabla je mjesečna potrošnja vode (potrosnja), a vrijednost<br />
aritmetičke sredine u populaciji iznosi µ = 3,46 pa će biti:<br />
. ttest potrosnja == 3.46<br />
Output testa je prikazan u tabeli 5.<br />
Tabela 5 – Rezultati one-sample t-testa za primjer 3.1<br />
One-sample t test<br />
------------------------------------------------------------------------------<br />
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]<br />
---------+--------------------------------------------------------------------<br />
potros~a | 25 2.8024 .2068963 1.034482 2.375387 3.229413<br />
------------------------------------------------------------------------------<br />
mean = mean(potrosnja) t = -3.1784<br />
Ho: mean = 3.46 degrees of freedom = 24<br />
Ha: mean < 3.46 Ha: mean != 3.46 Ha: mean > 3.46<br />
Pr(T < t) = 0.0020 Pr(|T| > |t|) = 0.0040 Pr(T > t) = 0.9980<br />
Output testa sadrži informacije o broju opservacija (Obs), prosjeku unutar uzorka (Mean),<br />
standardnoj grešci (Std. Err.), standardnoj devijaciji (St. Dev.), 95% intervalu povjerenja (Conf.<br />
Interval) i rezultate samog testa (t) sa stepenima slobode (degrees of freedom). Obzirom da smo<br />
postavili usmjerenu hipotezu (µ < 3,46 m 3 ) p-vrijednost čitamo iz prve kolone (Ha: mean <<br />
3.46). Dobili smo da je p = 0,002 i kako je to manje od potrebnih p < 0,05 možemo zaključiti<br />
da postoji statistički signifikantna razlika između potrošnje vode u domaćinstvima sa i bez<br />
vodomjera.<br />
3.1.4. Kako napisati rezultat testa<br />
Prosječna mjesečna potrošnja vode u domaćinstvima u Kantonu Sarajevo sa ugrađenim<br />
vodomjerima (M = 2,80, SD = 1,03) je manja u odnosu na prosječnu mjesečnu potrošnju vode<br />
ostalih domaćinstva u Kantonu Sarajevo koja iznosi 3,46 m 3 . Jednosmjerni t-test na bazi jednog<br />
uzorka je potvrdio da je razlika statistički signifikantna, t(24) = −3,18, p < 0,001.<br />
3.1.5. Dodatni primjeri i zadaci<br />
Primjer 3.2<br />
Obzirom da se zbog dotrajale infrastrukture jedan dio vode gubi tokom samog transporta,<br />
zainteresovani smo da utvrdimo da li je ugradnja vodomjera pomogla da se smanji prosječna<br />
potrošnja vode u starijim gradskim naseljima. Ako je od ranije poznato da prosječna potrošnja<br />
vode u takvim naseljima iznosi 3,61 m 3 po stanaru, da li na osnovu našeg uzorka u kojem je od<br />
ukupno 25 stanova njih 10 bilo locirano u starijim zgradama možemo ustvrditi da su vodomjeri<br />
doprinijeli smanjenju potrošnje u zgradama starogradnje? Podatak o tome da li je riječ o starijoj<br />
ili novijoj zgradi nalazi se unutar varijable novogradnja (novgrad), gdje je 0 = starogradnja, a 1<br />
= novogradnja.<br />
Testiramo sljedeću usmjerenu hipotezu:<br />
11
H0: µ ≥ 3,61 m 3<br />
H1: µ < 3,61 m 3<br />
Obzirom da nas interesuje uporedba samo za novogradnju, komanda ima sljedeću sintaksu:<br />
. ttest potrosnja == 3.61 if novgrad == 0<br />
Rezultati su dati u okviru tabele 6.<br />
Tabela 6 – Rezultati one-sample t-testa za primjer 3.2<br />
One-sample t test<br />
------------------------------------------------------------------------------<br />
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]<br />
---------+--------------------------------------------------------------------<br />
potros~a | 10 3.221 .3004088 .949976 2.541428 3.900572<br />
------------------------------------------------------------------------------<br />
mean = mean(potrosnja) t = -1.2949<br />
Ho: mean = 3.61 degrees of freedom = 9<br />
Ha: mean < 3.61 Ha: mean != 3.61 Ha: mean > 3.61<br />
Pr(T < t) = 0.1138 Pr(|T| > |t|) = 0.2276 Pr(T > t) = 0.8862<br />
Prosječna mjesečna potrošnja vode u domaćinstvima sa ugrađenim vodomjerima lociranim<br />
starim gradskim naseljima unutar Kantona Sarajevo (M = 3,22, SD = 0,95) je manja u odnosu<br />
na prosječnu mjesečnu potrošnju vode ostalih domaćinstva u starim naseljima koja iznosi 3,61<br />
m 3 . Jednosmjerni t-test na bazi jednog uzorka nije potvrdio da je uočena razlika statistički<br />
signifikantna, t(9) = −1,30, p = 0,11.<br />
Primjer 3.3<br />
U sličnom istraživanju provedenom na bazi slučajnog uzorka u Zeničko-dobojskom kantonu<br />
utvrđeno je da prosječna potrošnja vode u domaćinstvima sa ugrađenim vodomjerima iznosi<br />
2,44 m 3 po stanaru. Da li između dobijenog rezultata u Kantonu Sarajevo i Zeničko-dobojskog<br />
kantona postoji statistički signifikantna razlika?<br />
Obzirom da nismo pretpostavili u kojem Kantonu očekujemo veću ili manju potrošnju vode jer<br />
nas prvenstveno interesuje utvrđivanje signifikantnosti uočene razlike, testiraćemo dvosmjernu<br />
hipotezu:<br />
H0: µ = 2,44 m 3<br />
H1: µ ≠ 2,44 m 3<br />
Kako vrijednost aritmetičke sredine u populaciji iznosi µ = 2,44 komanda je:<br />
. ttest potrosnja == 2.44<br />
Output testa je prikazan u tabeli 7.<br />
Tabela 7 – Rezultati one-sample t-testa za primjer 3.3<br />
12
One-sample t test<br />
------------------------------------------------------------------------------<br />
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]<br />
---------+--------------------------------------------------------------------<br />
potros~a | 25 2.8024 .2068963 1.034482 2.375387 3.229413<br />
------------------------------------------------------------------------------<br />
mean = mean(potrosnja) t = 1.7516<br />
Ho: mean = 2.44 degrees of freedom = 24<br />
Ha: mean < 2.44 Ha: mean != 2.44 Ha: mean > 2.44<br />
Pr(T < t) = 0.9537 Pr(|T| > |t|) = 0.0926 Pr(T > t) = 0.0463<br />
Prosječna mjesečna potrošnja vode u domaćinstvima sa ugrađenim vodomjerima u Kantonu<br />
Sarajevo (M = 2,80, SD = 1,03) je veća u odnosu na prosječnu mjesečnu potrošnju vode u<br />
domaćinstvima sa ugrađenim vodomjerima u Zeničko-dobojskom kantonu koja iznosi 2,44 m 3 .<br />
Dvosmjerni t-test na bazi jednog uzorka nije potvrdio da je uočena razlika statistički<br />
signifikantna, t(24) = −1,75, p = 0,09.<br />
Zadatak 3.1<br />
U Tuzlanskom kantonu je provedeno slično istraživanje. Podaci su spremljeni u datoteku<br />
vodomjeri_tk.dta (varijabla potrosnja). Ukoliko je poznato da prosječna potrošnja vode po<br />
stanaru u Tuzlanskom kantonu iznosi 3,56 m 3 testirajte da li je uvođenje individualnih<br />
vodomjera u domaćinstvima rezultiralo smanjenjem mjesečne potrošnje vode u tom kantonu.<br />
4. PARAMETARSKI TESTOVI ZA DVIJE GRUPE<br />
4.1. NEZAVISNI T-TEST<br />
Nezavisni t-test (engl. independent samples t-test) se koristi da ispitamo da li postoji statistički<br />
signifikantna razlika između aritmetičkih sredina dvije nezavisne grupe. Dakle, u okviru ovog<br />
testa imamo nezavisnu varijablu dihotomnog tipa kojom se identifikuju grupe i zavisnu<br />
varijablu metrijskog tipa.<br />
Teorija na kojoj se zasniva nezavisni t-test u principu nije mnogo drugačija od onoga sa čim<br />
smo se upoznali kod z i t-testova na bazi jednog uzorka. Razlika je u tome što sada imamo<br />
podatke o aritmetičkoj sredini iz dvije grupe (x̄ 1 i x̄ 2) za koje pretpostavljamo da dolaze iz dvije<br />
različite populacije i gdje testiramo nultu hipotezu da između aritmetičkih sredina te dvije<br />
populacije nema razlike: µ1 = µ2. Ukoliko nemamo dovoljno dokaza da odbacimo nultu<br />
hipotezu, onda ne možemo tvrditi da postoji razlika između grupa. Drugim riječima, smatra se<br />
da su grupe dio iste populacije.<br />
Statistika testa sa (n − 2) stepena slobode se izračunava po formuli:<br />
x<br />
2<br />
x<br />
1<br />
t gdje je SE D SE 2 SE<br />
2<br />
1<br />
<br />
2<br />
SE<br />
D<br />
13
SED označava standardnu grešku razlike između aritmetičkih sredina dvije grupe (engl.<br />
standard error of difference of means), a SE1 i SE2 su standardne greške unutar prve i druge<br />
grupe.<br />
Primjer 4.1<br />
Distributer razmišlja o tome da li je prilikom uvođenja nove marke kafe na tržište potrošačima<br />
na mjestu prodaje potrebno ponuditi na probu besplatne uzorke kafe (varijabla uzorci). Kako bi<br />
se riješila dilema, slučajno je odabrano dvadeset prodavnica. U njih 10 je nova kafa ponuđena<br />
uz besplatne uzorke (uzorci = 0) dok u ostalih 10 nisu korištena nikakva sredstva unapređenja<br />
prodaje (uzorci = 1). Zabilježena je broj prodatih pakovanja nove kafe na kraju mjeseca<br />
(prodaja). Podaci su spremljeni u datoteku kafa.dta, a deskriptivna statistika je predstavljena u<br />
okviru tabele 8.<br />
Tabela 8 – Mjesečna prodaja pakovanja kafe (u kom) u prodavnicama sa i bez probnih uzoraka<br />
. tabstat prodaja, s(n mean, median, sd, semean, skew) by(uzorci) format(%9.2f)<br />
Summary for variables: prodaja<br />
by categories of: uzorci<br />
uzorci | N mean p50 sd se(mean) skewness<br />
------------+------------------------------------------------------------<br />
bez uzoraka | 10.00 69.20 72.50 36.94 11.68 -0.10<br />
sa uzorcima | 10.00 79.40 84.00 33.45 10.58 -0.25<br />
------------+------------------------------------------------------------<br />
Total | 20.00 74.30 78.00 34.70 7.76 -0.20<br />
-------------------------------------------------------------------------<br />
Testiramo nultu hipotezu da ne postoji razlika između prosječne prodaje nove marke kafe<br />
unutar prodavnice u kojima su korišteni besplatni uzorci kafe i onih u kojima nije bilo<br />
besplatnih uzoraka:<br />
H0: µ1 - µ2 = 0<br />
H1: µ1 - µ2 ≠ 0<br />
4.1.1. Provjera pretpostavki<br />
Prije nego testiramo navedenu hipotezu potrebno je provjeriti da li su ispunjene pretpostavke<br />
nezavisnog t-testa. Obzirom da prodaja kafe u jednoj prodavnici ne zavisi od viisine prodaje u<br />
drugoj prodavnici znamo da je ispunjena pretpostavka o nezavisnosti opservacija. Međutim,<br />
obzirom da ne raspolažemo uzorkom sa n ≥ 30 prodavnica, potrebno je ispitati pretpostavku<br />
normalnosti, provjeriti da li postoje netipične vrijednosti i da li su varijanse unutar grupa<br />
međusobno jednake.<br />
Pretpostavku normalnosti provjerili smo primjenom Saphiro-Wilk testa 2 . Rezultat testa je bio<br />
nesignifikantan (p > 0,05) što znači da je pretpostavka ispunjena i da dsitribucija zavisne<br />
varijable ne odstupa znatno od normalne distribucije.<br />
2<br />
Naredba: swilk prodaja<br />
14
Kao i ranije, pretpostavku o netipičnim vrijednostima provjerili smo pomoću boxplot-a 3 . Na<br />
osnovu dobijenog grafika zaključili da je pretpostavka ispunjena i da nisu detektovane netipične<br />
opservacije.<br />
Konačno, pretpostavku o homogenosti varijanse provjeravamo korištenjem tzv. variance-ratio<br />
testa:<br />
. sdtest prodaja, by(uzorci)<br />
Rezultati su prikazani u tabeli 9.<br />
Tabela 9 – Rezultati variance-ratio testa za primjer 4.1<br />
Variance ratio test<br />
------------------------------------------------------------------------------<br />
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]<br />
---------+--------------------------------------------------------------------<br />
bez uzor | 10 69.2 11.68266 36.9438 42.772 95.628<br />
sa uzorc | 10 79.4 10.57901 33.45378 55.46861 103.3314<br />
---------+--------------------------------------------------------------------<br />
combined | 20 74.3 7.7589 34.69885 58.06044 90.53956<br />
------------------------------------------------------------------------------<br />
ratio = sd(bez uzor) / sd(sa uzorc) f = 1.2195<br />
Ho: ratio = 1 degrees of freedom = 9, 9<br />
Ha: ratio < 1 Ha: ratio != 1 Ha: ratio > 1<br />
Pr(F < f) = 0.6138 2*Pr(F > f) = 0.7723 Pr(F > f) = 0.3862<br />
Ispod tabele 9 gledamo srednju kolonu (Ha: ratio != 1) u kojoj je prikazana vjerovatnoća da<br />
dvije grupe (prodavnice sa uzorkom i bez uzorka) imaju različite varijanse. Obzirom da je p =<br />
0,772 zaključujemo da je test nesignifikantan i da je ispunjena pretpostavka o homogenosti<br />
varijanse.<br />
4.1.2. Izračunavanje statistike testa uz pomoć formule<br />
Statistiku testa možemo izračunati ručno korištenjem formule:<br />
x<br />
2<br />
x<br />
1<br />
79,4 69,2 10,2<br />
t 0,65<br />
SED<br />
2 2<br />
11,68 10,58 248,36<br />
Ukoliko bi provjerili u tablicama vidjeli bi da dobijena statistika testa t = −3,20 za dati broj<br />
stepena slobode (20 − 2 = 18) nije signifikantna uz p < 0,05 na osnovu čega možemo odbaciti<br />
nultu hipotezu.<br />
4.1.3. Izračunavanje statistike testa uz pomoć State<br />
Testiranje hipoteze možemo uraditi i uz pomoć State. Naredba za provođenje nezavisnog t-testa<br />
glasi:<br />
ttest zavisna_varijabla, by(nezavisna_varijabla) unequal<br />
3<br />
Naredba: graph box prodaja, by(uzorci)<br />
15
gdje se opcija unequal koristi u slučaju kada nije ispunjena pretpostavka o homogenosti<br />
varijanse i govori Stati da koriguje broj stepena slobode kako bi se očuvala validnost testa.<br />
U našem primjeru smo konstatovali da je pretpostavka o homogenosti varijanse ispunjena tako<br />
da će biti:<br />
. ttest prodaja, by(uzorci)<br />
Rezultati testa su predstavljeni u tabeli 10.<br />
Tabela 10 – Rezultati nezavisnog t-testa za primjer 4.1<br />
Two-sample t test with equal variances<br />
------------------------------------------------------------------------------<br />
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]<br />
---------+--------------------------------------------------------------------<br />
bez uzor | 10 69.2 11.68266 36.9438 42.772 95.628<br />
sa uzorc | 10 79.4 10.57901 33.45378 55.46861 103.3314<br />
---------+--------------------------------------------------------------------<br />
combined | 20 74.3 7.7589 34.69885 58.06044 90.53956<br />
---------+--------------------------------------------------------------------<br />
diff | -10.2 15.76071 -43.31202 22.91202<br />
------------------------------------------------------------------------------<br />
diff = mean(bez uzor) - mean(sa uzorc) t = -0.6472<br />
Ho: diff = 0 degrees of freedom = 18<br />
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0<br />
Pr(T < t) = 0.2628 Pr(|T| > |t|) = 0.5257 Pr(T > t) = 0.7372<br />
Output sadrži deskriptivnu statistiku i rezultate testa. Vidimo podatak o broju opservacija (Obs),<br />
prosječnoj prodaji u prodavnicama sa i bez uzoraka (Mean), prosječnoj razlici između te dvije<br />
grupe (diff = −10,2), standardnoj devijaciji (Std. Dev.), standardnoj grešci (Std. Err.) i 95%<br />
intervalu povjerenja za prodaju unutar grupa i zabilježenu razliku. U donjem dijelu tabele<br />
predstavljeni su rezultati testa. Obzirom da smo postavili neusmjerenu hipotezu p-vrijednost<br />
čitamo iz srednje kolone (Ha: mean(diff) != 0). Obzirom da je p = 0,53 i da je to manje od<br />
potrebnih p < 0,05 možemo zaključiti da ne postoji statistički signifikantna razlika između<br />
prodaje ostvarene u prodavnicama sa i bez uzoraka. Drugim riječima, ne možemo tvrditi da<br />
razlika nije jednaka nuli.<br />
4.1.4. Kako napisati rezultat testa<br />
Istraživanje je pokazalo da je u prodavnicama u kojima nije bilo besplatnih uzoraka zabilježena<br />
manja prosječna prodaja tokom mjeseca (M = 69,2, SD = 36,94) u odnosu na prodavnice u<br />
kojima je nova kafa nuđena uz besplatne uzorke (M = 79,40, SD = 33,45). Navedena razlika<br />
nije statistički signifikantna, t(18) = −0,65, p = 0,53.<br />
16
4.1.5. Dodatni primjeri i zadaci<br />
Zadatak 4.1<br />
Proizvođač konditorskih proizvoda želi saznati da li postoji razlika u preferencijama između<br />
muškaraca i žena (varijabla spol) u pogledu nove marke čokolade. Na bazi slučajnog uzorka<br />
odabrano je 30 ispitanika koji su zamoljeni da na skali od 1 do 10 izraze svoje preferencije<br />
prema novoj čokoladi. Na skali ocjena 1 označava potpunu averziju a ocjena 10 potpuno<br />
preferiranje. Podaci su spremljeni u datoteku pod nazivom cokolada.dta.<br />
4.2. ZAVISNI T-TEST<br />
Zavisni ili upareni t-test (engl. paired samples t-test) se koristi da ispitamo da li postoji<br />
statistički signifikantna razlika između aritmetičkih sredina dvije direktno povezane grupe.<br />
Direktna povezanost se najčešće javlja ako prikupljanje podataka vršimo u dva navrata pa<br />
imamo ponovljena mjerenja na istoj grupi ispitanika. Također, povezanost se javlja i kada u<br />
okviru ekperimentalnog dizajna imamo uparene opservacije gdje je svaki ispitanik iz<br />
eksperimentalne grupe je uparen sa drugim ispitanikom sličnih karkateristika iz kontrolne<br />
grupe.<br />
Primjena nezavisnog t-testa u takvim situacijama ne bi bila prikladna jer bi narušili<br />
pretpostavku o nezavisnosti opservacija. Problem se rješava tako da izračunamo razliku između<br />
svakog para opservacija (d1, d2 ... dn). Ovako dobijene razlike su međusobno nezavisne što<br />
omogućava primijenu statitstike koja je ekvivalentna t-testu na bazi jednog uzorka sa (n − 1)<br />
stepena slobode:<br />
d<br />
s<br />
t gdje je SE <br />
d<br />
SE<br />
n<br />
Primjer 4.2<br />
Marketing odjeljenje vjeruje da novi POS displej (engl. point-of-sale display) ima opipljiv<br />
efekat na povećanje prodaje kod onih kupaca koji inicijalno nisu imali namjeru kupiti određeni<br />
tip proizvoda izložen na samom displeju. Prije donošenja konačne odluke o uvođenju novog<br />
displeja u sve prodavnice, napravljen je eksperiment kako bi se utvrdilo da li postoji ekonomska<br />
opravdanost za donošenje takve odluke. Slučajno je odabrano 10 prodavnica koje pripadaju<br />
istom distributerskom lancu i mjeren je ostvareni mjesečni prihod od prodaje proizvoda<br />
izloženih na starom (april) i novom POS displeju (maj). Ostali uslovi unutar prodavnica se nisu<br />
promijenili. Na bazi ranijeg iskustva poznato je da prodaja unutar prodavnica nije podložna<br />
sezonskim oscilacijama tokom dva izabrana mjeseca. Podaci su spremljeni u datoteku pos.dta.<br />
Prvo smo izračunali razliku u prodaji unutar istih prodavnica (d), zatim smo dobijene podatke<br />
predstavili u tabeli 11. Na kraju smo izračunali prosjek i standaradnu devijaciju za dobijenu<br />
razliku.<br />
17
Tabela 11 – Prodaja (u KM) prije i nakon uvođenja novog POS displeja<br />
. gen d = maj - april<br />
. list, abbreviate(11) separator (10)<br />
+---------------------------------+<br />
| prodavnica maj april d |<br />
|---------------------------------|<br />
1. | 1 198 235 -37 |<br />
2. | 2 632 445 187 |<br />
3. | 3 769 701 68 |<br />
4. | 4 930 1025 -95 |<br />
5. | 5 766 651 115 |<br />
6. | 6 888 805 83 |<br />
7. | 7 566 455 111 |<br />
8. | 8 314 254 60 |<br />
9. | 9 1310 1224 86 |<br />
10. | 10 1479 1452 27 |<br />
+---------------------------------+<br />
. summarize d<br />
Variable | Obs Mean Std. Dev. Min Max<br />
-------------+--------------------------------------------------------<br />
d | 10 60.5 79.96145 -95 187<br />
Iako na prvi pogleda djeluje neuobičajeno da u tabeli mjesec maj ide prije aprila, ovakav<br />
redoslijed ima svoje opravdanje u slučaju kada radimo zavisni test unutar State. Naime, da bi<br />
dobili ispravne rezultate testa neophodno je da se vrijednosti prvog mjerenja oduzmu od<br />
vrijednosti drugog mjerenja, pa se zbog toga opservacije vezane za mjesec maj nalaze u koloni<br />
prije opservacija za mjesec april.<br />
Nulta hipoteza glasi da ne postoji razlika između prosječne prodaje prodavnica prije i nakon<br />
postavljanja novog POS displeja, odnosno:<br />
H0: µd = 0<br />
H1: µd ≠ 0<br />
4.2.1. Provjera pretpostavki<br />
Obzirom da je zavisna varijabla metrijskog tipa, prije izračunavanja statistike testa potrebno je<br />
još provjeriti pretpostavke o normalnosti i nepostojanju netipičnih opservacija. Pretpostavku o<br />
homogenosti varijanse nije potrebno provjeravati jer distribucija individualnih vrijednosti po<br />
grupama (maj i april) nije relevantna, jer je sam test jedino bitno kako izgleda distribucija razlika<br />
(d).<br />
Pretpostavka normalnosti u slučaju zavisnog testa odnosi se na to da distribucija razlika između<br />
dvije grupe (d) treba imati normalan raspored. U slučaju kada raspolažemo sa uzorkom veličine<br />
n ≥ 30, možemo se osloniti na Centralni granični teorem i smatrati da je pretpostavka ispunjena.<br />
U konkretnom primjeru, imamo manji uzorak (n = 10) pa je pretpostavku bilo potrebno testirati<br />
18
primjenom Saphiro-Wilk testa 4 . Statistika testa W = 0,948 je bila nesignifiknantna sa p = 0,647<br />
na osnovu čega smo zaključili da je pretpostavka ispunjena.<br />
Pretpostavku o nepostojanju netipičnih vrijednosti smo provjerili tako što smo nacrtali boxplot 5<br />
na bazi kojeg smo konstatovali da nisu detektovane netipične opservacije i da je pretpostavka<br />
ispunjena.<br />
4.2.2. Izračunavanje statistike testa pomoću formule<br />
Statistiku testa možemo izračunati ručno korištenjem formule:<br />
Ukoliko bi provjerili u tablicama vidjeli bi da dobijena statistika testa t = 2,39 za dati broj<br />
stepena slobode (10 − 1 = 9) statistički signifikantna uz p < 0,05 na osnovu čega možemo<br />
odbaciti nultu hipotezu.<br />
4.2.3. Izračunavanje statistike testa pomoću State<br />
Testiranje hipoteze možemo uraditi i uz pomoć State. Naredba za provođenje zavisnog t-testa<br />
glasi:<br />
ttest druga_varijabla == prva_varijabla<br />
U našem primjeru drugo mjerenje je obavljeno u maju a prvo u aprilu, pa ćemo imati:<br />
. ttest maj == april<br />
Rezultati testa su prikazani u tabeli 12.<br />
Tabela 12 – Rezultati zavisnog t-testa za primjer 4.2<br />
Paired t test<br />
------------------------------------------------------------------------------<br />
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]<br />
---------+--------------------------------------------------------------------<br />
maj | 10 785.2 125.9317 398.231 500.3227 1070.077<br />
april | 10 724.7 128.8074 407.3249 433.3173 1016.083<br />
---------+--------------------------------------------------------------------<br />
diff | 10 60.5 25.28603 79.96145 3.299025 117.701<br />
------------------------------------------------------------------------------<br />
mean(diff) = mean(maj - april) t = 2.3926<br />
Ho: mean(diff) = 0 degrees of freedom = 9<br />
Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0<br />
Pr(T < t) = 0.9798 Pr(|T| > |t|) = 0.0404 Pr(T > t) = 0.0202<br />
4<br />
Naredba: swilk d<br />
5<br />
Naredba: graph box d<br />
19
Output sadrži deskriptivnu statistiku i rezultate testa. Vidimo podatak o broju opservacija (Obs),<br />
prosječnoj prodaji u 10 prodavnica u maju i aprilu (Mean), prosječnoj razlici između ta dva<br />
mjeseca (d̄ = 60,5 KM), standardnoj devijaciji SD = 79,96, standardnoj grešci SE = 25,29 i 95%<br />
intervalu povjerenja. U donjem dijelu tabele predstavljeni su rezultati testa. Obzirom da smo<br />
postavili neusmjerenu hipotezu čitamo srednju kolonu (Ha: mean(diff) != 0) u kojoj je<br />
prikazana statistička značajnost testa. Obzirom da je p = 0,04 i da je to manje od potrebnih p <<br />
0,05 možemo zaključiti da postoji statistički signifikantna razlika između prodaje ostvarene u<br />
maju i aprilu.<br />
4.2.4. Kako napisati rezultat testa<br />
Eksperiment je pokazao da je tokom mjeseca aprila, kada je u prodavnicama bio postavljen stari<br />
POS displej, zabilježen manji prihod od prodaje (M = 724,7, SD = 407,3) u odnosu na mjesec<br />
maj, kada je u prodavnicama bio postavljen novi POS displej (M = 785,2, SD = 398,2).<br />
Navedena razlika je statistički signifikantna, t(9) = 2,39, p = 0,04.<br />
4.2.5. Dodatni primjeri i zadaci<br />
Zadatak 4.2<br />
Pretpostavimo da marketing odjeljenje vjeruje da novo pakovanje proizvoda ima opipljiv efekat<br />
na povećanje prodaje (prodaja) kod onih kupaca koji inicijalno nisu imali namjeru kupiti<br />
određeni tip proizvoda. Trideset slučajno odabranih ispitanika je zamoljeno da na skali od 1 do<br />
10 izrazi svoje preferencije prema starom pakovanju (staro) i novom pakovanju (novo). Na skali<br />
ocjena 1 označava potpunu averziju a ocjena 10 potpuno prefereiranje. Podaci su spremljeni u<br />
datoteku pakovanje.dta. Da li treba uvesti novo pakovanje proizvoda?<br />
5. PARAMETARSKI TESTOVI ZA TRI ILI VIŠE GRUPA<br />
5.1. ANALIZA VARIJANSE (ANOVA)<br />
Jednofaktorska analiza varijanse (engl. One way ANOVA) je parametarska statistička tehnika<br />
koja se upotrebljava kada želimo provjeriti da li postoji statistički signifikantna razlika između<br />
aritmetičkih sredina tri ili više nezavisnih grupa za koje se pretpostavlja da dolaze iz različitih<br />
populacija.<br />
ANOVA je logična ekstenzija nezavisnog t-testa i omogućava nam da testiramo nultu hipotezu<br />
da između aritmetičkih sredina grupa koje dolaze iz više različitih populacija nema razlike: µ1<br />
= µ2 = µ3 = ... = µn. Ukoliko nemamo dovoljno dokaza da odbacimo nultu hipotezu, onda ne<br />
možemo tvrditi da postoji razlika između grupa. Drugim riječima, smatra se da su grupe dio<br />
iste populacije.<br />
5.1.1. Zašto nam treba analiza varijanse?<br />
Postavlja se pitanje zbog čega nam treba novi test za situacije kada imamo 3 ili više grupa.<br />
Zašto jednostavno ne bi koristili nezavisni t-test nekoliko puta, na način da prvo poredimo grupe<br />
1 i 2, zatim grupe 2 i 3, i na kraju grupe 1 i 3?<br />
20
Sjetimo se da prije samog testiranja hipoteza postavljamo nivo rizika α koji smo spremni<br />
prihvatiti da napravimo grešku prvog tipa (odbacimo nultu hipotezu ako je ona zaista istinita).<br />
Ako radimo jedan t-test za koji smo odredili da je α = 0,05 u tom slučaju navedeni rizik iznosi<br />
5%. Međutim, šta se dešava ako za istu zavisnu varijablu radimo seriju t-testova? Tada dolazi<br />
do inflacije rizika i vjerovatnoća da počinimo grešku prvog tipa više neće biti 5% nego veća.<br />
Vjerovatnoća da napravimo bar jednu grešku prvog tipa u situaciji kada provodimo više testova<br />
na istim podacima naziva se tzv. "familywise" greškom (oznaka: αFW). Ukoliko su opservacije<br />
međusobno nezavisne i ako u svakom ponovljenom testu na istim podacima koristimo isti nivo<br />
statističke značajnosti, onda se αFW može izračunati kao:<br />
αFW = 1 − (1 − α) k<br />
gdje se k odnosi na broj ponovljenih testova.<br />
Na primjer, ako ćemo na istim podacima uraditi tri testa kako bi komparirali tri grupe uz α =<br />
0,05 onda familywise greška iznosi:<br />
αFW = 1 − (1 − 0,5) 3 = 1 − (0,95) 3 = 0,14<br />
Što znači da je vjerovatnoća da napravimo bar jednu grešku prvog tipa više nije 5% nego 14%.<br />
Upravo zbog toga što dolazi do inflacije greške prvog tipa nije primjereno koristiti t-test kada<br />
imamo više od dvije grupe.<br />
5.1.2. ANOVA bez State<br />
Tehnika izračunavanja statistike testa kod ANOVE donekle se razlikuje od onoga što smo imali<br />
do sada. Kao i kod t-testa, nezavisna varijabla ima ulogu kontrolisanog faktora i njeni nivoi se<br />
koriste da bi se definisale grupe između kojih se vrši usporedba. Međutim, kao što možemo<br />
vidjeti na slici 3, sama analiza se zasniva na razlaganju ukupne varijanse na sastavne<br />
komponente:<br />
a) varijansu između grupa objašnjenu modelom, odnosno uticajem kontrolisanog faktora<br />
(engl. between-group variance - SSB)<br />
b) neobjašnjenu varijansu unutar grupa koja nastaje pod uticajem nekontrolisanih faktora i<br />
slučajne greške (within-group variance - SSW).<br />
21
Slika 3 – Analiza varijanse<br />
Primjer 5.1<br />
Da bi ilustrovali čitav koncept zamislimo da su turisti ocjenjivali kvalitet hrane u tri različita<br />
hotela na istoj destinaciji. Na bazi slučajnog izbora anketirana su četiri posjetioca iz svakog<br />
hotela i njihove ocjene su predstavljene u tabeli 13. Da li je razlika između prosječnih ocjena<br />
statistički signifikantna?<br />
Tabela 13 – Ocjene kvaliteta hrane za tri različita hotela po završetku posjete<br />
hotel A hotel B hotel C<br />
6 8 1<br />
4 10 2<br />
3 4 1<br />
3 5 1<br />
x̄ 1 = 4 x̄ 2 = 6,75 x̄ 3 = 1,25 Opšti prosjek (x̿ G)<br />
SD 1 = 1,414 SD 2 = 2,754 SD 3 = 0,5 x̿ G = (x̄ 1 + x̄ 1 + x̄ 1)/3<br />
Varijansa 1 = SD 1<br />
2<br />
= 2 Varijansa 2 = SD 2<br />
2<br />
= 7,583 Varijansa3 = SD 3<br />
2<br />
= 0,25 x̿ G = 4<br />
Testiramo nultu hipotezu da ne postoji razlika između prosječne ocjene tri hotela:<br />
H0: µ1 − µ2 − µ3 = 0<br />
H1: µ1 − µ2 − µ3 ≠ 0<br />
Podaci iz tabele 13 su vizuelno predstavljeni na slici 4.<br />
22
Slika 4 – Analiza varijanse<br />
Na slici 4 brojevi 1 do 12 predstavljaju ispitanike. Opšti prosjek (engl. grand mean) je<br />
predstavljen horizontalnom isprekidanom linijom. Prosjeci svake od grupa su predstavljeni<br />
punom crvenom horizontalnom linijom. Vertikalna pozicija svakog ispitanika je detrminisana<br />
ocjenom koju je dao odgovarajućem hotelu. Varijansa unutar grupa predstavljena je punom<br />
plavom linijom, dok je razlika između prosjeka grupe i opšteg prosjeka predstavljena<br />
isprekidanom crvenom vertikalnom linijom.<br />
Prvo ćemo izračunati ukupnu varijansu (SST). Ona predstavlja ukupni varijabilitet, odnosno<br />
odstupanje pojedinih opservacija (ocjena) od opšteg prosjeka. Izračunava se tako što<br />
kvadriramo i saberemo odstupanje svake pojedinačne ocjene od opšteg prosjeka (x̿ G):<br />
SS ( x x ) 2 (6 4) 2 ... (1 4) 2 90<br />
T ij G<br />
Zatim ćemo izračunati varijansu između grupa (SSB) kojom se mjeri međusobna različitost<br />
grupa. Ova varijansa predstavlja dio ukupnog varijabiliteta objašnjenog nezavisnom<br />
varijablom. Često se naziva i varijansom objašnjenom modelom (SSM). Računa se tako da<br />
razliku između prosjeka svake grupe (x̄ j) i opšteg prosjeka (x̿ G) kvadriramo i pomnožimo sa<br />
brojem opservacija (n) unutar grupe:<br />
SS n ( x x ) 2 4 (4 4) 2 ... 4 (1,25 4) 2 60,5<br />
B j G<br />
Pojedinačna varijansa unutar grupe (SSgrupa) mjeri različitost unutar grupa i računa se tako<br />
što razlike između svake pojedine opservacije (ocjene) i prosjeka grupe kvadriramo i saberemo:<br />
2 2<br />
SS hotel 1<br />
(6 4) ... (3 4) 6<br />
2 2<br />
SS hotel<br />
SS hotel<br />
2<br />
(8 6,75) ... (5 6,75) 22,75<br />
2 2<br />
3<br />
(1 1,25) ... (1 1,25) 0,75<br />
23
Konačno, varijansa unutar grupa (SSW) predstavlja dio ukupne varijanse koji se ne može<br />
objasniti nezavisnom varijablom ili modelom. Izračunava se tako što saberemo prethodno<br />
izračunate varijanse unutar grupa:<br />
SS ( x x ) 6 22,75 0,75 29,5<br />
W ij j<br />
Ili tako što od ukupne varijanse (SST) oduzmemo varijansu između grupa (SSB):<br />
SSW SST SS<br />
B<br />
90 60,5 29,5<br />
Varijansa unutar grupa se naziva još i rezidulanom varijansom (SS R ili SS error ) jer se pretpostavlja da<br />
se javlja kao posljedica slučajne greške, odnosno varijacija svojstvenih samom uzorkovanju.<br />
Sve dobijene vrijednosti možemo sumarno predstaviti u tabeli 14.<br />
Tabela 14 – Sumarna tabela za prikaz rezultata analize varijanse<br />
Izvor<br />
varijanse<br />
Suma<br />
kvadrata<br />
broj<br />
stepena<br />
slobode*<br />
Između grupa SSB k − 1<br />
Unutar grupa SSW n − k<br />
Ukupno SST = SSB + SSW n − 1<br />
Procijenjena varijansa<br />
(srednje kvadratno<br />
odstupanje)<br />
SS<br />
B<br />
MSB =<br />
k 1<br />
SSW<br />
MSW =<br />
n k<br />
* gdje je k = broj grupa (kategorija nezavisne varijable) i n = broj opservacija (veličina uzorka)<br />
F odnos<br />
F =<br />
MS<br />
MS<br />
Sama statistika testa se izračunava kao količnik procijenjene varijanse između grupa (MSB –<br />
objašnjene varijanse) i procijenjene varijanse unutar grupa (MSW – neobjašnjene varijanse).<br />
Dobijeni rezultat slijedi F distribuciju sa (k -1, n - k) stepena slobode koja se koristi da bi se<br />
provjerilo da li postoji statistički signifikantna razlika između grupa.<br />
U konkretnom primjeru vezanom za ocjenjivanje kvaliteta hrane u hotelima, izračunate<br />
vrijednosti su predstavljene u tabeli 15.<br />
Tabela 15 – Statistika testa za primjer sa hotelima<br />
Izvor<br />
varijanse<br />
Suma<br />
kvadrata<br />
broj<br />
stepena<br />
slobode<br />
Procjenjena vrijansa<br />
(srednje kvadratno<br />
odstupanje)<br />
F odnos<br />
Između grupa SSB = 60,5 3 − 1 = 2 MSB = 30,25 9,22<br />
Unutar grupa SSW = 29,5 12 − 3 = 9 MSW = 3,28<br />
Ukupno SST = 90 12 − 1 = 11<br />
Ukoliko bi provjerili u statističkim tablicama vidjeli bi da je statistika testa F = 9,22 za dati broj<br />
stepena slobode signifikantna uz p < 0,05 na osnovu čega možemo odbaciti nultu hipotezu i<br />
zaključiti da se prosječne ocjene kvaliteta hrane u tri posmatrana hotela međusobno razlikuju.<br />
B<br />
W<br />
24
Ovaj jednostavni primjer smo koristili da ilustrujemo logiku koja stoji u pozadini analize<br />
varijanse i da pokažemo kako se ANOVA može izračunati ručno. Primjer je jednostavan jer<br />
smo imali mali broj opservacija i nismo obraćali mnogo pažnje na pretpostavke. U nastavku<br />
ćemo na drugom primjeru vidjeti kako analizu varijanse možemo uraditi pomoću State.<br />
5.1.3. ANOVA uz pomoć State<br />
Primjer 5.2<br />
Zamislimo da proizvođač keksa marke A želi ispitati kako pozicija proizvoda na polici (pozicija)<br />
utiče na ostvareni obim prodaje (prodaja). Sa menadžerom supermarketa dogovoreno je da se<br />
provede eksperiment koji uključuje stavljanje keksa marke A na tri različite pozicije: nivo<br />
koljena (70 cm), nivo ruke (120 cm) i nivo očiju (170 cm). Eksperiment je podrazumijevao da<br />
se pozicija proizvoda mijenja svakih 8 dana kako bi se kontrolisale oscilacije u prodaji<br />
svojstvene različitim danima u sedmici. Tokom cjelokupnog posmatranog perioda nije bilo<br />
promijene cijena konkurentskih proizvoda, posebnih promotivnih aktivnosti i sl. Prikupljeni<br />
podaci su spremljeni u datoteku keks.dta, deskriptivna statistika je dobijena uz pomoć<br />
odgovarajuće naredbe i predstavljena u tabeli 16.<br />
. tabstat prodaja, s(n mean, median, sd) by(pozicija) format(%9.3g)<br />
Tabela 16 – Prodaja pakovanja keksa marke A (u kom) tokom osam dana i u zavisnosti od<br />
pozicije na polici<br />
Summary for variables: prodaja<br />
by categories of: pozicija<br />
pozicija | N mean p50 sd<br />
---------+----------------------------------------<br />
koljena | 8 81 81 3.63<br />
ruka | 8 90.9 90.5 2.64<br />
oči | 8 84.6 85 4.6<br />
---------+----------------------------------------<br />
Total | 24 85.5 86 5.47<br />
--------------------------------------------------<br />
Iz tabele 9 vidimo da je najveća prosječna prodaja zabilježena u intervalu kada je proizvod na<br />
polici bio u visini ruke a najmanja u intervalu kada je proizvod bio postavljen u visini koljena.<br />
Testiramo nultu hipotezu da su uočene razlike statistički nesignifikantne i da su rezultat<br />
slučajnih varijacija, odnosno da je:<br />
H0: µ1 − µ2 − µ3 = 0<br />
H1: µ1 − µ2 − µ3 ≠ 0<br />
5.1.4. Provjera pretpostavki<br />
Jednofaktorska analiza varijanse zahtijeva ispunjenost opštih pretpostavki koje se odnose na<br />
parametarske statističke testove. Ako uzmemo da na bazi prethodnog iskustva menadžer zna da<br />
prodaja keksa marke A u populaciji slijedi normalnu distribuciji (što je potvrđeno<br />
nesignifikantnim rezultatom Shapiro-Wilk testa), ostaje nam da ispitamo pretpostavke o<br />
nepostojanju netipičnih vrijednosti i pretpostavku o homogenosti varijanse. Pretpostavku o<br />
25
netipičnim vrijednostima smo provjerili uz pomoć boxplota-a i na kojem nisu detektovane<br />
netipične opservacije. Test o homogenosti varijanse će biti provjeren tokom same analize.<br />
5.1.5. Izračunavanje statistike testa uz pomoć State<br />
Statistika za ANOVA test se računa uz pomoć naredbe:<br />
oneway zavisna_varijabla nezavisna_varijabla, sidak bonferroni scheffe<br />
gdje se opcije opcije bonferroni, scheffe i sidak, odnose na Post Hoc testove o čemu će biti riječi<br />
kasnije.<br />
Dakle, u našem primjeru konkretna naredba će biti:<br />
. oneway prodaja pozicija<br />
U tabeli 17 se nalaze rezultati testa.<br />
Tabela 17 – Rezultati ANOVA testa za primjer 5.2<br />
Analysis of Variance<br />
Source SS df MS F Prob > F<br />
------------------------------------------------------------------------<br />
Between groups 399.25 2 199.625 14.52 0.0001<br />
Within groups 288.75 21 13.75<br />
------------------------------------------------------------------------<br />
Total 688 23 29.9130435<br />
Bartlett's test for equal variances: chi2(2) = 1.9313 Prob>chi2 = 0.381<br />
Ispod ANOVA tabele nalazi se red sa rezultatima Bartletovog testa koji pokazuje da je<br />
ispunjena pretpostavka o homogenosti varijanse jer je test nesignifikantan, χ2 = 1,931 uz p =<br />
0,381. Ostatak dobijenog outputa sadrži identične elemente koji su predstavljeni u tabelama 7<br />
i 8 kada smo ANOVA test računali ručno. Na osnovu F statistike testa i pridružene p-vrijednosti<br />
zaključujemo da je analiza varijanse potvrdila da postoje značajne razlike između grupa (F =<br />
14,52, p < 0,001).<br />
5.1.6. Post Hoc testovi<br />
Ovdje je potrebno napomenuti da je ANOVA tzv. omnibus test jer pruža samo podatak o tome<br />
da li je eksperimentalna maninpulacija imala efekta, odnosno da li postoje statistički značajne<br />
razlike između grupa ili ne. U slučaju otkrivanja postojanja signifikantnog efekta ANOVA nam<br />
ne govori o tome koje se grupe međusobno razlikuju. U takvim slučajevima provode se tzv.<br />
Post Hoc testovi koji za cilj imaju da ispitaju sve kombinacije između različitih nivoa<br />
eksperimentalne varijable (u našem slučaju je to pozicija proizvoda na polici).<br />
U suštini Post Hoc testovi se oslanjaju na provođenje niza t-testova kako bi se utvrdilo između<br />
kojih grupa postoji statistički značajna razlika, s tim da se različitim metodama pokušava<br />
kontrolisati infalacija greški prvog tipa. Stata nudi sljedeće Post Hoc testove:<br />
26
Bonferronijev test se često upotrebljava jer je jednostavan za izračunati i fleksibilan u smislu<br />
da ne zahtijeva ispunjavanje dodatnih pretpostavki. S druge strane test je vrlo konzervativan,<br />
što znači da ima dobru kontrolu nad greškom I tipa ali i manju snagu da detektuje razlike između<br />
grupa kao statistički signikantne, čime se povećava rizik od greške II tipa.<br />
Scheffe test je isto vrlo popularan i fleksibilan. Posebno je koristan kada se prave kompleksne<br />
komparacije između više grupa istovremeno. Međutim, važi za jedan od najkonzervativinih<br />
testova sa vrlo visokim rzikom greške II tipa. Pogodan je za situacije kada su grupe nejednake<br />
veličine.<br />
Sidakov test se zasniva na jednostavnoj korekciji Bonferronijeve formule kojom se pokušava<br />
povećati snaga testa uz istovremeno zadržavanje fleksibilnosti.<br />
U nastavku je prikazan output za našu analizu gdje je odabran Bonferronijev post hoc test:<br />
. oneway prodaja pozicija, bonferroni<br />
Tabela 18 – Rezultati Bonferronijevog post-hoc testa za primjer 4.2<br />
Comparison of prodaja by pozicija<br />
(Bonferroni)<br />
Row Mean-|<br />
Col Mean | koljena ruka<br />
---------+----------------------<br />
ruka | 9.875<br />
| 0.000<br />
|<br />
oči | 3.625 -6.25<br />
| 0.192 0.009<br />
Output testa pokazuje da statistički signifikantna razlika postoji između pozicije keksa u visini<br />
ruke i visini koljena (p < 0,001), kao i između pozicije u visini očiju i visini ruke (p = 0,009).<br />
Međutim, signifikantna razlika nije detektovana između pozicija u visini očiju i visine ruke (p<br />
= 0,192).<br />
5.1.7. Kako napisati rezultat testa<br />
Jednofaktorska analiza varijanse (ANOVA) je potvrdila da se prosječan obim prodaje statistički<br />
signifikantno razlikuje u zavisnosti od pozicije proizvoda na polici, F(2, 21) = 14,52, p < 0,001.<br />
Bonferronijev post hoc test je pokazao da je prosječan obim prodaje proizvoda postavljenog u<br />
visini ruke (M = 90,9, SD = 2,64) statistički signifikantno veći u odnosu na obim prodaje<br />
proizvoda postavljenog u visini očiju (M = 84,6, SD = 4,60, p = 0,009) i visini koljena (M =<br />
81, SD = 3,63, p < 0,001). Statistički signifikantna razlika nije detektovana između pozicija u<br />
visini očiju i visini ruke (p = 0,192).<br />
5.1.8. Dodatni primjeri i zadaci<br />
Zadatak 5.1<br />
Oglašavačka agencija želi testirati tri različita dizajna billboard oglasa za novi smart phone<br />
(dizajn): svjedočanstvo poznate osobe (dizajn = 1), informativni oglas baziran na tehničkim<br />
27
specifikacijama (dizajn = 2) i emocionalni oglas sa apelom na ponos (dizajn = 3). Svaki od<br />
oglasa je prikazan zasebnoj grupi slučajno odabranih ispitanika koji su zamoljeni da ocijene<br />
privlačnost oglasa (atrakt) na skali od 1 do 10. Na skali ocjena 1 označava najnižu privlačnost<br />
dok ocjena 10 označava izrazito visoku privlačnost. Podaci su srpemljeni u datoteku<br />
billboard.dta.<br />
5.2. ANALIZA VARIJANSE SA PONOVLJENIM MJERENJIMA (RM ANOVA)<br />
Jednofaktorska analiza varijanse sa ponovljenim mjerenjima (engl. One-way ANOVA with<br />
repeated measures ili skraćeno RM ANOVA) se koristi za ispitivanje postojanja razlika između<br />
aritmetičkih sredina dobijenih u tri ili više ponovljenih mjerenja. Sama mjerenja obavljaju se:<br />
a) sukcesivno na istim subjektima ali u različitim uslovima kao što su vremenski periodi,<br />
geografske lokacije, ekperimentalne intervencije i sl. ili b) u situaciji kada je svaki ispitanik iz<br />
jedne grupe uparen sa drugim ispitanikom sličnih karakteristika u drugoj grupi (tzv. matched<br />
pairs design). RM ANOVA je omnibus test i govori da li postoji opšta razlika između grupa,<br />
ali ne i između kojih konkretno grupa se ta razlika javlja.<br />
RM ANOVA se zasniva na razlaganju ukupne varijanse (engl. total variance – SST) na sljedeće<br />
komponente:<br />
1. varijansu između subjekata (engl. between-subject variance – SSB)<br />
2. varijansu unutar subjekata (engl. within-subject variance – SSW) koja se sastoji od:<br />
a) varijanse objašnjene modelom, odnosno uticajem kontrolisanog faktora (engl.<br />
between treatment variance – SSM)<br />
b) neobjašnjene varijanse koja nastaje pod uticajem nekontrolisanih faktora (engl.<br />
error variance – SSR).<br />
Obzirom da se RM ANOVA test primjenjuje u situacijama kada se na istim subjektima<br />
obavljaju višestruka mjerenja, nije nužno da su opservacije nezavisne jedne od drugih.<br />
Međutim, RM ANOVA zahtjeva ispunjavanje dodatne pretpostavke o sfernosti (engl.<br />
sphericity). Ova pretpostavka se odnosi na to da varijansa razlika između svih kombinacija<br />
povezanih grupa mora biti jednaka. Narušavanje sfernosti ima za posljedicu dobijanje<br />
precijenjene F statistike čime se povećava rizik da smo napravili grešku prvog tipa (tj. da smo<br />
detektovali signifikantan rezultat iako on u stvarnosti ne postoji). Uobičajeno se za testiranje<br />
ove pretpostavke koristi Mauchleyev test koji nažalost nije implementiran u Statu.<br />
Primjer 5.3<br />
Marketing agencija želi testirati tri različita dizajna bilbord oglasa za novi smart phone:<br />
svjedočanstvo poznate osobe, informativni oglas baziran na tehničkim specifikacijama i<br />
emocionalni oglas sa apelom na ponos. Grupi od 30 slučano odabranih ispitanika je prvo<br />
prikazan oglas sa svjedočanstvom poznate osobe (oglas1) i zamoljeni su da ocijene privlačnost<br />
oglasa na skali od 1 do 10, gdje ocjena 1 označava najnižu privlačnost dok ocjena 10 označava<br />
najvišu privlačnost. Nakon što su ocijenili prvi oglas ispitanici su zamoljeni da na isti način<br />
ocijene drugi (oglas2), a zatim i treći oglas (oglas3). Podaci su spremljeni u datoteku<br />
billboard_rm_wide.dta i prestavljeni u tabeli 19.<br />
28
Tabela 19 – Podaci organizovani u tzv. širokom formatu<br />
. list, separator (10)<br />
+-------------------------------+<br />
| id oglas1 oglas2 oglas3 |<br />
|-------------------------------|<br />
1. | 1 7 3 7 |<br />
2. | 2 8 3 7 |<br />
3. | 3 8 1 5 |<br />
4. | 4 5 3 7 |<br />
5. | 5 5 3 3 |<br />
6. | 6 6 3 4 |<br />
7. | 7 7 2 6 |<br />
8. | 8 5 3 6 |<br />
9. | 9 7 2 8 |<br />
10. | 10 8 4 5 |<br />
+-------------------------------+<br />
Ovakav način organizacije podataka gdje se svaki ispitanik (id) pojavljuje jednom i gdje su<br />
vrijednosti mjerenja spremljene kao zasebne varijable (oglas1, oglas2 i oglas3) naziva se tzv.<br />
širokim formatom podataka (engl. wide data format).<br />
Deskriptivna statistika je prikazana u tabeli 20.<br />
Tabela 20 – Deskriptivna statistika za primjer sa bilbordima<br />
. tabstat oglas1 oglas2 oglas3, s(mean median sd) format(%9.2f)<br />
stats | oglas1 oglas2 oglas3<br />
---------+------------------------------<br />
mean | 6.60 2.70 5.80<br />
p50 | 7.00 3.00 6.00<br />
sd | 1.26 0.82 1.55<br />
----------------------------------------<br />
Vidimo da je najbolje ocijenjen prvi a najlošije drugi oglas. Testiramo hipotezu da su uočene<br />
razlike rezultat slučajnih varijacija, odnosno da je:<br />
H0: µD1 − µD2 − µD3 = 0<br />
H1: µD1 − µD2 − µD3 ≠ 0<br />
5.2.1. RM ANOVA bez State<br />
Prvo smo izračunali opšti prosijek koji iznosi:<br />
x̿G = (6,6 + 2,7 + 5,8)/3 = 5,03.<br />
Ukupnu varijansu (SST) izračunavamo na isti način kao kod jednofaktorske analize varijanse,<br />
tako što kvadriramo i saberemo odstupanje svake pojedinačne ocjene od opšteg prosjeka (x̿G):<br />
SS ( x x ) 2 (7 4,2) 2 ... (5 4) 2 127<br />
T i G<br />
29
Varijansa unutar subjekata (SSW) predstavlja dio ukupne varijanse koji je svojstven samim<br />
ispitanicima. Ovo je i ključna razlika u odnosu na jednofaktorski ANOVA test. Naime kod<br />
ponovljenih mjerenja ne baratamo više varijansom unutar grupa već varijansom unutar<br />
subjekata, obzirom da kategorije nezavisne varijable predstavljaju opetovana mjerenja vezana<br />
za istog ispitanika. Ova varijansa se izračunava tako što razlike između ponovljenih ocjena<br />
datog subjekta i njegovog prosjeka kvadriramo i saberemo.<br />
Na primjer, prosječna ocjena prvog ispitanika iz našeg uzorka iznosi:<br />
x̄ subjekt1 = (oglas1 + oglas2 + oglas3)/3 = (7 + 3 + 7)/3 = 5,67<br />
Varijansa unutar prvog ispitanika će biti:<br />
SSsubjekt1 = (oglas1 − 5,67) 2 + (oglas2 - 5,67) 2 + (oglas3 − 5,67) 2<br />
= (7 − 5,67) 2 + (3 − 5,67) 2 + (7 − 5,67) 2<br />
= 10,67<br />
Na isti način se računa varijansa unutar ostalih ispitanika.<br />
Nakon što sve pojedinačne varijanse saberemo dobićemo da je:<br />
SSW = SSsubjekt1 + SSsubjekt2 + ... + SSsubjekt10 = 112,67<br />
Varijansa objašnjena modelom (SSM) predstavlja dio varijanse koji je objašnjen razlikama<br />
između nivoa nezavisne varijable (različitim dizajnima oglasa). Računa se slično kao i kod<br />
jednofaktorske analize varijanse, na način da razlike između prosjeka u svakom mjerenju (x̄ j) i<br />
opšteg prosijeka (x̿G) kvadriramo i pomnožimo sa brojem opservacija (n) unutar svakog<br />
mjerenja:<br />
SS n ( x x ) 2 10 (6,6 5) 2 ... 10 (5,8 5) 2 84,9<br />
M j G<br />
Varijansa koja nije objašnjena modelom (SSR) odnosi se na varijabilitet unutar subjekata<br />
koji je izazvan eksternim faktorima a ne samim eksperimentom. Do sada smo izračunali da<br />
ukupni varijabilitet unutar subjekata iznosi 112,7 i da se 84,9 jedinica tog varibaliteta može<br />
objasniti eksperimentom. Najlakši način da dobijemo rezidualni varijabilitet koji nije objašnjen<br />
eksperimentom je da izračunamo razliku između ta dva varijabliteta:<br />
SSR = SSW − SSM = 112,7 − 84,9 = 27,8<br />
Ako od ukupne varijanse oduzmemo varijansu unutar subjekata, ono što preostane je varijansa<br />
vezana za individualne razlike između subjekata (SSB):<br />
SSB = SST − SSW = 127 − 112,67 = 14,33<br />
U kontekstu našeg primjera ovo bi se odnosilo na činjenicu da neki ispitanici generalno imaju<br />
tendenciju da daju niže ili više ocjene. Na primjer, ako pogledamo output 1 možemo uočiti da<br />
je ispitanik pod rednim brojem 5 sva tri oglasa ocijenio sa nešto nižim ocjenama pa će i prosijek<br />
njegovih ocjena biti niži u odnosu na ostale ispitanike. U skladu s tim, 14,33 predstavlja iznos<br />
ukupne varijanse koji možemo objasniti ovakvim individualnim razlikama između ispitanika.<br />
30
Sve dobijene vrijednosti možemo sumarno predstavitina način prikazan u tabeli 21.<br />
Tabela 21 – Sumarna tabela za prikaz rezultata analize varijanse sa ponovljenim mjerenjima<br />
Izvor<br />
varijanse<br />
Između<br />
subjekata<br />
Eksperimentalna<br />
varijabla<br />
Suma<br />
kvadrata<br />
broj<br />
stepena<br />
slobode*<br />
SS B n − 1 MS B =<br />
SS M k − 1 MS M =<br />
Procijenjena varijansa<br />
(srednje kvadratno<br />
odstupanje)<br />
SS B<br />
n 1<br />
SS M<br />
k 1<br />
SS<br />
R<br />
Rezidual SS R (k − 1)(n − 1) MS R =<br />
( k 1) ( n 1)<br />
Ukupno SS T = SS B + SS M + SS R n − 1<br />
* gdje je k = broj kategorija nezavisne varijable i n = broj subjekata (veličina uzorka)<br />
F odnos<br />
MS<br />
F =<br />
MS<br />
MS<br />
F =<br />
MS<br />
B<br />
R<br />
M<br />
R<br />
Sama statistika testa se izračunava kao količnik procijenjene varijanse između grupa (MSB –<br />
objašnjena varijansa) i procijenjene varijanse unutar grupa (MSW – neobjašnjena varijansa).<br />
Dobijeni rezultat slijedi F distribuciju sa (k -1, n - k) stepena slobode koja se koristi da bi se<br />
provjerilo da li postoji statistički signifikantna razlika između grupa.<br />
U konkretnom primjeru vezanom za ocjenjivanje dizajna oglasa, izračunate vrijednosti su<br />
predstavljene u tabeli 22.<br />
Tabela 22 – Statistika testa za primjer sa bilbordima<br />
Izvor varijanse Suma kvadrata<br />
broj stepena<br />
slobode<br />
Procjenjena vrijansa<br />
(srednje kvadratno<br />
odstupanje)<br />
F odnos<br />
Između grupa SS B = 14,3 10 − 1 = 9 MS B = 1,59 F = 1,03<br />
eksperiment SS M = 84,9 3 − 1 = 2 MS M = 42,45 F = 27,5<br />
rezidual SS R = 27,8 9 × 2 = 18 MS R = 1,54<br />
Ukupno SS T = 127 30 − 1 = 29<br />
Ukoliko bi provjerili u statističkim tablicama vidjeli bi da je statistika testa F = 27,5 za dati broj<br />
stepena slobode signifikantna uz p < 0,05 na osnovu čega možemo odbaciti nultu hipotezu i<br />
zaključiti da se prosječne ocjene kvaliteta hrane u tri posmatrana hotela međusobno razlikuju.<br />
5.2.2. RM ANOVA uz pomoć State<br />
Da bi unutar State mogli provesti analizu varijanse sa ponovljenim mjerenjima podaci moraju<br />
biti organizovani na poseban način koji je prikazan u tabeli 23. Ovakav način organizacije<br />
podataka gdje se ispitanik pojavljuje više puta i gdje su vrijednosti mjerenja spremljene unutar<br />
jedne varijable (oglas) naziva se tzv. dugačkim formatom podataka (engl. long data format).<br />
U slučaju da imamo podatke u širokom formatu a želimo ih prebaciti u dugački format,<br />
iskoristićemo naredbu reshape:<br />
31
. reshape long oglas, i(id) j(dizajn)<br />
Naziv varijable u koju će biti pohranjene vrijednosti ponovljenih mjerenja u dugačkom formatu<br />
(u gornjoj naredbi to je varijabla oglas) mora biti identičan nazivima varijabli u širokom formatu<br />
samo bez numeričke oznake (u našem primjeru to su varijable oglas1-3). Opcija<br />
i(naziv_varijable) služi da se označi varijabla kojom se identifikuju ispitanici. U konkretnom<br />
slučaju to je varijabla id. Opcija j(naziv_varijable) kreira novu varijablu kojom se identifikuju<br />
ponovljena mjerenja ili vremenski periodi kada su ta mjerenja obavljena. U našem primjeru<br />
novokreirana varijabla se naziva dizajn i odnosi se na sukcesivno prikazivanje tri različita<br />
dizajna oglasa.<br />
Tabela 23 – Podaci organizovani u tzv. dugačkom formatu<br />
. list, separator(3)<br />
+---------------------+<br />
| id dizajn oglas |<br />
|---------------------|<br />
1. | 1 1 7 |<br />
2. | 1 2 3 |<br />
3. | 1 3 7 |<br />
|---------------------|<br />
4. | 2 1 8 |<br />
5. | 2 2 3 |<br />
6. | 2 3 7 |<br />
|---------------------|<br />
7. | 3 1 8 |<br />
8. | 3 2 1 |<br />
9. | 3 3 5 |<br />
|---------------------|<br />
10. | 4 1 5 |<br />
11. | 4 2 3 |<br />
12. | 4 3 7 |<br />
|---------------------|<br />
13. | 5 1 5 |<br />
14. | 5 2 3 |<br />
15. | 5 3 3 |<br />
|---------------------|<br />
16. | 6 1 6 |<br />
17. | 6 2 3 |<br />
18. | 6 3 4 |<br />
|---------------------|<br />
19. | 7 1 7 |<br />
20. | 7 2 2 |<br />
21. | 7 3 6 |<br />
|---------------------|<br />
22. | 8 1 5 |<br />
23. | 8 2 3 |<br />
24. | 8 3 6 |<br />
|---------------------|<br />
25. | 9 1 7 |<br />
26. | 9 2 2 |<br />
27. | 9 3 8 |<br />
|---------------------|<br />
28. | 10 1 8 |<br />
29. | 10 2 4 |<br />
30. | 10 3 5 |<br />
+---------------------+<br />
32
Nakon što smo podatke pripremili u odgovarajući format, sam test ima sljedeću sintaksu:<br />
. anova oglas id dizajn, repeated(dizajn)<br />
Dobijeni rezultat je organizovan u dva odvojena outputa. Prvi dio odnosi se na rezultat testa i<br />
predstavljen je u tabeli 24, dok se drugi odnosi na korekciju statistike testa ukoliko pretpostavka<br />
o sfernosti nije ispunjena i predstavljen je u tabeli 25.<br />
Tabela 24 – Rezultat RM ANOVA testa koji tumačimo ukoliko je pretpostavka o sfernosti<br />
ispunjena<br />
Number of obs = 30 R-squared = 0.7810<br />
Root MSE = 1.24276 Adj R-squared = 0.6472<br />
Source | Partial SS df MS F Prob > F<br />
-----------+----------------------------------------------------<br />
Model | 99.1666667 11 9.01515152 5.84 0.0005<br />
|<br />
id | 14.3 9 1.58888889 1.03 0.4550<br />
dizajn | 84.8666667 2 42.4333333 27.47 0.0000<br />
|<br />
Residual | 27.8 18 1.54444444<br />
-----------+----------------------------------------------------<br />
Total | 126.966667 29 4.37816092<br />
Tabela 24 prikazuje rezultat za situacije kada je pretpostavka o sfernosti ispunjena. Ukupna<br />
varijansa je razložena na iste komponente do kojih smo došli kada smo računali test ručno.<br />
Varijansa u redu označenim sa "id" odnosi se na iznos ukupne varijanse objašnjen razlikama<br />
između samih subjekata (SSB), "dizajn" se odnosi na iznos ukupne varijanse objašnjene<br />
modelom, odnosno faktorom "dizajn oglasa" (SSM) i "Residual" se odnosi na neobjašnjenu<br />
varijansu (SSR). Kada saberemo ove tri komponete dobijamo iznos ukupne varijanse. Stata daje<br />
još jedan red "Model" koji odnosi na ukupnu objašnjenu varijansu koju dobijamo ako saberemo<br />
komponete SSM i SSB. Rezultat testa je signifikantan što možemo vidjeti na osnovu vrijednosti<br />
testa koji se nalazi na presjeku reda "dizajn" i kolone "Prob > F" koji iznosi 0,0000 što je manje<br />
od p < 0,001.<br />
Tabela 25 – Output RM testa koji tumačimo ukoliko pretpostavka o sfernosti nije ispunjena<br />
Between-subjects error term: id<br />
Levels: 10<br />
Lowest b.s.e. variable: id<br />
Repeated variable: dizajn<br />
(9 df)<br />
Huynh-Feldt epsilon = 1.2583<br />
*Huynh-Feldt epsilon reset to 1.0000<br />
Greenhouse-Geisser epsilon = 0.9847<br />
Box's conservative epsilon = 0.5000<br />
------------ Prob > F ------------<br />
Source | df F Regular H-F G-G Box<br />
-----------+----------------------------------------------------<br />
dizajn | 2 27.47 0.0000 0.0000 0.0000 0.0005<br />
Residual | 18<br />
----------------------------------------------------------------<br />
33
Unutar tabele 25 nalaze se korekcioni faktori koje možemo upotrijebiti ukoliko je pretpostavka<br />
o sfernosti narušena kako bi dobili validan rezultat testa. Korekcioni faktori se upotrebljavaju<br />
kako bi se korigovao broj stepena slobode koji se koristi za izračunavanje F statistike. U<br />
gornjem desnom dijelu tabele navedeni su faktori korekcije izračunati prema tri različite<br />
metode, dok se u donjem dijelu tabele nalaze korigovane vrijednosti F statistike koje dobijamo<br />
nakon primjene korekcionih faktora. Od navedenih korekcionih faktora najkonzervativniji je<br />
Boxov epsilon i ukoliko je "Prob > F" za taj korekcioni faktor signifikantan nema potrebe da<br />
razmatramo ostale korekcione faktore.<br />
U konkretnom primjeru vidimo da je rezultat testa i nakon primjene Boxovog korekcionog<br />
faktora signifikantan. Ovo se poklapa sa rezultatom testa kojeg smo dobili unutar outputa 4, pa<br />
na osnovu F statistike testa i pridružene p-vrijednosti zaključujemo da je analiza varijanse<br />
potvrdila da postoje značajne razlike između grupa (F = 27,47, p < 0,001).<br />
5.2.3. Kako napisati rezultat testa<br />
Rezultati jednofaktorskog ANOVA testa sa ponovljenim mjerenjima provedenog na uzorku od<br />
10 slučajno odabranih ispitanika pokazuju da postoji statistički signifikantna razlika između<br />
prosječne ocjene privlačnosti billboard-a zavisno od vrste dizajna samog oglasa, F(2, 18), p <<br />
0,001.<br />
34
UNIVERZITET U SARAJEVU<br />
EKONOMSKI FAKULTET U SARAJEVU<br />
Neparametarski testovi za testiranje razlika<br />
između grupa 1<br />
Autor:<br />
prof. dr Emir Agić<br />
Sarajevo, 04. april 2017. godine<br />
1<br />
NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />
njegovih dijelova bez prethodnog pisanog pristanka autora.<br />
1
Sadržaj<br />
I Neparametarski testovi za testiranje razlika ................................................................. 4<br />
1. Uvod ................................................................................................................................ 4<br />
2. Pretpostavke za primjenu neparametarskih testova ................................................. 4<br />
3. Neparametarski testovi za jednu grupu ...................................................................... 5<br />
3.1. Binomni test ............................................................................................................. 5<br />
3.1.1. Izračunavanje statistike testa pomoću formule ................................................. 5<br />
3.1.2. Izračunavanje statistike testa pomoću State ..................................................... 6<br />
3.1.3. Kako napisati rezultat testa ............................................................................... 7<br />
4. Hi-kvadrat test proporcije ............................................................................................ 7<br />
4.1.1. Izračunavanje statistike testa pomoću formule ................................................. 8<br />
4.1.2. Izračunavanje statistike testa pomoću State ..................................................... 8<br />
4.1.3. Kako napisati rezultat testa ............................................................................. 10<br />
5. Neparametarski testovi za dvije grupe ...................................................................... 10<br />
5.1. Hi-kvadrat test nezavisnosti ................................................................................... 10<br />
5.1.1. Izračunavanje statistike testa pomoću formule ............................................... 11<br />
5.1.2. Izračunavanje statistike testa pomoću State ................................................... 12<br />
5.1.3. Kako napisati rezultat testa ............................................................................. 13<br />
5.2. Mann-Whitney U test ............................................................................................. 13<br />
5.2.1. Izračunavanje statistike testa pomoću formule kada je n < 20 ....................... 14<br />
5.2.2. Izračunavanje statistike testa pomoću formule kada je n > 20 ....................... 14<br />
5.2.3. Izračunavanje statistike testa pomoću State ................................................... 15<br />
5.2.4. Kako napisati rezultat testa ............................................................................. 16<br />
5.2.5. Dodatni primjeri i zadaci ................................................................................ 16<br />
5.3. McNemar test ......................................................................................................... 16<br />
5.3.1. Izračunavanje statistike testa pomoću formule ............................................... 17<br />
5.3.2. Izračunavanje statistike testa pomoću State ................................................... 17<br />
5.3.3. Kako napisati rezultat testa ............................................................................. 18<br />
5.4. Wilcoxonov test rangiranih predznaka .................................................................. 18<br />
5.4.1. Izračunavanje statistike testa pomoću State ................................................... 19<br />
5.4.2. Kako napisati rezultat testa ............................................................................. 20<br />
6. Neparametarski testovi za tri ili više grupa .............................................................. 20<br />
6.1. Kruskal-Wallis test ................................................................................................. 20<br />
6.1.1. Izračunavanje statistike testa pomoću State ................................................... 21<br />
6.1.2. Dunnov post-hoc test ...................................................................................... 22<br />
6.1.3. Kako napisati rezultat testa ............................................................................. 22<br />
6.2. Cochranov Q test .................................................................................................... 22<br />
6.2.1. Izračunavanje statistike testa pomoću State ................................................... 23<br />
6.2.2. Post-hoc testovi............................................................................................... 24<br />
6.2.3. Kako napisati rezultat testa ............................................................................. 24<br />
2
6.3. Friedman test .......................................................................................................... 24<br />
6.3.1. Izračunavanje statistike testa pomoću State ................................................... 25<br />
6.3.2. Post-hoc testovi............................................................................................... 26<br />
6.3.3. Kako napisati rezultat testa ............................................................................. 26<br />
3
I<br />
Neparametarski testovi za testiranje razlika<br />
1. UVOD<br />
Osnovna karakteristika neparametarskih testova je da oni ne zahtevaju ispunjenost pretpostavki<br />
vezanih za homogenost varijanse, normalnost ili poznavanje oblika distribucije unutar<br />
populacije. Obzirom na to neparametarski testovi se često zovu i testovima bez raspodjele (engl.<br />
distribution-free tests). Selekcija odgovarajućeg neparametarskog testa zavisi od broja grupa<br />
između kojih se vrši testiranje razlika kao i od toga da li je riječ o međusobno nezavisnim ili<br />
zavisnim grupama, što je obrađeno u poglavlju „Testiranje hipoteza“ (vidjeti tabelu „Kriteriji<br />
za odabir testa“).<br />
2. PRETPOSTAVKE ZA PRIMJENU NEPARAMETARSKIH TESTOVA<br />
U tabeli 1 je data usporedba osnovnih pretpostavki koje je potrebno ispuniti da bi zaključci do<br />
kojih dođemo na bazi testova signifikantnosti bili validni.<br />
Tabela 1 – Pretpostavke koje moraju biti ispunjene da bi se primijenio odgovarajući test<br />
Tip zavisne varijable Nezavisnost Slučajni uzorak<br />
Binomni test dihotomna - da<br />
Hi-kvadrat propor. dihotomna/nominalna - da<br />
Hi-kvadrat test nez. nominalna/ordinalna da da<br />
Mann-Whitney U ordinalna/kontinuirana da da<br />
McNemar test dihotomna ne da<br />
Wilcoxon test ordinalna/kontinuirana ne da<br />
Kruskal-Wallis ordinalna/kontinuirana da da<br />
Cochran Q dihotomna ne da<br />
Friedman ordinalna/kontinuirana ne da<br />
Od svih ranije pomenutih pretpostavki vezanih za parametarske testove, jedino pretpostavka o<br />
tome da su ispitanici izabrani na bazi slučajnog uzorka jednako važi za neparametarske testove.<br />
Ukoliko je ova pretpostavka narušena, postoji mogućnost da će dobijeni rezultati testiranja biti<br />
pristrasni i da doneseni zaključci neće biti validni. Također, neki testovi zahtjevaju ispunjenje<br />
pretpostavke o nezavisnosti opservacija.<br />
Obzirom da neparametarski testovi postavljaju manje zahtjeva u pogledu pretpostavki,<br />
postavlja se pitanje zašto ih uvijek ne koristimo, pa čak i onda kada imamo metrijske podatke?<br />
Prvi bitan nedostatak neparametarskih testova je u tome što oni imaju manju snagu da detektuju<br />
signifikantne razlike između grupa ukoliko one zaista postoje. Samim tim češće će se desiti da<br />
napravimo grešku drugog tipa i ne odbacimo nultu hipotezu kada je ona pogrešna. Drugo,<br />
neparametarski testovi primjenjeni na metrijske podatke često zahtjevaju da modifikujemo<br />
hipoteze jer se pri testiranju tvrdnji o prosjeku ne oslanjaju na aritmetičku sredinu već na<br />
medijanu i rangove. Samim tim neparametarski testovi ne daju odgovore na ista pitanja kao<br />
parametarski testovi.<br />
4
Zbog svega navedenog, uvijek je bolje primijeniti parametarski u odnosu na naparametarski<br />
statistički test ako je zavisna varijabla metrijskog tipa, imamo dovoljno velik uzorak i smatramo<br />
da je aritmetička sredina zadovoljavajući pokazatelj centralne tendencije.<br />
3. NEPARAMETARSKI TESTOVI ZA JEDNU GRUPU<br />
3.1. BINOMNI TEST<br />
Binomni test se koristi za testiranje razlike između proporcije jedne kategorije dihotomne<br />
varijable u uzorku i pretpostavljene ili prethodno poznate proporcije drugog uzorka ili<br />
populacije (π). Posebno je pogodan u slučaju kada raspolažemo sa uzorcima male veličine.<br />
Statistika testa se izračunava korištenjem formule za binomnu distribuciju kako bi izračunali<br />
vjerovatnoću dobijanja proporcije u uzroku. Zatim se testira nulta hipoteza da se dobijena<br />
proporcija ne razlikuje od očekivane proporcije.<br />
Primjer 3.1<br />
Istraživanje preferencija prema mineralnim vodama obavljeno je na prigodnom uzoraku kojeg<br />
čini 199 ispitanika iz BiH. Pretpostavimo da je u sličnom istraživanju u Hrvatskoj u uzorku bilo<br />
60% žena. Da li se postotak žena iz BiH uzorka (mv.dta) statistički značajno razlikuje u odnosu<br />
na Hrvatski uzorak?<br />
Pogledajmo prvo proporciju žena u uzorku iz BiH:<br />
. tab spol, missing<br />
Tabela 1 – Proporcija ispitanika prema spolu<br />
Spol | Freq. Percent Cum.<br />
------------+-----------------------------------<br />
Muški | 62 31.16 31.16<br />
Ženski | 134 67.34 98.49<br />
. | 3 1.51 100.00<br />
------------+-----------------------------------<br />
Total | 199 100.00<br />
Vidimo da je u BiH uzorku procenat žena veći (67,34 %) u odnosu na očekivanih 60%. Kako<br />
bi utvrdili da li je ova razlika statistički značajna provešćemo binomni test.<br />
H0: πženski ≤ 0,60<br />
H1: πženski > 0,60<br />
3.1.1. Izračunavanje statistike testa pomoću formule<br />
Statistiku testa možemo izračunamo ručno koristeći isti postupak koji smo opisali kada smo se<br />
bavili sa vjerovatnoćom odabira pretplatnika kablovske televizije u uzorak (pogledati raniji<br />
primjer vezan za normalnu aproksimaciju binomne distribucije u poglavlju Osnovi<br />
inferencijalne statistike).<br />
5
3.1.2. Izračunavanje statistike testa pomoću State<br />
Postoje dva načina da izračunamo statistiku testa pomoću State.<br />
Prvo, možemo se poslužiti ranijom formulom za binomnu distribuciju (za više detalja pogledati<br />
poglavlje „Osnovi inferencijalne statistike“). Broj žena (x) u uzorku slijedi binomnu distribuciju<br />
sa n = 196 (veličina uzorka umanjena za tri ispitanika koja nisu navela spol) i p = 0,60<br />
(vjerovatnoća odabira žene na bazi podataka iz Hrvatskog uzorka). Koristeći se ranijom<br />
naredbom, možemo dobiti vjerovatnoću da u uzorak uđe 134 ili više žena ako je p = 0,60:<br />
. display binomialtail(196, 134, 0.60)<br />
.00951517<br />
Dakle, vjerovatnoća je P[x ≥ 134] = 0,0095 što je manje od potrebnih p < 0,05, na osnovu čega<br />
možemo odbaciti nultu hipotezu da je razlika u proporcijama rezultat slučajnih fluktuacija<br />
svojstvenih uzorkovanju.<br />
Drugi način je da unutar State iskoristimo naredbu za binomni test. U tom slučaju, varijabla od<br />
interesa mora biti spremljena u formi 0/1, a test se uvijek odnosi na proporciju za kategoriju sa<br />
oznakom 1. Provjerimo kako je kodirana varijabla spol unutar skupa sa podacima:<br />
. codebook spol<br />
type: numeric (byte)<br />
label: Spol<br />
range: [1,2] units: 1<br />
unique values: 2 missing .: 3/199<br />
tabulation: Freq. Numeric Label<br />
62 1 Muški<br />
134 2 Ženski<br />
3 .<br />
Uočavamo da je varijabla spol kodirana tako da se oznaka 1 odnosi na muškarce, dok se 2<br />
odnosi na žene. Varijablu je dakle potrebno prvo rekodirati na sljedeći način:<br />
. recode spol (1=0) (2=1)<br />
(spol: 196 changes made)<br />
Zatim smo dodijelili nove opise kategorijama unutar varijable spol:<br />
. label define Spol 0 "Muški" 1 "Ženski", replace<br />
Sam test smo uradili koristeći naredbu:<br />
. bitest spol=.60<br />
gdje je .60 pretpostavljna proporcija u odnosu na koju testiramo opserviranu proporciju za<br />
kategoriju sa oznakom 1 (žene) unutar varijable spol.<br />
Rezultat testa je prikazan u tabeli 2.<br />
6
Tabela 2 – Output binomnog testa za primjer 3.1<br />
Variable | N Observed k Expected k Assumed p Observed p<br />
-------------+------------------------------------------------------------<br />
spol | 196 134 117.6 0.60000 0.68367<br />
Pr(k >= 134)<br />
= 0.009515 (one-sided test)<br />
Pr(k = 134). Nivo statističke značajnosti za ovaj primjer iznosi p = 0,0095 što je<br />
manje od uobičajenog kriterija p < 0,05, pa možemo odbaciti nultu hipotezu. Drugim riječima,<br />
proporcija žena u BiH uzorku se značajno razlikuje od proporcije žena u Hrvatskom uzorku.<br />
3.1.3. Kako napisati rezultat testa<br />
Tokom istraživanja utvrđeno je da je proporcija žena u BiH uzorku (67,3%) veća od one u<br />
Hrvatskom uzorku (60,0%). Jednosmjerni binomni test je pokazao da je ova razlika statistički<br />
signifikantna sa p < 0,01.<br />
4. HI-KVADRAT TEST PROPORCIJE<br />
Hi-kvadrat test (χ 2 ) proporcije (engl. Chi-square test) se koristi kada želimo testirati razlike<br />
između proporcija kategorija u uzorku i pretpostavljenih ili prethodno poznatih proporcija<br />
drugog uzorka ili populacije. Za razliku od binomnog testa kojeg možemo korisiti samo sa<br />
dihotomnim varijablama (dvije kategorije), χ 2 test možemo koristiti i kada raspolažemo sa<br />
nominalnim varijablama (dvije ili više više kategorija). Pored uobičajenih pretpostavki<br />
neparametarskih testova (nezavisnost opservacija i slučajni uzorak), χ 2 test proporcije zahtjeva<br />
da u svakoj kategoriji nominalne varijable imamo bar 5 opservacija.<br />
χ 2 test proporcije se često označava i kao test kvaliteta podudaranja (engl. goodnessof-fit<br />
test), obzirom da se pomoću njega testira podudaranje opserviranih i teoretski pretpostavljenih<br />
vrijednosti. Drugim riječima, testira se u kojoj mjeri opservirana distribucija prati<br />
pretpostavljenu distribuciju populacije. Statistika testa sa (k − 1) stepena slobode se izračunava<br />
prema formuli:<br />
2 ( Oi<br />
E )<br />
<br />
E<br />
i<br />
2<br />
i<br />
gdje se k unutar stepena slobode odnosi na broj kategorija varijable od interesa, O označava<br />
opservirane frekvencije, a E očekivane frekvencije.<br />
7
Primjer 4.1<br />
U istraživanju koje se ticalo posjeta novootvorenom butiku utvrđeno je da prema starosnoj<br />
strukturi imamo 33 % ispitanika u dobi 18-30 godina, 29% ispitanika u dobi 31-45 godina i 39<br />
% ispitanika u dobi 46-60 godina, što je predstavljeno na outputu 1. Da li možemo reći da su<br />
ove tri starosne grupe ravnomjerno zastupljene u uzorku? Podaci su spremljeni unutar varijable<br />
dob u datoteci butik.dta, a opservirane frekvencije su prikazane u tabeli 3.<br />
. tab dob<br />
Tabela 3 – Proporcija ispitanika prema starosnoj dobi<br />
dob | Freq. Percent Cum.<br />
------------+-----------------------------------<br />
18-30 god. | 7 33.33 33.33<br />
31-45 god. | 6 28.57 61.90<br />
46-60 god. | 8 38.10 100.00<br />
------------+-----------------------------------<br />
Total | 21 100.00<br />
Ako pogledamo opservirane vrijednosti jasno je da one međusobno nisu identične. Međutim,<br />
kao i uvijek kada je riječ o uzorcima, ono što nas interesuje jeste da li su te opservirane razlike<br />
posljedica varijacije svojstvene uzorkovanju ili predstavljaju stvarni efekat. Dakle testiramo<br />
hipotezu:<br />
H0: π1 = π2 = π3<br />
H1: π1 ≠ π2 ≠ π3<br />
4.1.1. Izračunavanje statistike testa pomoću formule<br />
Iz ranijeg outputa možemo videti da su opservirane frekvencije (O): 7, 6 i 8. Ukoliko je nulta<br />
hipoteza tačna i ako su ispitanici u populaciji zaista ravnomjerno distribuirani onda će<br />
očekivane frekvencije (E) biti: 7, 7 i 7.<br />
Obzirom da je pretpostavka da u svakoj kategoriji imamo bar 5 opservacija ispunjena (što se<br />
vidi unutar kolone Freq.), statistiku testa ćemo izrčaunati kao:<br />
2 2 2 2<br />
2 ( O E ) (7 7) (6 7) (8 7)<br />
0,29<br />
E 7 7 7<br />
Ako bi provjerili u statističkim tablicama vidjeli bi da je statistika testa χ 2 = 0,29 za dati broj<br />
stepena slobode (3 − 1 = 2) nesignifikantna uz p > 0,05 na osnovu čega zaključujemo da ne<br />
možemo odbaciti nultu hipotezu.<br />
4.1.2. Izračunavanje statistike testa pomoću State<br />
Da bi uz pomoć State izračunali χ 2 test proporcije, prvo moramo pronaći i instalirati paket csgof:<br />
. findit csgof<br />
8
Zatim ćemo za provođenje testa ukucati sljedeću naredbu:<br />
. csgof dob<br />
Rezultati su predstavljeni u tabeli 4.<br />
Tabela 4 – Rezultat hi-kvadrat testa proporcije za primjer 4.1<br />
+-------------------------------------------+<br />
| dob expperc expfreq obsfreq |<br />
|-------------------------------------------|<br />
| 18-30 god. 33.33333 7 7 |<br />
| 31-45 god. 33.33333 7 6 |<br />
| 46-60 god. 33.33333 7 8 |<br />
+-------------------------------------------+<br />
chisq(2) is .29, p = .8669<br />
Vidimo da smo dobili identičan rezultat kao i kada smo test računali putem formule χ 2 (2) = 0,29<br />
i da je statistika testa nesignifikantna uz p = 0,867 na osnovu čega zaključujemo da ne možemo<br />
odbaciti nultu hipotezu.<br />
Primjer 4.2<br />
Ako u ukupnoj populaciji (18-60 godina) ima otprilike 4 miliona ljudi, od čega 1,04 miliona<br />
otpada na osobe u dobi 18-30 godina (26%), 1,4 miliona na osobe u dobi od 31-45 godina (35%)<br />
i 1,56 miliona na osobe u dobi 46-60 godina (39%), da li možemo tvrditi da je naš uzorak<br />
reprezentativan u pogledu starosne strukture?<br />
Da bi dali odgovor na ovo pitanje, koristićemo opciju expperc pomoću koje ćemo specificirati<br />
očekivane proporcije:<br />
. csgof dob, expperc(26 35 39)<br />
Output sa rezultatima ovog testa se nalazi u tabeli 5.<br />
Tabela 5 – Rezultat hi-kvadrat testa proporcije za primjer 4.2<br />
+------------------------------------------+<br />
| dob expperc expfreq obsfreq |<br />
|------------------------------------------|<br />
| 18-30 god. 26 5.46 7 |<br />
| 31-45 god. 35 7.35 6 |<br />
| 46-60 god. 39 8.19 8 |<br />
+------------------------------------------+<br />
chisq(2) is .69, p = .7094<br />
Dobijeni output pokazuje očekivanu proporciju (expperc), očekivanu frekvenciju (expfreq) i<br />
opserviranu frekvenciju (obsfreq). Ispod tabele je prikazana statistika testa koja je<br />
nesignifikantna jer je p > 0,05.<br />
9
4.1.3. Kako napisati rezultat testa<br />
Analiza je pokazala da između opserviranih proporcija starosnih grupa unutar uzorka i<br />
očekivanih proporcija starosnih grupa u populaciji nema statistički značajne razlike χ 2 (2) =<br />
0,69, p = 0,71. Na osnovu toga zaključujemo da se proporcije unutar uzorka ne razlikuju<br />
statistički značajno od očekivanih proporcija u populaciji i da je stoga naš uzorak<br />
reprezentativan u pogledu starosne strukture.<br />
5. NEPARAMETARSKI TESTOVI ZA DVIJE GRUPE<br />
5.1. HI-KVADRAT TEST NEZAVISNOSTI<br />
Hi-kvadrat (χ 2 ) test nezavisnosti (engl. Chi-square test of independence) se koristi u<br />
slučajevima kada želimo utvrditi da li su dvije kategorijalne varijable međusobno povezane.<br />
Iako se prvenstveno koristi za nominalne, moguće ga je primijeniti i za ordinalne varijable.<br />
Bazira se na analizi opserviranih i očekivanih frekvencija unutar tabele kontigencije koja se<br />
dobije kada se kategorije jedne varijable ukrste sa kategorijama druge varijable. Konvencija je<br />
da unutar tabele kontigencije redovi predstavljaju kategorije nezavisne varijable, dok se u<br />
kolonama nalaze kategorije zavisne varijable.<br />
Statistika testa uz (R − 1) × (C − 1) stepena slobode se izračunava po formuli:<br />
<br />
2<br />
( Oi<br />
E<br />
2 ij<br />
)<br />
<br />
i<br />
E<br />
ij<br />
gdje se Oij odnosi na broj opservacija koje se unutar tabele kontigencije nalaze u ij ćeliji, Eij se<br />
odnosi na očekivani broj opservacija koje bi se trebale nalaziti u ij ćeliji ukoliko je nulta<br />
hipoteza tačna i računa se kao:<br />
Ri<br />
C<br />
j<br />
Eij<br />
<br />
N<br />
gdje je R = zbir za i-ti red, C = zbir za j-tu kolonu kolona i N = ukupni zbir.<br />
Konačan rezultat χ 2 testa obuhvata i dodatnu ,,korekciju neprekidnosti prema Yatesu" (engl.<br />
Yates' Correction for Continuity), koja se sastoji u tome da se za 0,5 smanji svaka opažena<br />
frekvencija koja je veća od očekivane, a za 0,5 poveća svaka opažena frekvencija koja je manja<br />
od očekivane. Drugim riječima, između očekivane i opažene frekvencije razlika se smanjuje<br />
za 0,5.<br />
Pored uobičajenih pretpostavki neparametarskih testova (nezavisnost opservacija i slučajni<br />
uzorak), ovaj test zahtjeva da u svakoj ćeliji tabele kontigencije imamo bar 5 opservacija.<br />
Primjer 5.1<br />
Ispitanicima je postavljeno pitanje da li će posjetiti novootvoreni butik dizajnerske odjeće<br />
(posjeta). Pored toga zabilježen je i pol ispitanika (spol). Da li pol ispitanika ima uticaj na<br />
odluku o posjeti butiku? Podaci su spremljeni u datoteku butik2.dta.<br />
10
Obzirom da je u ovom slučaju sasvim jasno da varijabla spol igra ulogu nezavisne varijable,<br />
tabela kontigencije će imati sljedeću strukturu:<br />
. tab spol posjeta<br />
Tabela 6 – Tabela kontigencije sa opserviranim frekvencijama za primjer 5.1<br />
| posjeta<br />
spol | posjetiće neće posj | Total<br />
-----------+----------------------+----------<br />
muško | 9 13 | 22<br />
žensko | 15 5 | 20<br />
-----------+----------------------+----------<br />
Total | 24 18 | 42<br />
Testiramo sljedeću hipotezu:<br />
H0: Između spola ispitanika i namjeravane posjete ne postoji povezanost<br />
H1: Između spola ispitanika i namjeravane posjete postoji povezanost<br />
5.1.1. Izračunavanje statistike testa pomoću formule<br />
Iz ranijeg outputa možemo videti da su opservirane frekvencije (O): 9, 13, 15 i 5. Prvo ćemo<br />
izračunati očekivane frekvencije (Eij):<br />
E<br />
E<br />
E<br />
E<br />
11<br />
12<br />
21<br />
22<br />
R1 C<br />
1<br />
22 24<br />
12,57<br />
N 42<br />
R1 C<br />
2<br />
22 18<br />
9,43<br />
N 42<br />
R2 C<br />
1<br />
20 24<br />
11,43<br />
N 42<br />
R2 C<br />
2<br />
20 18<br />
8,57<br />
N 42<br />
Izračunato možemo provjeriti tako da uz pomoć opcije expected zatražimo da Stata izlista<br />
podatak o očekivanim frekvencijama:<br />
. tab spol posjeta, expected<br />
11
Tabela 7 – Tabela kontigencije sa očekivanim frekvencijama za primjer 5.1<br />
+--------------------+<br />
| Key |<br />
|--------------------|<br />
| frequency |<br />
| expected frequency |<br />
+--------------------+<br />
| posjeta<br />
spol | posjetiće neće posj | Total<br />
-----------+----------------------+----------<br />
muško | 9 13 | 22<br />
| 12.6 9.4 | 22.0<br />
-----------+----------------------+----------<br />
žensko | 15 5 | 20<br />
| 11.4 8.6 | 20.0<br />
-----------+----------------------+----------<br />
Total | 24 18 | 42<br />
| 24.0 18.0 | 42.0<br />
Na osnovu dobijenog output-a možemo potvrditi da su očekivane frekvencije koje smo<br />
izračunali ručno istovjetne onima koje je izračunala Stata.<br />
Nakon što imamo očekivane frekvencije, uz pomoć prethodno navede formule možemo ručno<br />
izračunati statistiku testa sa jednim stepenom slobode:<br />
2 ( O E ) (9 12,57) (13 9,43) (15 11,43) (5 8,57)<br />
<br />
E 12,57 9,43 11,43 8,57<br />
2 2 2 2 2<br />
i i<br />
<br />
i<br />
i<br />
4,97<br />
5.1.2. Izračunavanje statistike testa pomoću State<br />
Statistiku testa možemo izračunati i pomoću State korištenjem naredbe:<br />
. tab spol posjeta, column nofreq chi2<br />
Output sa rezultatima prikazan je u tabeli 8.<br />
Tabela 8 – Rezultat nezavisnog hi-kvadrat testa za primjer 5.1<br />
| posjeta<br />
spol | posjetiće neće posj | Total<br />
-----------+----------------------+----------<br />
muško | 37.50 72.22 | 52.38<br />
žensko | 62.50 27.78 | 47.62<br />
-----------+----------------------+----------<br />
Total | 100.00 100.00 | 100.00<br />
Pearson chi2(1) = 4.9716 Pr = 0.026<br />
Iza naredbe tab smo naveli prvo nezavisnu varijablu (spol) zatim zavisnu varijablu (posjeta).<br />
Pored toga koristili smo opcije column (da bi dobili proporcije po kolonama), nofreq (da bi<br />
izbjegli prikazivanje opserviranih frekvencija) i chi2 (kako bi tražili da Stata izračuna statistiku<br />
testa). Iz dobijenog outputa vidimo da je 37,5% muškaraca, odnosno 62,5% žena reklo da<br />
12
namjerava posjetiti novi butik. Rezultati testa pokazuju da je ova razlika statistički signifikantna<br />
(p < 0,05).<br />
5.1.3. Kako napisati rezultat testa<br />
Dobijeni rezultati sugerišu da žene u većem postotku (62,5%) izražavaju namjeru da posjete<br />
novi butik dizajnerske odjeće u odnosu na muškarce (37,5%). Rezultati testa potvrđuju da je<br />
uočena povezanost između pola i namjere statistički signifikantna, χ 2 (1) = 4,97, p = 0,026.<br />
5.2. MANN-WHITNEY U TEST<br />
Mann-Whitney U test (takođe poznat i kao Wilcoxon test sume rangova) služi za testiranje<br />
razilika između dvije nezavisne grupe i primjenjuje se u situaciji kada je zavisna varijabla<br />
mjerena na ordinalnom nivou. Može se koristiti i kao neparametarska alternativa nezavisnom<br />
t-testu kako bi se testirala razlika između prosjeka dvije grupe u situaciji kada nisu ispunjene<br />
pretpostavke za primjenu parametarskog testa. U tom slučaju vrijednosti metrijske zavisne<br />
varijable se pretvaraju u rangove. Nakon što se orginalni podaci pretvore u rangove oblik<br />
distribucije zavisne varijable više nije bitan. Analiza se zatim nastavlja na samim rangovima, a<br />
ne na orginalnim podacima.<br />
U literaturi se često navodi da se test može koristiti i za poređenje medijane dvaju grupa.<br />
Međutim, u tom slučaju distribucije u obje grupe moraju imati isti oblik. Za provjeru oblika<br />
distribucije možemo koristiti histogram frekvencija. Ako se potvrdi da distribucija vrijednosti<br />
zavisne varijable ima isti oblik u obje grupe test možemo iskoristiti da kompariramo medijane<br />
i testiramo hipotezu H0: MdnA = MdnB. U protivnom, test možemo korsititi samo za poređenje<br />
sredine rangova (engl. mean ranks).<br />
Mann-Whitney U test zahtijeva ispunjenost uobičajenih pretpostavki koje se odnose na<br />
neparametarske testove, obrazloženih na početku poglavlja.<br />
Primjer 5.2<br />
Pretpostavimo da je putem specijalno dizajniranog upitnika mjerena popularnost dvije marke<br />
satova (sat). Ukupno deset ispitanika (id) je učestvovalo u istraživanju i njihove zbirne ocjene<br />
su predstavljene u tabeli 8 (varijabla ocjena). Podaci su spremljeni u datoteku satovi.dta. Da li<br />
postoji razlika u popularnosti između satova marke A i B?<br />
Tabela 8 – Ocjene ispitanika za dvije marke satova<br />
Marka A (n1 = 5 opservacija)<br />
Marka B (n2 = 5 opservacija)<br />
Ispitanik (id) Ocjena Rang Ispitanik (id) Ocjena Rang<br />
1 32 3,5 6 56 7<br />
2 44 5 7 47 6<br />
3 32 3,5 8 75 8<br />
4 18 1 9 88 9<br />
5 99 10 10 25 2<br />
Zbir R1= 23 Zbir R2 = 32<br />
13
Hipoteza koju testiramo je:<br />
H0: Nema razlike u popularnosti između satova marke A i B (rangovi u jednoj grupi neće<br />
biti sistematski viši ili manji nego u drugoj grupi).<br />
H1: Postoji razlika u popularnosti između satova marke A i B (rangovi u jednoj grupi će<br />
biti sistematski viši ili niži nego u drugoj grupi).<br />
5.2.1. Izračunavanje statistike testa pomoću formule kada je n < 20<br />
Prvi korak koji trebamo uraditi je da dobijene ocjene posmatramo zajedno i poredamo od<br />
najmanje ka najvećoj bez obzira da li pripadaju grupi A ili B.<br />
U datoj situaciji ocjeni sa najnižom vrijednošću (18) je dodijeljen rang 1, dok je ocjeni sa<br />
najvećom vrijednošću (99) dodijeljen rang 5. Po istom principu su dodijeljeni ostali rangovi<br />
unutar tog raspona. Kada imamo dva ili više istovjetnih rangova za njih kažemo da su povezani<br />
(engl. tied rank). Na primjer, u tabeli 8 imamo dvije iste ocjene (32) i njima su pridruženi<br />
povezani rangovi koji su prosjek treće i četvrte pozicije (3 + 4)/2 = 3,5.<br />
Predstavljanjem orginalnih podatka putem rangova zaobilazi se problem upotrebe podataka koji<br />
narušavaju parametarske pretpostavke. Na primjer, u gornjem primjeru vidimo da je jedna<br />
posljedica rangiranja to što se izbjegava uticaj ekstremnih vrijednosti. Čak i da je smo umjesto<br />
vrijednosti 99 imali orginalnu vrijednost koja je znatno iznad tog broja, njen rang se ne bi<br />
promijenio.<br />
U drugom koraku, dobijene rangove treba sabrati kako bi se dobio njihov zbir. Ako grupe imaju<br />
jednake distribucije i njihove sume rangova bi trebale biti slične. U našem primjeru, jedna grupa<br />
ima nižu sumu rangova pa postoji razlog za sumnju da su distribucije različite.<br />
Konačno, sama statistika testa se izračunava po formuli:<br />
n1( n1<br />
1) 5 (5 1)<br />
U<br />
1<br />
n1n2 R1<br />
5 5 23 12<br />
2 2<br />
n2( n2<br />
1) 5 (5 1)<br />
U<br />
2<br />
n1n2 R2<br />
5 5 32 3<br />
2 2<br />
gdje je n1 i n2 = broj opservacija u grupi 1 i 2, R1 i R2 = zbir rangova u grupi 1 i 2<br />
Za testiranje hipoteze uzimamo manje U, koje je u ovom slučaju U = 3. Ako bi u statističkim<br />
tablicama za U distribuciju potražili vrijednost za n1 = n2 = 5 vidjeli bi da za dvosmjerni test i<br />
α = 0,05 kritična U vrijednost iznosi 2. Obzirom da je naše izračunato U = 3 i da je veće od<br />
kritične vrijednosti, zaključak bi bio da ne možemo odbaciti nultu hipotezu.<br />
5.2.2. Izračunavanje statistike testa pomoću formule kada je n > 20<br />
Ovdje je potrebno napomenuti da u statističkim tablicama za U distribuciju uobičajeno postoje<br />
kritične vrijednosti za situacije u kojima veličina grupa nije veća od n > 20. Šta uraditi ako<br />
statistiku testa računamo ručno, a u jednoj ili obje grupe imamo n > 20 opservacija? U tom<br />
14
slučaju sampling distribucija za U se približava normalnoj distribuciji sa aritmetičkom<br />
sredinom i standardnom devijacijom:<br />
<br />
<br />
U<br />
U<br />
n1n2<br />
<br />
2<br />
<br />
( n1)( n2)( n1 n2<br />
1)<br />
12<br />
Statistiku testa zatim možemo izračunati prema formuli:<br />
U <br />
z <br />
<br />
U<br />
U<br />
5.2.3. Izračunavanje statistike testa pomoću State<br />
Statistika testa unutar State se računa uz pomoć naredbe:<br />
rankusm zavisna_varijabla, by(nezavisna_varijabla)<br />
U našem primjeru će biti:<br />
. ranksum ocjena, by(sat)<br />
Output sa rezultatom je prikazan u tabeli 9.<br />
Tabela 9 – Rezultat Mann-Whitney U testa za primjer 5.2<br />
Two-sample Wilcoxon rank-sum (Mann-Whitney) test<br />
sat | obs rank sum expected<br />
-------------+---------------------------------<br />
A | 5 23 27.5<br />
B | 5 32 27.5<br />
-------------+---------------------------------<br />
combined | 10 55 55<br />
unadjusted variance 22.92<br />
adjustment for ties -0.14<br />
----------<br />
adjusted variance 22.78<br />
Ho: ocjena(sat==A) = ocjena(sat==B)<br />
z = -0.943<br />
Prob > |z| = 0.3457<br />
Output sadrži rezultate testa iz kojih vidimo da je p = 0,346. Samim tim nemamo dovoljno<br />
dokaza da odbacimo nultu hipotezu i ustvrdimo da između ocjena popularnosti za satove marke<br />
A i B postoji statistički signifikantna razlika.<br />
15
5.2.4. Kako napisati rezultat testa<br />
Mann-Whitney test pokazuje da između ocjena popularnosti satova marke A i marke B ne<br />
postoji statistički signifikantna razlika, z = −0,94, p = 0,35.<br />
5.2.5. Dodatni primjeri i zadaci<br />
Zadatak 5.1<br />
Ispitanicima je pružena mogućnost da iz istog cjenovnog razreda isprobaju 3 različite marke<br />
tableta (A, B i C) i rangiraju ih prema svojim preferencijama. Tablet kojeg najviše preferiaju<br />
označen je sa 1, a onaj kojeg najmanje preferiraju sa 5. Varijabla rangA1 sadrži rang (1 do 5)<br />
koji je svaki ispitanik dodijelio tabletu marke A. Pored toga zabilježen je pol ispitanika (spol).<br />
Podaci su spremljeni u datoteku tableti.dta. Da li postoji razlika između muškaraca i žena u<br />
pogledu rangiranja tableta marke A?<br />
5.3. MCNEMAR TEST<br />
McNemmar test se koristi za poređenje proporcija između dvije međusobno povezane<br />
dihotomne varijable. Bazira se na analizi proporcija unutar tabele kontigencije koja sadrži<br />
dihotomnu varijablu mjerenu u dva vremenska presjeka.<br />
Primjer 5.3<br />
Na sajmu automobila organizovan je eksperiment. Slučajno je odabrano 30 posjetilaca sajma<br />
koji su obilazili izložbene štandove i koji ranije nisu probali automobil marke A. Svakom od<br />
odabranih ispitanika prvo je postavljeno pitanje da li bi kupio automobil marke A, bez da ga<br />
proba? Dakle, samo na bazi izgleda (dizajn, tehničke specifikacije i sl.). Odogovor ispitanika je<br />
zabilježen (varijabla prije). Zatim je svakom ispitaniku ponuđena testna vožnja automobilom<br />
A, nakon čega mu je postavljeno pitanje da li je nakon probe promjenio mišljenje i da li bi kupio<br />
automobil marke A. Ponovo je zabilježen odogovor ispitanika (varijabla poslije). Podaci su<br />
spremljeni u datoteku automobil.dta. Koliko ispitanika je nakon probe promijenilo mišljenje?<br />
Da li je rezultat testne vožnje statistički signifikantan?<br />
Prvo ćemo napraviti krostabelaciju odgovora prije i nakon probne vožnje.<br />
. tab prije poslije<br />
Tabela 10 – Krostabelacija namjere o kupovini prije i poslije probne vožnje<br />
| poslije<br />
prije | ne bih ku kupio bih | Total<br />
-------------+----------------------+----------<br />
ne bih kupio | 13 8 | 21<br />
kupio bih | 3 6 | 9<br />
-------------+----------------------+----------<br />
Total | 16 14 | 30<br />
16
Prije probe 21 ispitanik je rekao da ne bi kupio dati automobil. Međutim, vidimo da je nakon<br />
probe taj broj pao na 16 ispitanika što znači da je 5 ispitanika promijenilo mišljenje. Da li je<br />
ova razlika statistički signifikantna?<br />
Testiramo sljedeću hipotezu:<br />
H0: Nema razlike u kupovnoj namjeri potrošača prije i nakon testne vožnje.<br />
H1: Postoji razlika u kupovnoj namjeri potrošača prije i nakon testne vožnje.<br />
5.3.1. Izračunavanje statistike testa pomoću formule<br />
Statistika testa sa jednim stepenom slobode se izračunava prema formuli:<br />
2 2<br />
2 ( B C<br />
) (8 3) 25<br />
2,27<br />
B C 8 3 11<br />
gdje se B i C odnosi na broj neusklađenih parova, koji se unutar tabele kontigencije nalaze u<br />
drugoj i trećoj ćeliji (kada redoslijed ćelija posmatramo s lijeva na desno).<br />
5.3.2. Izračunavanje statistike testa pomoću State<br />
Da bi statistiku testa izračunali pomoću State korsitimo naredbu:<br />
. mcci A B C D<br />
gdje A, B, C i D predstavljaju brojeve u ćelijama tabele kontigencije, kada redoslijed ćelija<br />
posmatramo s lijeva na desno.<br />
U našem primjeru naredba će glasiti:<br />
. mcci 13 8 3 6<br />
Output testa je prikazan u tabeli 11.<br />
Tabela 11 – Rezultat McNemmar testa za primjer 5.3<br />
| Controls |<br />
Cases | Exposed Unexposed | Total<br />
-----------------+------------------------+------------<br />
Exposed | 13 8 | 21<br />
Unexposed | 3 6 | 9<br />
-----------------+------------------------+------------<br />
Total | 16 14 | 30<br />
McNemar's chi2(1) = 2.27 Prob > chi2 = 0.1317<br />
Exact McNemar significance probability = 0.2266<br />
Vidimo da je statistika testa istovjetna rezultatu kojeg smo dobili kada smo test računali ručno.<br />
Rezultat nije statistički signifikantan jer je p = 0,13. Pored toga, Stata je izračunala i vrijednost<br />
tzv. Exact testa koji nema pridruženu statistiku testa već je direktno prikazana samo p-<br />
vrijednost. Za testiranje hipoteze je preporučeno koristiti navedenu p-vrijednost ako je ukupan<br />
17
oj neusklađenih parova < 20. U našem slučaju taj broj iznosi 8 + 3 = 11 i manji je od 20 pa<br />
ćemo u izvještaju napisati da dobijena razlika nije signifikantna uz p = 0,23.<br />
5.3.3. Kako napisati rezultat testa<br />
Na bazi slučajnog uzorka odabrano je 30 ispitanika koji su učestvovali u ekperimentu s ciljem<br />
da se ispitaju kupovne namjere potrošača prema automobilu marke A. Na osnovu provedenog<br />
dvosmjernog McNemar testa nije utvrđeno postojanje statistički signifikantne razlike između<br />
kupovnih namjera prije i nakon testne vožnje, χ 2 (1) = 2.27, p = 0,23.<br />
5.4. WILCOXONOV TEST RANGIRANIH PREDZN AKA<br />
Wilcoxonov test rangiranih predznaka (engl. Wilcoxon Signed Ranks Test) se koristi kako bi<br />
se uporedile vrijednosti zavisne varijable dobijene u dva ponovljena mjerenja na istoj grupi<br />
ispitanika. Koristi se ako je zavisna varijabla mjerena na ordinalnom nivou ili ako imamo<br />
zavisnu varijablu metrijskog tipa a nisu ispunjene pretpostavke za primjenu zavisnog t-testa.<br />
Test ne zahtjeva ispunjenost pretpostavke o nezavisnosti ali ima dodatnu pretpostavku koja<br />
zahtjeva da distribucija uparenih razlika ima simetričan oblik. Ova pretpostavka je obično<br />
ispunjena ako distribucije u oba mjerenja imaju sličan oblik. Na primjer, ako imamo dvije jako<br />
nakrivljene distribucije koje se razlikuju prvenstveno u pogledu lokacije aritmetičke sredine,<br />
distribucija uparenih razlika će biti simetrično raspoređena oko 0 i pogodna za primjenu ovog<br />
testa. Također, pretpostavka je najčešće ispunjena u situaciji kada imamo ponovljeno mjerenje<br />
na istoj grupi ispitanika. U slučaju da ova pretpostavka nije ispunjena bolje je primijeniti manje<br />
efikasni ali u tom slučaju prikladniji Test predznaka (engl. Sign test).<br />
Primjer 5.4<br />
Ispitanicima je pružena mogućnost da iz istog cjenovnog razreda isprobaju 3 različite marke<br />
tableta (A, B i C) i rangiraju ih prema svojim preferencijama. Tablet kojeg najviše preferiraju<br />
označen je sa 1, a onaj kojeg najmanje preferiraju sa 5. Varijabla rangA1 sadrži rang (1 do 5)<br />
koji je svaki ispitanik dodijelio tabletu marke A.<br />
Zamislimo da je nakon probe ispitanicima rečeno da na tablet marke A kupac dobija dužu<br />
garanciju u odnosu na ostala dva modela. Nakon ovoga ispitanici su zamoljeni da ponovo<br />
rangiraju sva tri tableta. Varijabla [rangA2] sadrži rang (1 do 5) koji je svaki ispitanik dodijelio<br />
tabletu A u ponovljenom rangiranju. Podaci su spremljeni u datoteku tableti.dta. Da li je<br />
pružanje dodatne informacije značajno uticalo na preferencije ispitanika?<br />
Prvo ćemo vidjeti kako su ispitanici rangirali tablet A prije, a kako nakon dobijanja informacije<br />
o trajanju garancije.<br />
. tab rangA1<br />
18
Tabela 12 – Rangiranje tableta marke A prije davanja informacije o dužini garancije<br />
rangA1 | Freq. Percent Cum.<br />
-----------------+-----------------------------------<br />
prvi izbor | 7 14.00 14.00<br />
drugi izbor | 12 24.00 38.00<br />
treći izbor | 16 32.00 70.00<br />
četvrti izbor | 11 22.00 92.00<br />
posljednji izbor | 4 8.00 100.00<br />
-----------------+-----------------------------------<br />
Total | 50 100.00<br />
. tab rangA2<br />
Tabela 13 – Rangiranje tableta marke A poslije davanja informacije o dužini garancije<br />
rangA2 | Freq. Percent Cum.<br />
-----------------+-----------------------------------<br />
prvi izbor | 9 18.00 18.00<br />
drugi izbor | 14 28.00 46.00<br />
treći izbor | 18 36.00 82.00<br />
četvrti izbor | 7 14.00 96.00<br />
posljednji izbor | 2 4.00 100.00<br />
-----------------+-----------------------------------<br />
Total | 50 100.00<br />
Vidimo da je došlo do promjene preferencija ispitanika jer je tablet A prije pružanja informacije<br />
o garanciji bio u prva tri izbora kod 70% ispitanika, dok je nakon toga tablet A bio u prva tri<br />
izbora kod 82% ispitanika. Da li je ova promjena statistički signifikantna?<br />
Hipoteza koju testiramo je:<br />
H0: Nema razlike u prefrencijama prije i nakon pružanja dodatne informacije (rangovi<br />
razlika između dvije grupe neće imati tendenciju da budu pozitivni ili negativni).<br />
H1: Postoji razlika u prefrencijama prije i nakon pružanja dodatne informacije (rangovi<br />
razlika između dvije grupe će sistematski biti pozitivni ili negativni).<br />
5.4.1. Izračunavanje statistike testa pomoću State<br />
Wilcoxonov test rangiranih predznaka ima sljedeću sintaksu:<br />
signrank prvo_mjerenje = drugo_mjerenje<br />
U konkretnom primjeru to znači da je naredba:<br />
. signrank rangA1 = rangA2<br />
Output sa rezultatom je dat u tabeli 14.<br />
19
Tabela 14 – Rezultat Wilcoxonovog testa rangiranih predznaka za primjer 5.4<br />
Wilcoxon signed-rank test<br />
sign | obs sum ranks expected<br />
-------------+---------------------------------<br />
positive | 18 691 487.5<br />
negative | 8 284 487.5<br />
zero | 24 300 300<br />
-------------+---------------------------------<br />
all | 50 1275 1275<br />
unadjusted variance 10731.25<br />
adjustment for ties -222.63<br />
adjustment for zeros -1225.00<br />
----------<br />
adjusted variance 9283.63<br />
Ho: rangA1 = rangA2<br />
z = 2.112<br />
Prob > |z| = 0.0347<br />
Output testa je organizovan u dva dijela. U tabeli je dat prikaz pozitivnih rangova (broj<br />
ispitanika koji su izrazili veće preferencije u drugom mjerenju), negativnih rangova (broj<br />
ispitanika koji su izrazili manje preferencije u drugom mjerenju) i neutralnih rangova (broj<br />
ispitanika koji su izrazili iste preferencije u drugom mjerenju). Možemo primijetiti da je 18<br />
ispitanika izrazilo veće preferencije nakon što su dobili informaciju o garanciji, 8 ih je izrazilo<br />
manje preferencije, dok se kod 24 ispitanika preferencije nisu promijenile. Tabela daje i podatak<br />
o opseriviranom zbiru pozitivnih i negativnih rangova (sum ranks), kao i o očekivanom zbiru<br />
(expected) ako je nulta hipoteza istinita.<br />
Ispod tabele se nalaze rezultati testiranja hipoteze iz kojih vidimo da je rezultat statistički<br />
signifikantan sa p = 0,035.<br />
5.4.2. Kako napisati rezultat testa<br />
Wilcoxonov test rangiranih predznaka pokazuje da produženje garancije rezultira statistički<br />
signifikantnim pozitivnim promjenama u preferencijama potrošača, z = 2,11, p = 0,035.<br />
6. NEPARAMETARSKI TESTOVI ZA TRI ILI VIŠE GRUPA<br />
6.1. KRUSKAL-WALLIS TEST<br />
Kruskal-Wallis test je generalizirana verzija Mann-Whitney testa koja se koristi ako imamo tri<br />
ili više nezavisnih grupa i kada je zavisna varijabla mjerena na ordinalnoj skali. Može se<br />
koristiti i kao neparametarska alternativa za jednofaktorsku analizu varijanse (ANOVA).<br />
Ako je ispunjena pretpostavka da distribucije u svim grupama imaju približno isti oblik, test se<br />
može iskoristiti za poređenje medijane unutar tri ili više grupa i testiranje hipoteze da je H0:<br />
MdnA = MdnB = ... = MdnN. U protivnom, test možemo koristiti samo za poređenje sredine<br />
rangova (engl. mean ranks) između grupa.<br />
20
Primjer 6.1<br />
Ispitanicima je pružena mogućnost da iz istog cjenovnog razreda isprobaju 3 različite marke<br />
tableta (A, B i C) i rangiraju ih prema svojim preferencijama. Tablet kojeg najviše preferiraju<br />
označen je sa 1, a onaj kojeg najmanje preferiraju sa 5. Podaci su spremljeni u datoteku<br />
tableti.dta. Varijabla rangA1 sadrži rang (1 do 5) koji je svaki ispitanik dodijelio tabletu marke<br />
A. Da li postoji razlika između tri dobne skupine (dob) u pogledu rangiranja tableta A?<br />
Hipoteza koju testiramo je:<br />
H0: Nema razlike u preferencijama između tri dobne skupine (rangovi u jednoj grupi neće<br />
biti sistematski viši ili manji nego u drugim grupama).<br />
H1: Postoji razlika u u preferencijama između tri dobne skupine (rangovi će u bar jednoj<br />
grupi biti sistematski viši ili manji nego u drugim grupama).<br />
6.1.1. Izračunavanje statistike testa pomoću State<br />
Statistika testa se izračunava pomoću naredbe:<br />
. dunntest zavisna_varijabla, by(nezavisna_varijabla)<br />
U našem primjeru će biti:<br />
. dunntest rangA1, by(dob)<br />
Output sa rezultatom je dat u tabeli 15.<br />
Tabela 15 – Rezultat Kruskal-Wallis testa za primjer 6.1<br />
Kruskal-Wallis equality-of-populations rank test<br />
+-----------------------------------+<br />
| dob | Obs | Rank Sum |<br />
|------------------+-----+----------|<br />
| do 25 godina | 18 | 348.00 |<br />
| 26-50 godina | 19 | 480.50 |<br />
| 50 godina i više | 13 | 446.50 |<br />
+-----------------------------------+<br />
chi-squared = 8.012 with 2 d.f.<br />
probability = 0.0182<br />
chi-squared with ties =<br />
probability = 0.0141<br />
8.525 with 2 d.f.<br />
Output prikazuje zbir rangova unutar svake dobne skupine. Ispod tabele su data dva različita<br />
rezultata. Prvi rezultat se interpretira ukoliko unutar zavisne varijable nemamo povezane<br />
rangove (engl. tied ranks). 14 Obzirom da u našim podacima imamo više situacija gdje se javljaju<br />
14<br />
Sa ovim terminom smo se susreli kada smo računali Mann-Whitney test. Podsjetimo se da su rangovi povezani<br />
ukoliko dvije ili više opservacija unutar zavisne varijable imaju identične rangove. Npr. ako su dva ispitanika rekla<br />
da im je tablet marke A prvi izbor kažemo da unutar zavisne varijable imamo povezane rangove.<br />
21
povezani rangovi, čitamo drugi red sa rezultatima iz kojeg vidimo da je test signifikantan sa p<br />
= 0,014.<br />
6.1.2. Dunnov post-hoc test<br />
Kruskal-Wallis test je omnibus test koji govori da li postoje statistički značajne razlike ali ne<br />
govori između kojih konkretno grupa se te razlike javljaju. Da bi smo to utvrdili možemo<br />
iskoristiti Dunnov post-hoc test kojeg je prvo potrebno pronaći i instalirati sa naredbom:<br />
. findit dunntest<br />
Zatim ćemo ukucati:<br />
. dunntest rangA1, by(dob)<br />
Output sa rezultatom je dat u tabeli 16.<br />
Tabela 16 – Rezultat Kruskal-Wallis za primjer 6.1<br />
Dunn's Pairwise Comparison of rangA1 by dob<br />
(No adjustment)<br />
Col Mean-|<br />
Row Mean | do 25 go 26-50 go<br />
---------+----------------------<br />
26-50 go | -1.281331<br />
| 0.1000<br />
|<br />
50 godin | -2.918594 -1.780438<br />
| 0.0018 0.0375<br />
Na osnovu testa možemo zaključiti da statistički značajna razlika postoji između najstarije<br />
dobne skupine (50 godina i više) u odnosu na ostale dvije starosne skupine. Razlika između<br />
prve (do 25 godina) i druge skupine (26-50 godina) nije statistički signifikantna jer je p = 0,10.<br />
6.1.3. Kako napisati rezultat testa<br />
Za 50 slučajno odabranih ispitanika prikupljeni su podaci o preferencijama prema tabletu marke<br />
A. Kruskal-Wallis test je potvrdio da između tri dobne skupine (n = 18, 19 i 13) postoje<br />
statistički značajne razlike u preferencijama prema tabletu marke A, χ 2 (2) = 8,53, p = 0,014.<br />
Dunnetov post hoc test pokazuje da su preferencije unutar skupine starosti do 25 godina<br />
statistički signifikantno manje u odnosu na grupe 26-50 godina (D = −1,28, p = 0,10) i 50+<br />
godina (D = −2,92, p = 0,002). Istovremeno, preferencije unutar srednje grupe starosti 26-50<br />
godina su statistički signifikantno manje od preferencija unutar najstarije 50+ grupe (D = −1,78,<br />
p = 0,038).<br />
6.2. COCHRANOV Q TEST<br />
Cochranov Q test se koristi za poređenje proporcija dihotomne varijable unutar tri ili više<br />
povezanih mjerenja. Sama mjerenja obavljaju se: a) sukcesivno na istim subjektima ali u<br />
različitim uslovima ili b) u situaciji kada je svaki ispitanik iz jedne grupe uparen sa drugim<br />
22
ispitanicima sličnih karakteristika u ostalim grupama, što je slučaj kod tzv. matched pairs<br />
design-a.<br />
Može se posmatrati kao alternativa za RM ANOVA test u situaciji kada je zavisna varijabla<br />
dihotomnog tipa i kao svojevrsna ekstenzija McNemar testa za testiranje zavisnih uzoraka.<br />
Pored uobičajene pretpostavke koja se tiče slučajnog odabira ispitanika, sam uzorak bi trebao<br />
biti odgovarajuće veličine. Uobičajeno pravilo je da bi proizvod broja ispitanika (n)<br />
pomnoženog sa brojem ponovljenih mjerenja (k) trebao biti veći ili jednak od 24 kako bi mogli<br />
tvrditi da imamo dovoljno velik uzorak.<br />
Primjer 6.2<br />
Kako bi ispitao adekvatnost ogašavačkih plakata, istraživač marketinga je proveo eksperiment.<br />
Slučajnim odabirom izdvojeno je 30 ispitanika. Svakom ispitaniku pokazana su tri različita<br />
oglašavačka plakata (poster 1-3) koje su ispitanici ocjenjivali kao dobre (=0) ili kao loše (=1).<br />
Podaci su premljeni unutar datoteke poster.dta 15 . Da li postoji statistički značajna razlika<br />
između broja ispitanika koji su svaki od ova tri oglašavačka plakata ocjenili kao loš (=1)?<br />
Testiramo hipotezu:<br />
H0: Proporcija loših ocjena je jednaka u svim grupama.<br />
H1: Proporcija loših ocjena se razlikuje između grupa.<br />
6.2.1. Izračunavanje statistike testa pomoću State<br />
Prvo ćemo provjeriti adekvatnost veličine uzorka i da li je n x k ≥ 24. Obzirom da imamo 30 ×<br />
3 = 90 ≥ 24 zaključujemo da je uzorak adekvatne veličine.<br />
Da bi unutar State proveli analizu potrebno je instalirati paket cochran:<br />
. ssc install cochran<br />
Sama naredba za izračunavanje statistike testa glasi:<br />
. cochran poster1-poster3, detail<br />
Output sa rezultatom je dat u tabeli 17.<br />
Tabela 17 – Rezultat Cochran Q testa za primjer 6.2<br />
Test for equality of proportions of nonzero<br />
outcomes in matched samples (Cochran's Q):<br />
Variable | Proportion Count<br />
-------------+----------------------<br />
poster1 | .6666667 20<br />
poster2 | .3666667 11<br />
poster3 | .6333333 19<br />
------------------------------------<br />
15<br />
Iz knjige Marketing Research with SPSS<br />
23
Number of obs = 30<br />
Cochran's chi2(2) = 6.636364<br />
Prob > chi2 = 0.0362<br />
Prvi dio outputa osnosi se na broj loših ocjena (=1) unutar svakog ponovljenog mjerenja.<br />
Vidimo da najviše loših ocjena ima prvi plakat (count = 20), zatim treći plakat (count = 19),<br />
dok najmanje loših ocjena ima drugi plakat (count = 11).<br />
Drugi dio otuputa prikazuje da je p = 0,036 na osnovu čega zaključujemo da postoji statistički<br />
značajna razlika u proporciji loših ocjena koje su dobila tri različita oglašivačka plakata.<br />
6.2.2. Post-hoc testovi<br />
Cochranov Q je omnibus test koji govori da li generalno postoje statistički značajne razlike ali<br />
ne i između kojih konkretno grupa se te razlike javljaju. Nažalost, Stata ne nudi post-hoc testove<br />
na bazi kojih bi se to utvrdilo. Na bazi prethodnog outputa možemo pretpostaviti da je drugi<br />
plakat (poster2) različit u odnosu na druga dva postera jer je dobio znatno manje negativnih<br />
ocjena u odnosu na ostala dva plakata.<br />
6.2.3. Kako napisati rezultat testa<br />
Trideset slučajno odabranih ispitanika učestvovalo je u ocjenjivanju oglašavačkih plakata.<br />
Rezultati Cochranovog Q testa su potvrdili da postoji statistički značajna razlika između<br />
proporcija pozitivnih ocjena koje su dobila tri različita plakata, Cochranov χ 2 (2) = 6,63, p =<br />
0,036.<br />
6.3. FRIEDMAN TEST<br />
Friedmanov test je neparametarski ekvivalent ANOVA testa sa ponovljenim mjerenjima i<br />
koristi se za ispitivanje postojanja razlika između rangova dobijenih u tri ili više ponovljenih<br />
mjerenja. Mjerenja se obavljaju na istim subjektima ali u različitim uslovima. Dobijeni rezultati<br />
mjerenja se rangiraju, a izračunavanje statistike testa se temelji na tako dobijenim rangovima.<br />
Friedman test je omnibus test jer indicira da li postoji opšta razlika između grupa, ali ne i između<br />
kojih konkretno grupa se ta razlika javlja.<br />
Primjer 6.3<br />
Marketing analitičar želi uporediti relativnu efektivnost oglašavanja putem direktne pošte<br />
(dposta), časopisa (casopis) i novina (novine). Slučajno je odabrano 12 naseljenih mjesta koja<br />
su tokom godine kroz tri kampanje bila izložene navedenim vrstama oglašavanja. Zabilježen je<br />
procenat naruđbi tokom svake od tri kampanje oglašavanja. Podaci su spremljeni u datoteku<br />
oglas.dta i prikazani u okviru tabele 18. Da li postoji statistički značajna razlika između ova tri<br />
tipa oglašavanja?<br />
. list, noobs separator (12)<br />
24
Tabela 18 – Procent realizovanih naruđbi tokom trajanja tri različite oglašavačke kampanje<br />
+--------------------------------+<br />
| id dposta casopis novine |<br />
|--------------------------------|<br />
| 1 7.2 10.1 15.7 |<br />
| 2 9.4 8.2 18.3 |<br />
| 3 4.3 5.1 11.2 |<br />
| 4 11.3 6.5 19 |<br />
| 5 3.3 8.7 9.2 |<br />
| 6 4.2 6 10.5 |<br />
| 7 5.9 12.3 8.7 |<br />
| 8 6.2 11.1 14.3 |<br />
| 9 4.3 6 3.1 |<br />
| 10 10 12.1 18.8 |<br />
| 11 2.2 6.3 5.7 |<br />
| 12 6.3 4.3 20.2 |<br />
+--------------------------------+<br />
Deskriptivna statistika prikazana je u okviru tabele 19:<br />
. tabstat dposta casopis novine, s(p50, mean, sd)<br />
Tabela 19 – Prosječan procent realizovanih naruđbi tokom tri oglašavačke kampanje<br />
stats | dposta casopis novine<br />
---------+------------------------------<br />
p50 | 6.05 7.35 12.75<br />
mean | 6.216667 8.058333 12.89167<br />
sd | 2.819037 2.780601 5.657892<br />
----------------------------------------<br />
Iako je zavisna varijabla metrijskog tipa, nedovoljno veliki uzorak (n = 12) i standardna<br />
devijacija koja je znatno veća u slučaju novina, upućuju na to da trebamo korisititi Friedmanov<br />
test a ne RM ANOVU. Testiramo hipotezu:<br />
H0: Nema razlike u reakcijama potrošača na tri različite vrste oglašavanja (rangovi u jednoj<br />
kampanji neće biti sistematski viši ili manji nego u drugim kampanjama).<br />
H1: Postoji razlika u reakcijama potrošača na tri različite vrste oglašavanja (rangovi će u<br />
bar jednoj kampanji biti sistematski viši ili manji nego u drugim kampanjama).<br />
6.3.1. Izračunavanje statistike testa pomoću State<br />
Friedmanov test ne dolazi u osnovnoj verziji State pa ga je potrebno naći sa naredbom findit<br />
friedman (nakon što se pojave rezultati pretrage klinuti na paket snb2 i zatim na opciju install).<br />
Nakon toga je potrebno pripremiti podatke za analizu.<br />
Prvo, u slučaju da imamo opservacije sa nedostajućim vrijednostima, potrebno ih je izbaciti<br />
prije same analize. U protivnom će Stata izbaciti poruku o grešci. To možemo uraditi tako što<br />
ćemo ukucati:<br />
. drop if dposta ==. |casopis ==. | novine ==.<br />
(0 observations deleted)<br />
25
U našem slučaju nismo imali nedostajuće podatke pa je Stata javila da nije obrisana ni jedna<br />
opservacija.<br />
Drugo, prije provedbe samog testa u Stati je potrebno podatke prebaciti u tzv. transponovani<br />
oblik. Transponovanje ćemo uraditi upotrebom komande xpose. Međutim, prije toga je u<br />
memoriji potrebno zadržati samo varijable koje sadrže rezultate mjerenja (u ovom primjeru:<br />
dposta, casopis i novine) i izbaciti sve ostale varijable (u ovom primjeru je to samo varijabla:<br />
id). Dakle, kucamo:<br />
. drop id<br />
. xpose, clear<br />
. list<br />
Tabela 20 – Transponovani podaci<br />
+--------------------------------------------------------------------------------+<br />
| v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 |<br />
|--------------------------------------------------------------------------------|<br />
1. | 7.2 9.4 4.3 11.3 3.3 4.2 5.9 6.2 4.3 10 2.2 6.3 |<br />
2. | 10.1 8.2 5.1 6.5 8.7 6 12.3 11.1 6 12.1 6.3 4.3 |<br />
3. | 15.7 18.3 11.2 19 9.2 10.5 8.7 14.3 3.1 18.8 5.7 20.2 |<br />
+--------------------------------------------------------------------------------+<br />
Nakon što smo izvršili naredbu xpose primjetimo da je Stata podatke pretvorila u transponovani<br />
oblik i da imamo onoliko varijabli (v1-v12) koliko smo imali ispitanika. Nakon toga sam test<br />
ćemo provesti sa naredbom:<br />
. friedman v1-v12<br />
Friedman = 10.6667<br />
Kendall = 0.4444<br />
P-value = 0.0048<br />
Friedmanova hi-kvadrat statistika testa ima vrijednost 10,67 i statistički je signifikantna uz p <<br />
0,01. Na osnovu toga možemo odbaciti nultu hipotezu da je srednja vrijednost rangova u tri<br />
oglašavačke kampanje bila jednaka. Kendallov koeficijent pokazuje koliko su ocjene date od<br />
strane različitih ispitanika međusobno saglasne. Vrijednost ovog koeficijenta se kreće u rasponu<br />
od 0 (nema saglasnosti) do 1 (potpuna saglasnost).<br />
6.3.2. Post-hoc testovi<br />
Friedmanov test je omnibus test koji govori da li generalno postoje statistički značajne razlike<br />
u ponovljenim ili uparenim mjerenjima ali ne i između kojih mjerenja se te razlike javljaju.<br />
Nažalost, Stata ne nudi post-hoc testove na bazi kojih bi se to utvrdilo. Na bazi tabele 19<br />
možemo pretpostaviti da je oglašavačka kampanja koja se provela putem novina dala bolje<br />
rezultate jer je tu prosječan procent naruđbi prilično veći u odnosu na rezultate ostvarene tokom<br />
trajanja druge dvije kampanje.<br />
6.3.3. Kako napisati rezultat testa<br />
Rezultati Freidmanovog testa provedenog na uzorku od 12 slučajno odabranih naseljenih mjesta<br />
pokazuju da postoji statistički signifikantna razlika između zabilježenih reakcija ispitanika u<br />
zavisnosti od vrste korištenog oglašavanja, χ 2 (2) = 44,26, p < 0,001.<br />
26
Marketing <strong>analitika</strong>: Regresiona analiza 1<br />
autor: doc. dr Emir Agi¢<br />
15. 04. 2015. (ver. 1.11)<br />
1 NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnoºavanje<br />
ovog materijala ili nekih njegovih dijelova bez prethodnog pisanog pristanka<br />
autora.
Sadrºaj<br />
1 Regresiona analiza 2<br />
1.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2<br />
1.2 Osnovni statisti£ki koncepti prostog regresionog modela . . . 2<br />
1.2.1 Procjena regresionih parametara . . . . . . . . . . . . 7<br />
1.2.2 Testiranje signikantnosti regresionih koecijenata . . 13<br />
1.3 Kori²tenje regresionog modela za predvižanje vrijednosti zavisne<br />
varijable . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />
1.4 Intervali procjene unutar regresionog modela . . . . . . . . . . 16<br />
1.5 Reprezentativnost regresionog modela . . . . . . . . . . . . . 17<br />
1.6 Vi²estruki regresioni model . . . . . . . . . . . . . . . . . . . 20<br />
1.6.1 Procjena parametara vi²estrukog regresionog modela . 23<br />
1.6.2 Testiranje signikantnosti regresionih koecijenata . . 25<br />
1.6.3 Standardizovani regresioni koecijenti . . . . . . . . . 25<br />
1
Poglavlje 1<br />
Regresiona analiza<br />
1.1 Uvod<br />
Regresiona analiza je statisti£ka tehnika kojom se modelira veza izmežu zavisne<br />
varijable i jedne ili vi²e nezavisnih varijabli. Ukoliko modeliramo vezu<br />
izmežu zavisne varijable y i jedne nezavisne varijable x, govorimo o prostoj<br />
linearnoj regresiji. U slu£ajevima kada imamo vi²e nezavisnih varijabli<br />
koje uti£u na zavisnu varijablu y govorimo o vi²estrukoj linearnoj regresiji.<br />
Regresiona analiza je vjerovatno naj£e²¢e kori²tena tehnika u ekonomskim i<br />
poslovnim istraºivanjima i moºe se koristiti za :<br />
1. Predvižanje ishoda tj. procijenu vrijednosti zavisne varijable na bazi<br />
izabranih vrijednosti nezavisnih varijabli.<br />
2. Utvrživanje postojanja i snage veze izmežu zavisne varijable i nezavisnih<br />
varijabli.<br />
3. Obja²njenje varijabiliteta zavisne varijable pomo¢u nezavisnih varijabli.<br />
1.2 Osnovni statisti£ki koncepti prostog regresionog<br />
modela<br />
Da bi stekli ispravnu predstavu o su²tini regresione analize požimo od jednostavnog<br />
primjera. Pretpostavimo da ºelimo utvrditi koliko iskustvo ko-<br />
2
POGLAVLJE 1. REGRESIONA ANALIZA 3<br />
mericajliste uti£e na ostvareni obim prodaje. Metodom slu£ajnog uzorka<br />
odabrano je 50 komercijalista koji putem aktivnosti li£ne prodaje na terenu<br />
distribuiraju proizvode kompanije. Prikupljeni podaci su spremljeni u datoteku<br />
sales50 alt.dta. Deskriptivna statistika predstavljena je na outputu<br />
1.1.<br />
. summarize prod gisk<br />
Variable Obs Mean Std. Dev. Min Max<br />
Output 1.1<br />
prod 50 16.88394 4.206842 7.913408 25.03742<br />
gisk 50 14.4 5.996598 1 25<br />
Varijabla prod (prodaja) se odnosi na iznos realizovane prodaje tokom<br />
zadnjeg mjeseca izraºen u 000 KM, dok se varijabla gisk (godine iskustva)<br />
odnosi na iskustvo koje pojedina£ni komercijalista ima na poslovima prodaje.<br />
Prosjek mjese£ne prodaje za svih 50 komercijalista iz uzorka iznosi 16.883,94<br />
KM (obzirom da je vrijednost prodaje izraºena u 000 KM, iznos u tabeli<br />
trebamo pomnoºiti sa 1.000 da bi dobili stvarnu vrijednost). Minimalno<br />
ostvarena prodaja je 7.913,41 KM, dok je iznos najvi²e ostvarene prodaje<br />
bio 25.037,42 KM. Raspon godina iskustva kre¢e se od 1 do 25 godina sa<br />
prosjekom od 14,4 godine.<br />
Opservirane vrijednosti za prvih i zadnjih pet prodajnih predstavnika<br />
moºemo dobiti sa:<br />
. list prod gisk if id45, separator(5)<br />
prod<br />
gisk<br />
1. 14.71799 12<br />
2. 14.47563 15<br />
3. 13.13771 19<br />
4. 17.58048 23<br />
5. 16.74326 19<br />
46. 14.73048 15<br />
47. 18.95334 11<br />
48. 12.71036 10<br />
49. 18.86257 17<br />
50. 18.23663 18<br />
Output 1.2
POGLAVLJE 1. REGRESIONA ANALIZA 4<br />
Iz outputa 1.2 vidimo da prvi komercijalista ima dvanaestogodi²nje iskustvo<br />
i da je ostvario prodaju u vrijednosti od 14.717,99 KM, drugi komercijalista<br />
ima petnaestogi²nje iskustvo i prodaju od 14.475,53 KM, itd. Kako<br />
u uzorku imamo 50 opservacija, parovi (x 1 , y 1 ), (x 2 , y 2 ), ... (x 50 , y 50 ) £ine<br />
emprijske ta£ke koje gra£ki moºemo predstaviti na histogramu rasipanja.<br />
. scatter prod gisk<br />
Slika 1.1<br />
Ako detaljnije osmotrimo sliku 1.1 moºemo uo£iti da se sa rastom iskustva<br />
pove¢ava i tendencija da je komercijalista ostvario ve¢u prodaju. Ako bi<br />
na dijagramu ºeljeli gra£ki sumirati uo£enu povezanost izmežu prodaje i<br />
iskustva, bilo bi dovoljno da povu£emo pravu liniju koja ¢e oslikati uo£eni<br />
pozitivni trend. Prava kojom opisujemo vezu izmežu dvije varijable naziva<br />
se linijom regresije i matematski se predstavlja sa:<br />
y = β 0 + β 1 x (1.1)
POGLAVLJE 1. REGRESIONA ANALIZA 5<br />
Formula 1.1 se naziva regresionom jedna£inom i predstavlja prosti regresioni<br />
model 1 gdje y ozna£ava zavisnu slu£ajnu 2 varijablu koju ºelimo<br />
procijeniti ili objasniti, x je nezavisna varijabla ili prediktor, β 0 se odnosi na<br />
presjek ili konstantu, dok β 1 predstavlja nagib regresione linije. Presjek je<br />
ta£ka u kojoj regresiona linija sije£e y-osu kada je x = 0. Nagib regresione<br />
linije govori koliko ¢e se promijeniti vrijednost zavisne varijable y kada se<br />
vrijednost nezavisne varijable x promijeni za jednu jedinicu. Ako je nagib<br />
linije pozitivan (β 1 > 0), tada sa porastom vrijednosti nezavine varijable<br />
x, u populaciji raste prosje£na vrijednost zavisne varijable y. Ako je nagib<br />
negativan (β 1 < 0), tada sa porastom vrijednosti nezavisne varijable x, u<br />
populaciji opada prosje£na vrijednost zavisne varijable y. U slu£aju kada je<br />
β 1 = 0, promjena unutar x ne uti£e na promjenu y, pa se kaºe da ne postoji<br />
linearna veza izmežu zavisne i nezavisne varijable.<br />
U na²em primjeru, prod (obim prodaje) je zavisna slu£ajna varijabla y,<br />
dok je gisk (godine iskustva) nezavisna varijabla x, pa regresioni model matematski<br />
moºemo iskazati kao:<br />
prod = β 0 + β 1 gisk (1.2)<br />
Prisjetimo se da smo ranije rekli da je statisti£ki model poku²aj opisivanja<br />
odnosa koji postoje izmežu varijabli u formi matematskih jedna£ina. U<br />
datom slu£aju, uz pomo¢ regresione jedna£ine poku²avamo modelirati odnos<br />
izmežu prodaje i godina iskustva. Pri tome polazimo od pretpostavke da su<br />
godine iskustva bitan faktor koji uti£e na obim prodaje. Da bi utvrdili u kojoj<br />
mjeri se ispoljava taj uticaj, potrebno je procijenti vrijednosti parametara<br />
β 0 i β 1 . Ipak, prije nego prežemo na samu procjenu, moramo skrenuti paºnju<br />
na jo² ne²to. Naime, ukoliko bi vrijednost zavisne varijable y bila odrežena<br />
isklju£ivo vrijedno²¢u nezavisne varijable x, te ukoliko bi obje varijable bili u<br />
mogu¢nosti izmjeriti bez ikakve gre²ke, onda bi vrijednosti predvižene modelom<br />
bile identi£ne empirijskim vrijednostima. Gra£ki gledano, obzirom<br />
da bi ostvarena prodaja zavisila isklju£ivo od iskustva prodava£a, sve empirijske<br />
ta£ake na dijagramu rasipanja nalazile bi se na regresionoj liniji. Tada<br />
bi izmežu y i x postojala funkcionalna veza. 3<br />
1 U ekonomiji se umjesto statisti£ki model £esto kaºe ekonometrijski model. Iako je terminologija<br />
razli£ita, misli se na istu stvar.<br />
2 Kaºemo da je zavisna varijabla slu£ajna zato ²to su njenje vrijednosti nepoznate prije<br />
odabira jedinica u uzorak i utvrživanja iznosa prodaje za svaku jedinicu koja je u²la u<br />
uzorak.<br />
3 Funkcionalna veza je strogo deterministi£ka veza ²to zna£i da ako znamo vrijednost neza-
POGLAVLJE 1. REGRESIONA ANALIZA 6<br />
Mežutim, ovakve situacije u dru²tvenim naukama gotovo da ne postoje.<br />
Obzirom da je stvarnost kompleksnija od regresionog modela, pored iskustva<br />
prodava£a na obim prodaje ¢e uticati i mnogi drugi faktori koje nismo<br />
uklju£ili u model. Zato ne¢emo imati funkcionalnu, ve¢ stohasti£ku vezu.<br />
Zbog prirode stohasti£ke veze jasno je da se sve opservacije ne¢e nalaziti na<br />
zami²ljenoj regresionoj liniji ve¢ se javiti raspr²enost, odnosno ve¢a ili manja<br />
odstupanja empirijskih ta£aka od regresione linije. 4<br />
Od £ega ¢e zavistiti varijacije vrijednosti zavisne varijable y oko regresione<br />
linije? Varijacije ¢e zavisiti prvenstveno od slu£ajne gre²ke. Slu£ajna<br />
gre²ka ε, se odnosi na sve ostale faktore koje djeluju na vrijednost zavisne<br />
varijable, a koji nisu uklju£eni u regresioni model. 5 Iz tog razloga, prosti<br />
regresioni model za populaciju izraºen jedna£inom 1.1 moramo pro²iriti tako<br />
da bude:<br />
y = β 0 + β 1 x + ε (1.3)<br />
Regresioni model predstavljen jedna£inom 1.3 se sastoji od dva dijela:<br />
same regresione linije (engl. non-random part) i slu£ajne gre²ke ε (engl.<br />
random part). Slu£ajna gre²ka predstavlja jedinu slu£ajnu komponentu u<br />
modelu, a samim tim je i jedini izvor slu£ajnih odstupanja vrijednosti zavisne<br />
varijable y. Zbog postojanja slu£ajne gre²ke, stvarna vrijednost y unutar populacije<br />
za datu vrijednost x bi¢e jednaka prosje£noj vrijednosti y uve¢anoj<br />
za vrijednosti slu£ajne gre²ke ε.<br />
Posljedica slu£ajnih varijacija svojstvenih zavisnoj varijabli ogleda se u<br />
tome da ¢e regresioni model biti istinit samo u prosjeku. Na primjer, ako<br />
znamo koliko godina iskustva dati komercijalista ima u prodaji, mogli bi upovisne<br />
varijable, onda vrlo precizno moºemo izra£unati ta£nu vrijednost zavisne varijable.<br />
Na primjer, veza izmežu mase i zapremine vode je deterministi£kog tipa.<br />
4 Obzirom da pojedina£ne opservacije y variraju oko op²teg prosjeka y za dato x, onda<br />
govorimo o uslovnoj varijansi σ 2 kojom se mjeri raspr²enost stvarnih vrijednosti zavisne<br />
varijable y oko njihovog prosjeka µ y|x .<br />
5 U na²em primjeru, neki od faktora koji pored iskustva prodava£a mogu uticati na obim<br />
prodaje, a koje nismo uklju£ili u model su: cijene, karaktersitike proizvoda, prodajni<br />
region i sl. Slu£ajna gre²ka obuhvata i bilo koji nepredvidivi elemenat ljudskog pona²anja.<br />
ƒak i ako bi znali sve varijable koje uti£u na prodaju nekog proizvoda to ne bi bilo<br />
dovoljno da perfektno precizno predvidimo obim prodaje jer u pona²anju pojedinaca<br />
uvijek postoji odrežena doza slu£ajnosti koja se ne moºe racionalno objasniti. Takožer,<br />
slu£ajna gre²ka obuhvata gre²ku aproksimacije koja se javlja zbog toga ²to je linerana<br />
veza samo aproksimacija stvarnosti.
POGLAVLJE 1. REGRESIONA ANALIZA 7<br />
trijebiti na² model da predvidimo njegov o£ekivani obim prodaje. Mežutim,<br />
predvižanje uz pomo¢ modela je korisno samo za opis onoga ²to se de²ava<br />
u populaciji, kada u obzir uzmemo sve prodajne predstavnike koji imaju isti<br />
broj godina iskustva kao i prodava£ koji nas interesuje. Stvarna vrijednost<br />
prodaje za konkretnog prodava£a naj£e²¢e ¢e odstupiti od prosje£ne vrijednosti<br />
predvižene modelom za populaciju kao cjelinu.<br />
1.2.1 Procjena regresionih parametara<br />
Vratimo se sada na procjenu parametara. Prosti regresioni model predstavljen<br />
jedna£inom 1.3 je teoretski model koji opisuje pretpostavljenu linearnu<br />
vezu izmežu y i x unutar populacije. Vrijednosti parametara β 0 , β 1 i ε su<br />
nepoznate i potrebno ih procijeniti pomo¢u podataka koje imamo u uzorku.<br />
Cilj je prona¢i vrijednosti parametara koji najbolje opisuju vezu izmežu varijabli<br />
y i x. Gra£ki gledano, na dijagramu rasipanja je potrebno povu¢i<br />
regresionu liniju koja bi bila najbliºe empirijskim ta£kama. Mežutim, kako<br />
se zbog prisustva slu£ajne gre²ke javlja raspr²enost, regresionu liniju koja<br />
opisuje linearnu vezu izmežu dvije varijable moºemo povu¢i na razli£ite na-<br />
£ine. Na slici 1.2 su predstavljene samo tri od velikog broja mogu¢ih linija<br />
kojima moºemo opisati uo£eni trend. Svaka od ovih linija ima razli£ite presjeke<br />
i nagibe, a samim tim i razli£ite parametre. Postavlja se pitanje kako<br />
na¢i parametre linije koja ¢e najbolje opisati uo£eni trend?
POGLAVLJE 1. REGRESIONA ANALIZA 8<br />
Slika 1.2<br />
Kako bi se izbjegla subjektivnost pri povla£enju linije, odnosno da bi od<br />
vi²e mogu¢ih linija izabrali onu koja najbolje reprezentuje podatke, statisti£ari<br />
se koriste estimatorima. Estimator je matematska metoda, pravilo<br />
ili formula, koje nam govori kako da upotrijebimo podatke iz uzorka da bi<br />
dobili procjenu parametara. Estimatori se vrjednuju po tri karakteristike:<br />
Nepristarsnosti, konzistentnosti i ekasnosti.<br />
Za estimator kaºemo da je nepristrasan procjenitelj parametra populacije<br />
ako je njegova o£ekivana vrijednost jednaka tom parametru. O£ekivana<br />
vrijednost ne zna£i da ¢e procjenjeni parametar uvijek biti jednak onom u<br />
populaciji. Ako zamislimo da iz populacije izvla£imo vi²e uzoraka, u nekim<br />
uzorcima procijenjeni parametar ¢e biti precijenjen, u drugima potcijenjen<br />
u odnosu na stvarnu vrijednost u populaciji. Mežutim, u prosjeku, kada<br />
se uzmu u obzir sve dobijene procjene parametara u nizu od n uzorka uzetih<br />
iz populacije, procijenjena vrijednost parametra u slu£aju nepristrasnog<br />
estimatora bi¢e jednaka onom u populaciji.<br />
Druga poºeljna karakteristika estimatora je konzistentnost. Estimator
POGLAVLJE 1. REGRESIONA ANALIZA 9<br />
je konzistentan procjenitelj parametra populacije ako sa rastom veli£ine<br />
uzorka pristrasnost procjene postaje manja. Vaºno je napomenuti da su<br />
konzistentni estimatori uvijek nepristrasni.<br />
Kona£no, estimator je ekasan ako je to nepristrasni procjenitelj sa najmanjom<br />
varijansom. Naime, mogu¢e je da postoji vi²e estimatora koji su<br />
nepristrasni procjenitelji za dati parametar. U tom slu£aju daje se prednost<br />
onom estimatoru £ija je distribucija u najve¢oj mjeri koncentrisana oko<br />
parametra populacije koji se procjenjuje. Za vi²e detalja pogledati [3, pp.<br />
275-280].<br />
Estimator koji se naj£e²¢e koristi kad je u pitanju procjena parametara<br />
regresionog modela je metoda najmanjih kvadrata (engl. ordinary least<br />
square principle - OLS). Su²tina ove metode sastoji se u procjeni parametara<br />
regresione jedna£ine putem minimiziranja sume kvadrata vertikalnih odstupanja<br />
izmežu empirijske vrijednosti zavisne varijable i njene predvižene<br />
vrijednosti. Ovdje ne¢emo ulaziti u matematske detalje samog postupka<br />
jer ¢emo kalkulacije prepustiti softverskom paketu. Pomenu¢emo samo da<br />
¢e OLS metod estimacije dati najbolje linearne nepristrasne procjenitelje regresionih<br />
parametara β 0 i β 1 (engl. best linear unbiased estimators - BLUE).<br />
Regresiona jedna£ina sa procjenjenim parametrima se pi²e kao:<br />
y = b 0 + b 1 x + e (1.4)<br />
gdje je b 0 procijenjena vrijednost za β 0 , b 1 je procijenjena vrijednost za β 1 ,<br />
a e su reziduali.<br />
Sa stanovi²ta samih podataka u uzorku, jedna£inu 1.4 moºemo napisati i<br />
uz kori²tenje subskripta, kako bi ozna£ili svaku pojedina£nu opservaciju:<br />
y i = b 0 + b 1 x i + e i (1.5)<br />
gdje je i = 1, 2, ..., n. Samim tim, y 1 je empirijska vrijednost zavisne varijable<br />
za prvu opservaciju, x 1 je vrijednost nezavisne varijable za prvu opservaciju,<br />
e 1 je prvi rezidual, tj. odstupanje empirijske od procijenjene vrijednosti za<br />
prvu opservaciju, i tako dalje sve do posljednje opservacije n.<br />
Jedna£ina za samu regresionu liniju se ozna£ava sa:<br />
ŷ i = b 0 + b 1 x i (1.6)<br />
gdje ŷ i (izgovara se y hat) predstavlja vrijednost zavisne varijable koja leºi<br />
na procijenjenoj regresionoj liniji za datu vrijednost nezavisne varijable x i . 6<br />
6 Procijenjenja vrijednost ŷ i ne sadrºi rezidual e i
POGLAVLJE 1. REGRESIONA ANALIZA 10<br />
Za ŷ i se £esto kaºe i da je to predvižena ili o£ekivana vrijednost za y, a koju<br />
¢emo uz pomo¢ regresione jedna£ine izra£unati za dato x i .<br />
Reziduali se odnose na odstupanje pojedina£nih opservacija od procjenjene<br />
regresione linije na bazi uzorka i moºemo ih denisati kao:<br />
e = y − E(y|x) = y − E(y)<br />
e = y − ŷ = y − (b 0 + b 1 x 1 ) (1.7)<br />
Dakle, rezidual e je vektor sa nizom brojeva koji predstavljaju vertikalno<br />
odstupanje izmežu opserviranih vrijednosti y i predviženih vrijednosti ŷ duº<br />
odgovaraju¢e regresione linije. Ve¢ smo ranije rekli da je y slu£ajna varijabla<br />
jer su njene vrijednosti dobijene na bazi slu£ajnog uzorka. Obzirom da je<br />
y slu£ajna varijabla i komponeta e koja se odnosi na reziduale ima slu£ajni<br />
karakter. Dakle, y i e su slu£ajne varijable i karakteristike jedne se mogu<br />
izvesti na osnovu karakteristika druge. Jedina bitna razlika je u tome ²to je<br />
y opservirana, dok je e neopservirana varijabla.<br />
Odnos izmežu regresione linije procjenjene na bazi uzorka i regresione<br />
linije unutar populacije moºemo vidjeti na slici 1.3 gdje je dat prikaz hipoteti£ke<br />
situacije u kojoj postoji znatno odstupanje izmežu ove dvije linije.
POGLAVLJE 1. REGRESIONA ANALIZA 11<br />
Slika 1.3<br />
Prikazani odnos izmežu regresione linije za populaciju (puna linija) i uzorak<br />
(isprekidana linija) je striktno teoretske prirode jer ºelimo ukazati na<br />
razliku koja postoji izmežu slu£ajne gre²ke i reziduala. Obratimo paºnju da<br />
je na slici 1.3 za opservaciju x i rezidual e i znatno manji od slu£ajne gre²ke<br />
ε i . Takožer, ovaj prikaz £itaocu daje bolji uvid u to ²ta procjenjeni regresioni<br />
model predstavlja. Obzirom da ¢e se procjena parametara vr²iti na<br />
osnovu uzorka koji je podloºan slu£ajnim varijacijama, dobijeni koecijenti<br />
¢e se razlikovati od stvarnih parametara u populaciji. U praksi, regresionu<br />
liniju koja je istinita za populaciju ne¢emo znati. Da je znamo, onda nam<br />
ne bi ni trebao uzorak i procjena parametara. Stoga, iz prakti£nih razloga,<br />
u daljem tekstu moºemo ignosrisati razliku izmežu e i ε. 7<br />
Da bi uz pomo¢ State dobili OLS procjenu traºenih parametara za model<br />
1.2 koji opisuje uticaj iskustva prodava£a (gisk) na ostvareni prodajni<br />
rezultat (prod), iskoristi¢emo naredbu regress:<br />
7 U ekonometriji distinkcija izmežu slu£ajnih gre²ki i reziduala postaje bitna.
POGLAVLJE 1. REGRESIONA ANALIZA 12<br />
. reg prod gisk<br />
Source SS df MS Number of obs = 50<br />
F( 1, 48) = 29.29<br />
Model 328.598902 1 328.598902 Prob > F = 0.0000<br />
Residual 538.579374 48 11.2204036 R-squared = 0.3789<br />
Adj R-squared = 0.3660<br />
Total 867.178276 49 17.6975158 Root MSE = 3.3497<br />
prod Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />
gisk .4318472 .0797997 5.41 0.000 .2713991 .5922953<br />
_cons 10.66534 1.24293 8.58 0.000 8.166265 13.16442<br />
Output 1.3<br />
Najzna£ajniji rezultat regresione analize su dva koecijenta: b 0 konstanta<br />
(10,66) i b 1 nagib linije (0,43). Konstanta b 0 je ta£ka u kojoj regresiona<br />
linija sije£e y-osu i predstavlja vrijednost zavisne varijable kada je nezavisna<br />
varijabla x = 0. U konkretnom slu£aju to zna£i da na² prosti regresioni<br />
model predviža da ¢e komercijalista bez iskustva (gisk = 0) u periodu od<br />
mjesec dana ostvariti prodaju u vrijednosti od 10.665,34 KM. Nagib linije<br />
b 1 pokazuje za koliko ¢e se promijeniti vrijednost zavisne varijable ako se<br />
vrijednost nezavisne varijable promijeni za 1. U konkretnom primjeru to<br />
zna£i da svaka dodatna godina iskustva pove¢ava o£ekivanu prodaju za 431,8<br />
KM. 8<br />
Estimirani model moºemo predstaviti i gra£ki.<br />
. twoway (scatter prod gisk) (lfit prod gisk)<br />
8 Obzirom da su vrijednosti prodaje unutar skupa podataka izraºene u 000 KM, dobijene<br />
koecijente b 0 i b 1 smo pomnoºili sa 1.000.
POGLAVLJE 1. REGRESIONA ANALIZA 13<br />
Slika 1.4<br />
Na slici 1.4 vidimo regresionu liniju dobijenu uz pomo¢ OLS estimatora.<br />
To je linija koja najbolje opisuje linearni trend koji postoji izmežu iskustva<br />
i prodajnog rezultata. Ni jedna druga linija koju bi povukli slobodnom<br />
procjenom ne bi bolje minimizirala odstupanja pojedina£nih opservacija od<br />
uo£enog linearnog pravca. Obratimo paºnju da je koecijent b 1 jednak koli£niku<br />
promjene y u odnosu na promjenu x. Radi jednostavnosti interpretacije,<br />
uzima se promjena y kada se x promjeni za jednu jednicu pa imamo da je<br />
b 1 = ∆y<br />
∆x = +0,43<br />
1<br />
= +0, 43. Ukoliko bi regresionu liniju na slici produºili<br />
nalijevo, ona bi u ta£ci x = 0 sjekla vertikalnu y-osu ta£no na 10,66 ²to<br />
predstavlja vrijednost konstante b 0 .<br />
1.2.2 Testiranje signikantnosti regresionih koecijenata<br />
Nakon ²to smo procijenili parametre regresionog modela potrebno je utvrditi<br />
da li su dobijeni koecijenti statisti£ki signikantni. Za²to je to bitno?<br />
Prisjetimo se da koecijent b 1 predstavlja promjenu zavisne varijable koja se<br />
javlja kao posljedica jedini£ne promjene nezavisne varijable. Ako nezavisna
POGLAVLJE 1. REGRESIONA ANALIZA 14<br />
varijabla nema efekta na zavisnu varijablu onda bi koecijent b 1 trebao biti<br />
nula. U tom slu£aju x i y nisu linearno povezani. Mežutim, potrebno je<br />
imati na umu £injenicu da je koecijent b 1 samo procjena stvarnog parametra<br />
β 1 koji je istinit za populaciju. Obzirom da se procjena vr²i na bazi<br />
uzorka, pretpostavka je da ¢e se b 1 u ve¢oj ili manjoj mjeri razlikovati od<br />
stvarnog parametra β 1 . Zbog toga je potrebno testirati hipotezu da se b 1<br />
zaista razlikuje od nule, a samim tim i da prediktor ima stvarni efekat na<br />
zavisnu varijablu.<br />
Hipoteza kojom testiramo postojanje linearne veze izmežu y i x ima sljede¢u<br />
formu:<br />
H 0 : b 1 = 0<br />
H 1 : b 1 ≠ 0<br />
Ovu hipotezu testiramo primjenom t-testa. Naime, ukoliko je pretpostavka<br />
o normalno distribuiranim rezidualima ta£na, statistika testa ¢e imati<br />
t distribuciju sa N − p − 1 stepena slobode 9 :<br />
t = b 1<br />
SE b1<br />
(1.8)<br />
gdje je b 1 procjenjeni koecijent, a SE b1 je standardna gre²ka za b 1 koja<br />
ukazuje do koje mjere ¢e b 1 varirati mežu razli£itim uzorcima.<br />
Nakon ²to izra£unamo opserviranu t-vrijednost, ona se poredi sa vrijedno²¢u<br />
koju bi o£ekivali ako nema efekta (tj. ako je b 1 = 0). Da bi odbacili<br />
H 0 uz 0,95 pouzdanost, opservirana t-vrijednost treba biti ve¢a od 1,96. U<br />
tom slu£aju prihvatamo alternativnu hipotezu H 1 da je b 1 razli£it od nule<br />
i da nezavisna varijabla doprinosi predvižanju vrijednosti zavisne varijable.<br />
’to je ve¢a opservirana t-vrijednost, to ¢e i efekat prediktora biti ve¢i.<br />
Unutar Stata outputa 1.3 dobijeni regresioni koecijent b 1 = 0, 4318 ima<br />
pridruºenu standardnu gre²ku SE b1 = 0, 0797. Prema formuli 1.8 moºemo<br />
izra£unati da je:<br />
t = b 1 0, 4318<br />
= = 5, 41<br />
SE b1 0, 0797<br />
9 N se odnosi na veli£inu uzorka a p na broj prediktora u modelu. Za prosti regresioni<br />
model ima¢emo N − 1 − 1, odnosno N − 2 stepena slobode.
POGLAVLJE 1. REGRESIONA ANALIZA 15<br />
Obzirom da je opservirana t-vrijednost ve¢a od 1,96 zaklju£ujemo da<br />
godine iskustva (gisk) imaju efekat i da zna£ajno doprinose predvižanju<br />
ostvarene prodaje (prod).<br />
Obi£no se navodi i ta£an nivo signikantnosti koecijenta izraºen preko<br />
p-vrijednosti. 10 Uobi£ajeni nivo signikantnosi koji se uzima za odbacivanje<br />
nulte hipoteze je 0,05 ili manje. Stata daje ta£nu p-vrijednost za svaki koecijent<br />
u regresionoj jedna£ni. Iz outputa 1.3 u koloni P>|t| moºemo vidjeti<br />
da je varijabla gisk (godine iskustva) signikantna uz p = 0, 00 ²to je manje<br />
od potrebnih 0,05.<br />
1.3 Kori²tenje regresionog modela za predvižanje<br />
vrijednosti zavisne varijable<br />
Nakon ²to smo ustanovili parametre regresione linije i vidjeli da nezavisna<br />
varijabla ima efekat na zavisnu varijablu, dobijeni model moºemo iskoristiti<br />
za predvižanje vrijednosti zavisne varijable. Prvo ¢emo oznake y i x unutar<br />
jedna£ine 1.6 zamijeniti sa nazivima varijabli iz seta sa podacima:<br />
ˆ prod = b 0 + b 1 gisk<br />
U drugom koraku, uvrsti¢emo vrijednosti procjenjenih parametara tako<br />
da dobijemo:<br />
ˆ prod = 10, 66 + 0, 432 × gisk<br />
Sada je mogu¢e predvidjeti obim prodaje tako ²to ¢emo u jedna£inu unijeti<br />
broj godina iskustva koji nas interesuje. Na primjer, zamislimo da ºelimo<br />
saznati koliki obim prodaje ¢e ostvariti komercijalista koji ima 22 godine iskustva.<br />
U gornju jedna£inu unije¢emo sljede¢e:<br />
ˆ prod = 10, 66 + 0, 432 × 22 = 20.164<br />
10 Nivo zna£ajnosti koecijenta je vjerovatno¢a dobijanja tako velikog ili ve¢eg koecijenta<br />
(u apsolutnom iznosu) ako prediktor zaista nema nikakvog efekta na zavisnu varijablu<br />
(pa je samim tim i bilo kakav opservirani efekat u uzorku samo rezultat slu£ajnosti).
POGLAVLJE 1. REGRESIONA ANALIZA 16<br />
Dakle, zaklju£ujemo da o£ekivani obim prodaje za komercijalistu sa 22<br />
godine iskustva u prosjeku iznosi 20.164 KM.<br />
1.4 Intervali procjene unutar regresionog modela<br />
U prethodonom odjeljku smo demonstrirali kako regresioni model moºemo<br />
iskoristiti za predvižanje o£ekivane prodaje. Mežutim, dobijenu procjenu<br />
trebamo uzeti sa oprezom. Prvo, ako bi ponovo uzeli uzorak, dobijeni koecijenti<br />
bi se bar donekle razlikovali u odnosu na one dobijene na bazi prvog<br />
uzorka. Drugo, svi komercijalisti sa istim brojem godina iskustva ne¢e imati<br />
isti obim prodaje jer ¢e na njihove performanse djelovati i drugi faktori koje<br />
nismo uklju£ili u model. Da bi predvižanje u£inili korisnijim, potrebno je<br />
vidjeti u kojem o£ekivanom rasponu se nalazi procijenjena vrijednost. U tu<br />
svrhu koriste se intervali pouzdanosti. Unutar regresionog modela postoji<br />
nekoliko razli£itih intervalnih procjena uz podrazumjevni 95% nivo pouzdanosti:<br />
• Interval pozdanosti za regresione koecijente odnosi se na vjerovatno¢u<br />
obuhvata nepoznatih parametara unutar populacije. Za formiranje<br />
ovog intervala koristi se standardna gre²ka vezana uz procijenjene<br />
koecijente. Procjenjeni interval dat je unutar outputa 1.3 i u na²em<br />
primjer za β 1 iznosi 0,271≤ β 1 ≤0,592. Dakle, uz 95% pouzdanost<br />
zaklju£ujemo da ¢e porast iskustva komericijaliste za jednu godinu rezultirati<br />
sa pove¢anjem ostvarene prodaje za neku vrijednost izmežu<br />
271 i 592 KM. Ovaj interval pouzdanosti povezan je sa ranije pomenutim<br />
testiranjem hipoteza. Ukoliko 95% interval pouzdanosti obuhvata<br />
nulu, onda nemamo dovoljno dokaza da zaklju£imo da je nagib regresione<br />
linije razli£it od nule, a samim tim ne postoji ni dovoljno dokaza<br />
za linearnu vezu izmežu y i x. 11<br />
• Interval ocjene o£ekivane prosje£ne vrijednosti zavisne varijable E(y|x),<br />
odnosi se na predvižanje prosje£ne vrijednosti ŷ i za izabrane vrijednosti<br />
nezavisne varijable x i . Raspon ovog intervala je predstavljen isprekidanom<br />
linijom na slici 1.5.<br />
• Interval predvižanja pojedina£nih vrijednosti zavisne varijabe y i za<br />
11 Formiranje intervala pouzdanosti i testiranje hipoteze za konstantu β 0 se obavlja na<br />
potpuno isti na£in. Mežutim, testiranje signikantnosti za β 0 £esto nema prakti£nu<br />
vrijednost za rje²avanje problema pa se tuma£enje moºe izostaviti.
POGLAVLJE 1. REGRESIONA ANALIZA 17<br />
izabrane vrijednost nezavisne varijable x i . Raspon ovog intervala je<br />
predstavljen punom sivom linijom na slici 1.5.<br />
Razlika izmežu intervala ocjene i intervala predvižanja je u tome ²to se<br />
interval ocjene odnosi na raspon u kojem ¢e nalaziti o£ekivani prosjek varijable<br />
y, dok se interval predvižanja odnosi na raspon u kojem ¢e se nalaziti<br />
pojedina£ne opservacije varijable y. Obzirom da pozicija pojedina£nih vrijednosti<br />
zavisi od veli£ine reziduala e, interval predvižanja ¢e uvijek biti ²iri<br />
od intervala ocjene ²to je predstavljeno na slici 1.5.<br />
. twoway (scatter prod gisk) (lfitci prod gisk, ciplot(rline))<br />
(lfitci prod gisk, stdf ciplot(rline))<br />
Slika 1.5<br />
1.5 Reprezentativnost regresionog modela<br />
Kad smo odredili jedna£inu regresione linije vaºno je utvrditi kako dobro ta<br />
linija reprezentuje na²e podatke (engl. Goodnes of Fit). Koefcijent determinacije<br />
(R 2 ), kao relativna mjera reprezentativnosti regresionog modela,<br />
pokazuje procenat obja²njenog varijabiliteta zavisne varijable, odnosno koliko<br />
su varijacije unutar zavisne varijable y obja²njene nezavisnom varijablom<br />
x. Vrijednost koecijenta se kre¢e u rasponu od 0 do 1, gdje ve¢a vrijednost<br />
zna£i bolju reprezentativnost.
POGLAVLJE 1. REGRESIONA ANALIZA 18<br />
Kako dolazimo do R 2 ? U su²tini, regresiona linija se poredi sa bazi£nim<br />
modelom kojeg predstavlja aritmeti£ka sredina. Ukoliko regresiona linija ne<br />
obja²njava varijacije unutar zavisne varijable ni²ta bolje u odnosu na aritmeti£ku<br />
sredinu, onda ¢e koecijent determinacije biti R 2 = 0. Tada kaºemo<br />
da nema linearne veze izmežu varijabli. Gra£ki predstavljeno, procjenjena<br />
regresiona linija bi bila horizontalna i odgovarala bi aritmeti£koj sredini.<br />
Mežutim, ako regresioni model obja²njava vi²e varijacija unutar zavisne varijable<br />
u odnosu na aritmeti£ku sredinu, koecijent determinacije ¢e rasti.<br />
U idealnom slu£aju, ako bi regresioni model uspio objasniti sve varijacije<br />
unutar zavisne varijable, koecijent determinacije bi iznosio R 2 = 1 i tada bi<br />
postojala perfektna linearna veza izmežu varijabli. U tom slu£aju, sve empirijske<br />
vrijednosti y i nalazile bi se na liniji regresije i ne bi bilo raspre²nosti,<br />
tj. obja²njeni varijabilitet bi bio jednak ukupnom varijabilitetu.<br />
Na slici 1.6 smo dali presjek varijabilitea za jednu opseraciju (komercijalistu<br />
broj 26).<br />
Slika 1.6<br />
Vertikalna isprekidana linija predstavlja aritmeti£ku sredinu nezavisne
POGLAVLJE 1. REGRESIONA ANALIZA 19<br />
varijable (¯x), dok je horizontalnom isprekidanom linijom predstavljena aritmeti£ka<br />
sredina zavisne varijable (ȳ). Regresiona linija sije£e presjek ove<br />
dvije linije. Empirijska ta£ka za komercijalistu broj 26 nalazi se u gornjem<br />
desnom uglu dijagrama. Na osnovu poloºaja ta£ke na dijagramu vidimo da<br />
taj komercijalista ima x 26 = 22 godine iskustva i da je ostvario mjese£ni<br />
iznos prodaje u iznosu od y 26 = 24.603 KM. Mežutim, na² regresioni model<br />
predviža da ¢e komercijalista koji ima 22 godine iskustva u prosjeku<br />
ostvariti prodaju u iznosu ŷ 26 = 20.164 KM. Razlika izmežu predvižene i<br />
stvarne vrijednosti se odnosi na rezidual: e 26 = y 26 −ŷ 26 = 24.603−20.164 =<br />
4.439 KM. Razlika izmežu aritmeti£ke sredine i stvarne vrijednosti za datu<br />
opservaciju predstavlja ukupni varijabilitet i u konkretnom slu£aju iznosi:<br />
y 26 − ȳ = 24.603 − 16.880 = 7.723 KM. Razlika izmežu aritmeti£ke sredine<br />
i vrijednosti predvižene modelom za datu opservaciju predstavlja obja²njeni<br />
varijabilitet: ŷ 26 − ȳ = 20.164 − 16.880 = 3.284 KM.<br />
Pretpostavimo da za svaku varijablu izra£unamo obja²njeni, neobja²njeni<br />
i ukupni varijabilitet i da dobijene vrijednosti kvadriramo. Stata navedene<br />
kalkulacije obavlja automatski. U prvoj tabeli, koja se nalazi na lijevoj strani<br />
outputa 1.3, predstavljeni su nalni rezultati tih kalkulacija. Suma kvadrata<br />
obja²njenog varijabiliteta SS M = ∑ (ŷ i −ȳ) 2 odnosi se na pobolj²anje u predvižanju<br />
zbog upotrebe regresione linije umjesto aritmeti£ke sredine. Suma<br />
kvadrata neobja²njenog varijabiliteta SS R = ∑ (y i − ȳ) 2 predstavlja ukupno<br />
odstupanje izmežu vrijednosti predviženih modelom i stvarnih vrijednosti.<br />
Stoga je suma kvadrata ukupnog varijabiliteta zavisne promjenljive jednaka<br />
zbiru SS T = SS M + SS R . Oznaka df se odnosi na broj stepeni slobode. U<br />
slu£aju SS M broj stepeni slobode jednak je broju nezavisnih varijabli (df = 1<br />
za prosti regresioni model). Za SS R broj stepeni slobode predstavlja broj<br />
opservacija umanjen za broj koecijenata regresionog modela. U konkretnom<br />
slu£aju imamo 50 opservacija, a model ima dva koecijenta, jedan za<br />
konstantu (b 0 ) i jedan za nagib (b 1 ), pa ¢e biti df = 50 − 2 = 48. Na osnovu<br />
ovoga izra£unava se prosje£na suma kvadrata za svaki od ovih pojmova dijeljenjem<br />
sume kvadrata sa brojem stepeni slobode. Tako dobijamo prosje£ni<br />
kvadrat modela (MS M ) i prosje£ni kvadrat gre²ke (MS R ).<br />
U drugoj tabeli outputa 1.3 nalazi se rezultat analize varijanse (ANOVA)<br />
kojom se testira da li je model zna£ajno bolji u predvižanju vrijednosti zavisne<br />
varijable u odnosu na slu£aj kada za predvižanje koristimo samo aritmeti£ku<br />
sredinu. Dijeljenjem MS M sa MS R dobijamo F statistiku koja pokazuje<br />
postotak pobolj²anja u predvižanju vrijednosti zavisne varijable koji<br />
se javlja kao posljedica upotrebe modela u odnosu na neobja²njenu varijansu<br />
koja postoji u modelu. Ukoliko je regresioni model bolji od aritmeti£ke sre-
POGLAVLJE 1. REGRESIONA ANALIZA 20<br />
dine za o£ekivati je da razlika izmežu vrijednosti predviženih modelom i<br />
opserviranih vrijednosti bude mala. Ukratko, dobar model bi trebao da ima<br />
veliku F statistiku (bar ve¢u od 1). Signikantnost F statistike moºe se procijeniti<br />
pronalaºenjem kriti£nih vrijednosti za korespondiraju¢i broj stepeni<br />
slobode unutar statisti£kih tablica. Nije problem ukoliko pri ruci nemamo<br />
statisti£ke tablice jer Stata izra£unava ta£nu vjerovatno¢u dobijanja date F<br />
vrijednosti kao posljedice slu£ajnosti. Za na² model F iznosi 29,29 ²to je<br />
malo vjerovatno da se desilo kao posljedica slu£ajnosti (p
POGLAVLJE 1. REGRESIONA ANALIZA 21<br />
y i = b 0 + b 1 x 1i + b 2 x 2i + . . . + b k x ki + e i (1.9)<br />
gdje je y zavisna varijabla, e je rezidual, b 0 je konstanta, b 1 x 1 je prvi prediktor<br />
sa pripadaju¢im koecijentom, b 2 x 2 je drugi prediktor sa pripadaju¢im<br />
koecijentom i tako dalje sve do zadnjeg prediktora b k x k . Oznaka i se odnosi<br />
na opservacije unutar uzorka: i = 1, 2, . . . , N.<br />
Sve ²to je ranije re£eno za prosti regresioni model vrijedi i ovdje. Iako se<br />
izra£un znatno usloºnjava kako broj prediktora u modelu raste, procjena parametara<br />
se i u slu£aju vi²estruke regresije moºe dobiti metodom najmanjih<br />
kvadrata.<br />
Prisjetimo se da smo prosti regresioni model mogli gra£ki predstaviti<br />
linijom na dvodimenzionalnom dijagramu rasipanja (slika 1.4). Vi²estruki<br />
regresioni model sa dva prediktora moºemo vizualizirati kao liniju koja minimizira<br />
odstupanja pojedina£nih opservacija od uo£enog linearnog pravca<br />
unutar trodimenzionalnog prostora. Model sa tri ili vi²e prediktora nije<br />
mogu¢e vizuelno predstaviti jer ulazimo u domen apstraktnog vi²edimenzionalnog<br />
prostora. Sre¢om, sloºene matematske kalkulacije za minimiziranje<br />
odstupanja opservacija u takvim situacijama ¢e obaviti softverski paket pa<br />
o tome ne trebamo brinuti.<br />
Kroz prethodni primjer smo utvrdili da postoji signikantan uticaj godina<br />
iskustva prodava£a (gisk) na ostvareni prodajni rezultat (prod). Mežutim,<br />
znatan dio varijabiliteta zavisne varijable je ostao neobja²njen. Pretpostavimo<br />
da je istraºiva£ ºelio prosti regresioni model pro²iriti sa dodatnim<br />
prediktorima kako bi dobio preciznije predvižanje o£ekivane prodaje. U tu<br />
svrhu, pored iskustva prodava£a, mjereni su i dodatni faktori koji mogu uticati<br />
na rezultat prodava£a: budºet za unapreženje prodaje i broj terenskih<br />
posjeta.<br />
Budºet za unapreženje prodaje (varijabla prom) je mjese£ni iznos u 000<br />
KM koji je komercijalista imao na raspolaganju kako bi lak²e sklopio posao<br />
sa distributerom. Sredstva iz ovog budºeta prodajni predstavnik je mogao<br />
iskoristiti za smanjenje prodajne cijene kroz pogodbe i popuste, a sve kako<br />
bi se pove¢ala efektivnosti li£ne prodaje kroz izgradnju dobrih odnosa sa<br />
distributerima.<br />
Broj terenskih posjeta (varijabla posj) se odnosi na dnevni prosjek u£estalosti<br />
posjeta potencijalnim klijentima koje je komercijalista obavio tokom<br />
mjeseca. Naime, radno vrijeme komercijalista je podijeljeno na terenski rad<br />
i kancelarijske poslove. Obzirom da nije specicirano koliko ta£no radnog
POGLAVLJE 1. REGRESIONA ANALIZA 22<br />
vremena se odnosi na ove dvije aktivnosti, neki komercijalisti preferiraju da<br />
jedan dio posla sa potencijalnim klijentima zavr²e putem telefona.<br />
Deskriptivna statistika za varijable od interesa je data u okviru outputa<br />
1.4:<br />
. summarize prod gisk prom posj<br />
Variable Obs Mean Std. Dev. Min Max<br />
Output 1.4<br />
prod 50 16.88394 4.206842 7.913408 25.03742<br />
gisk 50 14.4 5.996598 1 25<br />
prom 50 2.9 .9583148 .5 5<br />
posj 50 4.86 .8573809 3 6<br />
Aritmeti£ka sredina, standardna devijacija i raspon za varijable prod i<br />
gisk su isti kao i u outputu 1.1. Kad je rije£ o budºetu za unapreženje<br />
prodaje (prom), moºemo vidjeti da se kretao u rasponu od 500 do 5.000 KM<br />
sa prosjekom od 2.900 KM. Komercijalisti su tokom dana u prosjeku obavljali<br />
oko pet posjeta ( posj ¯ = 4, 86). Mežutim, ovaj broj znatno varira i kre¢e se<br />
od minimalne 3 posjete dnevno pa do maksimalnih 6 posjeta dnevno.<br />
Podaci za pet prvih i pet posljednjih komercijalista unutar seta podataka<br />
su dati u okviru outputa 1.5:<br />
. list prod gisk prom posj if id45<br />
prod gisk prom posj<br />
1. 14.71799 12 1 5<br />
2. 14.47563 15 2.5 4<br />
3. 13.13771 19 2 5<br />
4. 17.58048 23 3.5 4<br />
5. 16.74326 19 3 4<br />
46. 14.73048 15 2.5 5<br />
47. 18.95334 11 3 6<br />
48. 12.71036 10 .5 4<br />
49. 18.86257 17 3 4<br />
50. 18.23663 18 3.5 4<br />
Output 1.5
POGLAVLJE 1. REGRESIONA ANALIZA 23<br />
Vrijednosti prodaje (prod) i godine iskustva (gisk) su identi£ne kao i unutar<br />
outputa 1.2. Pored toga uo£avamo da je prvi komercijalista na raspolaganju<br />
imao promotivni budºet u iznosu od 1.000 KM i da je u prosjeku<br />
obavio pet posjeta tokom dana. Drugi komercijalista je na raspolaganju imao<br />
promotivni budºet od 2.500 KM, a u prosjeku je obavijao 4 posjete dnevno<br />
itd.<br />
Ukoliko generi£ke odrednice za varijable unutar jedna£ine 1.9 zamjenimo<br />
imenima varijabli iz outputa 1.5, vi²estruki regresioni model ¢e imati sljede¢i<br />
oblik:<br />
prod i = b 0 + b 1 gisk i + b 2 prom i + b 3 posj i + e i (1.10)<br />
Vi²estruki regresioni model sada sadrºi konstantu i tri koecijenta (b 1 do<br />
b 3 ) po jedan za svaku nezavisnu varijablu. Ovi koecijenti se nazivaju<br />
parcijalnim regresionim kecijentima.<br />
1.6.1 Procjena parametara vi²estrukog regresionog modela<br />
Kao i ranije, procjenu ¢emo obaviti koriste¢i naredbu regress. Rezultat je<br />
predstavljen na outputu 1.3.<br />
. reg prod gisk prom posj<br />
Source SS df MS Number of obs = 50<br />
F( 3, 46) = 28.62<br />
Model 564.685207 3 188.228402 Prob > F = 0.0000<br />
Residual 302.493069 46 6.57593629 R-squared = 0.6512<br />
Adj R-squared = 0.6284<br />
Total 867.178276 49 17.6975158 Root MSE = 2.5644<br />
prod Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />
gisk .3519726 .0732154 4.81 0.000 .2045976 .4993477<br />
prom 2.234714 .4293445 5.20 0.000 1.370488 3.098939<br />
posj 1.450143 .4658765 3.11 0.003 .5123825 2.387904<br />
_cons -1.712828 2.942173 -0.58 0.563 -7.635115 4.20946<br />
Output 1.6<br />
Primje¢ujemo da model koji uklju£uje dodatne prediktore obja²njava<br />
znatno vi²e varijabiliteta unutar zavisne varijable u odnosu na prosti regresioni<br />
model (output 1.3). Korigovani koecijent detrminacije iznosi R 2 =
POGLAVLJE 1. REGRESIONA ANALIZA 24<br />
0, 6284, ²to govori da je 62,84% varijanse za varijablu prod (prodaja) obja²njeno<br />
uklju£enim prediktorima. Ipak, odreženi dio varijabiliteta (37,16%)<br />
unutar ostvarene prodaje i dalje ostaje neobja²njen.<br />
Unutar outputa 1.6 nalazi se procjena parametara modela i vrijednosti<br />
koecijenata koje indiciraju individualni doprinos svake nezavisne varijable<br />
modelu. Ako procijenjene parametre uklju£imo u prethodni matematski izraz<br />
dobi¢emo:<br />
prod i = −1, 71 + 0, 351 × gisk i + 2, 234 × prom i + 1, 450 × posj i + e i<br />
Vrijednost svih regresionih koecijenta je pozitivana pa moºemo re¢i da<br />
postoji pozitivna veza izmežu zavisne varijable i nezavisnih varijabli (ili prediktora).<br />
Pored ovog, koecijenti nam kazuju kako svaki prediktor djeluje na<br />
zavisnu varijablu ako se uticaj svih ostalih prediktora ne mijenja. Dobijene<br />
koecijente tuma£imo na sljede¢i na£in:<br />
• Godine iskustva prodava£a (b 1 = 0, 351): Ako se iskustvo prodava£a<br />
pove¢a za 1 godinu, obim prodaje ¢e se pove¢ati za 0,351 jedinicu,<br />
uz uslov da ostale nezavisne varijable ostanu nepromijenjene. Kako<br />
je obim prodaje izraºen u 000 KM, ovo zna£i da svaka dodatna godina<br />
iskustva prodava£a u prosjeku pove¢ava ostvareni obim prodaje<br />
za 351 KM, ²to je ta£no samo ako vrijednosti ostalih prediktora drºimo<br />
konstantnim.<br />
• Budºet za unapreženje prodaje (b 2 = 2, 234): Ako se budºet za unapreženje<br />
prodaje koji komercijalista ima na raspolaganju pove¢a za<br />
jednu jedinicu, vrijednost zavisne varijable ¢e se pove¢ati za 2,234 jedinicu,<br />
uz uslov da ostale nezavisne varijable ostanu nepromijenjene.<br />
Obje varijable su izraºene u 000 KM, a to zna£i da ¢e se za svakih dodatnih<br />
1.000 KM uloºenih u budºet za unapreženje prodaje, ostvareni<br />
obim prodaje u prosjeku pove¢ati za 2.234 KM, ²to je ta£no samo ako<br />
vrijednosti ostalih prediktora drºimo konstantnim.<br />
• Broj terenskih posjeta (b 3 = 1, 450): Ako broj dnevnih terenskih posjeta<br />
poraste za jedan, obim prodaje ¢e se pove¢ati za 1,45 jedinica, uz<br />
uslov da ostale nezavisne varijable ostanu nepromijenjene.Obim prodaje<br />
je izraºen u 000 KM pa kaºemo da ¢e dodatna dnevna posjeta klijentima<br />
u prosjeku pove¢ati ostvareni mjese£ni obim prodaje za 1.450<br />
KM, ²to je ta£no samo ako vrijednosti ostalih prediktora drºimo konstantnim.
POGLAVLJE 1. REGRESIONA ANALIZA 25<br />
• Konstanta (b 0 = −1, 712): Ako bi vrijednost svih ostalih nezavisnih varijabli<br />
bila jednaka nuli, konstanta nam govori da bi ostvarena prodaja<br />
(izraºena u 000 KM) u prosjeku bila negativna i iznosila −1, 712 KM.<br />
Obzirom da u stvarnosti ostvarena prodaja ne moºe biti negativna, jer<br />
bi to bilo protivno logici, dobijena konstanta se u konkretnom slu£aju<br />
ne tuma£i posebno.<br />
1.6.2 Testiranje signikantnosti regresionih koecijenata<br />
Dobijeni koecijenti imaju pridruºenu standardnu gre²ku koja ukazuje do<br />
koje mjere bi njihove vrijednosti varirale mežu razli£itim uzorcima. Kao i<br />
u slu£aju proste regresije, ove standarde gre²ke se upotrebljavaju da bi se<br />
utvrdilo da li se procjenjeni regresioni koecijenti zna£ajno razlikuju od nule.<br />
Ako je vrijednost t-testa pridruºenog koecijentu signikantna (tj. ako je<br />
vrijednost u koloni P>|t| manja od 0,05) onda prediktor zna£ajno doprinosi<br />
predvižanju vrijednosti zavisne varijable. ’to je ve¢a vrijednost t-statistike<br />
to je doprinos datog prediktora ve¢i.<br />
U na²em modelu sva tri prediktora: godine iskustva (t(50) = 4,81, p
POGLAVLJE 1. REGRESIONA ANALIZA 26<br />
. reg prod gisk prom posj<br />
Source SS df MS Number of obs = 50<br />
F( 3, 46) = 28.62<br />
Model 564685205 3 188228402 Prob > F = 0.0000<br />
Residual 302493056 46 6575936 R-squared = 0.6512<br />
Adj R-squared = 0.6284<br />
Total 867178261 49 17697515.5 Root MSE = 2564.4<br />
prod Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />
gisk 351.9726 73.21545 4.81 0.000 204.5976 499.3477<br />
prom 2.234713 .4293445 5.20 0.000 1.370488 3.098939<br />
posj 1450.143 465.8764 3.11 0.003 512.3826 2387.904<br />
_cons -1712.828 2942.173 -0.58 0.563 -7635.115 4209.459<br />
Output 1.7<br />
Za razliku od situacije koju smo imali unutar prethodnog outputa 1.6,<br />
vidimo da je na novom outputu 1.7 koecijent za unapreženje prodaje (varijabla<br />
prom) daleko manji od koecijenta vezanog za godine iskustva (gisk).<br />
Obratimo paºnju da promjena na£ina na koji su izraºene vrijednosti varijabli<br />
nije uticala na koecijent determinacije, t-statistike i njima pridruºene<br />
p-vrijednosti. Dakle, mijenjanje na£ina iskazivanja vrijednosti varijabli uti£e<br />
samo na veli£inu dobijenih regresionih koecijenata.<br />
Druga stvar koju trebamo imati na umu je da su vrijednosti razli£ith varijabli<br />
£esto mjerene mežusobno neuporedivim jedinicama mjere. Na primjer,<br />
u na²em regresionom modelu iskustvo prodava£a (gisk) je mjereno godinama<br />
rada na terenu, a budºet za unapreženje prodaje (prom) je izraºen u novcu.<br />
Zbog toga veli£inu dobijenih koecijenata ne moºemo direktno komparirati<br />
kako bi dobili uvid u relativnu vaºnost koju pojedina nezavisna varijabla ima<br />
u modelu.<br />
Jedan od na£ina na koji, bar u odreženoj mjeri, moºemo direktno uporediti<br />
uticaj razli£itih varijabli u modelu je preko standardizovanih regresionih<br />
koecijenata 12 . To su regresioni koecijenti koje dobijemo kada sve nezavisne<br />
varijable standardizujemo i iskaºemo preko z-skora. Ovi se koecijenti mogu<br />
dobiti i ako se obi£ni regresioni koecijenti pomnoºe koli£nikom standardne<br />
devijacije odgovaraju¢e nezavisne varijable i zavisne varijable:<br />
Beta i = b i × s i<br />
s y<br />
(1.11)<br />
12 Ovi koecijenti se £esto nazivaju i beta koecijentima (engl. beta weights)
POGLAVLJE 1. REGRESIONA ANALIZA 27<br />
gdje se i odnosi na odgovaraju¢u nezavisnu varijablu.<br />
Da bi unutar State dobili standardizovane koecijente moramo ih izri£ito<br />
zatraºiti preko opcije beta, koja se koristi uz naredbu regress:<br />
. reg prod gisk prom posj, beta<br />
Source SS df MS Number of obs = 50<br />
F( 3, 46) = 28.62<br />
Model 564.685207 3 188.228402 Prob > F = 0.0000<br />
Residual 302.493069 46 6.57593629 R-squared = 0.6512<br />
Adj R-squared = 0.6284<br />
Total 867.178276 49 17.6975158 Root MSE = 2.5644<br />
prod Coef. Std. Err. t P>|t| Beta<br />
gisk .3519726 .0732154 4.81 0.000 .5017156<br />
prom 2.234714 .4293445 5.20 0.000 .5090658<br />
posj 1.450143 .4658765 3.11 0.003 .2955483<br />
_cons -1.712828 2.942173 -0.58 0.563 .<br />
Output 1.8<br />
Standardizovani regresioni koecijenti su prikazani u koloni Beta unutar<br />
outputa 1.8. Njihove vrijednosti govore o broju standardnih devijacija za<br />
koje ¢e se promijeniti vrijednost zavisne varijable ako se vrijednost nezavisne<br />
varijable promijeni za jednu standardnu devijaciju. Budu¢i da ne zavise od<br />
jedinica mjere kojima su mjerene pojedine varijable, ovi koecijenti nam<br />
daju bolji uvid u vaºnost svakog prediktora unutar modela, omogu¢uju¢i<br />
da uporedimo relativni efekt prediktora mjerenih na razli£itim skalama. 13<br />
Dobijene standardizovane koecijente iz outputa 1.8 tuma£imo na sljede¢i<br />
na£in:<br />
• Godine iskustva prodava£a (standardizovani b 1 = 0, 502): Prodava£<br />
koji ima iskustvo ve¢e za 1 standardnu devijaciju, moºe o£ekivati prodaju<br />
ve¢u za 0,502 standardne devijacije uz uslov da ostale nezavisne<br />
varijable ostanu nepromijenjene. Standardna devijacija za varijablu<br />
13 Vaºnost ovdje treba shvatiti uslovno jer vrijednost standardizovanih koecijenata jo²<br />
uvijek zavisi od drugih nezavisnih varijabli koje su uklju£ene u model. Takožer, odogovor<br />
na pitanje koja je varijabla najvaºnija zavisi od konteksta u kojem se postavlja pitanje.<br />
Naime, vrijednosti nekih prediktora se u prkasi mogu mnogo teºe mijenjati. Analiti£ar<br />
treba uzeti u obzir kakve promjene su izvodljive, koliko ko²taju i sli£no. U na²em<br />
primjeru, kompanija relativno lako moºe promijeniti budºet za unapreženje prodaje. S<br />
druge strane, iskustvo prodava£a je teºe unaprijediti u kratkom roku.
POGLAVLJE 1. REGRESIONA ANALIZA 28<br />
je gisk SD = 5, 99 a za prod SD = 4, 206. Dakle, za komercijalistu sa<br />
dodatnih 5,99 godina iskustva moºemo o£ekivati obim ostvarene prodaje<br />
ve¢i za dodatnih 2.111 KM (0,502×4,206), ²to je ta£no samo ako<br />
vrijednosti ostalih prediktora drºimo konstantnim.<br />
• Budºet za unapreženje prodaje (standardizovani b 2 = 0, 509): Ako se<br />
budºet za unapreženje prodaje koji komercijalista ima na raspolaganju<br />
pove¢a za jednu 1 standardnu devijaciju, vrijednost zavisne varijable<br />
¢e se pove¢ati za 0,509 standardne devijacije uz uslov da ostale nezavisne<br />
varijable ostanu nepromijenjene. Dakle, za svakih dodatnih<br />
958 KM (prom SD = 0, 958) uloºenih u budºet za unapreženje prodaje,<br />
ostvareni obim prodaje u prosjeku ¢e se pove¢ati za 2.141 KM<br />
(0,509×4,206), ²to je ta£no samo ako vrijednosti ostalih prediktora dr-<br />
ºimo konstantnim.<br />
• Broj terenskih posjeta (standardizovani b 3 = 0, 295): Koecient nam<br />
govori da za komercijalistu koji u odnosu na kolegu ima broj posjeta<br />
ve¢i za 1 standardnu devijaciju, moºemo o£ekivati prodaju ve¢u za<br />
0,295 standardne devijacije uz uslov da ostale nezavisne varijable ostanu<br />
nepromijenjene. Drugim rije£ima, za komercijalistu sa brojem<br />
posjeta koji je ve¢i za 0,857 (posj SD = 0, 857) u odnosu na drugog<br />
komercijalistu, moºemo o£ekivati ostvarenu prodaju u prosjeku ve¢u<br />
za 1.240 KM (0,295×4,206), ²to je ta£no samo ako vrijednosti ostalih<br />
prediktora drºimo konstantnim.<br />
Uporedbom standardizovanih koecijenata zaklju£ujemo da budºet za unapreženje<br />
prodaje (prom) i iskustvo prodava£a (gisk) imaju gotovo identi£nu<br />
relativnu vaºnost unutar modela. Efekat ove dvije varijable je znatno ve¢i<br />
od efekta varijable broj posjeta (posj). Ovakav zaklju£ak je u skladu i sa<br />
dobijenom t-statistikom.<br />
Iako se za sagledavanje vaºnosti varijabli unutar regresionog modela naj-<br />
£e²¢e koriste stadardizovane beta vrijednosti, postoje i drugi pokazatelji.<br />
Svaki od tih pokazatelja vaºnost varijabli prediktora posmatra iz drugog aspekata.<br />
Za detaljnu diksuiju i pregled alternativnih pokazatelja pogledati<br />
[2].
Bibliograja<br />
[1] Mileva šiºi¢, Miodrag Lovri¢, and Dubravka Pavli£i¢. Metodi statisti£ke<br />
analize. Ekonomski fakultet Beograd, Beograd, 11 edition, 2001.<br />
[2] Laura L. Nathans, Frederick L. Oswald, and Kim Nimon. Interpreting<br />
multiple linear regression: A guidebook of variable importance. Practical<br />
Assessment, Research & Evaluation, 17(9), 2012.<br />
[3] Paul Newbold, William L. Carlson, and Betty M. Throne. Statistika za<br />
poslovanje i ekonomiju. Mate d.o.o., Zagreb, Zagreb, 2010.<br />
29
Marketing <strong>analitika</strong>: Pretpostavke OLS<br />
regresionog modela 1<br />
autor: doc. dr Emir Agi¢<br />
13. 04. 2015. (ver. 1.1)<br />
1 NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnoºavanje<br />
ovog materijala ili nekih njegovih dijelova bez prethodnog pisanog pristanka<br />
autora.
Sadrºaj<br />
1 Pretpostavke OLS regresionog modela 3<br />
1.1 Pretpostavke koje se ti£u podataka i uzorka . . . . . . . . . . 3<br />
1.1.1 Tipovi varijabli . . . . . . . . . . . . . . . . . . . . . . 4<br />
1.1.2 Preciznost mjerenja varijabli . . . . . . . . . . . . . . 5<br />
1.1.3 Veli£ina i karakteristike uzorka . . . . . . . . . . . . . 5<br />
1.1.4 Nedostaju¢i podaci . . . . . . . . . . . . . . . . . . . . 6<br />
1.1.4.1 Obrasci nedostaju¢ih podataka . . . . . . . . 6<br />
1.1.4.2 Rje²avanje problema nedostaju¢ih podataka . 8<br />
1.1.5 Netipi£ne opservacije . . . . . . . . . . . . . . . . . . . 8<br />
1.1.5.1 Efekti netipi£nih opservacija . . . . . . . . . 9<br />
1.1.5.2 Vrste netipi£nih opservacija . . . . . . . . . . 11<br />
1.1.5.3 Detektovanje netipi£nih opservacija . . . . . 12<br />
1.1.5.4 Analiza veli£ine uticaja netipi£nih opservacija<br />
na model . . . . . . . . . . . . . . . . . . 18<br />
1.1.5.5 Strategija detekcije netipi£nih opservacija . . 20<br />
1.1.5.6 Rje²avanje problema netipi£nih opservacija . 21<br />
1.1.6 Vrijednosti nezavisne varijable x su ksne . . . . . . . 23<br />
1.2 Pretpostavke koje se odnose na pravilnu specikaciju modela 23<br />
1.2.1 Nepostojanje endogenosti . . . . . . . . . . . . . . . . 24<br />
1.2.1.1 Efekti endogenosti . . . . . . . . . . . . . . . 24<br />
1.2.1.2 Rje²avanje problema endogenosti . . . . . . . 25<br />
1.2.2 Linearnost . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />
1.2.2.1 Ispitivanje pretpostavke o linearnosti . . . . . 25<br />
1.2.2.2 Efekti naru²avanja linearnosti . . . . . . . . . 28<br />
1.2.2.3 Modeliranje nelinearne funkcionalne veze . . 28<br />
1.2.3 Nepostojanje multikolinearnosti . . . . . . . . . . . . . 28<br />
1.2.3.1 Detektovanje multikolinearnosti . . . . . . . 29<br />
1.2.3.2 Efekti multikolinearnosti . . . . . . . . . . . 31<br />
1
SADRšAJ 2<br />
1.2.3.3 Rje²avanje problema multikolinearnosti? . . . 32<br />
1.2.3.4 Multikolinearnost i efekat suzbijanja . . . . . 33<br />
1.3 Pretpostavke koje se odnose na svojstva distribucije reziduala 36<br />
1.3.1 Nepostojanje heteroskedasti£nosti . . . . . . . . . . . . 37<br />
1.3.1.1 Uzroci heteroskedasti£nosti . . . . . . . . . . 39<br />
1.3.1.2 Detektovanje heteroskedasti£nosti . . . . . . 40<br />
1.3.1.3 Efekti heteroskedasti£nosti . . . . . . . . . . 43<br />
1.3.1.4 Rje²avanje problema heteroskedasti£nosti . . 43<br />
1.3.2 Nezavisnost i nepostojanje autokorelacije . . . . . . . 44<br />
1.3.2.1 Detektovanje autokorelacije . . . . . . . . . . 46<br />
1.3.2.2 Efekti autokorelacije . . . . . . . . . . . . . . 48<br />
1.3.2.3 Rje²avanje problema autokorelacije . . . . . . 49<br />
1.3.3 Normalnost . . . . . . . . . . . . . . . . . . . . . . . . 49<br />
1.3.3.1 Ispitivanje pretpostavke o normalnosti . . . . 50<br />
1.3.3.2 Efekti naru²avanja pretpostavke o normalnosti 53<br />
1.3.3.3 Rje²avanje problema naru²ene pretpostavke<br />
o normalnosti . . . . . . . . . . . . . . . . . . 53
Poglavlje 1<br />
Pretpostavke OLS regresionog<br />
modela<br />
Da bi kompletirali regresioni model, moramo razmotriti i njegove osnovne<br />
pretpostavke. Pretpostavke se odnose na odrežene uslove koji trebaju biti<br />
ispunjeni kako bi zaklju£ci koje ¢emo izvesti na osnovu modela bili ta£ni.<br />
Kada su pretpostavke zadovoljene, kaºemo da je OLS metod estimacije nepristrasan,<br />
konzistentan i ekasan. Ukoliko je neka od pretpostavki naru²ena,<br />
postoji opasnost da ¢e izra£unati koecijenti biti pristrasni, testovi signikantnosti<br />
nepouzdani a samim tim i zaklju£ci koje ¢emo donijeti na bazi<br />
modela mogu biti pogre²ni. Takožer, pretpostavke su bitne ako rezultate<br />
analize do kojih smo do²li na bazi uzorka ºelimo generalizirati na cjelokupnu<br />
populaciju. Ako su zadovoljene sve pretpostavke onda dati model moºemo<br />
prili£no precizno iskoristiti za predvižanje i dono²enje zaklju£aka o populaciji.<br />
Pretpostavke moºemo podijeliti u tri generalne skupine:<br />
1.1 Pretpostavke koje se ti£u podataka i uzorka<br />
Pretpostavke iz ove grupe se odnose na speci£nosti vezane za same podatke<br />
i uzorak: a) vrste varijabli koje mogu biti kori²tene u regresionoj analizi, b)<br />
preciznost mjerenja varijabli, c) veli£inu i karakteristike uzorka, d) nedostaju¢e<br />
podatke i netpi£ne vrijednosti unutar uzorka i e) prirodu prediktora.<br />
3
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 4<br />
1.1.1 Tipovi varijabli<br />
Ova pretpostavka se odnosi na vrste varijabli koje moºemo koristiti u regresionoj<br />
analzi. Zavisna varijabla mora biti mora biti metrijska (engl. continous)<br />
i neograni£ena (engl. unbounded). Metrijske varijable predstavljaju<br />
podatke mjerene na intervalnim i proporcionalnim skalama. Osnovna razlika<br />
izmežu ova dva tipa skala je ²to proporcionalne skale imaju prirodnu nulu<br />
kao svoj po£etak, dok intervalne skale za po£etnu vrijednost uzimaju arbitrarnu<br />
vrijednost. Metrijske varijable omogu¢avaju mjerenje veli£ine razlike<br />
izmežu vrijednosti na kojima se skala kre¢e. U softverskim paketima kao<br />
²to su SPSS, Stata i sl. ne pravi se posebna razlika izmežu intervalnih i<br />
proporcionalnih skala i one se u analizama tretiraju jednako.<br />
U praksi se £esto moºe na¢i na primjere gdje je zavisna varijabla bila<br />
ordinalnog tipa [8, p. 93]. Ovo se posebno odnosi na situacije kada su za<br />
mjerenje kori²tene Likertove skale. Nije neuobi£ajeno da istraºiva£i raspone<br />
na Likertovoj skali posmatraju kao intervalne a ne kao ordinalne. Takožer,<br />
£esta je praksa da se prilikom izrade upitnika broj stepeni Likertove skale<br />
pove¢ava kako bi ona vjernije opona²ala karakteristike metrijskih varijabli.<br />
U skladu sa tim, pored uobi£ajenih petostepenih, u praksi se koriste ²estostepene,<br />
sedmostepene, pa £ak i desetostepene Likertove skale. Ipak, pokazalo<br />
se da nema posebno bitnih razlika izmežu petostepene i skala sa vi²e opcija<br />
za odgovore (sedmosetepenih i desetostepenih) u pogledu kvalitete dobijnih<br />
podataka za kori²tenje u regresionoj analizi [4].<br />
Neograni£ena varijabla je ona koja obuhvata vrijednosti iz cjelokupnog<br />
o£ekivanog raspona. Na primjer, pretpostavimo da se o£ekivana vrijednost<br />
neke varijable kre¢e u rasponu 1 10. Ako prikupljeni podaci na bazi uzorka<br />
za tu variablu variraju u rasponu 3 7 onda se javlja ograni£enost. Ova<br />
pretpostavka je vaºna kada radimo predvižanje vrijednosti zavisne varijable.<br />
Dobijena OLS linija se moºe ekstrapolirati u oba smjera ali je smislena samo<br />
unutar prirodnog raspona zavisne varijable [8].<br />
Nezavisne varijable mogu biti metrijske, ordinalne i kategorijske. Kad<br />
je rije£ o kategorijskim varijablama, naj£e²¢e se upotrebljavaju binarne varijable<br />
(engl. dummy variables).
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 5<br />
1.1.2 Preciznost mjerenja varijabli<br />
Ova pretpostavka se odnosi na to da ne smije postojati gre²ka pri mjerenju<br />
varijabli (engl. measurement error) koje se koriste unutar regresionog<br />
modela. Neke pojave, posebno ako je rije£ o latentnim konstruktima, ne mo-<br />
ºemo uvijek precizno izmjeriti. U takvim situacijama se potrebno potruditi<br />
da gre²ka mjerenja bude svedena na minimum. Zbog toga se velika paºnja<br />
posve¢uje odabiru validnog i pouzdanog instrumenta mjerenja (to su naj-<br />
£e²¢e razli£ite vrste upitnika), te selekciji i treningu osoblja koje ¢e obavljati<br />
mjerenje (odnosno anketiranje).<br />
1.1.3 Veli£ina i karakteristike uzorka<br />
U literaturi se mogu na¢i razli£ite preporuke u pogledu veli£ine uzorka neophodnog<br />
za regresionu analizu. Uobi£ajna su jednostavna pravila gdje se<br />
veli£ina uzorka odrežuje prema broju nezavisnih varijabli unutar regresionog<br />
modela. Tako se uzima da je pet opservacija za svaku nezavisnu varijablu<br />
(5:1) minimum ispod kojeg se ne bi smjelo i¢i ni u kom slu£aju [10]. Dakle,<br />
ukoliko imamo 3 nezavisne varijable, minimalna veli£ina uzorka bi iznosila:<br />
5 × 3 = 15 opservacija. Ipak, mnogo su £e²¢e preporuke da je poºeljno imati<br />
10:1 ili 15:1 opservacija za svaku nezavisnu varijablu. Manji broj opservacija<br />
u uzorku moºe rezultirati sa ve¢im standardnim gre²kama pri procjeni parametara.<br />
Takav model nema dovoljno snage (engl. statistical power) kako<br />
bi se detektovala veza izmežu nezavisne i zavisne varijable. Drugim rije-<br />
£ima, moºe se desiti da u uzorku regresioni koecijenti ne budu statisti£ki<br />
signikantni iako u stvarnosti jesu. Ipak, potrebno je imati na umu da u veoma<br />
velikim uzorcima, koji obuhvataju stotine ili hiljade opservacija, testovi<br />
signikantnosti mogu biti vrlo osjetljivi. U takvim situacijama nije neuobi-<br />
£ajeno da £ak i vrlo slabe veze budu statist£ki signikantne. Iz tog razloga je<br />
pored statisti£ke signikantnosti potrebno sagledati i prakti£nu vaºnost date<br />
varijable.<br />
Kad je rije£ o karakteristikama uzorka podaci bi trebali biti prikupljeni<br />
na bazi slu£ajnog uzorka i reprezentativni za populaciju na koju se odnose.<br />
Na primjer, kada se rade telefonska anketiranja, uobi£ajeno je da uzorak<br />
obuhvati vi²e osoba ºenskog pola i vi²e starijih ispitanika. Ovo ne iznenažuje,<br />
obzirom da su ºene i stariji vi²e prisutni u doma¢instvu kada se radi<br />
intervju. O ovakvim stvarima je potrebno voditi ra£una jer ¢e nereprezentativan<br />
uzorak dovesti i do pogre²no estimiranih parametara modela koji se ne
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 6<br />
mogu generalizirati za populaciju u cjelini. U takvim situacijama je mogu¢e<br />
kreirati odgovaraju¢e pondere za demografske varijable kako bi se korigovali<br />
rezultati analize za pristranosti uzorka.<br />
1.1.4 Nedostaju¢i podaci<br />
Pod nedostaju¢im podakom podrazumjeva se situacija u kojoj validna vrijednost<br />
za neku varijablu nije dostupna. Na primjer, ispitanik je presko£io<br />
pitanje u anketi jer nije znao odgovor, nije ºelio da odgovori, pitanje nije<br />
smatrao relevantnim i sli£no.<br />
Problem nedostaju¢ih podataka je naj£e²¢i problem u analizi podataka<br />
[10, 17]. Izbjegavanje rje²avanja problema nedostaju¢ih podataka moºe imati<br />
dvojak uticaj na kasniju analizu: a) prakti£ni uticaj koji se ogleda u smanjenju<br />
veli£ine uzorka koji je dostupan za analizu i b) uticaj na pristrasnost<br />
dobijenih rezultata. Ozbiljnost problema zavisi od obrasca po kojem se javljaju<br />
nedostaju¢i podaci, njihovog obima i razloga zbog kojeg se javljaju.<br />
1.1.4.1 Obrasci nedostaju¢ih podataka<br />
Obrazac po kojem se javljaju nedostaju¢i podaci je mnogo vaºniji od njihovog<br />
obima [17]. Zato, klju£no pitanje na koje istraºiva£ treba da odgovori<br />
odnosi se na to da li se moºe identikovati odreženi sistematski proces koji<br />
je doveo do pojave nedostaju¢ih podataka ili se nedostaju¢i podaci javljaju<br />
po slu£ajnom obrascu. Razumjevanje procesa koji je doveo do toga da podaci<br />
nedostaju je bitno jer od toga zavisi izbor korektivne akcije [10]. Npr.<br />
zamislimo situaciju u kojoj znamo vlasni£ku strukturu rme (x varijabla)<br />
i postavili smo pitanje vezano za njen prot (y varijabla). Mogu¢e su tri<br />
situacije:<br />
1. Nedostaju¢e vrijednosti se javljaju prema potpuno slu£ajnom obrascu<br />
u jednakom omjeru za javne i privatne rme. U ovakvoj situaciji ka-<br />
ºemo da se nedostaju¢i podaci javljaju prema potpuno slu£ajnom<br />
obrascu (engl. Missing Completly at Random MCAR) ²to zna£i da<br />
nedostaju¢i podaci za varijblu y ne zavise od vrijednosti varijable x,<br />
niti od same vrijednosti varijable y.<br />
2. Nedostaju¢e vrijednosti se javljaju prema slu£ajnom obrascu, ali u nejednakom<br />
omjeru za javne i privatne rme. Npr. moºemo uo£iti da su
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 7<br />
menadºeri privatnih rmi £e²¢e izostavili podatak o protu. U ovakvoj<br />
situaciji kaºemo da se podaci javljaju prema slu£ajnom obrascu<br />
(engl. Missing at Random MAR). Nedostaju¢i podaci za varijblu y<br />
zavise od vrijednosti varijable x, ali ne i od varijable y, ako x drºimo<br />
konstantnom. Drugim rije£ima, u okviru obje grupe imamo slu£ajni<br />
proces, ali u jednoj grupi se javlja vi²e nedostaju¢ih podataka nego u<br />
drugoj.<br />
3. U tre¢oj situaciji moºemo imati nejednake omjere nedostaju¢ih podataka<br />
za privatne i javne rme, ali za razliku od prethodne situacije, nedostaju¢i<br />
podaci u okviru grupa ne javljaju se po slu£ajnom obrascu.<br />
Npr. moºemo uo£iti da su menadºeri privatnih rmi £e²¢e izostavili<br />
podatak o protu, ali u okviru ove grupe moºemo zapaziti i ve¢u vjerovatno¢u<br />
da je podatak o protu izostavljen upravo za one rme za<br />
koje pretpostavljamo da imaju ve¢i prot. U ovakvoj situaciji kaºemo<br />
da se nedostaju¢i podaci ne javljaju po slu£ajnom obrascu (engl.<br />
Not Missing at Random NMAR), jer nedostaju¢i podaci za varijablu<br />
y (prot) zavise od vrijednosti varijable x (vlasni£ka struktura), ali i<br />
od vrijednosti same varijable y (o£ekivane visine prota za privatne<br />
rme).<br />
MCAR i MAR se ponekad nazivaju i ignorabilnim nedostaju¢im podacima,<br />
dok se NMAR nazivaju neignorabilnim nedostaju¢im podacima. Sam naziv<br />
ignorabilni dolazi od toga ²to za MCAR i MAR nedostaju¢e podatke postoje<br />
razli£ite tehnike kojima se ovi podaci mogu tretirati. S druge strane,<br />
NMAR nedostaju¢i podaci predstavljaju mnogo ve¢i problem jer ne postoji<br />
jasan mehanizam po kojem bi se ispravila pristrasnost i obezbjedila eksterna<br />
validnost studije.<br />
Iako termini MCAR, MAR i NMAR omogu¢avaju teorijsku distinkciju<br />
izmežu procesa koji su doveli do nastanka nedostaju¢ih podataka, u praksi<br />
je nekada te²ko odrediti o kojem se od ova tri mehanizma radi u konkretnom<br />
slu£aju. Situacija se usloºnjava sa kompleksno²¢u studije i brojem varijabli<br />
koje se koriste. Iako postoje empirijski testovi da se ustanovi da li podaci<br />
nedostaju po MCAR obrascu, mnogo je teºe utvrditi da li su podaci MAR<br />
i NMAR. Za utvrživanje ove razlike ne postoje empirijski testovi i prvenstveno<br />
se gleda da li se radi o ignorabilnom mehanizmu koji je doveo do<br />
nastanka istih. Mehanizam se smatra ignorabilnim ukoliko je isti vezan za<br />
informaciju koja je poznata istraºiva£u (npr. znamo da je ispitanik presko-<br />
£io neka pitanja jer nisu primjenjiva na njegovu situaciju). S obzirom da ne<br />
postoji dijagnosti£ka procedura da se ovo provjeri istraºiva£ se mora osloniti
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 8<br />
prvenstveno na logiku i dobro poznavanje domena koje istraºivanje obuhvata<br />
[12].<br />
1.1.4.2 Rje²avanje problema nedostaju¢ih podataka<br />
Tehnike koje se koriste za treiranje nedostaju¢ih podataka moºemo podijeliti<br />
u tri grupe.<br />
1. Tradicionalne tehnike: a) izbacivanje iz uzorka opservacija koje imaju<br />
nedostaju¢i podatak po bilo kojoj varijabli (engl. casewise delition),<br />
b) izbacivanje iz uzorka samo onih opservacija koje nemaju kompletne<br />
podatke za parove varijabli koje se koriste kako bi se izra£unali korelacioni<br />
koecijenti na kojima se zasniva regresiona analiza (engl. pairwise<br />
delition) i c) zamjena nedostaju¢ih vrijednosti jedinstvenim brojem,<br />
naj£e²£e aritmeti£kom sredina varijable (engl. single imputation methods).<br />
2. Sosticirani metodi koji nedostaju¢e podatke tretiraju tokom same<br />
analize: a) ne²to stariji EM algoritam (engl. expectationmaximization)<br />
i b) noviji FIML pristupi (engl. full information maximum likelihood).<br />
3. Tehnike vi²estruke imputacije (engl. multiple imputation).<br />
Koju tehniku ¢emo koristi zavisi prvenstveno od obima nedostaju¢ih podataka,<br />
kao i da li su podaci MCAR (u kojem slu£aju je pogodna bilo koja od<br />
navedenih tehnika) ili MAR (gdje tradicionalne tehnike nisu podesne budu¢i<br />
da vode pristrasnosti dobijenih rezultata). Kada se nedostaju¢i podaci javljaju<br />
u relativno malom obimu (
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 9<br />
Univarijantna netipi£na opservacija (engl. univariate outlier) ima<br />
netipi£nu vrijednost unutar jedne varijable. Na primjer, ukoliko smo mjerili<br />
visinu li£nog dodhotka, osoba sa mjese£nim dohodkom znatno ve¢im od<br />
prosjeka bi predstavljala netipi£nu univarijantnu opservaciju.<br />
Regresiona netipi£na opservacija (engl. regression outlier) ima netipi£nu<br />
vrijednost zavisne varijable y za datu vrijednost nezavisne varijable x.<br />
Samim tim, unutar regresionog modela ni jedna opservacija sa netipi£nom<br />
univarijantnom vrijedno²¢u za x ili y nije nuºno netipi£na sama po sebi, ve¢<br />
samo ako se posmatra u paru sa vrijednostima druge varijable.<br />
1.1.5.1 Efekti netipi£nih opservacija<br />
Netipi£ne regresione opservacije mogu imati veliki uticaj na regresioni model,<br />
posebno kada imamo mali uzorak. U nekim slu£ajevima, uklju£ivanje ili<br />
izbacivanje netipi£ne vrijednosti moºe u potpunosti promijeniti regresione<br />
koecijente, a samim tim i prirodu regresione veze. Na slici 1.1 imamo<br />
primjer jedne takve drasti£ne promjene.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 10<br />
Slika 1.1<br />
Opservacija ozna£ena punim krugom u gornjem lijevom uglu slike 1.1<br />
ima netipi£nu vrijednost jer se znatno razlikuje od svih ostalih vrijednosti u<br />
uzorku. U slu£aju da ova opservacija ostane u uzorku, regresioni koecijent<br />
b 1 ¢e biti negativan (isprekidana linija). Mežutim, ukoliko ovu opservaciju<br />
isklju£imo iz uzorka, regresioni koecijent b 1 ¢e postati pozitivan a regresiona<br />
linija ¢e imati druga£iji smijer (puna linija). Samim tim, zaklju£ci koje<br />
budemo donosili na osnovu regresionog modela sa netipi£nom opservacijom<br />
¢e biti druga£iji, a u ovom ekstremnom slu£aju £ak i suprotni, u odnosu na<br />
model iz kojeg smo tu opservaciju isklju£ili. Naravno, ovo nije zadovoljavaju¢e<br />
jer ºelimo kreirati regresioni model koji ne¢e biti pod velikim uticajem<br />
jedne ili nekoliko netipi£nih opservacija. Poºeljan model je onaj u kojem sve<br />
opservacije manje-vi²e jednako doprinose modelu.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 11<br />
1.1.5.2 Vrste netipi£nih opservacija<br />
Prije nego prežemo na samu identikaciju i procjenu veli£ine uticaja koji ¢e<br />
netipi£na opservacija imati na model, moramo znati da je taj uticaj funkcija<br />
dva faktora: (1) razlike izmežu predvižene vrijednosti za datu opservaciju<br />
i njene stvarne vrijednosti (engl. distance) i (2) razlike izmežu vrijednosti<br />
opservacije i vrijednosti aritmeti£ke sredine prediktora (engl. leverage). U<br />
tom smislu, razlikujemo dvije vrste netipi£nih vrijednosti: outliere i leverage<br />
ta£ke.<br />
U okviru regresionog modela outlier je opservacija koja ima netipi£nu<br />
vrijednost zavisne varijable y za datu vrijednost nezavisne varijable x. Kod<br />
takve opservacije, njena stvarna vrijednost y odstupa znatno od njene vrijednosti<br />
predvižene modelom ŷ. Zato takve opservacije imaju netipi£no veliku<br />
vrijednost reziduala (e i = y i − ŷ i ). S druge strane, leverage ta£ka je opservacija<br />
koja ima netipi£nu vrijednost nezavisne varijable x u odnosu na<br />
ostale opservacije iz uzorka. Generalno govore¢i, outlieri smanjuju reprezentativnost<br />
modela, ali svaki outlier ne mora nuºno imati uticaj na regresione<br />
koecijente. Takožer, svaka opservacija koja ima visok leverage ne mora<br />
nuºno predstavljati problem. Primjeri ovakvih opservacija su predstavljeni<br />
na slici 1.2.<br />
Generalno govore¢i, outlieri smanjuju reprezentativnost modela, ali svaki<br />
outlier ne mora nuºno imati uticaj na regresione koecijente. Takožer, svaka<br />
opservacija koja ima visok leverage ne mora nuºno predstavljati problem.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 12<br />
Slika 1.2<br />
Opservacija I je outlier jer ima netipi£no veliku vrijednost reziduala. Ipak,<br />
uticaj ove opservacije na na nagib regresione linije (b 1 ) je izuzetno mali obzirom<br />
da je njena pozicija vrlo blizu prosjeka nezavisne varijable (x ¯ = 4, 77).<br />
Prvenstveni uticaj outlier I ima na konstantu b 0 jer cijelu regresionu liniju<br />
povla£i vertikalno prema sebi.<br />
Opservacije G i H su leverage ta£ke zato ²to imaju vrijednosti koje su<br />
znatno udaljene od prosijeka nezavisne varijable (x ¯ = 4, 77). Opservacija G<br />
ne uti£e mnogo na koecijente b 0 i b 1 obzirom da je njena pozicija vrlo blizu<br />
regresionoj liniji. S druge strane, opservacija H je problemati£na jer pored<br />
toga ²to je leverage ta£ka (ima netipi£nu vrijednost za x), ona je i outlier<br />
(ima netipi£nu vrijednost y za dato x). Zbog toga opservacija H uti£e na<br />
konstantu b 0 i koecijent b 1 i obara regresionu liniju prema sebi.<br />
1.1.5.3 Detektovanje netipi£nih opservacija<br />
Postavlja se pitanje koliko neka opservacije mora biti druga£ija u odnosu<br />
na ostale da bi je proglasili netipi£nom? Postoji nekoliko tehnika koje nam<br />
mogu pomo¢i da identikujemo da li opservacija ima netipi£nu vrijednost.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 13<br />
Da bi uo£ili netipi£ne opservacije u slu£aju proste regresije £esto je dovoljna<br />
vizuelna inspekcija dijagrama rasipanja (kao na slici 1.1). Kada<br />
imamo vi²estruki regresioni model za vizuelnu inspekciju koristimo parcijalne<br />
regresione dijagrame (engl.<br />
partial regression plots ili addedvariable<br />
plots). Oni omogu¢avaju da, uz odrežene ustupke, multidimenzionalne<br />
podatke predstavimo preko dvodimenzionlanih dijagrama. Parcijalni<br />
dijagrami pokazuju odnos izmežu reziduala zavisne varijable i nezavisne varijable<br />
kada su obje varijable regresirane odvojeno na preostaju¢e nezavisne<br />
varijable.<br />
Unutar State, parcijalne regresione dijagrame moºemo dobiti uz pomo¢<br />
naredbe avplots. Parcijalni regresioni dijagrami za model 1.10 su predstavljeni<br />
na slici 1.3.<br />
. avplots, mlabel (id)<br />
Slika 1.3<br />
U slu£aju prvog dijagrama vertikalna y-osa predstavlja vrijednosti reziduala<br />
koji ostanu kada se za predvižanje vrijednosti zavisne varijable prod
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 14<br />
(prodaja) upotrijebe sve nezavisne varijable, osim varijable gisk (godine iskustva).<br />
Na horizontalnoj x-osi su vrijednosti reziduala koji ostanu kada se<br />
za predvižanje vrijednosti nezavisne varijable gisk (godine iskustva) upotrijebe<br />
sve ostale nezavisne varijable. Ostala dva dijagrama prikazana na slici<br />
1.3 kreiraju se po istom principu. Samo se mijenja nezavisna varijabla £iji<br />
reziduali se prikazuju na horizontalnoj osi.<br />
Parcijalni regresioni dijagrami imaju sljede¢e osobine:<br />
• Izra£unavanjem reziduala, otklanjaju se linearni efekti drugih nezavisnih<br />
varijabli, kako unutar zavisne tako i unutar svake nezavisne varijable<br />
[13].<br />
• Regresiona linija na parcijalnim dijagramima ima koecijent i standardnu<br />
gre²ku (korigovanu za broj stepeni slobode) jednaku procijenjenom<br />
koecijentu i standardnoj gre²ci za dati prediktor unutar orginalne<br />
regresione jedna£ine [16].<br />
• Sa£uvan je pojedina£ni efekat svake opservacije na nagib regresione<br />
linije [16].<br />
Zbog navedenih osobina parcijalni dijagrami se mogu upotrijebiti za dijagnostiku<br />
dvije pretpostavke regresionog modela.<br />
Prvo, parcijalne regresione dijagrame koristimo da vizuelno provjerimo<br />
da li postoje izuzetno veliki reziduali koji mogu imati nesrazmjeran uticaj<br />
na regresioni koecijent nezavisne varijable. Tako sa slike 1.3 moºemo vidjeti<br />
da ni za jednu nezavisnu varijablu ne postoje opservacije sa netipi£nim<br />
rezidualima. Ta£ke su ravnomjerno rasporežene oko linija ²to ukazuje i na<br />
to da je ispunjena pretpostavka o postojanju homoskedasti£nosti (o £emu ¢e<br />
vi²e rije£i biti u zasebnoj sekciji).<br />
Eventualni izuzetak je opservacija broj 48 na drugom i opservacija broj 16<br />
na posljednjem dijagramu. Ove opservacije imaju ne²to ve¢u vrijednost reziduala<br />
i mogle bi uticati na regresione koecijente prediktora prom (budºet<br />
za unapreženje prodaje) i posj (broj posjeta).<br />
Drugo, neki istraºiva£i parcijalne dijagrame koriste da bi utvrdili da li<br />
izmežu zavisne varijable i prediktora postoji linearna veza [13, 7]. Mežutim,<br />
pri kreiranju parcijalnih regresionih dijagrama forsira se da veza izmežu y<br />
and x bude linearna. Samim tim, oni nisu najpogodni za ispitivanje pretpostavke<br />
o linearnosti [16, p. 1909]. Za vizuelno ispitivanje pretpostavke o<br />
linearnosti preporu£uje se kori²tenje druge vrste dijagrama koju ¢emo obraditi<br />
u okviru zasebne sekcije koja se bavi tom pretpostavkom.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 15<br />
Nekada vizuelna inspekcija nije dovoljna da sa sigurno²¢u kaºemo da li je<br />
neka opservacija netipi£na ili nije. Pri vizuelnom ispitivanju moºe postojati<br />
doza subjektivnosti pa ono ²to je jednom istraºiva£u u redu, drugi istraºiva£<br />
moºe progasiti problemati£nim. Da bi detektovanju netipi£nih opservacija<br />
pristupili objektivnije, pored vizuelne inspekcije parcijalnih regresionih dijagrama,<br />
koristi¢emo se jo² nekim pokazateljima. Cilj je identikovati opservacije<br />
koje mogu imati znatan uticaj na koecijente i reprezentativnost<br />
modela.<br />
Da bi detektovali opservacije koje predstavljaju outliere, posluºi¢emo se<br />
analizom reziduala. Ranije smo rekli da nestandardizovani reziduali<br />
predstavljaju razliku izmežu predvižene vrijednosti ŷ, koju dobijemo na bazi<br />
regresionog modela, i stvarne vrijednosti opservacije u uzorku y. Obzirom<br />
da veli£ina reziduala zavisi od skale na kojoj je mjerena zavisna varijabla,<br />
postavlja se pitanje kada je rezidual dovoljno velik da zavrježuje paºnju<br />
istraºiva£a? Na primjer, ukoliko je zavisna varijabla mjerena na skali od<br />
1 do 100, rezidual sa vrijedno²¢u 3 nije veliki rezidual. Mežutim, ako se<br />
raspon vrijednosti na kojoj je mjerna zavisna varijabla kre¢e u intervalu od<br />
1 do 10, onda je rezidual sa vrijedno²¢u 3 prili£no velik. Kako bi se olak²ala<br />
usporedba reziduala izmežu razli£itih modela oni se mogu standardizovati.<br />
Standardizovani reziduali (engl. standardized residuals) se izra£unavaju<br />
tako ²to vrijednost nestandardizovanih reziduala podijelimo sa procijenjenom<br />
standardom devijacijom reziduala. Standardizovani reziduali imaju<br />
aritmeti£ku srednu jednaku 0 i standardnu devijaciju jednaku 1. Pod pretpostavkom<br />
da su normalno distribuirani, moºemo o£ekivati da ¢e se 95%<br />
standardizovanih reziduala nalazi u rasponu izmežu −2 i +2, dok ¢e se njih<br />
99% nalaziti unutar raspona od −2, 58 i +2, 58. Opservacije sa standardizovanim<br />
rezidualima izvan ovih raspona su neuobi£ajene i zavrežuju dodatnu<br />
paºnju, a posebno one koje imaju standardizovane reziduale izvan raspona<br />
−3 i +3. Ukoliko model dobro reprezentuje podatke, za o£ekivati je da ¢e 5%<br />
opservacija imati reziduale sa apsolutnom vrijedno²¢u ve¢om od 2, odnosno<br />
da ¢e 1% opservacija imati reziduale sa apsolutnom vrijedno²¢u ve¢om od<br />
2,58.<br />
Studentizovani reziduali (engl. studentized residuals) imaju ista svojstva<br />
kao i standardizovani reziduali ali obi£no pruºaju precizniju procjenu<br />
varijanse gre²ke za pojedina£nu opservaciju [7]. Dobijamo ih tako ²to vrijednost<br />
reziduala podijelimo sa procijenjenom standardom devijacijom reziduala<br />
u datoj ta£ci. Naime, kada ra£unamo standardizovane reziduale, svaki pojedni£ani<br />
rezidual dijelimo sa istom vrijedno²¢u (standardnom devijacijom
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 16<br />
reziduala). Mežutim, predvižena vrijednost zavisne varijable y nije konstantna<br />
za sve opservacije ve¢ u jednoj mjeri zavisi od vrijednosti nezavisne<br />
varijable x. Opservacije sa vrijednostima koje su bliºe aritmeti£koj sredini<br />
uzorka imaju manji varijablitet predviženih vrijednosti u odnosu na opservacije<br />
koje su dalje od aritmeti£ke sredine. Zbog toga se na slici 1.5 interval<br />
ocjene ²iri kako se kre¢emo od sredine prema krajevima. Studentizovani reziduali<br />
uzimaju u obzir ove varijacije i omogu¢avaju da se lak²e uo£e kr²enja<br />
pretpostavki regresionog modela. Zato se njihovo kori²tenje vi²e preferira u<br />
odnosu na standardizovane reziduale [13, p. 424].<br />
Isklju£eni reziduali (engl. deleted residuals) su jo² jedna vrsta reziduala<br />
koja se £esto upotrebljava za detekciju netip£nih opservacija. Koncept<br />
ovih redizuala po£iva na ideji da se orginalni regresioni model uporedi sa<br />
modelom gdje je jedna opservacija isklju£ena iz uzorka. Razlika izmežu predvižene<br />
vrijednosti ŷ na osnovu punog uzorka i predvižene vrijednosti ŷ<br />
kada smo iz uzorka isklju£ili jednu opservaciju predstavlja isklju£eni rezidual.<br />
Ukoliko isklju£ena opservacija nema veliki uticaj na model, onda bi<br />
o£ekivani isklju£eni rezidual za tu opservaciju trebao biti jednak ili vrlo blizu<br />
nuli.<br />
Kao i kod nestandardizovanih reziduala, veli£ina isklju£enih reziduala ¢e<br />
zavisi od jedinica mjere zavisne varijable. Kako bi se olak²ala njihova usporedba<br />
izmežu razli£itih modela, oni se standardizuju tako da se podijele<br />
sa procijenjenom standardnom gre²kom u datoj ta£ci. Tako dobijamo studentizovane<br />
isklju£ene reziduale (engl. studentized deleted residuals ili<br />
jack-knifed resiuduals).<br />
Ako su regresione pretpostavke ispunjene i ako imamo otprilike jednak<br />
broj opservacija za svaku vrijednost nezavisne varijable standardizovani,<br />
studentizovani i studentizovani isklju£eni reziduali ¢e na razli£itim dijagramima<br />
imati isti ²ablon rasipanja [13].<br />
Unutar State moºemo upotrijebiti naredbu predict kako bi za model<br />
1.10 automatski izra£unali predvižene vrijednosti zavisne varijable (pprod),<br />
nestandardizovane (r), studentizovane (sr) i studentizovane isklju£ene reziduale<br />
(str). 1 Nakon ²to izra£unamo pomenute vrijednosti, pomo¢u naredbe<br />
1 Obratiti paºnju da smo nove varijable imenovali sa pprod, r, sr i str. Opcije rstandard<br />
i rstudent su skra¢enice koje dolaze od standardized i studentized ²to moºe biti zbunjuju¢e<br />
obzirom da se prva ne odnosi na standardizovane, a druga se ne odnosi na<br />
studentizovane reziduale. Naime, Stata koristi ne²to druga£iju terminologiju od uobi£ajene.<br />
Unutar Stata terminologije se pod standardizovanim rezidualima u stvari podrazumjevaju<br />
studentizovani, a Stata studentizovani reziduali se odnose na studentizovane
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 17<br />
list moºemo traºiti spisak svih opservacija koje imaju apsolutne vrijednosti<br />
studentizovanih isklju£enih reziduala ve¢e od 2.<br />
. predict pprod<br />
(option xb assumed; fitted values)<br />
. predict r, resid<br />
. predict sr, rstand<br />
. predict str, rstud<br />
. list gisk prom posj prod pprod sr str if abs(str) > 2<br />
gisk prom posj prod pprod sr str<br />
16. 22 4 4 15.12865 20.77 -2.277327 -2.391268<br />
26. 22 3.5 4 24.60312 19.65264 1.989938 2.058798<br />
38. 14 3.5 5 23.42656 18.287 2.036837 2.112069<br />
42. 16 3 5 23.17513 17.87359 2.091818 2.174987<br />
Output 1.1<br />
Iz outuput-a 1.1 vidimo da postoje £etiri potencijalno velika reziduala<br />
vezana za opservacije: 16, 26, 38 i 42. Najve¢i rezidual vezan je za opservaciju<br />
16. Kako smo ranije rekli, manje od 5% opservacija bi trebalo imati<br />
studentizovane isklju£ene reziduale u apsolutnom iznosu ve¢e od 2, a samo<br />
1% opservacija bi trebalo imati ove reziduale u apsolutnom iznosu ve¢e od<br />
2,58. Obzirom da imamo uzorak od 50 ispitanika, prethodno navede £etiri<br />
opservacije £ine 12% uzorka ²to ukazuje da model ne reprezentuje podatke na<br />
najbolji na£in. Sre¢om, u uzorku ne postoji ni jedan rezidual sa apsolutnom<br />
vrijedno²¢u ve¢om od 2,58.<br />
Nakon ²to se putem analize reziduala identikuju outileri, pristupa se detekciji<br />
leverage ta£ki. Leverage (h) pokazuje koliko se vrijednost opservacije<br />
nalazi daleko od prosjeka prediktora. Vrijednost ovog pokazatelja se moºe<br />
kretati u rasponu od 0 do 1. ’to je opservacija dalje od prosje£ne vrijednosti<br />
varijable prediktora, ona ima ve¢i potencijal da postane leverage ta£ka. Uobi-<br />
£ajeno pravilo je da se ispitaju sve opservacije koje imaju leverage > (2k+2) /n<br />
gdje se k odnosi na broj prediktora, a n je broj opservacija. Za model 1.10<br />
to bi zna£ilo leverage i > (2×3+2) /50 > 0, 16.<br />
isklju£ene ili jack-knife reziduale.<br />
pogledati [16, p. 1879].<br />
Za vi²e detalja o ovim terminolo²kim zakljo£icama
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 18<br />
. predict lev, leverage<br />
. list gisk prom posj lev if lev>(2*3+2)/50<br />
gisk prom posj lev<br />
17. 21 5 3 .1869939<br />
21. 25 5 3 .1826717<br />
48. 10 .5 4 .1969223<br />
Output 1.2<br />
Unutar outputa 1.2 su prikazane tri opservacije (17, 21 i 48) koje imaju<br />
leverage > 0,16.<br />
1.1.5.4 Analiza veli£ine uticaja netipi£nih opservacija na model<br />
Do sada smo identikovali nekoliko opservacija koje imaju visoke reziduale<br />
i leverage. Postavlja se pitanje koliko one zaista uti£u na regresioni model?<br />
Da li je njihov uticaj neznatan ili je dovoljno velik da zahtjeva korektivne<br />
akcije? Uticaj opservacije na model bilo bi najbolje procijeniti simultano,<br />
istovremeno gledaju¢i koliko je data opservacija netipi£na i kao outlier i kao<br />
leverage ta£ka. Zbog toga, da bi dobili odgovor na pitanje koliki i kakav<br />
uticaj na model imaju opservacije sa netipi£nim vrijednostima, posluºi¢emo<br />
se sa nekoliko razli£itih pokazatelja koji u sebi kombinuju ove uticaje.<br />
Cook's distance (D) je kompozitna mjera koja pokazuje veli£inu uticaja<br />
pojedina£ne opservacije na agregatnu promjenu estimiranih koecijenata<br />
kada se opservacija isklju£i iz modela. Kaºemo da je to kompozitna<br />
mjera jer skre¢e paºnju na opservacije koje uti£u na model kao reziduali,<br />
leverage ta£ke ili oboje. Postoje razli£ita mi²ljenja o tome koje vrijednosti<br />
ovog pokazatelja su uzimaju kao potencijalno problemati£ne. Neki smatraju<br />
da je potrebno ispitati sve opservacije koje imaju D i > 4 /n, gdje je n = broj<br />
opservacija [16, p. 1881]. S druge strane, postoji jednostavno pravilo koje<br />
kaºe da su problemati£ne samo one opservacije koje imaju D i > 1 [7].
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 19<br />
. predict d, cooksd<br />
. list gisk prom posj d if d>4/50<br />
gisk prom posj d<br />
16. 22 4 4 .0928654<br />
48. 10 .5 4 .1843889<br />
Output 1.3<br />
Prema prvom kriteriju opservacije broj 16 i 48 su potencijalno problemati£ne,<br />
²to vidimo na outputu 1.3. Mežutim, prema alternativnom kriteriju<br />
D i > 1 niti jedna opservacija ne predstavlja problem.<br />
Dfbeta pokazuje promjenu vrijednosti koecijenta kada je opservacija<br />
uklju£ena u model i kada nije. Izra£unava se za svaku varijablu posebno.<br />
Poºeljno je provjeriti sve opservacije koje imaju standardizovani |dfbeta i | ><br />
2/ √ n, gdje je n = broj opservacija u uzorku. U na²em primjeru to bi zna£ilo<br />
|dfbeta i | > 2 / √ 50 > 0, 283.<br />
I ovdje postoji alternativno pravilo koje kaºe da su problemati£ne one<br />
opservacije koje imaju |dfbeta i | > 1. Drugim rije£ima, one opservacije koje<br />
pomijeraju estimirani koecijent minimalno za 1 standardnu gre²ku.<br />
. dfbeta<br />
_dfbeta_1: dfbeta(gisk)<br />
_dfbeta_2: dfbeta(prom)<br />
_dfbeta_3: dfbeta(posj)<br />
. list gisk prom posj _dfbeta_1 _dfbeta_2 _dfbeta_3 if abs(_dfbeta_1)>2/sqrt(50<br />
> ) | abs(_dfbeta_2)>2/sqrt(50) | abs(_dfbeta_3)>2/sqrt(50)<br />
gisk prom posj _dfbeta_1 _dfbeta_2 _dfbeta_3<br />
1. 12 1 5 .0865975 -.344272 -.0088758<br />
3. 19 2 5 -.3094202 .3119982 -.1024393<br />
12. 14 5 5 .1211632 -.2908617 -.0254808<br />
27. 7 4 5 -.3025258 .2957777 -.0470022<br />
39. 14 3 6 -.0751978 -.0379395 -.2830282<br />
48. 10 .5 4 -.0261169 -.7008276 -.4186615<br />
Output 1.4<br />
Na outputu 1.4 se nalazi prikaz uticaja razli£itih opservacija na vrijednosti
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 20<br />
koecijenta sve tri nezavisne varijable. Vidimo da na koecijent nezavisne<br />
varijable gisk (godina iskustva) najve¢i uticaj ispoljavaju opservacije 3 i 27.<br />
Koecijent varijable prom (budºet za unapreženje prodaje) je pod uticajem<br />
opservacija 1, 3, 12, 27 i 48. Kona£no, koecijent nezavisne varijable posj<br />
(broj posjeta) je jedino pod uticajem opservacije 48. Mežutim, ova opservacija<br />
sa dfbeta 48 = −0, 70 za varijablu prom (budºet za unapreženje prodaje)<br />
i dfbeta 48 = −0, 42 za varijablu posj (broj posjeta) ima najve¢i uticaj.<br />
1.<br />
Ponovo, prema drugom kriteriju, niti jedna opservacija nema |dfbeta i | ><br />
Dt pokazuje razliku izmežu predvižene vrijednosti kada je opservacija<br />
uklju£ena u model i kada nije. Izra£unava se za svaku varijablu posebno.<br />
Poºeljno je provjeriti sve opservacije koje imaju |dfit i | > 2 × √ k/n, gdje je<br />
k broj varijabli prediktora (uklju£uju¢i i konstantu), a n broj opservacija u<br />
uzorku. Za model 1.10 to su opservacije sa |dfit i | > 2 × √ 4/50 > 0, 56.<br />
. predict dfit, dfits<br />
. list gisk prom posj dfit if abs(dfit)>2*sqrt(4/50)<br />
gisk prom posj dfit<br />
16. 22 4 4 -.6399702<br />
48. 10 .5 4 .8786362<br />
Output 1.5<br />
Sa outputa 1.5 vidimo da dvije opservacije (16 i 48) imaju |dfit i | > 0,56.<br />
1.1.5.5 Strategija detekcije netipi£nih opservacija<br />
Obzirom da Cook's Distance pomaºe da identikujemo potencijalno problemati£ne<br />
opservacije, jedna od mogu¢ih strategija analize netipi£nih vrijednosti<br />
bi se sastojala od tri koraka. Prvo, izra£unati Cook's D kako bi utvrdile<br />
opservacije koje potencijalno imaju znatan uticaj na model. Drugo, utvrditi<br />
prirodu tako identikovanih opservacija u pogledu toga da li se primarno<br />
radi o outlierima, leverage ta£kama ili njihovoj kombinaciji. Za tu namjenu<br />
moºemo se koristiti analizom reziduala i leverage vrijednosti, te vizuelnom<br />
inspekcijom parcijalnih regresionih dijagrama. Tre¢e, u situaciji kada smo sigurni<br />
da identikovane opservacije znatno naru²avaju zaklju£ke i predvižanje
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 21<br />
uz pomo¢ modela donijeti odluku o korektivnim akcijama.<br />
Vidjeli smo da pored Cook's D postoje i drugi kompozitni pokazatelji koji<br />
se upotrebljavaju za procjenu veli£ine uticaja netipi£nih opservacija na model<br />
od kojih smo pomenuli dfbeta i dt. Ukoliko je uražena temeljita analiza<br />
reziduala, leverage ta£aka i Cook's distanci, ovi dodatni pokazatelji ne¢e re¢i<br />
mnogo novog. Ipak, kako analizi uticaja netipi£nih opservacija pristupaju sa<br />
razli£itog aspekta u nekim situacijama se mogu pokazati korisnim. Ako se<br />
ukaºe potreba, moºemo ih iskoristiti kao dodatni vid dijagnostike.<br />
1.1.5.6 Rje²avanje problema netipi£nih opservacija<br />
Nakon ²to identikujemo netipi£ne vrijednosti potrebno je ispitati za²to se<br />
one javljaju. Neki od mogu¢ih uzroka koji rezultiraju sa pojavom ve¢eg broja<br />
netipi£nih vrijednosti su:<br />
• Gre²ke pri unosu podataka. Mogu¢e je da su prilikom unosa podataka<br />
pogre²no otipkane neke vrijednosti. Na primjer, umjesto broja 5 je gre-<br />
²kom otkucano 55. Ovakvi tiupfeleri su relativno £esti pa je potrebno<br />
voditi ra£una o logi£koj provjeri unesenih podataka.<br />
• U model nismo uklju£ili bitan prediktor. U tom slu£aju trebamo identikovati<br />
koji je to prediktor, uklju£iti ga u model i ponoviti analizu.<br />
• Naru²ena je neka od ostalih regresionih pretpostavki. Mogu¢e rje²enje<br />
problema je respecikacija modela kori²tenjem transformacija ili<br />
interakcija.<br />
Ukoliko netipi£ne vrijednosti zaista predstavljaju opservacije koje su znatno<br />
druga£ije od ve¢ine ostalih opservacija iz uzorka, mogu¢a su dva pristupa.<br />
Prvo, za estimaciju parametara modela moºemo upotrijebiti tzv. robustnu<br />
regresiju. To je tehnika estimacije razvijena kako bi se ublaºili problemi<br />
do kojih dolazi ako su u uzorku prisutne opservacije sa netipi£nim vrijednostima.<br />
Drugi pristup je da se uradi odvojena analiza kako bi vidjeli koliko se<br />
mijenjaju parametri modela ako isklju£imo problemati£ne opservacije. Ovdje<br />
je potrebno napomenuti da bez jakog teoretskog upori²ta i obrazloºenja<br />
nikada ne smijemo brisati netipi£ne vrijednosti samo da bi unaprijedili reprezentativnost<br />
modela (pove¢ali R 2 ) ili ostvarili neku drugu poºeljnu promjenu<br />
(npr. postigli da koecijent za neku varijablu postane signikantan). ƒak i<br />
ako imamo obrazloºenje, neophodno je prezentovati rezultate analize sa i bez<br />
netipi£nih vrijednosti. Generalno se moºemo osloniti na pravilo da ukoliko je
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 22<br />
Cook's D i < 1 nema stvarne potrebe za brisanje opservacije jer njen efekat<br />
na regresioni model nije veliki [7, p. 219].<br />
U na²em primjeru, na osnovu svega do sada uraženog, moºemo vidjeti<br />
da potencijalno najve¢i uticaj na model 1.10 mogu imati opservacije broj<br />
16 i 48. Njihove netipi£ne vrijednosti nisu rezultat gre²ke i one jednostavno<br />
predstavljaju komercijaliste koji su znatno druga£iji od ve¢ine ostalih kolega<br />
iz uzorka. Kako opservacija 16 ima rezidual manji od 2,58, a obje opservacije<br />
imaju Cook's D u apsolutnom iznosu daleko ispod 1, moºemo zaklju£iti da<br />
njihov efekat na regresioni model nije veliki i da nema potrebe za njihovim<br />
brisanjem iz uzorka.<br />
Ipak, ilustracije radi, uradili smo dvije odvojene analize kako bi uporedili<br />
parametre modela sa i bez ovih opservacija u uzorku.<br />
. quietly reg prod gisk prom posj<br />
. estimates store analiza1<br />
. quietly reg prod gisk prom posj if id!=16 & id!=48<br />
. estimates store analiza2<br />
. estimates table analiza1 analiza2, stats(r2) star<br />
Variable analiza1 analiza2<br />
gisk .35197263*** .36888132***<br />
prom 2.2347135*** 2.6274818***<br />
posj 1.4501431** 1.5615308**<br />
_cons -1.7128277 -3.6156904<br />
r2 .65117545 .70720128<br />
legend: * p
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 23<br />
1.1.6 Vrijednosti nezavisne varijable x su ksne<br />
Ova pretpostavka zna£i da vrijednosti x nemaju slu£ajni karakter ve¢ da su<br />
unaprijed poznate. Na primjer, zamislimo da trgovac ºeli utvrditi kako cijena<br />
uti£e na broj prodatih komada nekog proizvoda u jednoj prodavnici. Trgovac<br />
moºe organizovati eksperiment. U prvoj sedmici ¢e odrediti jednu cijenu i<br />
zabiljeºiti ostvarenu prodaju. Naredne sedmice ¢e promijeniti cijenu, a zatim<br />
ponovo zabiljeºiti prodaju u toj sedmici. U opisanom eksperimentu, vlasnik<br />
prodavnice unaprijed zna cijenu jer ju je ksirao na dvije vrijednosti od kojih<br />
svaka odgovara datoj sedmici. Kaºemo da je cijena nezavisna varijabla x i<br />
da je ksna, tj. da njena visina ne varira slu£ajno ve¢ je unaprijed poznata<br />
i odrežena zbog samog eksperimenta.<br />
Mežutim, u ekonomiji i biznisu istraºiva£ £esto raspolaºe podacima koji<br />
nisu prikupljani eksperimentom. Samim tim y i x su slu£ajne varijable, tj.<br />
njihove vrijednosti nisu poznate unaprijed, prije samog prikupljanja i mjerenja.<br />
Ukoliko zanemarimo ovu £injenicu i tretiramo vrijednosti prediktora<br />
x kao unaprijed poznate, to ne¢e promijeniti dobijene rezultate. Zato se ova<br />
pretpostavka relaksira i kaºe se da su dobijene vrijednosti nezavisne varijable<br />
realizacija slu£ajne varijable x koja je nezavisna od iznosa gre²aka ε. U tom<br />
slu£aju se zaklju£ivanje izvodi uslovno, obzirom na opaºene vrijednosti x.<br />
Relaksiranje pretpostavke ima jo² jednu prednost koja se ogleda u pojednostavljenju<br />
matematske notacije. Obzirom da x vi²e ne tretiramo kao<br />
slu£ajnu varijablu, ne trebamo koristiti ni uslovnu notaciju |. Zbog toga<br />
se npr, umjesto E(y|x) pi²e jednostavno E(y), umjesto E(ε|x), pi²e se samo<br />
E(ε) itd.<br />
1.2 Pretpostavke koje se odnose na pravilnu speci-<br />
kaciju modela<br />
Model je pravilno speciciran ukoliko regresiona jedna£ina predstavlja dobru<br />
aproksimaciju stvarne pojave. Dobra teoretska podloga i precizno razumjevanje<br />
onoga ²ta model zaista predstavlja su klju£ni za pravilnu specikaciju<br />
modela. Pretpostavke iz ove grupe primarno se odnose na: a) nepostojanje<br />
endogenosti, b) linearnost i c) nepostojanje multikolinearnosti.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 24<br />
1.2.1 Nepostojanje endogenosti<br />
Matematski gledano, pretpostavka o endogenosti zna£i da ni jedna nezavisna<br />
varijabla nije u korelaciji sa slu£ajnom gre²kom ε, pa je za svako i:<br />
cov(x i , ε) = 0 (1.1)<br />
Prisjetimo se da se slu£ajna gre²ka odnosi na razliku izmežu opservirane<br />
vrijednosti zavisne varijable i vrijednosti predvižene regresionom linijom za<br />
populaciju. Obzirom da je regresiona linija za populaciju nepoznata, pretpostavka<br />
se procjenjuje prvenstveno na bazi teorije i te²ko ju je statisti£ki<br />
testirati 2 . Ukoliko je ova pretpostavka naru²ena, kaºemo da postoji endogenost.<br />
1.2.1.1 Efekti endogenosti<br />
Endogenost moºe dovesti do ozbiljnih gre²aka pri tuma£enju rezultata regresione<br />
analize obzirom da ¢e procijenjeni parametri regresionog modela biti<br />
pristrasni. Posmatrano sa prakti£nog aspekta, pristrasnost zbog naru²avanja<br />
ove pretpostavke se javlja u tri situacije:<br />
1. Pristrasnost zbog izostavljene varijable (engl. ommited-variable<br />
bias) imamo kada je nezavisna varijabla x u korelaciji sa neopserviranim<br />
faktorom z (engl. confounding variable) koji se nalazi izvan regresionog<br />
modela. Obzirom da z uti£e na x koji korelira sa slu£ajnom<br />
gre²kom, proizilazi da neopservirana varijabla z pored toga ²to dejluje<br />
na prediktor x istovremeno djeluje i na zavisnu varijablu y. Ukoliko<br />
smo propustili da z uklju£imo u model i kontroli²emo njegov uticaj,<br />
OLS estimator ¢e bti pristrasan i nekonzistenatan jer ne moºemo izolovati<br />
stvarni uticaj prediktora od uticaja izostavljene varijable. Na<br />
primjer, ukoliko postoji pozitivna korelacija izmežu z, x i y, procijenjeni<br />
regresioni koecijenti ¢e biti ve¢i od stvarnih.<br />
2. Pristrasnost zbog gre²ke u mjerenju (engl. measurement error bias).<br />
Ukoliko je instrument za mjerenje vrijednosti varijabli neprecizan, onda<br />
¢e same izmjerene vrijednosti, pored onog ²to nas interesuje, sadrºavati<br />
i uticaj drugih faktora.<br />
2 Izmežu nezavisnih varijabli i reziduala nikada ne¢e postojati korelacija pa uslov da je<br />
cov(x, e) = 0 nije validan test za ovu pretpostavku [8].
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 25<br />
3. Simultana pristrasnost (engl. simultaneity bias) odnosi se na problem<br />
dvosmjernog uticaja koji imamo u situaciji kada x djeluje na y,<br />
ali istovremeno y djeluje na x. Na primjer, ve¢e izdvajanje u budºet za<br />
ogla²avanje uti£e na prodaju, ali istovremeno ve¢i obim prodaje uti£e<br />
na to da vi²e sredstava moºemo izdvojiti za ogla²avanje. Obzirom da<br />
postoji recipro£na kauzalnost, slu£ajne gre²ke ¢e korelirati sa prediktorom<br />
i bi¢e te²ko izlovati stvarni efekt varijable preditkora 3 .<br />
1.2.1.2 Rje²avanje problema endogenosti<br />
Obzirom da je prisustvo endogenosti te²ko ispitati statisti£ki, velika paºnja<br />
se pridaje pravilnoj specikaciji modela. Pri tome moramo voditi ra£una da<br />
varijable od interesa izmjerimo ²to je preciznije mogu¢e i da iz modela ne<br />
izostavimo neku bitnu varijablu. U slu£aju prisustva recipro£ne kauzalnosti<br />
postoje metode za procjenu parametara nerekurzivnih modela kao ²to je<br />
Two-Stage Least Squares (2SLS) regresija.<br />
1.2.2 Linearnost<br />
Iako moºda ne £ini tako na prvi pogled, mnoge pojave iz stvarnog svijeta se<br />
matematski mogu modelirati putam linearne funkcije predstavljene jedna£inom<br />
1.9. Linearnost dakle podrazumjeva da funkcionalna veza koja postoji<br />
izmežu nezavisnih varijabli i zavisne varijable ima linearni karakter.<br />
1.2.2.1 Ispitivanje pretpostavke o linearnosti<br />
U slu£aju proste regresije dovoljno je nacrtati dijagram rasipanja izmežu x<br />
i y kako bi ocijenili da li je prava linija dobra aproksimacija veze izmežu<br />
zavisne varijable i prediktora.<br />
Ova pretpostavka se teºe provjerava kod vi²estruke regresije. Alat koji<br />
se unutar State naj£e²¢e koristi za ispitivanje pretpostavke o nelinarnosti su<br />
tzv. acprplot dijagrami (²to je skra¢enica od engl. augmented componentplus-residual<br />
plots). Ovi dijagrami su sli£ni ranije pomenutim parcijalnim<br />
regresionim dijagramima jer omogu¢avaju projektovanja vi²edimenzionalnih<br />
3 Procjenjeni regresioni parametri ¢e biti pristrasni a testovi signikantnosti nepouzdani.<br />
Modeli u kojima zavisna varijabla djeluje na nezavisne varijable nazivaju se nerekurzivnim<br />
modelima (engl. non-recursive models).
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 26<br />
podataka unutar dvodimenzionalnog prostora. Mežutim, za razliku od parcijalnih<br />
dijagrama koji su pogodan alat za identikovnje outliera, acprplot<br />
dijagrami su bolji alat za ispitivanje prirode funkcionalne veze. Ono ²to pomo¢u<br />
njih poku²avamo utvrditi jeste koliko regresiona linija, £iji nagib je<br />
jednak procjenjenom regresionom koecijentu za datu varijablu prediktor,<br />
dobro opisuje podatke.<br />
Kako bi se olak²ala detekcija odstupanja od regresionog pravca, na dijagram<br />
se obi£no dodaje i tzv. kriva lokalno aproksimiraju¢e regresije<br />
(skra¢eno od engl. locally weighted scatterplot smoothing ili lowess smooth<br />
curve). Obja²njavanje lokalno aproksimiraju¢e regresije prelazi okvire<br />
ovog teksta pa ¢emo samo re¢i da je rije£ o tehnici prilagožavanja nekog od<br />
neparametarskih regresionih modela pomo¢u lokalno ponderisane regresije.<br />
Uglavnom, rezultiraju¢a lowess kriva je korisna za isticanje trenda unutar<br />
nesreženih podataka i olak²ava nam uo£avanje nelinearnosti.<br />
Da bi dobili acprplot dijagrame za model 1.10 iskoristi¢emo sljede¢i set<br />
naredbi unutar State:<br />
acprplot gisk, lowess mlabel(id) name(graph1) nodraw<br />
acprplot prom, lowess mlabel(id) name(graph2) nodraw<br />
acprplot posj, lowess mlabel(id) name(graph3) nodraw<br />
graph combine graph1 graph2 graph3, cols(2) title(acprplots)
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 27<br />
Slika 1.4<br />
Moºemo uo£iti da na slici 1.4 podaci za varijablu prom (tro²kovi za unapreženje<br />
prodaje) u lijevom dijelu iskazuje nelinearan trend. Ovo je vjerovatno<br />
posljedica pozicije opservacija broj 1 i 48. Ipak, obzirom na veli£inu<br />
uzorka smatramo da se ukupni obrazac podataka u dovoljnoj mjeri moºe<br />
aproksimirati pravom linijom.<br />
Postoji jo² jedan na£in vizuelnog ispitivanja pretpostavke o linearnosti.<br />
Naime, u nekim softverskim paketima nije mogu¢e dobiti acprplot dijagrame<br />
pa se umjesto njih mogu koristiti dijagrami rasipanja nestandardizovanih<br />
reziduala modela i vrijednosti nezavisnih varijabli 4 . Na dobijenim dijagramima,<br />
empirijske ta£ke ne bi trebale imati jasno izraºen nelinearni ²ablon<br />
4 Da bi za model iz na²eg primjera kreirali ove dijagrame, unutar State moºemo iskoristiti<br />
sljede¢i set naredbi:<br />
. predict r, resid<br />
. twoway (scatter r prom) (lowess r prom), name(graph1) nodraw<br />
. twoway (scatter r gisk) (lowess r gisk), name(graph2) nodraw<br />
. twoway (scatter r posj) (lowess r posj), name(graph3) nodraw<br />
. graph combine graph1 graph2 graph3, cols(2) title(Linearnost)
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 28<br />
rasipanja.<br />
1.2.2.2 Efekti naru²avanja linearnosti<br />
Manja odstupanja od linearnosti ne¢e imati ve¢i uticaj na procijenjene regresione<br />
parametre. U takvim slu£ajevima se smatra da je linearna veza<br />
jo² uvijek dobra aproksimacija stvarnosti. Mežutim, ukoliko postoje znatna<br />
nelinearna odstupanja, rezultati OLS regresione analize postaju nepouzdani<br />
jer ¢e uticaj varijabli prediktora biti podcijenjen. Generalno pravilo je da pri<br />
OLS estimaciji nelinarnost ne¢e predstavljati problem ukoliko je standardna<br />
devijacija zavisne varijable ve¢a od standardne devijacije reziduala [8, p. 92].<br />
1.2.2.3 Modeliranje nelinearne funkcionalne veze<br />
Ukoliko je pretpostavka o linearnosti naru²ena, mogu¢e je uraditi transformacije<br />
podataka ili za estimaciju koristiti neki od metoda neparametarske<br />
regresije (engl. Nonparametric regression).<br />
1.2.3 Nepostojanje multikolinearnosti<br />
Multikolinearnost se javlja ako izmežu dvije ili vi²e nezavisnih varijabli postoji<br />
znatna korelacija. Prisjetimo se da putem regresionog modela (jedna-<br />
£ina 1.9) poku²avamo utvrditi koliko zavisna varijabla reaguje na promjenu<br />
vrijednosti datog prediktora dok vrijednosti ostalih prediktora drºimo konstantnima.<br />
Ovo zna£i da ¢emo regresioni koecijent prediktora najbolje procijeniti<br />
ako unutar njega ostaje dovoljno varijacije nakon ²to smo kontrolisali<br />
ostale prediktore. Da bi ovo bilo jasnije, pretpostavimo da imamo dva prediktora<br />
x 1 i x 2 . Ako su ova dva prediktora mežusobno jako povezana, onda<br />
unutar x 1 ostaje malo varijabiliteta kada vrijednost x 2 drºimo konstantnom<br />
pa je mnogo teºe procijeniti koecijent b 1 (ili obrnuto). Ovakva situacija je<br />
prikazana na slici 1.5.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 29<br />
Slika 1.5<br />
Moºemo primjetiti da u slu£aju kada izmežu x 1 i x 2 postoji izuzetno visoka<br />
korelacija (r = 0, 9), nakon ²to kontroli²emo za x 2 , unutar x 1 ostaje<br />
samo mali dio jedinstvene varijanse. Ista situacija je i sa x 2 nakon ²to kontroli²emo<br />
za x 1 . U ovakvoj situaciji, regresioni model ¢e imati problem da<br />
utvrdi jedinstveni doprinos ovih varijabli promjeni zavisne varijable.<br />
1.2.3.1 Detektovanje multikolinearnosti<br />
Prilikom ispitivanja (ne)postojanja multikolinearnosti uvijek je poºeljno po¢i<br />
od korelacione matrice.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 30<br />
. pwcorr prod gisk prom posj, star(0.05)<br />
Output 1.7<br />
prod gisk prom posj<br />
prod 1.0000<br />
gisk 0.6156* 1.0000<br />
prom 0.6769* 0.4546* 1.0000<br />
posj -0.0077 -0.3977* -0.2037 1.0000<br />
Na outputu 1.7 je dat prikaz korelacija izmežu svih varijabli uklju£enih<br />
u model 1.10 iz na²eg primjera.<br />
Postoje razli£ita pravila o tome koji nivo korelacije izmežu prediktora<br />
je siguran u smislu da ne¢e dovesti do pojave prevelike multikolinearnosti.<br />
Naj£e²¢e se navodi da korelacije iznad 0,8 ili 0,9 mogu biti problemati£ne<br />
[7]. Neki istraºiva£i smatraju da £ak i korelacije ve¢e 0,7 mogu uzrokovati<br />
probleme [14].<br />
U na²em slu£aju, output pokazuje da nema ni jedne korelacije izmežu<br />
prediktora koja bi bila ve¢a od r > 0, 7. Statisti£ki signikantna korelacija<br />
(r = 0, 45) postoji izmežu prediktora gisk (godine iskustva) i prom (budºet<br />
za unapreženje prodaje). Takožer, signikantna korelacija (r = −0, 40) se<br />
javlja izmežu prediktora gisk (godine iskoustva) i posj (broj posjeta). Ovo<br />
reektuje £injenicu da stariji komercijalisti, u prosjeku gledano, dobijaju ve¢i<br />
budºet za unapreženje prodaje, kao i da manje izlaze na teren.<br />
Pored inspekcije korelacione matrice, za otkrivanje prisustva multikolinearnosti<br />
koriste se mežusobno povezani pokazatelji VIF (skra¢eno od engl.<br />
Variance Ination Ratio) i njegova recipro£na vrijednost tolerance ( 1 /V IF).<br />
Naime, sa porastom korelacije prediktora x k sa ostalim varijablama prediktorima<br />
dolazi do inacije njegove varijanse pa je VIF pokazatelj kojim se<br />
mjeri koliko je napuhana varijansa datog regresionog koecijenata b k u<br />
odnosu na situaciju kada izmežu njega i ostalih nezavisnih varijable nema<br />
korelacije. Na primjer, ako je VIF za jednu varijablu jednak 9, to zna£i da<br />
je standardna gre²ka regresionog koecijenta te varijable tri puta ve¢a nego<br />
u slu£aju kada je njen VIF jednak 1. Shodno tome, da bi bio statisti£ki<br />
signikantan njen koecijent bi trebao biti i 3 puta ve¢i.<br />
Generalno pravilo kaºe da VIF vrijednosti ve¢e od 10 za dati prediktor<br />
ukazuju na prisustvo prevelike multikolinearnosti, dok su vrijednosti ve¢e od<br />
5 razlog za zabrinutost. Obzirom da je tolerance recipro£na vrijednost od
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 31<br />
VIF, onda vrijednosti ovog pokazatelja ne bi trebale biti manje od 1 /V IF =<br />
1/10 = 0, 1, odnosno vrijednosti manje od 1 /V IF = 1 /5 = 0, 2 ukazuju na<br />
potencijalno visoku multikolinarnost. Takožer, prosje£na vrijednost VIF za<br />
sve varijable ne bi trebala biti znatno ve¢a od 1.<br />
Da bi smo unutar State dobili ove pokazatelje za model 1.10 posluºi¢emo<br />
se naredbom vif.<br />
. vif<br />
Variable VIF 1/VIF<br />
gisk 1.44 0.696220<br />
prom 1.26 0.792744<br />
posj 1.19 0.841148<br />
Mean VIF 1.30<br />
Output 1.8<br />
Output 1.8 pokazuje da su u na²em primjeru sve pojedina£ne vrijednosti<br />
VIF znatno ispod 10. 5 Istovremneo, prosje£ni VIF nije mnogo ve¢i od 1,<br />
tako da sa sigurno²¢u moºemo zaklju£iti kako nema multikorelacije unutar<br />
na²ih podataka.<br />
1.2.3.2 Efekti multikolinearnosti<br />
Previsoka multikolinearnost vodi ka nestabilnosti regresionog modela obzirom<br />
da je zbog visokog postotka zajedni£ke varijanse izmežu varijabli smanjena<br />
mogu¢nost predvižanja vrijednosti zavisne varijable kao i mogu¢nost<br />
da se ustanovi relativna uloga nezavisnih varijabli [10, p. 228]. Pored ovoga,<br />
multikolinearnost moºe uticati na to da regresioni koecijenati budu pogre²no<br />
procijenjeni pa £ak i da promijene predznak. Neo£ekivane promjene<br />
u veli£ini ili predznaku koecijenata su jedan od simptoma multikolinearnosti.<br />
Posebno veliki uticaj multikolineranost ima na testiranje signikantnosti<br />
regresionih koecijenata. U slu£aju prisustva znatne multikolinearnosti te²ko<br />
je procijeniti jedinstveni uticaj prediktora pa dolazi do inacije standardnih<br />
gre²ki. ƒak se moºe desiti da niti jedan koecijent unutar modela ne bude<br />
signikantan a da istovremeno imamo visok R 2 . Ovakva situacija je tipi£an<br />
5 Shodno tome i sve vrijednosti za tolerance su ve¢e od 0, 2.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 32<br />
simptom multikolinearnosti. Problemi vezani za multikolinearnot su posebno<br />
izraºeni ako imamo mali uzorak.<br />
1.2.3.3 Rje²avanje problema multikolinearnosti?<br />
Postoji nekoliko razli£itih pristupa putem kojih se moºe adresirati problem<br />
multikolineranosti. Ni jedan pristup ne predstavlja savr²eno rje²enje a izbor<br />
najprikladnijeg zavisi¢e od razumjevanja konteksta problema za koji koristimo<br />
regresioni model. Naj£e²¢i pristupi su:<br />
1. Kombinovanje prediktora koji visoko koreliraju u novu varijablu. Na<br />
primjer, pretpostavimo da kompanija prodaje proizvode putem dva<br />
distributivna kanala u kojima zbog razli£ite strukture tro²kova zara-<br />
£unava razli£ite cijene. Sasvim je o£ekivano da ¢e cijene proizvoda u<br />
kanalu 1 i 2 mežusobno visoko korelirati. Umjesto da u regresionoj<br />
analizi koristimo dvije nezavisne varijable za cijene u razli£itim kanalima,<br />
moºemo izra£unati prosje£nu cijenu. Kombinovanje dva ili vi²e<br />
prediktora u novu varijablu ima smisla ukoliko su oni mjereni na istoj<br />
mjernoj skali.<br />
Takožer, ako koristimo vi²e varijabli da bi izmjerili neki konstrukt<br />
(npr. nekoliko Likertovih skala kojima mjerimo kvalitet usluge), po-<br />
ºeljno primjeniti faktorsku analizu kako bi te varijable kombinovali u<br />
jednu varijablu koja ¢e predstavljati dati konstrukt u regresionom modelu.<br />
2. Prikupiti dodatne podatke kako bi se pove¢ala veli£ina uzorka. Postoji<br />
vjerovatno¢a da ¢e dodatni podaci bar donekle razblaºiti korelaciju<br />
izmežu prediktora ili smanjiti standardne gre²ke regresionih koecijenata.<br />
3. Izbaciti varijablu koja ima visok stepen korelacije sa drugim prediktorima.<br />
Ovo je legitimna radnja ukoliko dvije varijable mjere istu pojavu<br />
na vrlo sli£an na£in. U suprotnom, potrebno biti oprezan. Ako postoji<br />
jako teoretsko upori²te da varijabla bude u modelu, njeno izbacivanje<br />
moºe voditi do gre²ke specikacije (engl. specication error).<br />
4. Parametre modela moºemo procijeniti primjenom posebnih metoda<br />
koje su pogodnije za estimaciju u slu£aju prisustva multikolinearnosti.<br />
Najpoznatije metode iz ove grupe su: a) Ridge regresija (engl. Ridge<br />
regression) koja vje²ta£ki smanjuje nivo korelacije mežu varijablama
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 33<br />
da bi se dobile stabilnije procjene i b) Regresija osnovnih komponenata<br />
(engl. Principal component regression), koja predstavlja kombinaciju<br />
analize osnovnih komponenata (koja se prvo primenjuje u procesu stabilizacije<br />
modela) i metode najmanjih kvadrata (koja se primenjuje<br />
naknadno u cilju odreživanja vrijednosti regresionih koecijenata nezavisnih<br />
varijabli za koje je u primarnoj analizi utvrženo da su osnovne)<br />
[5].<br />
1.2.3.4 Multikolinearnost i efekat suzbijanja<br />
Ovdje ¢emo napraviti malu digresiju obzirom da korelaciona matrica sa outputa<br />
1.7 pokazuje jo² jednu zanimljivu £injenicu. Naime, prediktori gisk<br />
(godine iskustva) i prom (budºet za unapreženje prodaje) prili£no jako koreliraju<br />
sa zavisnom varijablom prod (obim prodaje). Mežutim, prediktor<br />
posj (broj posjeta) ne korelira sa zavisnom varijablom prom (budºet za unapreženje<br />
prodaje). Koecijent korelacije izmežu te dvije varijable je gotovo<br />
jednak nuli i nije statisti£ki signikantan. Ako bi kreirali prosti regresioni<br />
model dobili bi da je b 1 = −0.038 za varijablu posj (broja posjeta). Koecijent<br />
ne bi bio statisti£ki signikantan: t(50) = −0, 05, p = 0, 958. Koecijent<br />
determinacije bi iznosio: R 2 = 0, 00. Mežutim, kada se varijabla posj (broj<br />
posjeta) uklju£i u vi²estruki regresioni model (jedna£ina 1.10) procjenjeni<br />
koecijent bude znatno ve¢i od nule i statisti£ki signikantan (²to moºemo<br />
vidjeti sa outputa 1.6 i 1.8). Kako je to mogu¢e? Radi se o tzv. efektu<br />
suzbijanja (engl. suppression eect) 6 . Naime, obratimo paºnju da iako varijabla<br />
posj (broj posjeta) nije povezana sa zavisnom varijablom prod (obim<br />
prodaje), ona negativno korelira sa varijablom gisk (godine iskustva). Ve¢<br />
smo zaklju£ili da je to zbog toga ²to iskusniji komercijalisti manje idu na<br />
teren. Vjerovatno iz razloga ²to ve¢ imaju razvijenu mreºu distributera sa<br />
kojima su uhodali poslovnu saradnju pa nemaju potrebu da se sa tim klijentima<br />
£esto vižaju uºivo. Ako je ova pretpostavka ta£na, onda varijabla<br />
gisk (godine iskustva) ne djeluje samo na prodaju ve¢ i na varijablu posj<br />
(broj posjeta). U tom slu£aju varijabla posj (broj posjeta) unutar modela<br />
ima ulogu varijable supresora jer maskira stvarnu prirodu veze izmežu gisk<br />
(godina iskustva) i prod (obima prodaje). Moºe se re¢i da na isti na£in ove<br />
dvije varijbale maskiraju vezu izmežu posj (broja posjeta) i prod (obima<br />
prodaje).<br />
Izostavljanje varijable posj (broj posjeta) iz modela vodilo bi potcjenjiva-<br />
6 Od engl. glagola suppress ²to na na²em jeziku zna£i suzbiti.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 34<br />
nju efekta godina iskustva na prodaju. Za²to? Uklju£ivanje varijable supresora<br />
x 2 u regresioni model suzbija jedan dio neºeljene varijanse (engl. error<br />
variance) varijable prediktora x 1 . Samim tim x 1 postaje bolji prediktor ²to<br />
u kona£nici rezultira poja£avanjem veze izmežu x 1 i y. Ovo je prikazano na<br />
slici 1.6.<br />
Slika 1.6<br />
Na slici 1.6 je prikazan efekat tzv. klasi£ne supresije koji imamo kada<br />
ne postoji bivarijantna korelacija izmežu prediktora x 2 i zavisne varijable<br />
y. Postoje i druge vrste efekta supresije, a za vi²e detalja pogledati [9,<br />
17, 19, 11, 2, 10]. Ono ²to je bitno zapamtiti jeste to da varijable supresori<br />
pove¢avaju: a) prediktivnu validnost jedne ili vi²e drugih varijabli prediktora<br />
unutar modela i b) pove¢avaju ukupni R 2 , dok one same imaju slabu ili<br />
nikakvu bivarijantnu korelaciju sa zavisnom varijablom. Ovo je ilustrovano<br />
na sljede¢em outputu:
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 35<br />
. quietly reg prod gisk<br />
. estimates store model1<br />
. quietly reg prod gisk prom<br />
. estimates store model2<br />
. quietly reg prod gisk prom posj<br />
. estimates store model3<br />
. estimates table model1 model2 model3, stats(N r2 r2_a) star<br />
Variable model1 model2 model3<br />
gisk .43184719*** .27222467*** .35197263***<br />
prom 2.1973038*** 2.2347135***<br />
posj 1.4501431**<br />
_cons 10.665343*** 6.5917266*** -1.7128277<br />
Output 1.9<br />
N 50 50 50<br />
r2 .37892889 .57770217 .65117545<br />
r2_a .36598991 .55973205 .62842603<br />
legend: * p
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 36<br />
iskustva) i prom (budºet za unapreženje prodaje) ubacimo u model, one<br />
¢e objasniti znatan dio postoje¢e neºeljene varijanse unutar varijable posj<br />
(broj posjeta) i ona ¢e postati signikanta. Drugim rije£ima, uspje¢emo da<br />
detektujemo ranije maskirani efekat na relaciji posj (broj posjeta) → prod<br />
(ostvarena prodaja).<br />
Takožer, prisjetimo se da unutar vi²estruke regresije koecijente tuma-<br />
£imo uz ogradu kada ostale prediktore drºimo konstantnim, odnosno kada<br />
kontroli²emo za ostale prediktore (oba izraza imaju isto zna£enje). U na-<br />
²em slu£aju, koecijent za posj (broj posjeta) ¢e biti signikantan upravo<br />
ako ostale prediktore drºimo konstantnim. Ovo zna£i da ¢e prodava£i koji<br />
imaju isti nivo prodajnog iskustva u prosjeku ostvariti ve¢u prodaju ako<br />
£e²¢e posje¢uju klijente na terenu (²to je vidljivo na slici 1.4). Drugim rije-<br />
£ima, nakon ²to smo kontrolisali za godine iskustva moºemo vidjeti stvarni<br />
efekat koji broj posjeta ima na ostvarenu prodaju.<br />
1.3 Pretpostavke koje se odnose na svojstva distribucije<br />
reziduala<br />
Regresioni model opisan jedna£inama 1.1 i 1.9 po£iva na nekoliko pretpostavki<br />
koje opisuju distribuciju vjerovatno¢e reziduala. Pretpostavke o tome<br />
da bi reziduali trebali biti nezavisni, normalno distribuirani oko predviženih<br />
vrijednosti zavisne varijable sa prosje£nom vrijedno²¢u jednakom nuli i uz<br />
konstantnu varijansu σ 2 matematski se mogu izraziti jednim izrazom:<br />
e ∼ N(0, σ 2 ) (1.2)<br />
Ove pretpostavke moraju biti zadovoljene kako procjenjeni parametri modela<br />
ne bi bili pristrasni i kako bi testiranje njihove signikantnosti bilo<br />
validno. Osim pretpostavke o nezavisnosti, ostale pretpostavke su gra£ki<br />
predstavljene na slici 1.7.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 37<br />
Slika 1.7<br />
1.3.1 Nepostojanje heteroskedasti£nosti<br />
Obzirom da se y i e razlikuju samo za konstantu, njihova varijansa ¢e biti<br />
identi£na i jednaka, odnosno: V (e) = σ 2 za svaku vrijednost x. Drugim rije-<br />
£ima, varijansa reziduala oko predviženih vrijednosti zavisne varijable treba<br />
da je pribliºno jednaka za sve predvižene vrijednosti (slika 1.7). Gra£ki<br />
predstavljeno na slici 1.7 to bi zna£ilo da ¢e vertikalna raspr²enost reziduala<br />
oko regresione linije biti sli£na za svaku vrijednost x kako se kre¢emo s lijeva<br />
na desno. Ukoliko je ova pretpostavkla ta£na, kaºemo da postoji homoskedasti£nost<br />
(engl. homoscedasticity). U suprotnom, pojavljuje se problem<br />
heteroskedasti£nosti (engl. heteroskedasticity).<br />
Povezanost izmežu zavisne varijable i reziduala se moºe iskoristiti da<br />
konstrui²emo dijagram rasipanja na kojem su na y-osi predstavljene vrijednosti<br />
rezidula (e i ), a na x-osi predvižene vrijednosti zavisne varijable (ŷ i ).<br />
Na slici 1.8 su predstavljeni tipi£ni rezultati koje moºemo o£ekivati na takvom<br />
graku. Ukoliko je ispunjena pretpostavka o homoskedasti£nosti, ta£ke<br />
na dijagramu bi trebale biti ravnomjerno rasporežene oko nule bez ikakvog
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 38<br />
jasnog obrasca (prvi dijagram na slici 1.8). Kada su ta£ke ravnomjerno rasporežene<br />
ali jedna strana ima mnogo ve¢u raspr²enost onda nije ispunjena<br />
pretpostavka o normalnosti reziduala (drugi dijagram na slici 1.8). Ako ta£ke<br />
imaju bilo kakav oblik koji li£i na krivulju, postoji velika vjerovano¢a da je<br />
naru²ena pretpostavka o linearnosti (tre¢i dijagram na slici 1.8). Kada ta£ke<br />
formiraju sliku "lijevka", tj. da su na jednom kraju vi²e koncentrisane oko<br />
nule a na drugom nisu, onda imamo problem heteroskedasti£nosti (£etvrti<br />
dijagram na slici 1.8).<br />
Mogu¢e su i druge situacije, ali je bitno zapamtiti da sva znatnija odstupanja<br />
od situacije predstavljene na prvom dijagramu slike 1.8, a posebno<br />
pojava bilo kakvog jasnog oblika ili obrasca rasporeda ta£aka, ukazuju na<br />
potencijalni problem.<br />
Slika 1.8
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 39<br />
1.3.1.1 Uzroci heteroskedasti£nosti<br />
Kada je rije£ o heteroskedasti£nosti naj£e²¢a je situacija da imamo neku<br />
vrstu oblika lijevka. Na ²ta ukazuje takav raspored reziduala? Obrazac<br />
lijevka govori da varijansa reziduala raste kako rastu vrijednosti zavisne<br />
varijable. Postoje razli£iti razlozi zbog £ega se to de²ava.<br />
1. Reziduali mogu rasti (ili se smanjivati) kako raste (ili opada) vrijednost<br />
varijable prediktora. Na primjer, pretpostavimo istraºivanje u<br />
kojem se poku²ava utvrditi ²ta uti£e na prodajne performanse kompanije.<br />
Moglo bi se desiti da reziduali vezani za ve¢e rme imaju ve¢u<br />
varijansu u odnosu na rme manje veli£ine. To bi zna£ilo da je prodaja<br />
ve¢ih rmi podloºna ve¢im oscilacijama. U tom kontekstu model bi bio<br />
precizan za predvižanje prodaje manjih rmi, ali bi se sa porastom veli£ine<br />
rme pove¢avala nepreciznost.<br />
Sli£an primjer je vezan za mijenjanje obrazaca potro²nje do kojeg dolazi<br />
sa porastom diskrecionog dohotka. Kako dohodak raste, neki pojedinci<br />
²tede vi²e dok drugi imaju sklonost da odmah potro²e znatan dio dodatnih<br />
nov£anih sredstava. Samim tim, sa porastom dohodka raste<br />
i varijansa reziduala koja ne¢e biti ista za ljude sa manjim i ve¢im<br />
dohotkom.<br />
2. Kod longitudinalnih podataka, heteroskedasti£nost se moºe pojaviti<br />
kao rezultat usavr²avanja neke osobine tokom vremena. Na primjer,<br />
ako se tehnika prikupljanja podataka usavr²ava, kasnije gre²ke mjerenja<br />
¢e biti manje nego na po£etku. Ili, pretpostavimo, da testiramo<br />
sposobnosti prodava£a. Prodava£i tokom vremena u£e pa se shodno<br />
tome smanjuju gre²ke na testovima sposobnosti. Samim tim ¢e se tokom<br />
vremena smanjivati i varijansa reziduala.<br />
3. ƒest izvor heteroskedasti£nosti je upotreba agreriranih podataka dobijenih<br />
putem razli£itih anketa. Ukoliko ovakvi podaci nisu ponderisani<br />
na odgovaraju¢i na£in, pove¢ava se rizik da ¢e pretpostavka o konstantnoj<br />
varijansi biti naru²ena.<br />
4. Heteroskedasti£nost se moºe javiti i kao posljedica naru²avanja drugih<br />
regresionih pretpostavki. Na primjer, ako neki ispitanici mogu pruºiti<br />
preciznije odgovore u odnosu na druge ispitanike, varijansa reziduala<br />
¢e biti razli£ita zbog naru²avanja pretpostavke o preciznosti mjerenja.<br />
5. Heteroskedasti£nost se javlja i ako postoje subpopulacijske razlike (ili
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 40<br />
efekti interakcije). Na primjer, pretpostavimo da izmežu ºena i mu-<br />
²karaca postoji razlika u pogledu potro²nje nekog dobra. Ako u model<br />
nije uklju£ena varijablu spol koja bi inkorporirala te razlike, naru²ena<br />
je pretpostavka o pravilnoj specikaciji modela i varijansa reziduala ¢e<br />
biti razli£ita za mu²ke i ºenske ispitanike.<br />
6. Kad god vaºan prediktor nije uklju£en u model, to moºe dovesti do<br />
pojave heteroskedasti£nosti. U tom slu£aju ¢e reziduali korelirati sa<br />
eksternom varijablom koja nije u modelu. Na primjer, reziduali ¢e<br />
biti veliki (ili mali) kad god je vrijednost neuklju£ene varijable velika<br />
(odnosno mala).<br />
7. Nesimetri£na distribucija zavisne varijable i/ili varijabli prediktora je<br />
jo² jedan potencijalni izvor heteroskedasti£nosti.<br />
8. Pogre²na transformacija ili pogre²na specikacija funkcionalne forme.<br />
Na primjer, ako postoji nelinearni trend pa smo propustili da uz nezavisnu<br />
varijablu x u model ubacimo i njenu kvadriranu vrijednost x 2 .<br />
1.3.1.2 Detektovanje heteroskedasti£nosti<br />
Kako smo ve¢ obrazloºili, jedan od klju£nih na£ina za ispitivanje postojanja<br />
heteroskedasti£nosti je dijagram rasipanja rezidula i predvižene vrijednosti<br />
zavisne varijable. Da bi dobili takav dijagram za model 1.10 iz na²eg primjera,<br />
iskoristi¢emo rvfplot naredbu unutar State.<br />
rvfplot, yline(0)
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 41<br />
Slika 1.9<br />
Na dijagramu ne moºemo uo£iti da reziduali kreiraju bilo kakav sumnjiv<br />
oblik. Ta£ke su ravnomjerno raspr²ene oko nule pa zaklju£ujemo da je<br />
pretpostavka o homoskedasti£nosti ispunjena.<br />
Iako je vizulena inspekcija reziduala nezaobilazan alat, nekada ona sama<br />
nije dovoljna da donesemo kona£an sud o ispunjenju pretpostavke. Naime,<br />
kao i svaki drugi vizuelni metod, i ovaj je podloºan subjektivnosti istraºiva£a.<br />
Zbog toga se pored vizuelne inspekcije za ispitivanje pretpostavke koriste<br />
testovi za detektovanje heteroskedasti£nosti.<br />
Breusch-Pagan/Cook-Weisberg test je kreiran kako bi se detektovala<br />
bilo koja linearna forma heteroskedasti£nosti (kao ²to je ona na £etvrtom dijagramu<br />
slike 1.8). Nulta hipoteza ovog testa je da reziduali imaju homogenu<br />
varijansu. Alternativna hipoteza je da varijansa reziduala raste (ili opada)<br />
kako rastu (ili opadaju) predvižene vrijednosti zavisne varijable. Visoka hikvadrat<br />
vrijednost testa upu¢uje da je prisutna heteroskedasti£nost.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 42<br />
. estat hettest<br />
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity<br />
Ho: Constant variance<br />
Variables: fitted values of prod<br />
Output 1.10<br />
chi2(1) = 0.01<br />
Prob > chi2 = 0.9356<br />
Iz outputa 1.10 vidimo da je za model test visoko nesignikantan (p =<br />
0, 936), na osnovu £ega zaklju£ujemo da je pretpostavka o homogenoj varijansi<br />
ispunjena i da nema prisutne heteroskedasti£nosti.<br />
Kako smo prethodno rekli, Breusch-Pagan/Cook-Weisberg-ov test je dobar<br />
za detekciju linearnih formi heteroskedasti£nosti. Mežutim, ako reziduali<br />
nemaju normalnu distribuciju, ili ako su u pitanju neke druge forme<br />
heteroskedasti£nosti, bolje je koristiti White-ov op²ti test za heteroskedasti£nost.<br />
. estat imtest<br />
Cameron & Trivedi¡s decomposition of IM-test<br />
Source chi2 df p<br />
Heteroskedasticity 5.21 9 0.8159<br />
Skewness 1.12 3 0.7727<br />
Kurtosis 0.28 1 0.5960<br />
Total 6.61 13 0.9213<br />
Output 1.11<br />
Output 1.11 pokazuje da je i u ovom slu£aju test nesignikantan i da je<br />
ispunjena pretpostavka o homoskedasti£nosti.<br />
Za vi²e detalja o kalkulacijama koje stoje u pozadini ova dva testa pogledati<br />
[18].<br />
Vrlo je vaºno napomenuti da su navedeni testovi jako osjetljivi na naru-<br />
²avanje drugih regresionih pretpostavki, kao ²to je npr. pretpostavka normalnosti.<br />
Zbog toga je uobi£ajeno da se testovi kombinuju sa vizuelnom<br />
inspekcijom reziduala kako bi se procjenila ja£ina heteroskedasti£nosti i donijela<br />
odluka o tome da li su potrebne korektivne akcije.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 43<br />
1.3.1.3 Efekti heteroskedasti£nosti<br />
Heteroskedasti£nost ne uti£e na pristrasnost regresionih koecijenata. Glavna<br />
posljedica naru²avanja pretpostavke o homoskedasti£nosti je da OLS metod<br />
estimacije ne pruºa procjenu parametara uz najmanju varijansu (tj. nije<br />
ekasan). To dalje rezultira time da ¢e procjenjene standardne gre²ke biti<br />
neta£ne. Kako se testiranje signikantnosti regresionih koecijenata zasniva<br />
na veli£ini standardnih gre²aka, postoji vjerovatno¢a da ono bude neta£no.<br />
Zavisno od prirode heteroskedasti£nosti, standardne gre²ke mogu biti precijenjene<br />
ili podcijenjene.<br />
1.3.1.4 Rje²avanje problema heteroskedasti£nosti<br />
1. Respecikacija modela. Kako smo vidjeli iz prethodnog izlaganja, vrlo<br />
£est uzrok pojave heteroskedasti£nosti je pogre²na specikacija modela.<br />
Mogu¢e je da postoje razlike izmežu pojednih grupa, da je rije£ o nelinearnoj<br />
vezi, da varijable nemaju normalnu distribuciju ili da smo iz<br />
modela izostavili bitan prediktor. Identikovanje i adresiranje stvarnog<br />
uzroka pogre²ne specikacije ¢e rezultirati rje²enjem problema heteroskedasti£nosti.<br />
Naj£e²¢e se problem pogre²ne specikacije modela<br />
rje²ava putem dodavanja izostavljenog prediktora ili transformacijom<br />
postoje¢ih varijabli.<br />
2. Ukoliko je, uz najbolju mogu¢u specikaciju modela, heteroskedasti£nost<br />
i dalje prisutna, moºe se uraditi estimacija parametara uz kori²tenje<br />
robustnih standardnih gre²ki (engl. Robust standard errors<br />
ili White-corrected standard errors). Robustne standardne gre²ke se<br />
izra£unavaju na bazi korigovane matrice varijansi i kovarijansi (engl.<br />
variance-covariance matrix). Kori²tenje ove opcije ne¢e uticati na veli-<br />
£inu procjenjenih regresionih koecijenata i oni ¢e ostati isti. Mežutim,<br />
standardne gre²ke ¢e biti korigovane kako bi testiranje signikantnosti<br />
regresionih koecijenata bilo nepristrasno.<br />
3. Procjena parametara se moºe uraditi i primjenom metode ponderiranih<br />
najmanjih kvadrata (engl. Weighted Least Squares Regression - WLS).<br />
Ova metoda se koristi prvenstveno ukoliko nismo u mogu¢nosti identi-<br />
kovati eksternu varijablu koja korelira sa rezidualima ili ako smo tu<br />
varijablu propustili mjeriti a okolnosti ne dozvoljavaju naknadno prikupljanje<br />
dodatnih podataka. WLS regresija se upotrebljava i kad je
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 44<br />
potrebno ponderisati agrerirane podatake dobijene na bazi ankete. Za<br />
vi²e detalja o ovome pogledati [6].<br />
1.3.2 Nezavisnost i nepostojanje autokorelacije<br />
Reziduali su mežusobno nezavisni (engl. independent errors) i ne koreliraju<br />
(engl. no autocorrelation), pa je za svake dvije opservacije: cov(e i , e j ) =<br />
cov(y i , y j ) = 0.<br />
Stroºija verzija ove pretpostavke glasi da su reziduali statisti£ki nezavisni,<br />
u kojem slu£aju su i vrijednosti zavisne varijable takože mežusobno<br />
nezavisne. Pretpostavka o nezavisnosti ¢e biti naru²ena ukoliko su opservacije<br />
(ili mjerenja) na neki na£in mežusobno povezana. Naj£e²¢i slu£aj pri<br />
kojem se to de²ava je kada podaci imaju hijerarhijsku ili klaster strukturu.<br />
Na primjer, ako smo anketirali zaposlenike iz vi²e rmi postoji vjerovatno¢a<br />
da ¢e odgovori ispitanika iz iste rme biti mežusobno sli£ni. Kao posljedica<br />
toga, reziduali zaposlenih unutar iste rme ne¢e biti nezavisni. Ova pretpostavka<br />
moºe biti naru²ena i kada je pri istraºivanju kori²ten zavisni dizajn.<br />
Na primjer, ako je od ispitanika traºeno da popune isti upitnik prije i poslije<br />
eksperimentalne manipulacije, postoji vjerovatno¢a da ¢e odgovori iz upitnika<br />
biti mežusobno povezani. I tada imamo situaciju da reziduali ne¢e biti<br />
nezavisni.<br />
Pretpostavka o nepostojanju autokorelacije zna£i da reziduali vezani za<br />
sukcesivne opservacije e 1 , e 2 , e 3 . . . mežusobno ne bi trebali ni na koji na£in<br />
biti povezani jedni sa drugim. Drugim rije£ima, ako postoji trend na osnovu<br />
kojeg se moºe predvidjeti vrijednost bilo kojeg narednog reziduala u odnosu<br />
na prethodni kaºemo da postoji problem autokorelacije. Generalno gledano,<br />
postoje dvije situacije kada se javlja autokorelacija:<br />
Serijska autokorelacija (engl. serial autocorrelation) se javlja kada<br />
imamo podatke koji su prikupljani tokom vremenskog perioda. Zbog navedenog,<br />
ispitivanje ove pretpostavke je posebno zna£ajno za varijable koje<br />
se mjere longitudinalno. U takvim situacijama vrijednosti mnogih varijabli<br />
tokom vremena imaju tendenciju rasta (ili pada), pa ako znamo vrijednost<br />
opservacije u teku¢em periodu, vrlo lako moºemo procijeniti vrijednost prethodne<br />
opservacije. Serijska autokorelacija ¢e standardno biti ja£a za podatke<br />
koji su mežusobno vremenski blizu. Samim tim, i njihovi reziduali ¢e biti<br />
ja£e povezani.<br />
Ukoliko vrijednosti varijable u datom periodu koreliraju sa vrijednostima
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 45<br />
iste varijable koji se nalaze jedan period unazad tada se radi o tzv. serijskoj<br />
korelaciji sa vremenskim pomakom prvog reda (engl. rst-order serial correlation),<br />
gdje je corr(e t , e t−1 ) ≠ 0. Na primjer, ako smo mjerili ostvareni<br />
poslovni rezultat preduze¢a tokom niza godina, mogu¢e je da su reziduali<br />
za opservacije koje se nalaze u susjednim godinama mežusobno povezani. 7<br />
Na slici 1.10 je dat prikaz dvije mogu¢e situacije serijske autokorelacije prvog<br />
reda izmežu sukcesivnih opservacija (gornji red) i pripadaju¢ih reziduala<br />
(donji red).<br />
Slika 1.10<br />
Na lijevoj strani slike 1.10 vidimo kako izgleda tzv. pozitivna autokorelacija<br />
kod koje je corr(e t , e t−1 ) > 0. Moºemo primjetiti kako se na po£etku<br />
perioda opservirane vrijednosti nalaze koncentrisane iznad linije. Kako vrijeme<br />
proti£e, povezanost se nastavlja ali se mijenja trend koji u jednom<br />
7 Serijska korelacija izmežu rezidula se moºe javiti i u slu£ajevima vremenskih pomaka<br />
(engl. time lag) ve¢ih od jednog perioda, pa ¢emo imati da je corr(e t, e t−n) ≠ 0. Na<br />
primjer, ako su podaci prikupljani kvartalno mogu¢e je da ¢e podaci iz jesenjeg perioda<br />
jedne godine korelarati sa podacima iz jesenjeg perioda druge godine.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 46<br />
momentu pada ispod regresione linije. Na kraju perioda trend se ponovo<br />
postepeno vra¢a iznad linije.<br />
Na desnoj starni slike 1.10 je dat primjer tzv. negativne autokorelacije<br />
kod koje je corr(e t , e t−1 ) < 0. Ovdje imamo cik-cak povezanost gdje je<br />
opservirana vrijednost u jednom periodu iznad linije, da bi u narednom pala<br />
ispod linije, pa se vratila ponovo iznad itd.<br />
Prostorna autokorelacija (engl. spatial autocorrelation) se javlja kada<br />
na osnovu prostorne lokacije jedinice uzorkovanja moºemo procijeniti vrijednost<br />
susjednih jedinica. Za razliku od vremenske autokorelacije, gdje<br />
podaci koreliraju izmežu razli£itih vremenskih perioda, kod prostorne korelacije<br />
podaci korelaraju izmežu razli£itih (naj£e²¢e geografskih) lokacija.<br />
Autokorelacija ¢e standardno biti ja£a za podatke koji su prostorno bliºi.<br />
Na primjer, vrlo je vjerovatno da su cijene nekretnina u susjednim gradskim<br />
kvartovima sli£ne. Na slici 1.11 je dat primjer pozitivne i negativne prostorne<br />
autokorelacije.<br />
Slika 1.11<br />
1.3.2.1 Detektovanje autokorelacije<br />
Da bi ispitali pretpostavku o nezavisnosti gre²ki i odsustvu autokorelacije<br />
unutar State posluºi¢emo se sa dvije metode.<br />
Durbin-Watson (D-W) test je naj£e²¢i test kojim se ispituje postojanje<br />
serijske korelacije prvog reda izmežu reziduala regresionog modela.<br />
Mogu¢i raspon koecijenta dobijenog na testu se kre¢e od 0 do 4. Vrijednosti<br />
koje su blizu 0 indikuju ekstremnu pozitivnu autokorelaciju, dok vrijednosti<br />
koje su blizu 4 indikuju ekstremnu negativnu autokorelaciju. Ako je dobijeni
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 47<br />
rezultat blizu 2 to upu¢uje na odsustvo autokorelacije. Generalno, vrijednosti<br />
koecijenta unutar raspona od 1,5 do 2,5 se smatraju prihvatljivim za<br />
ispunjene pretpostavke.<br />
Da bi proveli D-W test potrebno je prvo naredbom tsset denisati varijablu<br />
koja se odnosi na vremenski slijed obi£no mjesec, godinu ili neki<br />
drugi period tokom kojeg su prikupljani podaci. Mežutim, u konkretnom<br />
slu£aju, nas prvenstveno interesuje da li je ispunjena pretpostavka o nezavisnosti<br />
reziduala. Kako se ne radi o longitudinalnim podacima nemamo ni<br />
varijablu koja se odnosi na vremenski slijed. Zbog toga ¢emo je supstituirati<br />
varijablom id kojom se identikuju opservacije unutar skupa podataka. 8 Cilj<br />
je da vidimo da li gre²ke sukcesivno prikupljenih opservacija mežusobno koreliraju.<br />
Nakon ²to smo denisali potrebnu varijablu, sam Durbin-Watson<br />
test pozivamo sa naredbom dwastat, kako je prikazano na outputu 1.12.<br />
. quietly regress prod gisk prom posj<br />
. tsset id<br />
time variable: id, 1 to 50<br />
delta: 1 unit<br />
. dwstat<br />
Durbin-Watson d-statistic( 4, 50) = 1.875395<br />
Output 1.12<br />
Output pokazuje da dobijeni koecijent d = 1, 87 ²to je vrlo blizu vrijednosti<br />
2. To upu¢uje na zaklju£ak da je pretpostavka o nezavisnosti gre²aka<br />
ispunjena.<br />
Drugi metod koji se koristi za ispitivanje pretpostavke je vizuelna inspekcija<br />
rezidula. U tu svrhu potrebno je kreirati dijagram rasipanja na kojem<br />
y-osa predstavlja reziduale (nestandardizovane ili standardizovane), a x-osa<br />
vremenski tok. Obzirom da u na²em slu£aju nemamo longitudinalne podatke<br />
na x-osu ¢emo staviti identikacioni broj opservacija prema redoslijedu prikupljanja<br />
podataka.<br />
. predict r, resid<br />
. scatter r id, yline(0)<br />
8 U slu£aju da u bazi ne postoji ovakva varijabla, moºemo generisti sa: gen id = _n.
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 48<br />
Slika 1.12<br />
Na slici 1.12 ne moºemo uo£iti bilo kakav obrazac rasporeda reziduala<br />
koji bi ukazivao na prisustvo autokorelacije.<br />
Ovdje je potrebno napomenuti da bi se vizuelna provjera pretpostavke<br />
o postajanju autokorelacije trebala raditi tek na kraju, ako su ostale pretpostavke<br />
ispunjene, a posebno pretpostavka o pravilnoj speciaciji modela.<br />
Naime, nekada je mogu¢e dobiti obrazac prikazan na lijevoj strani slike 1.10<br />
ne zbog autokorelacije ve¢ zato ²to je model pogre²no speciciran kao linearan,<br />
iako je u stvari rije£ o nelinearnoj vezi.<br />
1.3.2.2 Efekti autokorelacije<br />
Sli£no kao i u slu£aju prisustva heteroskedasti£nosti, prisustvo serijske korelacije<br />
¢e uticati na ekasnost OLS estimatora. U slu£aju pozitivne autokorelacije,<br />
standardne gre²ke regresionih koecijenata ¢e biti potcijenjene.<br />
OLS estimator ¢e se £initi preciznijim nego ²to zaista jeste pa ¢e i R 2 biti<br />
precijenjen. Nasuprot tome, u slu£aju prisustva negativne autokorelacije
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 49<br />
standardne gre²ke ¢e biti precijenjene, a R 2 ¢e biti manji nego ²to bi trebalo.<br />
U oba slu£aja, validnost testiranja hipoteza o signikantnosti regresionih koecijenata<br />
je upitna zbog potencijalne pristrasnosti prilikom procjene veli£ine<br />
standardnih gre²ki.<br />
1.3.2.3 Rje²avanje problema autokorelacije<br />
U cilju rje²avanja problema autokrelacije, za vremenske serije, kros-sekcione<br />
vremenske serije (panel podatke) i kada podaci imaju hijerarhijsku ili klaster<br />
strukturu postoje razli£ite metode estimacije parametara modela. Na primjer,<br />
mogu¢e je koristiti metode generalizovanih najmanjih kvadrata (engl.<br />
Generalized Least Squares - GLS) ili mulitlevel modele 9 .<br />
1.3.3 Normalnost<br />
Ova pretpostavka se odnosi na to da distribucija vjerovatno¢e reziduala za<br />
datu vrijednost x ima: a) normalan raspored (e ∼ N) i b) prosje£nu (o£ekivanu)<br />
vrijednost jednaku nuli E(e|x) = E(e) = 0.<br />
Ako reziduali imaju normalan raspored, to zna£i da su empirijske ta£ke<br />
ravnomjerno rasporežene oko regresione linije. Vjerovatno¢a da ¢e za datu<br />
vrijednost x empirijska ta£ka biti dalje od linije postepeno opada kako se<br />
vertikalno udaljavamo od linije. Na slici 1.7 je dat prikaz rasporeda empirijskih<br />
ta£aka za pet vrijednosti nezavisne varijable x. Za svaku od tih pet<br />
vrijednosti, ve¢ina reziduala je koncentrisana koko regresione linije. Ta£ke<br />
iznad linije imaju pozitvnu, dok ta£ke ispod linije imati negativnu vrijednost<br />
reziduala. Kada su empirijske ta£ke manje-vi²e ravnomjerno rasporežene oko<br />
regresione linije, pozitivne i negativne vrijednosti njihovih reziduala ¢e se u<br />
zbiru gledano poni²titi i njihova prosje£na vrijednost ¢e biti jednaka nuli.<br />
U principu to zna£i da su razlike izmežu vrijednosti predviženih modelom i<br />
opserviranih vrijednosti naj£e²¢e jednake nuli ili da su veoma blizu nuli, dok<br />
se vrijednosti zna£ajno ve¢e od nule javljaju samo kao posljedica slu£ajnosti<br />
[7].<br />
Ovdje je potrebno obratiti paºnju da se ova pretpostavka primarno odnosi<br />
na distribuciju reziduala, a ne na distribuciju vrijednosti zavisne ili nezavis-<br />
9 Uobi£ajeni nazivi za ovakave modele su jo²: mje²oviti linearni modeli (engl. linear<br />
mixed models), hijerarhijski modeli (engl. hierarchical linear models) i modeli slu£ajnih<br />
koecijenata (eng. random parameter models)
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 50<br />
nih varijabli. Mežutim, ukoliko zavisna ili neka od nezavisnih varijabli imaju<br />
jako nakrivljenu distribuciju to moºe rezultirati time da distribucija reziduala<br />
bude nakrivljena.<br />
1.3.3.1 Ispitivanje pretpostavke o normalnosti<br />
Uobi£ajeno je da ispitivanje ove pretpostavke po£nemo tako ²to ¢emo nacrtati<br />
dijagram distribucije frekvencija reziduala. Ukoliko to nismo ranije<br />
uradili, prvo ¢emo naredbom predict kreirati varijablu koja sadrºi nestandardizovane<br />
reziduale. Zadim ¢emo iskoristiti naredbu kdensity sa opcijom<br />
normal da dobijemo traºeni dijagram. Opcija normal ¢e pored opservirane<br />
distribucije frekvencija prikazati i idelanu normalnu distribuciju ²to olak²ava<br />
poreženje.<br />
. predict r, resid<br />
. kdensity r, normal<br />
Slika 1.13
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 51<br />
Na dobijenom dijagramu reziduali bi trebali imati otprilike normalnu distribuciju.<br />
Vidimo da distribucija reziduala za model iz na²eg primjera vrlo<br />
blisko prati idealnu normalnu distribuciju. Takožer, distribucija je koncentrisana<br />
oko nule pa zaklju£ujemo da je pretpostavka ispunjena.<br />
Vizuelno ispitivanje pretpostavke o normalnosti putem dijagrama distribucije<br />
frekvencija moºe biti problemati£no ukoliko imamo mali uzorak. Zbog<br />
toga se za ocjenu normalnosti savjetuje kori²tenje dijagrama vjerovatno¢e<br />
(engl. probability plots). P-P dijagram (engl. probabilityprobability plot)<br />
predstavlja usporedbu opservirane kumulativne vjerovatno¢e pojave standardizovanih<br />
reziduala (y-osa) sa o£ekivanom kumulativnom vjerovatno¢om<br />
standardizovanih reziduala kada je njihova distribucija normalna (x-osa). Q-<br />
Q dijagram (engl. quantile-quantile plot) prikazuje usporedbu opserviranih<br />
kvantila datog uzorka sa kvantilima o£ekivane normalne distribucije. Ukoliko<br />
opservirane vrijednosti imaju normalnu distribuciju, ta£ke na oba dijagrama<br />
bi trebale biti rasporežene ta£no duº dijagonalne linije ili uz manja odstupanja<br />
oko nje.<br />
Oba dijagrama sluºe za provjeru pretpostavke o normalnosti reziduala.<br />
Prakti£na razlika izmežu njih je da P-P dijagram ima tendenciju da uveli£ava<br />
odstupanja od o£ekivane teoretske distribucije u sredini, dok Q-Q dijagram<br />
nagla²ava odstupanja na krajevima o£ekivane distribucije.<br />
. qnorm r, name(graph1) nodraw title(qq-plot)<br />
. pnorm r, name(graph2) nodraw title(pp-plot)<br />
. graph combine graph1 graph2, cols(2) title(Probability Plots: qq-plot vs pp-plot)
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 52<br />
Slika 1.14<br />
Na slici 1.14 vidimo da oba dijagrama pokazuju minimalna odstupanja<br />
reziduala od o£ekivane normalne distribucije ²to upu¢uje na zaklju£ak o ispunjenosti<br />
pretpostavke. Na Q-Q plotu u gornjem desnom uglu imamo tri<br />
ta£ke koje odstupaju ne²to vi²e od linije. Rije£ je o opservacijama 26, 37 i<br />
38 koje mogu predstavljati outliere.<br />
Osim vizuelno, pretpostavku o normalnosti distribucije reziduala moºemo<br />
ispitati i putem statisti£kih testova. Dva naj£e²¢e kori²tena testa za ovu namjenu<br />
su KolmogorovSmirnov (KS) test i ShapiroWilk (SW) test. Kod<br />
oba testa, signikantan rezultat (p>0,05) zna£i da je distrubucija rezidula<br />
odstupa od normalne distribucije. Generalno govore¢i, SW test je osjetljiviji<br />
na odstupanja od normalnosti pa ga je preporu£ljivo koristiti, pogotovo<br />
ukoliko imamo manji uzorak [1]. Za vi²e detalja o testovima normalnosti<br />
distribucije pogledati [15].
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 53<br />
. swilk r<br />
Shapiro-Wilk W test for normal data<br />
Variable Obs W V z Prob>z<br />
r 50 0.98778 0.575 -1.181 0.88121<br />
Output 1.13<br />
Output 1.13 pokazuje da distribucija reziduala ne odstupa zna£ajno od<br />
normalne distribucije (W = 0, 99, p = 0, 881) pa zaklju£ujemo da je pretpostavka<br />
ispunjena.<br />
Ovdje vrlo vaºno napomenuti da rezultate testova normalnosti treba uzeti<br />
sa zrnom soli. Naime, u ve¢im uzorcima i najmanja odstupanja od normalne<br />
distribucije ¢e biti statisti£ki signikantna. Zbog toga je testove neophodno<br />
korisiti u kombinaciji sa vizuelnom inspekcijom kako bi se donijela<br />
pravilna odluka o tome da li je pretpostavka o normalnosti naru²ena ili nije.<br />
1.3.3.2 Efekti naru²avanja pretpostavke o normalnosti<br />
U manjim uzorcima, primarni uticaj naru²avanja pretpostavke o normalnosti<br />
odnosi se na ekasnost OLS estimatora. Veli£ina procijenjenih standardnih<br />
gre²ki bi¢e nepouzdana, a samim tim testiranje signifakntnosti regresionih<br />
koecijenata moºe biti pristrasno i nepouzdano.<br />
U ve¢im uzorcima, naru²avanje ove pretpostavke ne predstavlja ozbiljan<br />
problem i moºemo se osloniti na testove signikantnosti koji ¢e biti<br />
pouzdani[2]. Takožer, naru²avanje pretpostavke o normalnosti ne¢e mnogo<br />
uticati na procijenjene regresione koecijente. Centralni grani£ni teorem<br />
podrazumjeva da ¢e u ve¢im uzorcima distribucija uzorkovanja (engl. sampling<br />
distribution) regresionih koecijenata imati normalan raspored, £ak i<br />
ako reziduali nisu normalno rasporeženi u datom uzorku [8]. Samim tim,<br />
b koecijenti ¢e i dalje biti nepristrasni. Naru²avanje pretpostavke da je<br />
E(e|x) = 0 ¢e uticati samo na pogre²nu procjenu vrijednosti konstante b 0 .<br />
1.3.3.3 Rje²avanje problema naru²ene pretpostavke o normalnosti<br />
Naru²avanje pretpostavke o normalnosti reziduala £esto je vaºan signal pogre²ene<br />
specikacije modela. Istraºiva£ treba nastojati da u model uklju£i
POGLAVLJE 1. PRETPOSTAVKE OLS REGRESIONOG MODELA 54<br />
sve bitne faktore koji djeluju na zavisnu varijablu, tako da reziduali obuhvate<br />
samo nerelevantne ili faktore koje je nemogu¢e izmjeriti. Ako iz modela izostavimo<br />
neki bitan faktor, ili napravimo bilo koju drugu gre²ku u specikaciji<br />
modela, onda rizikujemo da ¢e se desiti da je E(e|x) ≠ 0.<br />
Ukoliko zavisna varijabla ili prediktori imaju jako nakrivljenu distribuciju,<br />
moºemo poku²ati uraditi i odgovaraju¢u transformaciju.
Bibliograja<br />
[1] Nor Aishah Ahad, Teh Sin Yin, Abdul Rahman Othman, and Che Rohani<br />
Yaacob. Sensitivity of normality tests to non-normal data. Sains<br />
Malaysiana, 40(6):637641, 2011.<br />
[2] Jacob Cohen, Patricia Cohen, Stephen G. West, and Leona S. Aiken.<br />
Applied Multiple Regression/Correlation Analysis for the Behavioral<br />
Sciences. Lawrence Erlbaum Associates, Inc., 3 edition, 2003.<br />
[3] Robert G. Croinger and Karen M. Douglas. Survey Research Emerging<br />
Issues: New Directions for Institutional Research. Number 127. Jossey-<br />
Bass, San Francisco, 2005. Chapter 3, pp. 33-50.<br />
[4] John Dawes. Do data characteristics change according to the number<br />
of scale points used? an experiment using 5-point, 7-point and 10-point<br />
scales. International Journal of Market Research, 50(1), 2007.<br />
[5] Branka Dimitrijevi¢ and Vladimir Simi¢. Heuristi£ki algoritam regresione<br />
stabilnosti. In XXIX Simpozijum o novim tehnologijama u po-<br />
²tanskom i telekomunikacionom saobra¢aju PosTel 2011. Saobra¢ajni<br />
fakultet Univerziteta u Beogradu, Decembar 2011.<br />
[6] David Dranove. Practical regression: Noise, heteroskedasticity, and grouped<br />
data. Technical Report KEL640, Kellogg School of Management,<br />
Northwestern university, 2012.<br />
[7] Andy Field. Discovering Statistics Using SPSS. SAGE Publications<br />
Ltd., 3 edition, 2009.<br />
[8] G. David Garson. Multiple Regression. Blue Book Series. Statistical<br />
Associates Publishing, 2012 edition edition, 2012.<br />
[9] David. C. Howell. Moderating and mediating relationships, 2002.<br />
55
BIBLIOGRAFIJA 56<br />
[10] Jr. Joseph F. Hair, William C. Black, Barry J. Babin, Rolph E. Anderson,<br />
and Ronald D. Tatham. Multivariate Data Analysis. Pearson<br />
Prentice Hall, 6 edition, 2006.<br />
[11] David P. MacKinnon, Jennifer L. Krull, and Chondra M. Lockwood.<br />
Equivalence of the mediation, confounding and suppression eect. Prevention<br />
Science, 1(4):173181, December 2000.<br />
[12] Patrick E. McKnight, Katherine M. McKnight, Souraya Sidani, and<br />
Aurelio Jose Figueredo. Missing Data: A Gentle Introduction. The<br />
Gulford Press, 2007.<br />
[13] Marija Noru²is. SPSS 7.5 Guide to Data Analysis. Prentice-Hall, Inc.,<br />
1997.<br />
[14] Julie Pallant. SPSS Priru£nik za preºivljavanje: Postupni vodi£ kroz<br />
analizu podataka pomo¢u SPSS-a. Mikro knjiga, 4 edition, 2011.<br />
[15] Hun Myoung Park. Univariate analysis and normality test using sas,<br />
stata, and spss, 2008.<br />
[16] StataCorp. Stata Base Reference Manual Release 13. College Station,<br />
Texas, 2013.<br />
[17] Barbara G. Tabachnick and Linda S. Fidell. Using Multivariate Statistics.<br />
Pearson Education, Inc., 5 edition, 2007.<br />
[18] Richard Williams. Heteroscedasticity, 2014. Spring 2014 course notes<br />
for the second semester of graduate statistics courses.<br />
[19] Kristin K. Woolley. How variables uncorrelated with the dependent variable<br />
can actually make excellent predictors: The important suppressor<br />
variable case. Austin, TX, January 23-25 1997. Annual Meeting of the<br />
Southwest Educational Research Association.
UNIVERZITET U SARAJEVU<br />
EKONOMSKI FAKULTET U SARAJEVU<br />
Regresiona analiza:<br />
Dummy varijable 1<br />
Autor:<br />
prof. dr Emir Agić<br />
Sarajevo, 21. januar 2016. godine<br />
1<br />
NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />
njegovih dijelova bez prethodnog pisanog pristanka autora.<br />
1
Dummy varijable<br />
Sve do sada korištene nezavisne varijable u okviru regresionog modela bile su metrijskog tipa.<br />
Međutim, nisu rijetke situacije kada imamo nominalne varijable koje mogu pomoći u predikciji<br />
vrijednosti zavisne varijable. Na primjer, broj članova domaćinstva je metrijska varijabla od interesa<br />
ukoliko želimo analizirati mjesečnu potrošnju domaćinstva, ali isto tako i varijable kao što su tip<br />
domaćinstva (ruralno ili urbano) i administrativna jedinica kojoj domaćinstvo pripada (npr. FBiH, RS i<br />
Distrikt Brčko) mogu biti dobri prediktori potrošnje.<br />
Da bi nominalne varijable uključili u regresioni model neophodno je prvo uraditi tzv. dummy kodiranje<br />
podataka. Najjednostavniji oblik dummy kodiranja koristi "1" za ispunjavanje uslova, i "0" za<br />
predstavljanje odsustva uslova. U tabeli 1 dat je primjer dummy kodiranja za varijable „tip<br />
domaćinstva“ i „administrativna jedinica“.<br />
Tabela 1.<br />
ID<br />
Tip domaćinstva<br />
Administrativna jedinica<br />
ruralno urbano fbih rs db<br />
domaćinstvo 1 1 0 0 1 0<br />
domaćinstvo 2 0 1 1 0 0<br />
domaćinstvo 3 0 1 0 0 1<br />
…<br />
domaćinstvo n 1 0 1 0 1<br />
Iz tabele 1 vidimo da je prvo domaćinstvo ruralnog tipa i da se nalazi u RS-u, drugo domaćinstvo je<br />
urbanog tipa iz FBiH, treće je urbano iz Distrikta Brčko i tako dalje do posljednjeg domaćinstva<br />
označenog sa n. Primjećujemo da svaka dummy varijabla u tabeli 1 predstavlja jednu kategoriju<br />
orginalne nominalne varijable. Tako su od nominalne varijable „tip domaćinstva“ kreirane dvije dummy<br />
varijable (urbano i ruralno), a od varijable „administrativna jedinica“ kreirane su tri dummy varijable<br />
(fbih, rs i db). Upotrebom ovakvog načina kodiranja kategorije bilo koje nominalne varijable mogu se<br />
pretvoriti u dummy varijable. 2<br />
Međutim, prije nego upravo kreirane dummy varijable ubacimo u regresioni model, moramo znati da<br />
u višestrukoj regresiji ne smijemo imati situaciju u kojoj se vrijednost jedne ili više nezavisnih varijabli<br />
može u potpunosti predvidjeti na bazi stanja bilo koje druge nezavisne varijable ili kombinacije<br />
nezavisnih varijabli. U statistici se kaže da su takve varijable linearno zavisne jer između njih postoji<br />
savršena multikolinearnost (koeficijent korelacije je r = ±1). U takvim slučajevima, matematski izračun<br />
se neće moći obaviti ili će biti pogrešan obzirom da regresiona analiza ne može razdvojiti doprinos<br />
nezavisnih varijabli predviđanju zavisne varijable.<br />
U tabeli 1 javlja se upravo problem linearne zavisnosti. Obzirom da su kategorije orginalne nominalne<br />
varijable međusobno isključive, isto domaćinstvo ne može istovremeno biti urbano i ruralno, već mora<br />
biti u jednoj od ove dvije kategorije. Samim tim, na bazi vrijednosti dummy varijable „ruralno“,<br />
možemo bez ikakve greške predvidjeti vrijednost varijable „urbano“. Isto tako, ako domaćinstvo nije<br />
locirano u FBiH i RS-u onda znamo da je locirano u Distriktu Brčko.<br />
Problem linearne zavisnosti možemo jednostavno riješiti izostavljanjem jedne kategorije tako da se<br />
svaka orginalna nominalna varijabla koja ima k kategorija u regresionom modelu predstavi uz pomoć<br />
2<br />
Dummy varijable se još zovu binarnim ili varijblama indikatorima, obzirom da 0 i 1 indikuje odsustvo, odnosno<br />
prisustvo neke karkateristike.<br />
2
k-1 dummy varijabli. U tabeli 2 je dat prikaz strukture podataka kakvu možemo koristiti u regresionom<br />
modelu za naš hipotetički primjer.<br />
Tabela 2.<br />
ID urbano rs db<br />
domaćinstvo 1 0 1 0<br />
domaćinstvo 2 1 0 0<br />
domaćinstvo 3 1 0 1<br />
…<br />
domaćinstvo n 0 0 1<br />
U suštini, tabelu 2 smo dobili tako što smo iz tabele 1 izbacili kategorije „ruralno“ i „fbih“. Mogli smo<br />
izostaviti i bilo koju drugu kolonu, s tim da treba imati na umu da izostavljene kolone uvijek<br />
predstavljaju referentne nivoe u odnosu na koje će se porediti vrijednosti regresionih koeficijenata<br />
dummy varijabli koje ostaju u modelu.<br />
Dummy varijable u regresionom modelu<br />
Vratimo se našem primjeru u kojem smo se bavili ispitivanjem uticaja godina iskustva (gisk), budžeta<br />
za unapređenje prodaje (prom) i broja terenskih posjeta (posj) na prodajne performanse komercijalista<br />
(prod). Pretpostavimo da pored navedenih metrisjkih varijabli raspolažemo i sa podatkom o tome da li<br />
je prodajni predstavnik završio specijalizovani trening za unapređenje prodajnih vještina (trening).<br />
Varijabla trening je dummy varijabla a njena deskriptivna statistika je predstavljena u okviru outputa:<br />
. tab trening<br />
trening | Freq. Percent Cum.<br />
------------+-----------------------------------<br />
0 | 26 52.00 52.00<br />
1 | 24 48.00 100.00<br />
------------+-----------------------------------<br />
Total | 50 100.00<br />
U datom slučaju „0“ označava komercijaliste koji nisu prošli trening, dok „1 „označava one koji su<br />
završili trening. Primjećujemo da je od ukupnog broja komercijalista iz uzorka njih 26 (52 %) nije prošlo<br />
trening, dok ij je 24 (48%) završilo trening.<br />
Ilustracije radi, kreirajmo regresioni model koji će sadržavati samo dummy varijablu trening. Rezultati<br />
estimacije su predstavljeni u okviru outputa:<br />
. reg prod trening<br />
Source | SS df MS Number of obs = 50<br />
-------------+------------------------------ F( 1, 48) = 23.53<br />
Model | 285.240122 1 285.240122 Prob > F = 0.0000<br />
Residual | 581.938154 48 12.1237115 R-squared = 0.3289<br />
-------------+------------------------------ Adj R-squared = 0.3149<br />
Total | 867.178276 49 17.6975158 Root MSE = 3.4819<br />
------------------------------------------------------------------------------<br />
prod | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />
-------------+----------------------------------------------------------------<br />
trening | 4.780772 .9856223 4.85 0.000 2.799045 6.762498<br />
_cons | 14.58917 .6828591 21.36 0.000 13.21619 15.96215<br />
------------------------------------------------------------------------------<br />
3
prod<br />
prod (hat)<br />
= b0 + b1 x trening + e<br />
= 14,59 + 4,78 x trening<br />
Koeficijent vezan za nezavisnu varijablu trening je statistički signifikantan i iznosi b1 = 4,78. Ovaj<br />
koeficijent predstavlja procjenjeni efekat koji trening ima na ostvareni obim prodaje i interpretira se<br />
na sljedeći način:<br />
Ako se vrijednost dummy varijable trening poveća za jednu jedinicu, obim prodaje će se<br />
povećati za 4,78 jedinica. Povećanje za jednu jedinicu u kontekstu dummy varijable znači da sa<br />
prelaskom komercijaliste iz kategorije 0 (nije prošao trening) u kategoriju 1 (prošao trening)<br />
možemo očekivati porast obima prodaje u iznosu od 4.780 KM.<br />
Kada uključimo dummy varijablu u regresioni model, presjek (b0) sadrži efekat referentne kategorije.<br />
Referentna kategorija je ona kategorija koja je unutar dumy varijable označena sa nulom:<br />
prod (hat) = 14,59 + 4,78 x 0<br />
= 14,59 (kada je trening = 0)<br />
Ovo znači da prosječna očekivana prodaja za komercijaliste bez treninga iznosi oko 14.590 KM. U<br />
slučaju komercijalista koji su završili trening prosječna očekivana prodaja iznosiće:<br />
prod (hat) = 14,59 + 4,78 x 1<br />
= 19,37 (kada je trening = 1)<br />
U suštini, vidimo da koeficijent vezan za dummy varijablu govori kolika je prosječna razlika između ove<br />
dvije grupe. U tom smislu, možemo reći i da komercijalisti sa treningom u prosjeku prave 4.780 KM<br />
više od onih bez treninga i da je ta razlika statistički signifikantna. 3<br />
Proširimo sada regresioni model sa varijablom godine iskustva (gisk) tako da bude:<br />
prod<br />
= b0 + b1 x gisk + b2 x trening + e<br />
Rezultati estimacije su predstavljeni na outputu:<br />
. reg prod gisk trening<br />
Source | SS df MS Number of obs = 50<br />
-------------+------------------------------ F( 2, 47) = 26.11<br />
Model | 456.441079 2 228.220539 Prob > F = 0.0000<br />
Residual | 410.737197 47 8.73908931 R-squared = 0.5264<br />
-------------+------------------------------ Adj R-squared = 0.5062<br />
Total | 867.178276 49 17.6975158 Root MSE = 2.9562<br />
------------------------------------------------------------------------------<br />
prod | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />
-------------+----------------------------------------------------------------<br />
gisk | .3323109 .0750801 4.43 0.000 .1812693 .4833525<br />
trening | 3.41212 .8921138 3.82 0.000 1.617418 5.206821<br />
_cons | 10.46085 1.098224 9.53 0.000 8.251507 12.67019<br />
3<br />
Do istog rezultat bi došli i da smo uradili nezavisni t-test.<br />
4
------------------------------------------------------------------------------<br />
Vidimo da su oba koeficijenta statistički signifikantna. Da bi olakšali interpretaciju dobijenog outputa<br />
napišimo jednačinu za predviđenu vrijednost zavisne varijable:<br />
prod (hat)<br />
= 10,46 + 0,33 x gisk + 3,41 x trening<br />
Ako znamo da su komercijalisti bez treninga u okviru dummy varijable označeni sa 0, onda će<br />
regresiona jednačina za tu grupu imati sljedeći oblik:<br />
prod (hat) = 10,46 + 0,33 x gisk + 3,41 x 0<br />
= 10,46 + 0,33 x gisk (kada je trening = 0)<br />
Za komercijaliste bez iskustva presjek regresione linije sa y-osom iznosi 10,46. Prisjetimo se da presjek<br />
predstavlja očekivanu vrijednost zavisne varijable kada su sve nezavisne varijable jednake nuli. Dakle,<br />
u slučaju komercijalista bez treninga (trening = 0) i bez ikakvog iskustva (gisk = 0), očekivana prosječna<br />
prodaja će iznositi 10.460 KM. Koeficijent vezan za iskustvo jednak je 0,33 što znači da za svaku dodatnu<br />
godinu iskustva, prosječni obim prodaje komercijalista bez treninga će se uvećavati za 330 KM.<br />
S druge strane, regresiona jednačina za komercijaliste sa treningom je:<br />
prod (hat) = 10,46 + 0,33 x gisk + 3,41 x 1<br />
= (10,46 + 3,41) + 0,33 x gisk<br />
= 13,87 + 0,33 x gisk (kada je trening = 1)<br />
U slučaju komercijalista sa završenim treningom (trening = 1), ali bez ikakvog iskustva na terenu (gisk<br />
= 0), možemo očekivati prosječnu prodaju u iznosu od 13.870 KM, što je za 3.410 KM više u odnosu na<br />
komercijaliste bez završenog treninga i iskustva. Koeficijent vezan za iskustvo jednak je 0,33 što znači<br />
da za svaku dodatnu godinu iskustva, prosječni obim prodaje komercijalista sa treningom raste za 330<br />
KM. Uočimo da je porast očekivane prodaje vezane za iskustvo identičan u obje grupe – i za<br />
komercijaliste koji su završili trening i za one koji nisu.<br />
Ono što je bitno zapamtiti je sljedeće: Iako analiziramo jedan regresioni model, mi u stvari ubacivanjem<br />
dummy varijable omogućavamo kreiranje dvije regresione jednačine – jednu za komercijaliste bez<br />
treninga i jednu za komercijaliste sa treningom što se vidi na slici 1:<br />
5
Na slici 1 predstavljen je dijagram rasipanja za varijable prodaja i godine iskustva. Kvadratima su<br />
predstavljene opservirane vrijednosti prodaje za komercijaliste bez treninga, dok su sa x označene<br />
opservirane vrijednosti prodaje za komercijaliste sa treningom. Na dijagramu su takođe predstavljene<br />
procijenje regresione linije za komercijaliste bez treninga (puna linija) i sa treningom (isprekidana<br />
linija). Obratimo pažnju da su linije paralelne i da je razlika između ove dvije grupe samo u presjeku.<br />
Nagib linije je isti u obje grupe (gisk = 0,33).<br />
Proširimo sada postojeći regresioni model i sa ostalim varijablama koje smo imali ranije (ref. 1.10)<br />
tako da bude:<br />
prod = bo + b1gisk + b2prom + b3posj + b4trening + e<br />
Rezultat procjene ovog modela vidimo u okviru outputa:<br />
. reg prod gisk prom posj trening<br />
Source | SS df MS Number of obs = 50<br />
-------------+------------------------------ F( 4, 45) = 47.38<br />
Model | 700.789148 4 175.197287 Prob > F = 0.0000<br />
Residual | 166.389129 45 3.69753619 R-squared = 0.8081<br />
-------------+------------------------------ Adj R-squared = 0.7911<br />
Total | 867.178276 49 17.6975158 Root MSE = 1.9229<br />
------------------------------------------------------------------------------<br />
prod | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />
-------------+----------------------------------------------------------------<br />
gisk | .2644737 .0567636 4.66 0.000 .1501459 .3788016<br />
prom | 2.173827 .3221026 6.75 0.000 1.525079 2.822575<br />
posj | 1.648642 .3508686 4.70 0.000 .9419561 2.355327<br />
trening | 3.538056 .5831571 6.07 0.000 2.363517 4.712595<br />
_cons | -2.939243 2.215445 -1.33 0.191 -7.401379 1.522893<br />
------------------------------------------------------------------------------<br />
Model sa uključenom dummy varijablom trening objašnjava 79,11% varijanse zavisne varijable, što je<br />
za 16,27% više od modela koji uključuje samo metrijske varijable.<br />
Koeficijent vezan za nezavisnu varijablu trening je statistički signifikantan i iznosi b4 = 3,538. Ovaj<br />
koeficijent predstavlja procjenjeni efekat koji trening ima na ostvareni obim prodaje i interpretira se<br />
na sljedeći način: Ako se vrijednost dummy varijable trening poveća za jednu jedinicu, obim prodaje će<br />
6
se povećati za 3,358 jedinica uz uslov da ostale varijable ostanu nepromijenjene. Povećanje za jednu<br />
jedinicu u kontekstu dummy varijable znači da sa prelaskom komercijaliste iz kategorije 0 (nije prošao<br />
trening) u kategoriju 1 (prošao trening) možemo očekivati porast obima prodaje u iznosu od 3.358 KM.<br />
Također, možemo reći i da komercijalisti sa treningom u prosjeku prave 3.358 KM više od onih bez<br />
treninga, u slučaju kada vrijednosti ostalih prediktora držimo konstantnim.<br />
7
UNIVERZITET U SARAJEVU<br />
EKONOMSKI FAKULTET U SARAJEVU<br />
Regresiona analiza:<br />
Interakcijski (moderacijski) efekt 1<br />
Autor:<br />
prof. dr Emir Agić<br />
Sarajevo, 21. januar 2016. godine<br />
1<br />
NAPOMENA: Radni materijal. Zabranjeno je daljnje distribuiranje i umnožavanje ovog materijala ili nekih<br />
njegovih dijelova bez prethodnog pisanog pristanka autora.<br />
1
Sadržaj<br />
1. Uvod ................................................................................................................................ 3<br />
2. Modeliranje interakcija u regresionoj analizi ............................................................ 3<br />
3. Interpretacija interakcijskog efekta ............................................................................ 5<br />
4. Grafičko predstavljanje interakcijskog efekta ........................................................... 8<br />
5. Centriranje i standardizovanje varijabli .................................................................. 11<br />
6. Dummy varijable i interakcije ................................................................................... 15<br />
7. Bibliografija ................................................................................................................. 20<br />
2
1. UVOD<br />
Do sada smo razmatrali parcijalne efekte nezavisnih varijabli na zavisnu varijablu, odnosno<br />
efekte svake nezavisne varijable na zavisnu nakon što kontrolišemo za ostale varijable u<br />
modelu. Interkacijski ili moderacijski efekt se javlja kada veličina efekta jedne nezavisne<br />
varijable (x1) na zavisnu varijablu (y) varira u zavisnosti od vrijednosti druge nezavisne<br />
varijable (x2) (Preacher, 2003).<br />
Interakcijski ili moderirajući efekt se u regresioni model inkorporira putem složene varijable<br />
koja predstavlja proizvod varijabli x1 i x2. Regresioni model sa interakcijskim efektom možemo<br />
predstaviti sljedećom formulom:<br />
= + + + +<br />
gdje je y = zavisna varijabla, b0 = konstanta, b1x1 = linearni efekt nezavisne varijable x1, b2x2 =<br />
linearni efekt nezavisne varijable x2, b3x1x2 = interakcijski efekt između x1 i x2 i e = rezidual.<br />
Prije nego krenemo dalje potrebno je ukazati na terminološku distinkciju između interakcijskog<br />
i moderacijskog efekta. Naime, iako se u literaturi izrazi „interakcijski efekt“ i „moderirajući<br />
efekt“ često koriste odvojeno, u suštini se radi o istoj stvari: efekt jednog prediktora na zavisnu<br />
varijablu će biti različit za različite vrijednosti drugog prediktora (Grace-Martin, n.d.).<br />
Kada govorimo o interakcijskom efektu onda ne pravimo razliku između nezavisne varijable i<br />
moderirajuće varijable. Za bilo koji od dva prediktora (x1 i x2) se može reći da „moderira“ efekt<br />
drugog. Obratimo pažnju da je interakcijski efekt simetričan što znači da je: x1x2 = x2x1, pa je<br />
sa matematskog aspekta svejedno koju varijablu ćemo nazvati „prediktorom“ a koju<br />
„moderatorom“.<br />
Međutim, ukoliko smo zainteresovani prvenstveno za efekt tačno određene nezavisne varijable<br />
(x1) na zavisnu varijablu (y), ali znamo da će taj efekt zavisiti od vrijednosti druge nezavisne<br />
varijable (x2), onda je terminološki ispravnije govoriti o moderirajućem efektu. U tom slučaju,<br />
varijabla x2 se uobičajeno naziva moderatorom jer ona mijenja vezu između x1 i y. Moderator<br />
uključujemo u model kako bi dobili relaniji uvid u prirodu veze između x1 i y, a ne zato što nas<br />
interesuje efekt moderirajuće varijable same po sebi.<br />
Već u fazi dizajniranja istraživanja bi trebali znati koja varijabla će biti nezavisna a koja će<br />
imati ulogu moderatora. Odabir varijable koja će imati ulogu moderatora prvenstveno zavisi od<br />
teoretskih postavki i utvrđuje se na bazi pregleda literature. Drugim riječima, treba razmotriti<br />
da li je smislenije govoriti da se veza između x1 i y mijenja kako se mijenja x2 ili više smisla<br />
ima reći da se veza između x2 i y mijenja sa promijenom x1 (Aguinis and Gottfredson, 2010).<br />
Nakon što smo odabrali moderirajuću varijablu treba imati na umu da ona može pojačati,<br />
amortizirati ili čak predstavljati određenu vrstu supresora kada je u pitanju odnos između druge<br />
dvije varijable (Međedović, 2013, p. 1).<br />
2. MODELIRANJE INTERAKCIJA U REGRESIONOJ ANALIZI<br />
Uzmimo primjer u kojem želimo istražiti kako raspoloživi dohodak utiče na izdatke na pizzu.<br />
Pored dohotka smatramo da će ukupni izdaci na pizzu zavisiti i od godina starosti osobe. Na<br />
bazi slučajnog uzorka anketirano je 40 ispitanika i zabilježeni su podaci o godišnjem iznosu<br />
3
njihove potrošnje na pizzu (pizza), godišnjem prihodu u 000 dolara (income) i godinama starosti<br />
(age). Podaci su pohranjeni u okviru datoteke pizza4.dta. 2 Na outputu 1 je dat prikaz rezultata<br />
deskriptivne analize:<br />
. summarize pizza income age<br />
Variable | Obs Mean Std. Dev. Min Max<br />
-------------+--------------------------------------------------------<br />
pizza | 40 191.55 155.8806 0 590<br />
income | 40 55.8025 51.16614 7.8 288.6<br />
age | 40 33.475 10.25317 18 55<br />
Output 1<br />
Godišnji izdaci na pizzu se kreću u rasponu od 0$ za ispitanike koji je uopšte ne konzumiraju<br />
pa do 590$ za velike ljubitelje ovog italijanskog jela. Prosječna potrošnja iznosi 191,55$.<br />
Godišnji prihod ispitanika varira u rasponu od 7.800$ do 388.600$ sa prosjekom od 55.802$.<br />
Uzorak je obuhvatio osobe u dobi od 18 do 55 godina, a prosječna dob iznosi 33,5 godina.<br />
Kako bi se testirala pretpostavka o uticaju dohodka i starosti ispitanika na izdatke na pizzu,<br />
inicijalno je kreiran sljedeći regresioni model:<br />
= + + +<br />
Procijenjeni parametri su prikazani u okviru outputa 2.<br />
. reg pizza income age<br />
Source | SS df MS Number of obs = 40<br />
-------------+------------------------------ F( 2, 37) = 9.08<br />
Model | 312015.179 2 156007.589 Prob > F = 0.0006<br />
Residual | 635636.721 37 17179.3708 R-squared = 0.3293<br />
-------------+------------------------------ Adj R-squared = 0.2930<br />
Total | 947651.9 39 24298.7667 Root MSE = 131.07<br />
------------------------------------------------------------------------------<br />
pizza | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />
-------------+----------------------------------------------------------------<br />
income | 1.832479 .4643007 3.95 0.000 .8917163 2.773242<br />
age | -7.575556 2.316988 -3.27 0.002 -12.27022 -2.880893<br />
_cons | 342.8848 72.34342 4.74 0.000 196.3031 489.4665<br />
------------------------------------------------------------------------------<br />
Output 2<br />
Dobijeni rezultat pokazuje da sa porastom dohodka rastu i izdaci na pizzu. Ukoliko se dohodak<br />
poveća za 1.000$, prosječni izdaci na pizzu će porasti za 1,83$, uz uslov da dob ispitanika<br />
ostane nepromijenjena. Također, možemo primjetiti da sa povećanjem godina starosti izdaci na<br />
pizzu opadaju. Za svaku dodatnu godinu starosti imamo smanjenje od 7,57$, pod<br />
pretpostavkom da je dohodak ostao nepromijenjen. Oba koeficijenta su statistički signifikantna.<br />
Pretpostavimo sada da sa porastom godina starosti smanjenje izdataka nije konstantno. Naime,<br />
iz iskustva znamo da zbog životnog stila tinejdžeri i studenti više konzumiraju pizzu od osoba<br />
u srednjim godinama. Srednovječne osobe pak više konzumiraju pizzu od penzionera. Samim<br />
2<br />
Primjer je uzet iz knjige Hill, R. Carter & Griffiths, William E. & Lim, Mark Andrew, Principle of Econometrics<br />
(2011).<br />
4
tim, možemo očekivati da se prosječni izdaci na pizzu neće smanjivati uvijek za isiti iznos već<br />
će sa porastom starosne dobi to smanjenje biti sve veće i veće. U ovom slučaju imamo<br />
konceptualno uporište da godine starosti (age) posmatramo kao moderirajuću varijablu.<br />
Hipotezu o tome da smanjenje izdataka po godinama nije konstantno možemo testirati<br />
uvođenjem moderacijskog efekta u prethodni regresioni model:<br />
= + + + × +<br />
Rezultati estimacije prikazani su na outputu 3.<br />
. reg pizza income age c.income#c.age<br />
Source | SS df MS Number of obs = 40<br />
-------------+------------------------------ F( 3, 36) = 7.59<br />
Model | 367043.25 3 122347.75 Prob > F = 0.0005<br />
Residual | 580608.65 36 16128.0181 R-squared = 0.3873<br />
-------------+------------------------------ Adj R-squared = 0.3363<br />
Total | 947651.9 39 24298.7667 Root MSE = 127<br />
------------------------------------------------------------------------------<br />
pizza | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />
-------------+----------------------------------------------------------------<br />
income | 6.979905 2.822768 2.47 0.018 1.255067 12.70474<br />
age | -2.977423 3.352101 -0.89 0.380 -9.775799 3.820952<br />
|<br />
c.income#|<br />
c.age | -.1232394 .0667187 -1.85 0.073 -.2585512 .0120725<br />
|<br />
_cons | 161.4654 120.6634 1.34 0.189 -83.25131 406.1822<br />
------------------------------------------------------------------------------<br />
Output 3<br />
Obratimo pažnju da je estimirani koeficijent za efekt interakcije negativan i signifikantan (b3 =<br />
- 012, p < 0,05 za jednosmjerni test).<br />
Nakon što dobijene koficijente uvrstimo u jednačinu modela imamo:<br />
= 161,46 + 6,98 × + 2,98 × − 0,12 × × +<br />
3. INTERPRETACIJA INTERAKCIJSKOG EFEKTA<br />
U modelu bez interakcija, koeficijente b1 i b2 interpretiramo kao glavne efekte (engl. main<br />
effects) nezavisnih varijabli x1 i x2 na zavisnu varijablu y. Međutim, signifikantan interakcijski<br />
efekt znatno mijenja tumačenje ranijih koeficijenata.<br />
U modelu sa interakcijama koeficijent b1 predstavlja glavni efekt x1 samo onda kada je x2 jednak<br />
nuli, odnosno koeficijent b2 predstavlja glavni efekt x2 samo onda kada je x1 jednak nuli (Joseph<br />
F. Hair et al., 2006). Ukoliko varijable x1 i x2 nemaju prirodnu nulu, kao što je to slučaj ovdje,<br />
onda ove koeficijente ne možemo direktno interpretirati. U tom slučaju, postojanje interakcije<br />
znači da će efekt dohotka (x1) na izdatke (y) biti različit za različite vrijednosti varijable starost<br />
(x2). Drugim riječima, jedinstveni efekt dohotka na izdatke ne zavisi više samo od vrijednosti<br />
koeficijenta b1 već zavisi i od vrijednosti koeficijenta b3 i godina starosti (Grace-Martin, n.d.).<br />
5
Koeficijent b3 intrpretiramo kao veličinu promjene u nagibu regresije između y i x1 kada se x2<br />
promijeni za jednu jedinicu (Aguinis and Gottfredson, 2010; Preacher, 2003). Signifikanatan<br />
moderirajući efekt upućuje na (Mooi and Sarstedt, 2014, p. 215):<br />
- Jačina uticaja x1 na y se povećava kako se povećava x2 ako je predznak za b3 pozitivan.<br />
- Jačina uticaja x1 na y se smanjuje kako se povećava x2 ako je predznak za b3 negativan.<br />
U konkretnom slučaju ovo znači da je efekt dohodka (income) na izdatke (pizza) različit za<br />
različite godine starosti (age). Kako dohodak raste izdaci na pizzu također rastu, ali obzirom da<br />
je koeficijent b3 negativan, taj rast će biti manji u slučaju starijih osoba nego mlađih. 3<br />
Obratimo pažnju da je koeficijent vezan za godine starosti (age) u modelu sa interkacijama sada<br />
statistički nesignifikantan. Ovo znači da godine starosti utiču na izdatke za pizzu samo kroz<br />
interakciju sa prihodom.<br />
Da bi olakšali interpretaciju prethodnu jednačinu možemo napisati kao:<br />
= ( + ) + ( + ( ))<br />
= (6,98 − 0,12 × ) × + 161,46 − 2,98 × ( )<br />
Član ( + ( )) se naziva jednostavni presjek (engl. simple intercept) za jednačinu kojom<br />
opisujemo y kao linearnu funkciju x1. Ovaj član ne utiče na nagib regresije već samo na presjek.<br />
Član ( + ) se u modelu sa interakcijom naziva jednostavnim nagibom (engl. simple<br />
slope). Jednostavni nagib se definiše kao regresija između y i zavisne varijabe x1 za specifičnu<br />
vrijednost moderatora x2. Činjenica da jednostavni nagib uključuje x2 govori da će se nagib<br />
između y i x1 mijenjati sa promjenom x2 (Preacher et al., 2004). Samim tim, procjenu efekta<br />
koji x1 ima na y možemo dobiti tako što ćemo za x2 odabrati vrijednosti od interesa i izračunati<br />
jednostavni nagib. Odabrane vrijednosti za x2 se nazivaju još i uslovnim vrijednostima (engl.<br />
conditional values).<br />
Shodno tome, bitno je zapamtiti da u modelima sa interakcijama govorimo prvenstveno o<br />
uslovnim efektima. Vrlo često istraživači koeficijente nižeg reda (tj. b1 i b2) u modelima sa<br />
interakcijama nazivaju glavnim efektima. Upotreba takve terminologije može dovesti do<br />
zabune jer se zaboravlja da je u stvari riječ o uslovnim efektima tj. da se efekt x1 može<br />
interpretirati kao glavni efekt samo kada je x2 = 0 i obrnuto, efekt x2 se interpretira kao glavni<br />
efekt samo kada je x1 = 0 (Afshartous and Preston, 2011, p. 13).<br />
Ukoliko su x1 i x2 kontinuirane varijable, onda u modelima sa interakcijom postoji beskonačno<br />
veliki broj uslovnih vrijednosti koje možemo uzeti da bi izračunali efekte koje nezavisne<br />
varijable imaju na zavisnu varijablu. Ipak, kako bi se razumio efektat interakcije, sasvim je<br />
dovoljno da se iz tog skupa odaberu dvije ili tri uslovne vrijednosti za x2 i dvije ili tri vrijednosti<br />
za x1. U praksi, istraživači najčešće se uzimaju vrijednosti koje se nalaze ±1 standardnu<br />
devijaciju od aritmetičke sredine nezavisnih varijabli (Preacher, 2003).<br />
3<br />
Ako dohodak posmatramo kao moderirajuću varijablu onda bi efekt interakcije interpretirali na sledeći način:<br />
Efekt godina (age) na izdatke (pizza) je različit za različite visine prihoda. Kako osoba stari njeni izdaci na<br />
potrošnju pizze padaju. Obzirom daje b3 negativan, taj pad će biti veći kod osoba sa većim dohotkom.<br />
6
U našem primjeru, za moderirajuću varijablu age (x2) vrijednosti aritmetičke sredine i<br />
standardne devijacije su prikazane u okviru outputa 1 i iznose:<br />
aritmetička sredina za x2 (age) = 33,47 ≈ 33<br />
standardna devijacija za x2 (age) = 10,25 ≈ 10<br />
Na osnovu toga dvije uslovne vrijednosti za x2 su:<br />
x2(mlađi) = AS – SD = 33 – 10 = 23<br />
x2(stariji) = AS + AD = 33 + 10 = 43<br />
Regresiona linija za mlađe ispitanike imaće sljedeću formulu:<br />
( đ ) = ( + ) + + ( )<br />
( đ ) = (6,98 − 0,12 × ) × + (161,46 − 2,98 × )<br />
= (6,98 − 0,12 × 23) × + (161,46 − 2,98 × 23)<br />
= 92,92 + 4,22 ×<br />
Na ovaj način smo izračunali simple slope za ispitanike koji imaju 23 godine starosti. Isto tako<br />
ćemo izračunati simple slope za ispitanike koji imaju 43 godine starosti:<br />
( ) = ( + ) + + ( )<br />
( ) = (6,98 − 0,12 × ) × + (161,46 − 2,98 × )<br />
= (6,98 − 0,12 × 43) × + (161,46 − 2,98 × 43)<br />
= 33,32 + 1,82 ×<br />
Ove dvije jednačine nam pružaju uvid u ukupni efekt nezavisne varijable x1 za odabrane<br />
vrijednosti moderirajuće varijable x2. Kada je je dob ispitanika (x2) jednaka 23 godine, ukupni<br />
efekt prihoda (x1) na potrošnju (y) je 4,22. Drugim riječima, ukoliko se prihod osobe starosti 23<br />
godine poveća za 1.000$ možemo očekivati da će se izdaci na pizzu povećati za 4,22$.<br />
S druge strane, za ispitanike u starosnoj dobi od 43 godine ukupni efekt nezavisne varijable<br />
iznosi 1,82. Odnosno, ukoliko se prihod osobe starosti 43 godine poveća za 1.000$ možemo<br />
očekivati da će se izdaci na pizzu povećati za 1,82$.<br />
Sada možemo izabrati bilo koje dvije smislene vrijednosti za nezavisnu varijablu x1 (income)<br />
kako bi predvidjeli vrijednosti zavisne varijable uz prethodno odabrane uslovne vrijednosti x2.<br />
Uobičajeno se uzimaju minimalna i maksimalna opservirana vrijednost x1 ili vrijednosti koje se<br />
nalaze ±1 standardnu devijaciju od aritmetičke sredine nezavisne varijable x1. U našem slučaju:<br />
aritmetička sredina za x1 (income) = 55,80 ≈ 56<br />
standardna devijacija za x1 (income) = 51,17 ≈ 51<br />
Na osnovu toga dobićemo sljedeće vrijednosti za x1:<br />
7
x1(niski prihod) = AS – SD = 56 – 51 = 5<br />
x1(visoki prihod) = AS + SD = 56 + 51 = 107<br />
Prvo ćemo razmotriti ispitanike sa niskim godišnjim primanjima:<br />
( đ ) = 92,92 + 4,22 × ( ) = 92,92 + 4,22 × 5 = 114,02<br />
( ) = 33,32 + 1,82 × ( ) = 33,32 + 1,82 × 5 = 42,42<br />
Dakle, za mlađe osobe starosti 23 godine koje imaju godišnji prihod od 5.000$ očekujemo da<br />
na pizzu u prosjeku potroše 114$. S druge strane, osobe starosti 43 godine sa istim nivoom<br />
prihoda će na pizzu u prosjeku potrošiti samo 42$.<br />
Pogledajmo sada šta se dešava u kategoriji ispitanika sa većim primanjima:<br />
( đ ) = 92,92 + 4,22 × ( ) = 92,92 + 4,22 × 107 = 544,46<br />
( ) = 33,32 + 1,82 × ( ) = 33,32 + 1,82 × 107 = 228,06<br />
Osobe starosti 23 godina koje imaju ukupna godišnja primanja 107.000$ u prosjeku će na<br />
izdatke za pizzu godišnje potrošiti 544$. Potrošnja osoba u dobi od 43. godine sa istim nivoom<br />
godišnjeg prihoda će biti znatno manja i iznosiće 286$.<br />
4. GRAFIČKO PREDSTAVLJANJE INTERAKCIJSKOG EFEKTA<br />
Moderirajući efekt je često teško interpretirati bez korištenja grafika. Da bi grafički prikazali<br />
moderirajući efekt, ranije dobijene predviđene vrijednosti zavisne varijable ćemo unijeti u<br />
sljedeću tabelu:<br />
Tabela 1.<br />
mlađi stariji<br />
niži prihod 114 42<br />
viši prihod 544 228<br />
Vrijednosti iz tabele 1 zatim možemo iskoristiti u Excel-u kako bi efekt interakcije predstavili<br />
vizuelno 4 . Linije na grafu korespondiraju odabranim uslovnim vrijednostima morerirajuće<br />
varijable age.<br />
4<br />
Jeremy Dawson’s website (http://www.jeremydawson.co.uk/slopes.htm) offers a tool to visualize moderation<br />
effects.<br />
8
Slika 1.<br />
Na grafu primjećujemo da sa povećanjem prihoda dolazi do rasta izdataka na pizzu. Međutim,<br />
ovaj porast je znatno brži kod mlađih nego kod starijih ispitanika.<br />
Novije verzije State omogućavaju da čitav proces grafičkog predstavljanja interakcijskih efekta<br />
pojednostavimo upotrebom naredbi margins i marginsplot. Naredba margins<br />
omogućava korisniku da izračuna predviđenu vrijednost zavisne varijable za bilo koje uslovne<br />
vrijednosti nezavisnih varijabli. Samim tim, umjesto da ručno računamo predviđene vrijednosti<br />
koje su nam potrebne za tabelu 1, taj posao možemo prepustiti Stati.<br />
Naredba margins se koristi nakon što estimiramo regresioni model. Iz tog razloga, prvo smo<br />
ponovo uradili regresionu analizu:<br />
. quietly reg pizza income age c.income#c.age<br />
Obzirom da smo za dohodak i godine starosti ranije definisali vrijednosti koje se nalazi nalaze<br />
±1 standardnu devijaciju od aritmetičke sredine, putem margins komande ćemo tražiti da<br />
Stata izračuna srednju predviđenu vrijednost zavisne varijable za odabrane uslovne vrijednosti<br />
nezavisnih varijabli. Ukoliko testiramo moderacijski efekt onda je konvencija da se prvo<br />
definišu uslovne vrijednosti nezavisne varijable (u konkretnom slučaju su to vrijednosti 5 107),<br />
a zatim uslovne vrijednosti moderirajuće varijable (u datom primjeru su to vrijednosti 23 i 43) 5 .<br />
Izračunate predviđene vrijednosti prikazane su na outputu 4.<br />
. margins, at(income=(5 107) age=(23 43))<br />
Adjusted predictions Number of obs = 40<br />
Model VCE : OLS<br />
Expression<br />
: Linear prediction, predict()<br />
1._at : income = 5<br />
age = 23<br />
2._at : income = 5<br />
5<br />
Prilikom definisanja možemo uzeti i više od dvije uslovne vrijednosti. Na primjer, pored već odabranih mogli<br />
smo dodati i aritmetičku sredinu nezavisnih varijabli kao još jednu uslovnu vrijednost. U tom slučaju puna naredba<br />
bi imala sljedeći oblik: margins, at(income=(5 56 107) age=(23 33 43))<br />
9
age = 43<br />
3._at : income = 107<br />
age = 23<br />
4._at : income = 107<br />
age = 43<br />
------------------------------------------------------------------------------<br />
| Delta-method<br />
| Margin Std. Err. z P>|z| [95% Conf. Interval]<br />
-------------+----------------------------------------------------------------<br />
_at |<br />
1 | 113.7117 46.68085 2.44 0.015 22.2189 205.2045<br />
2 | 41.83929 43.72043 0.96 0.339 -43.85118 127.5298<br />
3 | 536.5425 103.1831 5.20 0.000 334.3073 738.7777<br />
4 | 213.2618 30.48697 7.00 0.000 153.5085 273.0152<br />
------------------------------------------------------------------------------<br />
Output 4<br />
Ako ih uporedimo sa vrijednostima koje smo dobili ručnim izračunom (tabela 1), vidjećemo<br />
da se slažu. Razlika se javlja samo zbog zaokruživanja.<br />
Ono što nismo mogli dobiti ručnim računanjem je statistička signifikantnost predviđenih<br />
vrijednosti. Naime, već smo naglasili da u modelima sa interkacijama postoji veliki broj<br />
uslovnih vrijednosti koje se mogu uzeti za analiziranje efekta, potrebno je imati na umu da svaki<br />
od izračunatih efekta može imati različit nivo statističke signifikantnosti. Naime, obzirom da<br />
uticaj x1 na y zavisi od odabrane vrijednosti x2, ne samo da će se veličina efekta (b1) razlikovati<br />
za svaku odabranu vrijednost varijable x2, već se razlikovati i standardna greška, t-vrijednost, a<br />
samim tim i p-vrijednost pridružena tom efektu. Shodno tome, možemo utvrditi vrijednosti x2<br />
za koje je efekt x1 na y signifikantan - ili obratno - vrijednosti x1 za za koje je efekt x2 na y<br />
signifikantan (Afshartous and Preston, 2011).<br />
U konkretnom slučaju, predviđeni izdatak na pizzu u iznosu od 42$ godišnje, za osobe starosti<br />
43 godina i sa dohodkom od 5.000$, nije statistički signifikantan. To znači da nemamo dovoljno<br />
dokaza da odbacimo hipotezu da je u prosjeku gledano za tu kategoriju potrošnja veća od nule.<br />
U sljedećm koraku ćemo upotrijebiti naredbu marginsplot kako bi grafički predstavili efekt<br />
interakcije.<br />
. marginsplot, noci<br />
Variables that uniquely identify margins: income age<br />
10
Slika 2<br />
Tumačenje je identično kao i za sliku 1.<br />
5. CENTRIRANJE I STANDARDIZOVANJE VARIJABLI<br />
Nezaobilazna tema kada je riječ o modelima koji uključuju interakcijske efekte odnosi se na<br />
centiranje varijabli. Pod centriranjem se podrazumjeva postupak pri kojem se od vrijednosti<br />
svake pojedinačne opservacije nezavisne varijable oduzima aritmetička sredina te varijable.<br />
Takvo centriranje se naziva još i centriranje oko opšteg prosjeka (engl. Grand Mean Centering).<br />
Nakon ove transformacije, AS nove varijable je 0, dok SD ostaje ista kao kod orginalne<br />
varijable (Međedović, 2013, p. 270).<br />
Postoji veliki broj radova u kojima se prepručuje centriranje varijabli prije nego pristupimo<br />
estimaciji modela sa interakcijama. Gotovo svi autori koji preporučuju centriranje varijabli se<br />
referenciraju na dvije vrlo uticajne knjige o regresionoj analizi (Aiken and West, 1991; Cohen<br />
et al., 2003). Pri tome se najčešće navode dva razloga za centriranje varijabli:<br />
1. Reduciranje multikolinearnosti između nezavisnih varijabli.<br />
2. Olakšavanje interpretacije regresionih koeficijenata<br />
Kad je riječ o prvom razlogu, ispostavlja se da centriranje varijabli niti pomaže niti odmaže pri<br />
reduciranju multikolineranost. Jednostavno, riječ je o svojevrsnom mitu koji je prositekao iz<br />
pogrešnog interpretiranja onoga što su napisali Aiken i West (Echambadi and Hess, 2004, p. 4;<br />
Hayes, 2013, p. 289)<br />
Pogledajmo u našem primjeru šta se dešava ako koristimo centirarne varijable i kako to utiče<br />
na tumačenje rezultata. Prvo ćemo nezavisne varijable centrirati oko opšteg prosjeka:<br />
. gen cincome = income - 55.8025<br />
. gen cage = age - 33.475<br />
Zatim ćemo genrisati interakcioni efekt za orginalne i centrirane varijable:<br />
11
. gen incomexage = income*age<br />
. gen cincomexcage = cincome*cage<br />
Na outputu 5 je prikazana deskriptivna statistika za sve varijable od interesa:<br />
. tabstat pizza income cincome age cage incomexage cincomexcage, s(mean sd var skew k range min<br />
max) format(%9.1f)<br />
stats | pizza income cincome age cage income~e cinco~ge<br />
---------+----------------------------------------------------------------------<br />
mean | 191.6 55.8 -0.0 33.5 -0.0 2107.6 239.6<br />
sd | 155.9 51.2 51.2 10.3 10.3 2360.6 483.2<br />
variance | 24298.8 2618.0 2618.0 105.1 105.1 5572450.9 233505.2<br />
skewness | 0.7 2.7 2.7 0.3 0.3 2.8 3.3<br />
kurtosis | 2.5 12.2 12.2 2.1 2.1 12.6 17.5<br />
range | 590.0 280.8 280.8 37.0 37.0 12753.0 3091.4<br />
min | 0.0 7.8 -48.0 18.0 -15.5 234.0 -408.4<br />
max | 590.0 288.6 232.8 55.0 21.5 12987.0 2683.0<br />
--------------------------------------------------------------------------------<br />
Output 5<br />
Možemo primjetiti da se aritmetička sredina centriranih varijabli promijenila i da je jednaka<br />
nuli. Također, promijenile su min i max vrijednosti ali je raspon ostao jednak. Ostali parametri<br />
su takođe ostali nepromijenjeni. Kad je riječ o interakcijskim članovima, primjećujemo da su<br />
SD, varijansa i raspon znatno manji u slučaju interakcijskog člana dobijenog množenjem<br />
centriranih varijabli. Ovo ne čudi obzirom da je prosječna vrijednost centriranih varijabli<br />
jednaka nuli, pa se njihovim međusobnim množenjem smanjuje kovarijansa (Echambadi and<br />
Hess, 2004, p. 3).<br />
U suštini, centriranje varijabli je matematska transformacija kojom se samo pomjera polazna<br />
tačka podataka, bez da se utiče na relativnu poziciju bilo koje pojednične opservacije<br />
(Echambadi and Hess, 2004, p. 4). Ovo se najbolje može vidjeti na slici 3.<br />
Slika 3: Grafička reprezentacija necentriranih i centriranih podataka u 3D prostoru<br />
Prije same regresione analize kreirat ćemo korelacionu matricu:<br />
. pwcorr pizza income cincome age cage incomexage cincomexcage<br />
12
| pizza income cincome age cage income~e cinco~ge<br />
-------------+---------------------------------------------------------------<br />
pizza | 1.0000<br />
income | 0.3680 1.0000<br />
cincome | 0.3680 1.0000 1.0000<br />
age | -0.2165 0.4685 0.4685 1.0000<br />
cage | -0.2165 0.4685 0.4685 1.0000 1.0000<br />
incomexage | 0.2670 0.9812 0.9812 0.5862 0.5862 1.0000<br />
cincomexcage | 0.2561 0.6943 0.6943 0.0190 0.0190 0.7130 1.0000<br />
Output 6<br />
Primjećujemo da interakcijski član income×age u znatnoj mjeri korelira sa orginalnom<br />
varijablom income (r = 0,98), dok nešto manje korelira sa varijablom age (r = 0,59). Nakon<br />
centriranja, korelacija između interakcijskog člana cincome×cage i centrirane varijable<br />
cincome je manja (r = 0,69), a za varijablu cage je gotvo nepostojeća (r = 0,02).<br />
Činjenica da centriranje varijabli vodi ka manjoj međusobnoj korelaciji je najčešći razlog zbog<br />
kojeg nemali broj autora tvrdi da je neophodno centrirati varijable prije specifikacije modela i<br />
testiranja interkacija. Prema toj argumentaciji, korištenje orginalnih varijabli može dovesti do<br />
znatne multikolinearnosti između nezavisnih varijabli i interakcijskog člana, što će za<br />
posljedicu imati probleme pri estimaciji koji će rezultirati pristrasnim ili „čudnim“ regresionim<br />
koeficijentima, velikim standardnim greškama i smanjenoj snazi pri testiranju interakcionog<br />
efekta. Ipak, ispostavilo se da je u slučajevima modela sa interkacijskim efektom ova logika<br />
pogrešna i nekompletna. (Hayes, 2013).<br />
Zašto centiranje ne pomaže mnogo u pogledu poboljšanja estimacije objašnjeno je detaljno u<br />
nekoliko radova (Echambadi and Hess, 2004; Afshartous and Preston, 2011; Hayes, 2013). Bez<br />
ulaženja u tehničke detalje navešćemo samo da centiranje varijabli smanjuje kovarijansu<br />
između nezavisnih varijabli i interakcijskog člana, što je „dobro“, ali ono takođe samnjuje i<br />
varijansu samog interakcijskog člana što je „loše“. Naime, za precizno mjerenje odnosa unutar<br />
modela, potrebno je da interakcijski član obuhvati što širi skup vrijednosti. Međutim, u slučaju<br />
interakcijskog člana dobijenog množenjem centriranih varijabli taj raspon je znatno manji.<br />
Nakon što se u obzir uzme „dobra“ i „loša“ strana centriranja, dolazi se do zaključka kako ono<br />
uopšte ne utiče na preciznost estimacije regresionih koeficijenata. Drugim riječima, centriranje<br />
niti pomaže niti odmaže pri estimaciji regresionog modela (Echambadi and Hess, 2004, p. 9).<br />
Estimirajmo sada regresioni model sa centriranim varijbalma:<br />
. reg pizza cincome cage c.cincome#c.cage<br />
Source | SS df MS Number of obs = 40<br />
-------------+------------------------------ F( 3, 36) = 7.59<br />
Model | 367043.244 3 122347.748 Prob > F = 0.0005<br />
Residual | 580608.656 36 16128.0182 R-squared = 0.3873<br />
-------------+------------------------------ Adj R-squared = 0.3363<br />
Total | 947651.9 39 24298.7667 Root MSE = 127<br />
----------------------------------------------------------------------------------<br />
pizza | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />
-----------------+----------------------------------------------------------------<br />
cincome | 2.854468 .7130921 4.00 0.000 1.40825 4.300686<br />
cage | -9.854487 2.561649 -3.85 0.000 -15.04975 -4.659222<br />
c.cincome#c.cage | -.1232394 .0667187 -1.85 0.073 -.2585512 .0120725<br />
_cons | 221.0826 25.66757 8.61 0.000 169.0264 273.1389<br />
----------------------------------------------------------------------------------<br />
Output 7<br />
13
Ako uporedimo dobijene rezultate sa rezultatima estimacije modela sa orginalnim<br />
necentriranim varijablama možemo vidjeti da je dio outputa koji se odnosi na reprezentativnost<br />
regresionog modela ostao nepromijenjen (MSresidual = 580.609, F = 7,59, adj-R 2 = 0,3363).<br />
Također, sam estimirani interakcijski efekt, njegova standardna greška, t-staistika i p-vrijednost<br />
su ostale nepromijenjene. Dakle, iako je centriranje smanjilo multikolinearnost, rezultati testa<br />
vezanog za interakcijski član u modelu sa centriranim varijablama su identični rezultatima testa<br />
u modelu sa orginalnim varijabalma. Iz ovoga proizilazi da multikolinearnost ne smanjuje<br />
snagu testa niti rezultira pristrasnim koeficijentima.<br />
Ono po čemu se razlikuju rezultati estimacije modela sa centriranim u odnosu na model sa<br />
orginalnim varijablama jesu koeficijenti vezani za varijable prediktore x1 i x2. Također,<br />
primjećujemo da su standardne greške vezane za varijable prediktore znatno manje u modelu<br />
sa centriranim varijablama. Zbog toga, orginalna varijabla age u prvobitnom modelu nije<br />
signifikantna, dok je centrirana varijabla cage u modelu sa transformisanim varijablama<br />
signifikantna.<br />
Na prvi pogled ispada da multikolineranost zaista utiče na estimaciju uticaja varijabli<br />
prediktora. U modelu u kojem smo koristili orginalne varijable, koeficijenti su drugačiji,<br />
standardne greške su veće, a uticaj jednog prediktora nije čak ni statistički signifikantan. Nakon<br />
centriranja varijabli prediktora, rezultati su naizgled 'bolji' jer smo se riješili multikolinearnosti.<br />
Međutim, podsjetimo se da u modelima sa interakcijama govorimo prvenstveno o uslovnim<br />
efektima, od kojih svaki može imati različit nivo statističke signifikantnosti. U modelu sa<br />
orginalnim varijablama koeficijent b1 predstavlja efektat varijable x1 samo onda kada je x2 = 0.<br />
Isto tako, koeficijent b2 je efekt varijable x2 u slučaju kada je x1 = 0. S druge strane, u modelu<br />
sa centriranim varijablama, b1 predstavlja efektat koji x1 ima u slučaju kada je vrijednost x2<br />
jednaka aritmetičkoj sredini. Odnosno, b2 je efekt prediktora x2 kada je vrijednost x1 jednaka<br />
aritmetičkoj sredini.<br />
Dakle, razlika u koeficijentima b1 i b2 između modela sa i bez centriranja se ne javlja zbog toga<br />
što je model sa centriranim varijablama precizniji i manje pristrasan, već zato što ta dva modela<br />
estimiraju različite efekte. Obzirom da estimiraju različite efekte, njihove standardne greške, t<br />
i p-vrijednosti će biti različite. Samim tim i razlika u standardnim greškama nema nikakve veze<br />
sa multikolineranošću već sa činjenicom da se procjenjuju različiti efekti (Hayes, 2013, p. 288).<br />
Postavlja se pitanje da li onda uopšte centrirati varijable? Glavni razlog zbog kojeg je nekad<br />
poželjno, ali ne i neophodno, uraditi centriranje varijabli odnosi se na olakšavanje interpretacije<br />
dobijenih koeficijenata vezanih za varijable prediktore. Naime, već smo vidjeli da će nakon<br />
centriranja koeficijent vezan za interakcijski član ostati nepromijenjen. U tom smislu,<br />
interpetacija samog interacijskog efekta će ostati ista bez obzira na to da li smo centrirali<br />
varijable ili ne.<br />
S druge strane, ukoliko varijable x1 i x2 nemaju prirodnu nulu, onda u modelu sa necentriranim<br />
varijablama dobijene koeficijente ne možemo direktno interpretirati jer takva interpretacija<br />
neće biti logički smislena. Na primjer, b1 unutar modela sa orginalnim varijablama procjenjuje<br />
promjenu u izdacima na pizzu (y) ako dohodak poraste za jednu jedinicu (x1), u slučaju kada je<br />
14
dob ispitanika (x2) jednaka nuli. 6 Ipak, takvo tumačenje teško da ima logičkog smisla jer dob<br />
ispitanika koji konzumiraju pizzu ne može biti nula.<br />
Međutim, ukoliko smo nezavisne varijable centrirali, onda će dobijeni koeficijenti uvijek biti<br />
smisleni, a ne samo u slučaju kada te varijable imaju prirodnu nulu. Tako će b1 unutar modela<br />
sa centriranim varijablama predstavljati procjenu promjene u izdacima na pizzu (y) ako<br />
dohodak poraste za jednu jednicu (x1), u slučaju kada je dob ispitanika jednaka prosjeku (x2 =<br />
33,4 godine). Slično tome, b2 možemo interpretirati kao procjenu promjene u izdacima na pizzu<br />
ako starost poraste za jednu godinu (x2), u slučajevima kada je prihod ispitanika jednak prosjeku<br />
(x1 = 55,8 hiljada $).<br />
Jasno je da tumačenje koeficijenata iz modela sa centriranim varijablama ima više logičkog<br />
smisla. Ipak, na kraju ćemo ponovo napomentuti da i sam prosjek varijabli prediktora<br />
predstavlja samo jednu od mogućih uslovnih vrijednosti. Do istog rezultata smo mogli doći i<br />
na osnovu vrijednosti b1 i b3 koeficijenata iz modela sa orginalnim varijablama uz procjenu<br />
uslovnog efekta za x1 kada je x2= :<br />
= ( + )<br />
= (6,979905 − 0,12324 × ) ×<br />
= (6,979905 − 0,12324 × 33,475) ×<br />
= 2,2854468 ×<br />
što je rezultat koji tačno odgovara koeficijentu b1 iz modela sa centriranim predktorima. Štaviše,<br />
čak se i standardne greške za b1 u modelu sa centriranim varijablama mogu izvesti rješenja koje<br />
smo dobili za model bez centriranja 7 .<br />
6. DUMMY VARIJABLE I INTERAKCIJE<br />
Koncept interakcija se direktno može primijeniti i u slučaju varijabli indikatora. Pretpostavimo<br />
da je istraživač želio ispitati da li žene više troše na odjeću u odnosu na muškarce. U tu svrhu<br />
anketirano je 100 posjetitelja tržnog centra (50 muškaraca i 50 žena). Od svakog ispitanika je<br />
traženo da navede podatak o mjesečnim izdacima na odjeću (izdaci) i ličnom dohotku (plata).<br />
Prikupljeni podaci su pohranjeni u datoteku izdaci.dta. U okviru outputa 8 i 9 dat je prikaz<br />
prosječnih izdataka i dohodak za ispitanike iz uzorka.<br />
. sum<br />
Variable | Obs Mean Std. Dev. Min Max<br />
-------------+--------------------------------------------------------<br />
plata | 100 1016.45 328.2963 150 1872<br />
izdaci | 100 127.15 63.2266 0 285<br />
spol | 100 .5 .5025189 0 1<br />
Output 8<br />
. tabstat izdaci plata, by (spol) s(mean)<br />
Summary statistics: mean<br />
6<br />
Tumačenje na bazi onoga što piše u (Hayes, 2013, p. 288)<br />
7<br />
Za više detalja pogledati: (Hayes, 2013, p. 289)<br />
15
y categories of: spol (Spol)<br />
spol | izdaci plata<br />
-------+--------------------<br />
Muški | 87.5 971.84<br />
Ženski | 166.8 1061.06<br />
-------+--------------------<br />
Total | 127.15 1016.45<br />
----------------------------<br />
Output 9<br />
Možemo primjetiti da ispitanice imaju nešto veću prosječnu platu ali i da istovremeno imaju<br />
duplo veće mjesečne izdatke za odjeću.<br />
Da bi preciznije ispitali uticaj plate i spola na mjesečne izdatke za odjeću kreirali smo sljedeći<br />
regresioni model:<br />
= + + +<br />
gdje je varijabla spol kodirana tako da je 0 = muški, 1 = ženski. Rezultati estimacije su dati u<br />
okviru outputa 9.<br />
. reg izdaci plata spol<br />
Source | SS df MS Number of obs = 100<br />
-------------+------------------------------ F( 2, 97) = 69.00<br />
Model | 232400.481 2 116200.24 Prob > F = 0.0000<br />
Residual | 163362.269 97 1684.14711 R-squared = 0.5872<br />
-------------+------------------------------ Adj R-squared = 0.5787<br />
Total | 395762.75 99 3997.60354 Root MSE = 41.038<br />
------------------------------------------------------------------------------<br />
izdaci | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />
-------------+----------------------------------------------------------------<br />
plata | .0847383 .0126822 6.68 0.000 .0595676 .1099089<br />
spol | 71.73965 8.2853 8.66 0.000 55.29563 88.18368<br />
_cons | 5.147962 13.62315 0.38 0.706 -21.89023 32.18615<br />
------------------------------------------------------------------------------<br />
Output 9<br />
Nakon što estimirane parametre ubacimo u prethodnu formulu dobićemo:<br />
= 5,15 + 0,0847 × + 71,74 ×<br />
<br />
<br />
<br />
Konstanta nam govori da za muške ispitanike (spol = 0) bez vlastitog ličnog dohotka<br />
(plata = 0) u prosjeku možemo očekivati mjesečnu potrošnju od 5,15 KM. Ipak, ovakav<br />
zaključak treba uzeti sa određenom rezervom obzirom da u uzorku nismo imali<br />
ispitanika bez ličnih primanja.<br />
Koeficijent vezan za platu je pozitivan i statistički signifikantan što znači da s<br />
povećanjem plate od 100 KM možemo očekivati povećanje mjesečnih izdatataka na<br />
odjeću u iznosu od 8,47 KM.<br />
Koeficijent vezan za spol je pozitivan i statistički signifikantan što govori da žene<br />
mjesečno na odjeću troše 71,74 KM više u odnosu na muškarce.<br />
16
Estimirani model je grafički predstavljen na slici 4.<br />
Slika 4<br />
Model sa slike 4 implicira da se potrošnja između muškaraca (isprekidana linija) i žena (puna<br />
linija) uvijek razlikuje za konstantni iznos. U prosjeku gledano, žene će uvijek imati izdatke na<br />
odjeću veće za 71,74 KM u odnosu na muškarce sa istim nivoom primanja.<br />
Međutim, može se postaviti pitanje da li je to tačno. Odnosno, da li paralelne linije najbolje<br />
oslikavaju empirijske tačke na slici 4? Ukoliko pažljivije pogledamo raspored empirijskih<br />
tačaka za muškarce i žene na slici 4 čini se da izdaci na odjeću kod žena sa povećanjem dohotka<br />
rastu brže u odnosu na muškarce.<br />
Hipoteza da će dohodatk imati različit uticaj na potrošnju kod žena u odnosu na muškarce<br />
naziva se uslovnom hipotezom i može se testirati putem interakcijskog efekta. Interakcijski<br />
efekat žemo dobiti tako što pomnožimo indikatorsku varijablu (spol) sa metrijskom varijablom<br />
(plata) tako da imamo:<br />
= + + + × +<br />
Rezultati estimacije modela sa interakcijskim efektom prikazani su unutar outputa 10.<br />
. reg izdaci plata spol c.plata#i.spol<br />
Source | SS df MS Number of obs = 100<br />
-------------+------------------------------ F( 3, 96) = 51.07<br />
Model | 243304.612 3 81101.5374 Prob > F = 0.0000<br />
Residual | 152458.138 96 1588.1056 R-squared = 0.6148<br />
-------------+------------------------------ Adj R-squared = 0.6027<br />
Total | 395762.75 99 3997.60354 Root MSE = 39.851<br />
------------------------------------------------------------------------------<br />
izdaci | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />
-------------+----------------------------------------------------------------<br />
plata | .0541829 .01696 3.19 0.002 .0205175 .0878483<br />
spol | 5.882689 26.38946 0.22 0.824 -46.49998 58.26535<br />
|<br />
spol#c.plata |<br />
17
1 | .0646364 .0246673 2.62 0.010 .0156722 .1136006<br />
|<br />
_cons | 34.84287 17.41931 2.00 0.048 .2658066 69.41994<br />
------------------------------------------------------------------------------<br />
Output 10<br />
U odnosu na prethodni model, novi model ima adj. R 2 bolji za 2,4% što nije mnogo. Obratimo<br />
pažnju i da je efekt dummy varijable sada mnogo manji i nesignifikantan. Ipak, interakcijski<br />
efekt je signifikantan.<br />
Da bi dobili bolji uvid u to šta smo postigli ubacivanjem interakcijskog efekta poći ćemo od<br />
opšte jednačine modela:<br />
= 34,84 + 0,0542 × + 5,88 × + 0,0646 × ×<br />
Zatim ćemo kreirati dvije odvojene jednačine vezane za muškarce i žene. Jednačinu za žene<br />
žemo dobiti ako vrijednost dummy varijable fiksiramo na 0:<br />
š = 34,84 + 0,0542 × + 5,88 × 0 + 0,0646 × × 1<br />
š = 34,84 + 0,0542 ×<br />
<br />
<br />
Možemo očekivati da muškarci bez vlastitih primanja (plata = 0) u prosjeku na odjeću<br />
mjesečno troše 33,84 KM.<br />
Koeficijent vezan za platu je pozitivan i statistički signifikantan što znači da s<br />
povećanjem plate od 100 KM možemo očekivati da će muškarci u prosjeku povećati<br />
mjesečne izdatke na odjeću u iznosu od 5,42 KM.<br />
S druge strane, jednačinu za žene dobijamo ako vrijednost varijable spol fiksiramo na 1:<br />
ž = 34,84 + 0,0542 × + 5,88 × 1 + 0,0646 × × 1<br />
ž = 34,84 + 0,0542 × + 5,88 + 0,0646 ×<br />
ž = (34,84 + 5,88) + (0,0542 + 0,0646) ×<br />
ž = 40,72 + 0,1188 ×<br />
<br />
<br />
Možemo očekivati da žene bez vlastitih primanja (plata = 0) u prosjeku na odjeću<br />
mjesečno troše 40,72 KM.<br />
Koeficijent vezan za platu je pozitivan i statistički signifikantan što znači da s<br />
povećanjem plate od 100 KM možemo očekivati da će žene u prosjeku povećati<br />
mjesečne izdatke na odjeću u iznosu od 11,88 KM.<br />
Iako ne postoji statistički signifikantna razlika u mjesečnim izdacima između muškaraca i žena<br />
koji nemaju vlastita primanja (spol = 5,8, p = 0,824, kada je plata = 0), postojanje statistički<br />
signifikantnog efekta interakcije upućuje na zaključak da između muškaraca i žena postoji<br />
razlika u pogledu obrazaca potrošnje na odjeću. Naime, za svaku marku povećanja ličnog<br />
dohotka možemo oćekivati da će žene više trošiti na odjeću u odnosu na muškarce (11,88<br />
feninga u odnosu na 5,42 feninga).<br />
18
Ove relacije su grafički prikazane na slici 5.<br />
Slika 5<br />
Kao što je ubacivanje indikatorske varijable u model omogućilo da imamo dvije različite<br />
konstante, interakcijski efekt omogućava da imamo različite nagibe regresionih linija vezanih<br />
za muškarce i žene.<br />
Također, za kraj treba nepomenuti da u slučaju interakcija sa dummy varijablama ne treba<br />
koristiti centriranje obzirom da prosječna vrijednost dummy varijable nema nikakvo praktično<br />
značenje (Afshartous and Preston, 2011, p. 19).<br />
19
7. BIBLIOGRAFIJA<br />
Afshartous, D., Preston, R.A., 2011. Key Results of Interaction Models With Centering. J. Stat.<br />
Educ. 19.<br />
Aguinis, H., Gottfredson, R.K., 2010. Best-practice recommendations for estimating interaction<br />
effects using moderated multiple regression. J. Organ. Behav. 31, 776–786.<br />
doi:10.1002/job.686<br />
Aiken, L.S., West, S.G., 1991. Multiple Regression: Testing and Interpreting Interactions.<br />
SAGE Publications, Inc, Newbury Park, Calif.<br />
Cohen, J., Cohen, P., West, S.G., Aiken, L.S., 2003. Applied Multiple Regression/Correlation<br />
Analysis for the Behavioral Sciences, 3rd ed. Lawrence Erlbaum Associates, Inc.<br />
Echambadi, R., Hess, J.D., 2004. Mean-Centering Does Nothing for Moderated Multiple<br />
Regression. J. Mark. Res.<br />
Grace-Martin, K., n.d. Interpreting Interactions in Regression. Anal. Factor.<br />
Hayes, A.F., 2013. Introduction to Mediation, Moderation, and Conditional Process Analysis:<br />
A Regression-Based Approach, 1 edition. ed. The Guilford Press, New York.<br />
Međedović, J., 2013. Analiza interkacija prediktora u modelima linearne regresije: Primer<br />
stranačke evaluacije. Primjen. Psihol. 6, 267–286.<br />
Mooi, E., Sarstedt, M., 2014. A Concise Guide to Market Research: The Process, Data, and<br />
Methods Using IBM SPSS Statistics, 2nd ed. Springer.<br />
Preacher, K.J., 2003. A primer on interaction effects in multiple linear regression.<br />
Preacher, K.J., Curran, P.J., Bauer, D.J., 2004. Simple Intercepts, Simple Slopes, and Regions<br />
of Significance in MLR 2-Way Interactions.<br />
20