11.08.2013 Views

Metode raziskovanja Majda Bastič - Shrani.si

Metode raziskovanja Majda Bastič - Shrani.si

Metode raziskovanja Majda Bastič - Shrani.si

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Maribor, oktober 2006<br />

Univerza v Mariboru<br />

Ekonomsko-poslovna fakulteta Maribor<br />

<strong>Metode</strong> <strong>raziskovanja</strong><br />

<strong>Majda</strong> <strong>Bastič</strong>


Predgovor<br />

Kako se lotiti raziskave je pogosta dilema, s katero se soočajo tako študenti na dodiplomskem<br />

kot na podiplomskem študiju. Raziskovalna metodologija je v ekonomiji in managementu<br />

zelo obsežna in se neprestano razvija, zato je nemogoče vso njeno bogastvo strniti v en<br />

predmet in prikazati v eni knjigi.<br />

Namen tega gradiva je prikazati tisti del raziskovalnega procesa, ko se raziskovalec sooči z<br />

analizo zbranih podatkov, da bi odgovoril na zastavljeno raziskovalno vprašanje. Poznavanje<br />

v gradivu predstavljenih kvantitativnih metod bo pomagalo raziskovalcem pri izboru<br />

najustreznejše metode in pri pravilni interpretaciji dobljenih rezultatov. Glede na predvideni<br />

obseg predmeta smo se pri prikazu metod osredotočili na predpostavke, na katerih temelji<br />

metoda, potrebni podatki in interpretacijo rezultatov, dobljenih s programom SPSS.<br />

Pri pisanju metod, pojasnjenih v točkah 4.1, 4.2, 5, 6.1 sem <strong>si</strong> delno pomagala s teksti, ki sta<br />

jih napisali prof. dr. Polona Tominc in dr. Gabrijela Leskovar Špacapan.<br />

Maribor, oktober 2006<br />

2<br />

<strong>Majda</strong> <strong>Bastič</strong>


1 UVOD .................................................................................................................. 4<br />

2 ANALIZA PODATKOV ....................................................................................... 5<br />

2.1 Vrste skal za merjenje vrednosti spremenljivk.................................................................................... 6<br />

2.2 Pomembnejši parametri in statistike..................................................................................................... 6<br />

2.3 Zanesljivost vzorca ................................................................................................................................. 8<br />

2.4 Transformacija podatkov..................................................................................................................... 11<br />

3 KLASIFIKACIJA STATISTIČNIH METOD........................................................ 12<br />

4 UGOTAVLJANJE RAZLIK MED ARITMETIČNIMI SREDINAMI ..................... 14<br />

4.1 Domneve ................................................................................................................................................ 14<br />

4.2 Parametrični test za ugotavljanje značilnih razlik med dvema povprečnima vrednostma............ 16<br />

4.2.1 Dva neodvisna vzorca ........................................................................................................................ 16<br />

4.2.2 Dva odvisna vzorca............................................................................................................................ 18<br />

4.2.3 Analiza variance (ANOVA)............................................................................................................... 19<br />

4.3 Neparametrični testi ............................................................................................................................. 21<br />

4.3.1 Neparametrični testi za en vzorec ...................................................................................................... 21<br />

4.3.2 Neparametrični testi za ugotavljanje značilnih razlik med dvema povprečnima vrednostma za<br />

neodvisna vzorca.............................................................................................................................................. 22<br />

4.3.3 Neparametrični test za ugotavljanje značilnih razlik med dvema povprečnima vrednostma za odvisna<br />

vzorca 24<br />

5 ANALIZA ODVISNOSTI MED ŠTEVILSKIMI SPREMENLJIVKAMI................ 27<br />

5.1 Enostavna regre<strong>si</strong>ja .............................................................................................................................. 27<br />

5.2 Multipla regre<strong>si</strong>ja ................................................................................................................................. 30<br />

5.3 Diskriminantna analiza ........................................................................................................................ 32<br />

5.3.1 Diskriminantna analiza z dvema skupinama...................................................................................... 33<br />

5.3.2 Multipla diskriminantna analiza......................................................................................................... 34<br />

6 ANALIZA MEDSEBOJNE ODVISNOSTI.......................................................... 40<br />

6.1 Analiza skupin (Cluster analy<strong>si</strong>s)........................................................................................................ 40<br />

6.2 Faktorska analiza – metoda glavnih komponent ............................................................................... 44<br />

KAZALO SLIK ......................................................................................................... 51<br />

KAZALO RAZPREDELNIC...................................................................................... 51<br />

3


1 Uvod<br />

V družboslovju običajno pojasnjujemo pojave, za katere smatramo, da se v času in prostoru<br />

pojavljajo množično (slovenska podjetja, inovativna podjetja v razvijajočih se gospodarstvih,<br />

inovativna podjetja v tržno usmerjenih gospodarstvih). Množični pojav, ki je opredeljen<br />

krajevno, časovno in stvarno, imenujemo statistična množica. Posameznim pojavom, ki<br />

izpolnjujejo opredelitvene pogoje, pravimo statistične enote (kupec izdelka X, inovativno<br />

podjetje). Statistične enote imajo najrazličnejše značilnosti. Proučevane značilnosti<br />

statističnih enot pa imenujemo spremenljivke.<br />

Pri proučevanju množičnega pojava potrebujemo podatke o proučevanih spremenljivkah, ki<br />

jih običajno ni in jih moramo zbrati sami. Z ustreznimi metodami in modeli zbrane podatke<br />

transformiramo v informacije, s katerimi poskušamo razložiti proučevani pojav. Pri<br />

proučevanju teh pojavov bi bilo idealno, če bi razpolagali s podatki o proučevanih<br />

spremenljivkah za vse enote statistične množice. V večini primerov to zaradi omejenega časa<br />

in stroškov, namenjenih raziskavi ni možno. Zato zberemo podatke le za podmnožico<br />

statistične množice, ki jo imenujemo vzorec. Vzorec je torej samo del statistične množice. Z<br />

analizo zbranih podatkov o pojavu na enotah v vzorcu želimo razložiti proučevani pojav za<br />

celotno statistično množico.<br />

Raziskovalnega procesa se moramo lotiti <strong>si</strong>stematično, da ne bi prezrli nobenega<br />

pomembnega koraka, kar bi nas lahko napeljalo do napačnega zaključka. Kumar (2005)<br />

priporoča splošni raziskovalni model, ki je sestavljen iz dveh delov, to sta načrtovanje in<br />

izvedba raziskave, ki ju je nadalje razčlenil na osem faz. V njih opredelimo cilj raziskave in<br />

izberemo najboljšo raziskovalno pot, s katero bomo dosegli zastavljeni cilj. Raziskovalni<br />

model torej sestavlja:<br />

Načrtovanje raziskave<br />

1. opredelitev raziskovalnega problema (proučevanega pojava)<br />

2. izdelava koncepta raziskave<br />

3. izdelava instrumenta za zbiranje podatkov<br />

4. izbira vzorca<br />

5. pisanje raziskovalnega predloga<br />

Izvedba raziskave<br />

6. zbiranje podatkov<br />

7. obdelava podatkov<br />

8. pisanje raziskovalnega poročila<br />

1. Opredelitev raziskovalnega problema je ena najpomembnejših faz raziskovalnega procesa.<br />

V njej opredelimo cilj raziskave, to je kaj bomo proučevali. Cilj raziskave mora biti čim<br />

natančneje in jasneje opredeljen, saj je od nje odvisna vsebina ostalih faz raziskovalnega<br />

procesa.<br />

2. Z izdelavo koncepta raziskave pojasnimo, kako bomo poiskali odgovore na zastavljena<br />

raziskovalna vprašanja. V tej fazi poleg samega koncepta opredelimo še kaj in kako bomo<br />

merili, strategijo vzorčenja, okvir analize in njen časovni okvir.<br />

3. Vsako sredstvo, s katerim zbiramo podatke za raziskavo, se imenuje 'raziskovalno orodje'<br />

ali 'raziskovalni instrument'. Najpogosteje uporabljeni raziskovalni instrumenti za zbiranje<br />

podatkov so načrt intervjuja, vprašalnik, navodila za izvedbo intervjuja. Če za raziskavo<br />

načrtujemo uporabo primarnih podatkov, izdelamo instrument za zbiranje podatkov sami<br />

ali uporabimo takega, ki je bil že uporabljen v drugih raziskavah. Če pa načrtujemo<br />

4


uporabo sekundarnih podatkov (že zbranih podatkov v druge namene) izdelamo<br />

dokument, v katerega se vpisujejo potrebni sekundarni podatki.<br />

4. Natančnost in zanesljivost naših ugotovitev je v veliki meri odvisna tudi od načina, kako<br />

smo izbrali vzorec. Najpomembnejši cilj pri izbiranju vzorca je, ob upoštevanju stroškov<br />

raziskave, minimiziranje razlik med vrednostmi, ki jih dobimo iz vzorca, in tistimi, ki<br />

veljajo za statistično množico. Osnovno načelo vzorčenja je z relativno majhnim številom<br />

izbranih statističnih enot dobiti z visoko verjetnostjo dokaj realno sliko o proučevani<br />

statistični množici. Teorija vzorčenja temelji na dveh pomembnih načelih, to je na načelu<br />

nepristranosti in načelu mak<strong>si</strong>malne natančnosti. Pri izbiri vzorčenja izbiramo med<br />

slučajnim, ne-slučajnim in mešanim vzorčenjem. V okviru prvih dveh obstaja več strategij<br />

vzorčenja. Poznavanje teh strategij, njihovih prednosti in slabosti omogoča uporabniku<br />

izbiro najboljše strategije glede na postavljeni cilj raziskave in raziskovalna vprašanja.<br />

5. Rezultate prvih štirih faz, v katerih so bila opravljena potrebna pripravljalna dela za<br />

uspešno izvedbo raziskave, strnemo v raziskovalnem predlogu. V njem je natančno opisan<br />

raziskovalni problem in detajlno predstavljen načrt raziskave, s katero bomo dobili<br />

odgovore na zastavljena raziskovalna vprašanja.<br />

6. Potem ko smo opravili prve štiri faze in njihove rezultate strnili v raziskovalnem predlogu<br />

pričnemo s samo raziskavo. Ta prične z zbiranjem podatkov, ki jih bomo uporabili pri<br />

iskanju odgovorov na zastavljena raziskovalna vprašanja. Zbiranje podatkov je odvisno od<br />

vrste potrebnih podatkov (primarni, sekundarni) in od izbranega raziskovalnega<br />

instrumenta. Zbiranje podatkov ne glede na izbrano metodo poraja nekaj etičnih<br />

problemov.<br />

7. V fazi obdelave podatkov se zbrani podatki obdelajo v informacije, s katerimi bomo<br />

poskušali dati zanesljive odgovore na zastavljena raziskovalna vprašanja. <strong>Metode</strong>, ki jih<br />

bomo uporabili pri obdelavi zbranih podatkov so odvisne od:<br />

• vrste zbranih podatkov (opisni, numerični)<br />

• načina predstavitve dobljenih rezultatov zaintere<strong>si</strong>ranim javnostim<br />

V teoriji se raziskave delijo v kvantitativne in kvalitativne. Večino dejansko opravljenih<br />

raziskav v ekonomiji je težko razvrstiti le v eno skupino, saj le-te uporabljajo tako<br />

kvalitativne kot kvantitativne metode.<br />

8. Raziskava se konča s pisanjem raziskovalnega poročila, ki je za mnoge najtežje opravilo v<br />

tem procesu. V poročilu seznanimo zaintere<strong>si</strong>rano javnost, kaj smo proučevali, kaj smo<br />

odkrili in kateri zaključki sledijo našim ugotovitvam.<br />

V tem gradivu se bomo pretežno ukvarjali z metodami in modeli, s katerimi obdelujemo<br />

zbrane podatke v informacije, torej s sedmo fazo opisanega raziskovalnega modela.<br />

2 Analiza podatkov<br />

Izvedba same raziskave prične z zbiranjem podatkov o spremenljivkah za statistične enote.<br />

Vrsta podatkov in njihovih značilnosti določa nabor razpoložljivih metod za njihovo<br />

obdelavo. Zato <strong>si</strong> poglejmo, kaj moramo vedeti o podatkih, da bi lahko korektno opravili<br />

samo raziskavo.<br />

Podatki so lahko številski (numerični, kvantitativni, metric) ali opisni (kvalitativni, nonmetric).<br />

Številski podatki so merljivi, kot so prihodek, starost (zvezni številski podatki) ali<br />

člani družine, število podjetij (nezvezni ali diskretni). Kadar imamo opravka s številskimi<br />

podatki, razmišljamo o njihovi povprečni vrednosti: kolikšen je povprečni prihodek,<br />

povprečna starost, itd. Opisni podatki so števni podatki. Z njimi opisujemo spol, kraj<br />

5


preživljanja dopusta, velikost podjetja (majhno, srednje, veliko). V primeru, ko imamo opisne<br />

podatke, razmišljamo o deležih: kolikšen je delež majhnih podjetij med vsemi slovenskimi<br />

podjetji. Posebna vrsta opisnih podatkov so ordinalni (izobrazba, velikost podjetja). Te opisne<br />

podatke je mogoče glede na njihov pomen urediti po vrstnem redu (velika, srednja, mala<br />

podjetja).<br />

2.1 Vrste skal za merjenje vrednosti spremenljivk<br />

Poznamo štiri različne skale za merjenje vrednosti spremenljivk v družboslovju. To so<br />

nominalna, ordinalna, intervalna in razmernostna skala. Te skale omogočajo merjenje tako<br />

subjektivnih odgovorov kot merjenje odgovorov, ki se lahko merijo z veliko natančnostjo.<br />

Izbira skale, s katero bomo merili vrednosti opazovane spremenljivke, je odvisna od cilja<br />

raziskave.<br />

Opisne spremenljivke merimo na<br />

• nominalni skali, ki omogoča razvrščanje enot po določeni skupni značilnosti. Statistične<br />

enote razvrščamo v skupine tako, da imajo enote, razvrščene v isto skupino, isto<br />

značilnost. Spol merimo na nominalni skali. Enote razvrstimo po spolu v dve skupini<br />

(1= moški, 2=ženski spol).<br />

• ordinalni skali, ki ima vse lastnosti nominalne skale in še lastnost, da so skupine<br />

razvrščene po določenem kriteriju. Po velikosti lahko razvrstimo podjetja v tri skupine<br />

(1=velika, 2=srednja, 3=mala podjetja). Tudi po dohodku lahko statistične enote<br />

razvrstimo v več skupin in spremenljivko merimo na ordinalni skali (1=podpovprečen,<br />

2=povprečen, 3=nadpovprečen dohodek).<br />

Številske spremenljivke merimo z metričnimi skalami:<br />

• intervalna skala ima vse lastnosti ordinalne skale in še lastnost, da uporablja enoto<br />

mere. Med svojo začetno in končno točko je razčlenjena na enako velike intervale.<br />

Začetna in končna točka ter število intervalov so pri tej skali poljubno določeni.<br />

Celzijeva in Fahrenhajtova skala sta primera intervalne skale. Ker sta začetna in končna<br />

točka poljubno določeni, ta skala ni absolutna.<br />

• Razmernostna skala ima vse lastnosti predhodno opisanih skal in še lastnost, da je njena<br />

začetna točka nič in se ne spreminja. Zato je skala absolutna, razlika se vedno meri od<br />

točke nič. Spremenljivke, kot so dohodek, starost, teža se merijo z razmernostno skalo.<br />

Za vrednosti teh spremenljivk velja še, da je dohodek 200.000 SIT dvakrat večji od<br />

dohodka 100.000 SIT ali oseba, ki je stara 20 let je dvakrat starejša od osebe, stare 10<br />

let. Te lastnosti nima nobena od predhodno obravnavanih skal.<br />

2.2 Pomembnejši parametri in statistike<br />

Parameter je neka številska ali opisna značilnost statistične množice. Če pa to značilnost<br />

ugotavljamo s pomočjo vzorca jo imenujemo statistika. Parameter ima stalno vrednost, dokler<br />

se ne spremeni proučevana značilnost statistične množice. Iz statistične množice lahko<br />

tvorimo veliko različnih vzorcev, zato je statistika spremenljiva vrednost, ki je odvisna od<br />

izbranega vzorca. Npr. povprečni osebni dohodek vseh zaposlenih v Sloveniji je parameter,<br />

povprečni osebni dohodek v vzorec izbranih zaposlenih v Sloveniji pa statistika.<br />

6


S statistično analizo želimo dobiti zanesljive ugotovitve o proučevanem množičnem pojavu,<br />

zato proučujemo ta pojav na celotni statistični množici ali na vzorcu. Tudi če ga proučujemo<br />

na vzorcu, moramo imeti v vzorcu dovolj statističnih enot. Zato imamo za vsako<br />

spremenljivko veliko število podatkov. Pri opisovanju značilnosti ni smiselno navajati vseh<br />

zbranih vrednosti za spremenljivko, temveč uporabljamo v ta namen vrednosti, ki najbolje<br />

predstavljajo zbrane vrednosti določene spremenljivke. Take vrednosti so srednje vrednosti,<br />

mere variabilnosti ter mere a<strong>si</strong>metrije in sploščenosti.<br />

Srednje vrednosti<br />

Najpogosteje uporabljene srednje vrednosti so aritmetična sredina, mediana, modus.<br />

Aritmetična sredina je najpomembnejša srednja vrednost. Računamo jo iz vseh zbranih<br />

podatkov za spremenljivko, zato je njena predstavitvena (reprezentačna) vrednost vprašljiva,<br />

če so med podatki tudi taki, ki se bistveno razlikujejo od ostalih podatkov.<br />

Modus je srednja vrednost, okrog katere je največja gostitev vrednosti.<br />

Mediana ali središčnica predstavlja tisto vrednost, pri kateri ima polovica enot statistične<br />

množice ali vzorca manjše, polovica pa večje vrednosti od mediane. Glavna pomanjkljivost<br />

mediane je njena neobčutljivost na spremembe vrednosti. Njena vrednost se spremeni šele, ko<br />

vrednosti preidejo iz ene polovice v drugo.<br />

Mere variabilnosti<br />

Z merami variabilnosti proučujemo razlike med vrednostmi spremenljivke (variacijski<br />

razmik) ter med vrednostmi spremenljivke in vnaprej določeno vrednostjo, ki je lahko<br />

aritmetična sredina, mediana ali modus. Najpogosteje uporabljene mere variabilnosti so<br />

variacijski razmik, varianca in standardni odklon.<br />

Variacijski razmik je najenostavnejša mera variabilnosti, ki je enak razliki med najmanjšo in<br />

največjo vrednostjo spremenljivke.<br />

Varianca je povprečna napaka med dejanskimi vrednostmi spremenljivke in njeno aritmetično<br />

sredino. Izraža se v kvadratu osnovne mere. Zaradi tega se pogosteje uporablja standardni<br />

odklon, ki je enak kvadratnemu korenu iz variance in se izraža v enakih enotah kot<br />

spremenljivka in njena aritmetična sredina. Standardni odklon uporabljamo tudi kot mero<br />

reprezentativnosti aritmetične sredine. Manjši kot je standardni odklon (v primerjavi z<br />

aritmetično sredino) manjše so razlike med dejanskimi vrednostmi spremenljivke in njeno<br />

aritmetično sredino ter obratno. Če so vse vrednosti spremenljivke enake, tedaj je standardni<br />

odklon enak nič.<br />

Mere a<strong>si</strong>metrije in sploščenosti<br />

Za nadaljnjo analizo je koristno vrednosti spremenljivke urediti v obliki frekvenčne<br />

porazdelitve, ki nam pove, kolikokrat se pojavi določena vrednost, in nato frekvenčno<br />

porazdelitev prikazati v obliki histograma. Frekvenčne porazdelitve, prirejene različnim<br />

spremenljivkam, imajo različne oblike. Mnoge v tem gradivu obravnavane metode temeljijo<br />

na predpostavki, da so vrednosti spremenljivke porazdeljene po normalni porazdelitvi, ki je<br />

prikazana na sliki 2.1. V večini primerov obstajata dva razloga, zakaj konkretna porazdelitev<br />

ni normalna. To sta pomanjkanje <strong>si</strong>metričnosti (a<strong>si</strong>metrične porazdelitve) in zahtevane<br />

sploščenosti. A<strong>si</strong>metričnost in sploščenost konkretne porazdelitve merimo z merami<br />

a<strong>si</strong>metrije in sploščenosti.<br />

7


Slika 2.1. Normalna porazdelitev<br />

y − 3σ<br />

y − 2σ<br />

y −σ<br />

y y + σ y + 2σ<br />

y + 3σ<br />

A<strong>si</strong>metrične porazdelitve (skewness) so lahko pozitivno a<strong>si</strong>metrične oziroma a<strong>si</strong>metrične v<br />

desno (večja gostitev je pri manjših vrednosti spremenljivke) ali negativno a<strong>si</strong>metrične<br />

oziroma a<strong>si</strong>metrične v levo (večja gostitev vrednosti je pri večjih vrednostih spremenljivke).<br />

Porazdelitve se razlikujejo med seboj tudi po svoji sploščenosti (kurto<strong>si</strong>s). Ene so bolj<br />

sploščene, druge bolj koničaste. Sploščenost porazdelitve primerjamo z normalno, ki je vzeta<br />

kot idealna. Pozitivne vrednosti koeficienta sploščenosti kažejo na koničasto porazdelitev,<br />

negativne pa na bolj sploščeno kot je normalna porazdelitev. O sploščenosti porazdelitve nam<br />

pove tudi vrednost standardnega odklona. Z večanjem njegove vrednosti postaja porazdelitev<br />

vedno bolj sploščena, z manjšanjem njegove vrednosti pa prehaja vedno bolj v koničasto<br />

porazdelitev.<br />

Za normalno porazdelitev velja, da sta koeficienta a<strong>si</strong>metričnosti in sploščenosti enaka 0. Za<br />

proučevano porazdelitev nam vrednosti teh dveh koeficientov povesta, za koliko se le-ta<br />

razlikuje od normalne porazdelitve.<br />

2.3 Zanesljivost vzorca<br />

Merimo jo s standardno napako ocene aritmetične sredine. Zaradi lažjega razumevanja<br />

vzemimo, da ima statistična množica le 5 enot, s pomočjo slučajnih števil bomo v vzorec<br />

izbrali dve enoti. Pri teh pogojih bi lahko oblikovali 10 različnih vzorcev (število vseh možnih<br />

kombinacij) in za vsakega izračunali njegovo aritmetično sredino (vzorčna aritmetična<br />

sredina). Iz histograma vzorčnih aritmetičnih sredin bi ugotovili, da se le-te porazdeljujejo<br />

normalno, s povprečno vrednostjo, ki je enaka aritmetični sredini statistične množice,<br />

variiranje vzorčnih aritmetičnih sredin pa opisuje standardni odklon vzorčnih aritmetičnih<br />

sredin, ki ga imenujemo standardna napaka ocene aritmetične sredine SE . Manjša kot je<br />

x<br />

njena vrednost, manjša je variabilnost med vzorčnimi povprečnimi vrednostmi, boljši<br />

predstavnik statistične množice je vzorec, in obratno. Njena vrednost je določena z<br />

s<br />

SE = x<br />

n<br />

kjer je x<br />

SE standardna napaka ocene aritmetične sredine, s je standardni odklon vzorca in n<br />

število enot v vzorcu.<br />

8


Primer 2.1<br />

Poglejmo primer, ko so študenti ocenjevali delo učitelja tudi po tem, kako dobro podaja snov,<br />

ki jo predava. Spremenljivko 'podajanje snovi' s <strong>si</strong>mbolom K4 so ocenjevali na 7-stopenjski<br />

skali, kjer je 1 pomenila zelo slabo in 7 izjemno dobro podajanje snovi. Iz statistične množice<br />

študentov, ki so poslušali učiteljeva predavanja, smo naključno izbrali 214 študentov in jih<br />

pro<strong>si</strong>li, da ocenijo podajanje snovi za ocenjevanega učitelja. Dobljenih 214 podatkov smo<br />

analizirali s programom SPSS 13. Rezultati analize so podani v razpredelnicah 2.1, 2.2. in<br />

sliki 2.2.<br />

Razpredelnica 2.1. Statistike za spremenljivko K4<br />

K4<br />

N<br />

Mean<br />

Std. Error of Mean<br />

Median<br />

Mode<br />

Std. Deviation<br />

Variance<br />

Skewness<br />

Std. Error of Skewness<br />

Kurto<strong>si</strong>s<br />

Std. Error of Kurto<strong>si</strong>s<br />

Range<br />

Minimum<br />

Maximum<br />

Statistics<br />

Valid<br />

Mis<strong>si</strong>ng<br />

9<br />

214<br />

0<br />

5,3411<br />

,08986<br />

5,5000<br />

6,00<br />

1,31460<br />

1,728<br />

-,651<br />

,166<br />

-,004<br />

,331<br />

6,00<br />

1,00<br />

7,00<br />

V razpredelnici 2.1 so podane opisne statistike za spremenljivko 'podajanje snovi' s <strong>si</strong>mbolom<br />

K4. Za njo smo dobili 214 odgovorov. V<strong>si</strong> anketirani študenti so odgovorili na to vprašanje<br />

(manjkajoče vrednosti=0). Iz razpredelnice nadalje odčitamo aritmetično sredino, ki je 5,34,<br />

mediano, ki je 5,5 in modus, ki je enak 6. Primerjava srednjih vrednosti, ki se med seboj<br />

razlikujejo, kaže na ne<strong>si</strong>metričnost porazdelitve, kar potrjuje tudi koeficient a<strong>si</strong>metričnosti<br />

(skewness), ki ni enak nič. Njegova negativna vrednost (-0,651) kaže na a<strong>si</strong>metričnost<br />

porazdelitve v levo. Nadaljnjo lastnost porazdelitve kaže koeficient sploščenosti (kurto<strong>si</strong>s), ki<br />

je -0,004. Njegova vrednost je skoraj enaka nič, kar kaže na veliko podobnost te porazdelitve<br />

normalni porazdelitvi. Variacijski razmik (range) je 6 in je enak razliki med najmanjšo (1) in<br />

največjo vrednostjo (7). Standardna napaka aritmetične sredine je 0,09. Njena majhna<br />

vrednost glede na vrednost aritmetične sredine kaže na zanesljivost vzorca in izračunanih<br />

statistik. Standardni odklon je 1,31.


Razpredelnica 2.2. Frekvenčna in kumulativna porazdelitev za spremenljivko K4<br />

Valid<br />

1,00<br />

2,00<br />

3,00<br />

4,00<br />

5,00<br />

6,00<br />

7,00<br />

Total<br />

K4<br />

Frequency Percent Valid Percent<br />

Cumulative<br />

Percent<br />

1 ,5 ,5 ,5<br />

5 2,3 2,3 2,8<br />

15 7,0 7,0 9,8<br />

30 14,0 14,0 23,8<br />

56 26,2 26,2 50,0<br />

62 29,0 29,0 79,0<br />

45 21,0 21,0 100,0<br />

214 100,0 100,0<br />

V razpredelnici 2.2 je podana frekvenčna porazdelitev za spremenljivko 'podajanje snovi'. Iz<br />

nje je razvidno, da je največ študentov (62 ali 29 %) ocenilo učitelja po tej lastnosti z oceno 6<br />

(modus). Grafični prikaz te porazdelitve in tej porazdelitvi prirejena krivulja normalne<br />

porazdelitve sta prikazani na sliki 2.2.<br />

Slika 2.2. Histogram in krivulja normalne porazdelitve za spremenljivko K4<br />

Frequency<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

0,00<br />

2,00<br />

4,00<br />

K4<br />

Histogram<br />

10<br />

6,00<br />

8,00<br />

Mean =5,3411<br />

Std. Dev. =1,3146<br />

N =214<br />

Obrobna vrednost (outlier)<br />

je tista vrednost spremenljivke, ki se bistveno razlikuje od ostalih vrednosti in utegne vplivati<br />

na pristranost podatkom prirejenega modela. Kot primer obrobne vrednosti vzemimo primer<br />

sedmih ocenjevalcev kakovosti učbenika. Njihove ocene so 5, 4, 2, 5, 5, 5, 5. Že iz pregleda<br />

ocen vidimo, da ocena tretjega ocenjevalca bistveno odstopa od ostalih. Proučimo še njen<br />

vpliv na aritmetično sredino. Njena vrednost znaša 4,42, če upoštevamo vseh sedem ocen,<br />

oziroma 4,83, če ne upoštevamo ocene tretjega ocenjevalca. Razlika je 0,41 ali 9,3 %.<br />

Ko ima spremenljivka veliko vrednosti in zanjo vemo, da je normalno porazdeljena, je<br />

odkrivanje obrobnih vrednosti mnogo lažje, če njene vrednosti standardiziramo z<br />

xi<br />

− x<br />

zi<br />

=<br />

s<br />

kjer je zi standardizirana i-ta vrednost spremenljivke X, xi je i-ta vrednost spremenljivke X in s<br />

iz vzorca izračunani standardni odklon spremenljivke X. Pri normalni porazdelitvi vrednosti<br />

spremenljivke pričakujemo, da bo približno 5 % vrednosti večjih od 1,96, 1 % vrednosti<br />

večjih od 2,58, nobena vrednost pa ne bo večja od 3,29.


Poglejmo uporabo tega pravila na primeru ocen učbenika, čeprav se zavedamo, da dobljena<br />

porazdelitev za ocene ni normalna. Standardizirane vrednosti spremenljivke ocena so podane<br />

v razpredelnici 2.3. Šest absolutnih vrednosti spremenljivke Z je manjših od 1,96, le ena njena<br />

absolutna vrednost je večja od 1,96, kar predstavlja 14 % in je več od 5 %.<br />

Razpredelnica 2.3. Standardizirane vrednosti spremenljivke ocena učbenika<br />

x z<br />

5 0,50395<br />

4 -0,37796<br />

2 -2,14180<br />

5 0,50395<br />

5 0,50395<br />

5 0,50395<br />

5 0,50395<br />

2.4 Transformacija podatkov<br />

Kadar med vrednostmi proučevane spremenljivke nastopajo obrobne vrednosti ali<br />

porazdelitev vrednosti spremenljivke ni normalna, <strong>si</strong> lahko pomagamo tako, da:<br />

• izločimo obrobne vrednosti<br />

• transformiramo podatke<br />

Transformacija podatkov je v primerih, ko nismo <strong>si</strong>gurni, da statistična enota z obrobno<br />

vrednostjo ne spada v statistično množico, boljša alternativa. Najpogosteje uporabljene<br />

transformacije so:<br />

• logaritmiranje vrednosti, ki je učinkovit način za zmanjšanje pozitivne a<strong>si</strong>metrije. Če so<br />

vrednosti spremenljivke, ki jo nameravamo transformirati, negativne ali nič, je treba<br />

predhodno izvesti transformacijo, po kateri nobena vrednost ne bo negativna ali nič. To<br />

dosežemo s prištevanjem dovolj velike konstante vsem vrednostim spremenljivke.<br />

• Korenjenje vrednosti ima mnogo večji učinek na večje kot manjše vrednosti, kar<br />

pripomore, da se večje vrednosti bolj približajo srednjim vrednostim. Zato ta<br />

transformacija zmanjšuje pozitivno a<strong>si</strong>metrijo bolj kot logaritemska transformacija. Pri<br />

tej transformaciji moramo paziti na negativna števila, zato je potrebna predhodna<br />

transformacija, s katero odpravimo negativna števila, kar dosežemo na enak način kot je<br />

opisano pri logaritemski transformaciji.<br />

• Recipročna transformacija je opredeljena z 1/xi. Po tej transformaciji postanejo največje<br />

vrednosti spremenljivke najmanjše in najmanjše največje. Spodnja meja transformiranih<br />

vrednosti je nič. Temu problemu se lahko izognemo, če izvedemo predhodno<br />

transformacijo, s katero vrednost spremenljivke odštejemo od vrednosti, ki je večja od<br />

največje vrednosti. Če strnemo obe transformaciji, je pravilo transformiranja<br />

1<br />

c − xi<br />

kjer je c > xmax in xmax je največja vrednost spremenljivke X.<br />

Omenjene transformacije so primerne tudi za zmanjševanje negativne a<strong>si</strong>metrije. V ta<br />

namen moramo predhodno transformirati vrednosti spremenljivke po pravilu:<br />

c – xi, kjer je c > xmax in xmax največja vrednost spremenljivke X.<br />

11


3 Kla<strong>si</strong>fikacija statističnih metod<br />

Najpogostejša delitev statističnih metod je v dve skupini: univariatne in multivariatne metode.<br />

Univariatne metode so primerne za analizo podatkov, kadar proučujemo pri vsaki enoti le eno<br />

značilnost (spremenljivko). Multivariatne metode pa uporabimo za hkratno analizo več<br />

značilnosti, torej istočasno analiziramo več spremenljivk. Obe skupini metod se razlikujeta<br />

tudi v tem, da se univariatne metode ukvarjajo z analizo povprečij in variance, medtem ko se<br />

multivariatne analize osredotočajo na proučevanje ravni zveze med spremenljivkami<br />

(korelacija, kovarianca).<br />

Nadaljnja razčlenitev univariatnih metod je prikazana na sliki 3.1. Iz nje je razvidno, da je<br />

izbor ustrezne metode odvisen od:<br />

1. vrste spremenljivke, ki jo analiziramo: številska ali opisna<br />

2. od števila vzorcev<br />

3. povezave med vzorci: neodvisni ali odvisni.<br />

Dva vzorca sta neodvisna, kadar enote prvega vzorca niso vzete iz iste statistične množice kot<br />

enote drugega vzorca (npr. naključno izbrani kupci izdelka A tvorijo en vzorec, naključno<br />

izbrani, ki niso kupili izdelka A, pa drug vzorec). Dva vzorca sta odvisna, kadar so enote<br />

vzete iz iste statistične množice (npr. kupci izdelka A ocenjujejo dva atributa – za vsako enoto<br />

sta vrednost prvega in drugega atributa med seboj odvisni, ker sta dobljeni od iste osebe).<br />

Slika 3.1. Kla<strong>si</strong>fikacija univariatnih statističnih metod<br />

Nadaljnja razčlenitev multivariatnih metod je prikazana na sliki 3.2. Te metode je mogoče<br />

najprej razčleniti v dve skupini, to sta metode za proučevanje odvisnosti in metode za<br />

proučevanje medsebojne odvisnosti. <strong>Metode</strong> za proučevanje odvisnosti uporabimo, kadar<br />

proučujemo odvisnost med dvema množicama spremenljivk. V eni so odvisne spremenljivke,<br />

v drugi pa neodvisne. Nadaljnji izbor ustrezne metode za proučevanje odvisnosti pa je<br />

odvisen še od števila odvisnih spremenljivk. Tako tvorijo eno skupino metode za analizo<br />

odvisnosti med eno odvisno spremenljivko in eno ali več neodvisnimi spremenljivkami in<br />

drugo skupino metode za analizo odvisnosti med več odvisnimi in neodvisnimi<br />

12


spremenljivkami. Pri metodah za proučevanje medsebojne odvisnosti spremenljivke ne<br />

delimo na odvisne in neodvisne, temveč proučujemo odvisnost med vsemi proučevanimi<br />

spremenljivkami ali enotami, da bi medsebojno odvisne spremenljivke ali enote združili v<br />

skupine. Te metode se nadalje delijo v dve skupine, glede na to ali proučujemo medsebojno<br />

odvisnost med spremenljivkami (medsebojno odvisne spremenljivke združimo v novo<br />

spremenljivko ali faktor) ali proučujemo medsebojno odvisnost med statističnimi enotami ali<br />

subjekti (medsebojno odvisne oziroma podobne enote združimo v skupine ali klastre).<br />

Slika 3.2. Kla<strong>si</strong>fikacija multivariatnih statističnih metod<br />

Izbor ustrezne multivariatne metode je odvisen od tega<br />

1. ali proučujemo odvisnost med dvema množicama spremenljivk ali medsebojno<br />

odvisnost znotraj ene množice spremenljivk.<br />

2. Izbor ustrezne metode za proučevanje odvisnosti med dvema množicama spremenljivk<br />

je nadalje odvisen od števila spremenljivk v množici odvisnih spremenljivk in od vrste<br />

spremenljivke, kar je prikazano v razpredelnici 3.1.<br />

3. Izbor ustrezne metode za proučevanje medsebojne odvisnosti pa je odvisen ali<br />

proučujemo medsebojno odvisnost med spremenljivkami ali med subjekti<br />

(statističnimi enotami).<br />

Razpredelnica 3.1. <strong>Metode</strong> za proučevanje odvisnosti med spremenljivkami<br />

Odvisna spremenljivka(e) Neodvisne spremenljivke Metoda<br />

Številska Številske Mulitpla regre<strong>si</strong>jska analiza<br />

Opisna Številske Diskriminantna analiza<br />

Številska Opisne Analiza variance<br />

Opisna Opisne Conjoint analiza<br />

Številske* Številske Kanonična korelacija<br />

Številske* Opisne Multipla analiza variance<br />

Opisne* Opisne Diskretna diskriminantna analiza<br />

*več odvisnih spremenljivk<br />

13


4 Ugotavljanje razlik med aritmetičnimi sredinami<br />

4.1 Domneve<br />

Osrednje mesto v vzorčnem pristopu ima domneva, ki odraža raziskovalno vprašanje. Ko smo<br />

oblikovali vzorec in želimo odgovoriti na naše raziskovalno vprašanje, najprej opredelimo<br />

izhodiščno domnevo, ki jo imenujemo ničelna domneva (običajna oznaka je Ho). Kaj bi<br />

povedala ničelna domneva o sebi? Tole: »Jaz predstavljam takšno stanje, v katerem ni<br />

nobenih razlik med spremenljivkami, ki jih preučuješ.« Takšne ničelne domneve so na<br />

primer:<br />

1. pri nekem predmetu se povprečna ocena študentov, ki obiskujejo vaje, ne razlikuje od<br />

povprečne ocene študentov, ki vaj ne obiskujejo.<br />

2. V Sloveniji med moškimi in ženskami ni razlik v nagnjenosti k podjetništvu.<br />

3. Med malimi in srednje velikimi podjetji ter velikimi podjetji v Sloveniji ni razlik v<br />

povprečnem dobičku na delavca.<br />

Vsem tem ničelnim domnevam je skupno to, da vsebujejo trditev, da sta dve ali več stvari<br />

enakih ali pa da nista povezani med seboj. Ničelna domneva tako predstavlja izhodiščno<br />

točko in ciljno merilo, s katerim dejansko stanje primerjamo.<br />

Raziskovalna domneva pa je, v nasprotju z ničelno, trditev o neenakosti oziroma odvisnosti<br />

(običajna oznaka je H1). Za vsako od prej zapisanih ničelnih domnev lahko zapišemo več<br />

možnih raziskovalnih domnev. Na primer:<br />

1. Pri nekem predmetu povprečna ocena študentov, ki obiskujejo vaje, ni enaka<br />

povprečni oceni študentov, ki vaj ne obiskujejo.<br />

2. Nagnjenost k podjetništvu med moškimi in ženskami se v Sloveniji razlikuje.<br />

3. Povprečni dobiček na delavca v malih in srednje velikih podjetjih je manjši kot<br />

povprečni dobiček na delavca v velikih podjetjih v Sloveniji.<br />

O indirektni raziskovalni domnevi (ali dvostranski – two-tailed) govorimo takrat, kadar ne<br />

podamo nobenega odnosa, ampak le … se razlikuje… O direktni raziskovalni domnevi (ali<br />

enostranski – one-tailed) pa takrat, kadar razmerje natančneje opredelimo z odnosom …<br />

manjše kot… ali … večje kot…<br />

Zaradi vsega tega ima v raziskavah zato jasno oblikovana, kratka, lahko razumljiva<br />

raziskovalna domneva, ki jo mora biti možno preveriti, najpomembnejše mesto. Tabela 3.1.1<br />

prikazuje tri ničelne domneve ter po eno od možnih enostranskih ter dvostranskih<br />

raziskovalnih domnev.<br />

Razpredelnica 4.1. Ničelna domneva ter raziskovalne domneve<br />

Ničelna domneva Dvostranska raz. domneva Enostranska raz. domneva<br />

Pri nekem predmetu se povprečna<br />

ocena študentov, ki obiskujejo<br />

vaje, ne razlikuje od povprečne<br />

ocene študentov, ki vaj ne<br />

obiskujejo.<br />

V Sloveniji med moškimi in<br />

ženskami ni razlik v nagnjenosti k<br />

podjetništvu.<br />

Pri nekem predmetu povprečna<br />

ocena študentov, ki obiskujejo<br />

vaje, ni enaka povprečni oceni<br />

študentov, ki vaj ne obiskujejo.<br />

Nagnjenost k podjetništvu med<br />

moškimi in ženskami se v Sloveniji<br />

razlikuje.<br />

14<br />

Pri nekem predmetu je povprečna<br />

ocena študentov, ki obiskujejo<br />

vaje, višja kot povprečna ocena<br />

študentov, ki vaj ne obiskujejo.<br />

Nagnjenost k podjetništvu med<br />

ženskami je v Sloveniji manjša kot<br />

nagnjenost k podjetništvu med<br />

moškimi.


Med malimi in srednje velikimi<br />

podjetji ter velikimi podjetji v<br />

Sloveniji ni razlik v povprečnem<br />

dobičku na delavca.<br />

Med malimi in srednje velikimi<br />

podjetji ter velikimi podjetji v<br />

Sloveniji so razlike v povprečnem<br />

dobičku na delavca.<br />

15<br />

Povprečni dobiček na delavca v<br />

malih in srednje velikih podjetjih je<br />

manjši kot povprečni dobiček na<br />

delavca v velikih podjetjih v<br />

Sloveniji.<br />

Statistično značilne razlike<br />

Izraz značilne razlike (<strong>si</strong>gnificantly different) je pri statističnem razlikovanju nujno prisoten.<br />

Poglejmo primer. Dodajmo ta izraz v prej zapisano raziskovalno domnevo pri drugem<br />

primeru. »V Sloveniji se nagnjenost k podjetništvu med moškimi in ženskami značilno<br />

razlikuje od nagnjenosti k podjetništvu med ženskami. Z izrazom značilno mislimo na to, da<br />

je razlika v nagnjenosti k podjetništvu med obema skupinama posledica nekega<br />

<strong>si</strong>stematičnega vpliva in ni nastala slučajno. V tem primeru je ta vpliv spol osebe.<br />

Domnevamo, da so v<strong>si</strong> ostali faktorji, ki vplivajo na razlike med obema skupinama,<br />

nadzorovani.<br />

Kako gotovi pa smo lahko v to? Pomembno je reči, da kljub temu, da smo lahko precej gotovi<br />

v to, da so razlike med obema skupinama posledica vpliva spola, pa 100 % ali popolnoma<br />

gotovi, le ne moremo biti. Vzrokov je veliko. Na primer: v prvi skupini (moški) so bili v<br />

vzorec zajeti predvsem ljudje, pri katerih je podjetništvo družinska tradicija, pri drugi skupini<br />

(ženske) pa ne. Statistično neoporečni raziskovalec bi bil na takšne vplivne dejavnike pozoren<br />

<strong>si</strong>cer že pri oblikovanju vzorca. Kaj torej narediti? V statističnih raziskavah zato postavimo<br />

mejo za napako, ki je nismo mogli predvideti. To mejo oziroma nivo tveganja, ki smo ga<br />

pripravljeni prenesti, imenujemo stopnja značilnosti (<strong>si</strong>gnificance level).<br />

Stopnja značilnosti je tveganje, ki je povezano s tem, da nismo 100 %-no gotovi, da je to, kar<br />

proučujemo v raziskavi, to, kar preverjamo. Če je stopnja značilnosti na primer 0,05 (običajen<br />

zapis je p < 0,05) to pomeni, da je 5 %-na možnost, da razlike, ki smo jih odkrili, niso<br />

posledica domnevnega vzroka (to je spola), pač pa nekih drugih neznanih vzrokov. Seveda to<br />

tveganje želimo zmanjšati, koliko se le da.<br />

Razpredelnica 4.2. Ničelna domneva in zaključki<br />

Ničelna<br />

domneva je<br />

Naš zaključek<br />

Ničelno domnevo<br />

smo sprejeli<br />

Ničelne domneve nismo<br />

sprejeli<br />

Pravilna Naš zaključek je pravilen. Naš zaključek je napačen.<br />

Naredili smo napako, ki jo<br />

Nepravilna Naš zaključek je napačen.<br />

Naredili smo napako, ki jo<br />

imenujemo napaka II. vrste.<br />

imenujemo napaka I. vrste.<br />

Naš zaključek je<br />

pravilen<br />

Kaj se torej lahko zgodi, ko preverjamo ničelno domnevo? Izhodišče je, da je ničelna<br />

domneva, ki se nanaša na populacijo, lahko pravilna ali nepravilna. Tega seveda ne vemo, saj<br />

te domneve ne moremo preverjati direktno (to je na populaciji). Zgodi se lahko, da ničelne<br />

domneve v naši raziskavi bodi<strong>si</strong> ne zavrnemo ali pa jo zavrnemo. Razpredelnica 4.2 zajema<br />

možne odnose med značilnostjo ničelne domneve (to je, da je pravilna ali nepravilna) in<br />

našim zaključkom (da ničelno domnevo zavrnemo ali pa ne). Napaka I. vrste je prej opisana<br />

stopnja značilnosti.


Kaj v bistvu želimo s pomočjo statističnega testiranja doseči? Naš center raziskave je<br />

raziskovalna domneva in ničelno domnevo želimo statistično značilno zavreči, torej ugotoviti,<br />

da ničelna domneva ni smiselna razlaga tega, kar proučujemo.<br />

4.2 Parametrični test za ugotavljanje značilnih razlik med dvema<br />

povprečnima vrednostma<br />

Poglejmo primer o proučevanju vpliva sredstev za izobraževanje prodajalcev na velikost<br />

njihove prodaje v dveh skupinah podjetjih: tistih, ki temu namenjajo manj kot 50 d.e. na<br />

prodajalca (skupina A) in tistih, ki namenjajo več kot 50 d.e. (skupina B).<br />

Koraki v raziskavi tega vprašanja bi bili takšni:<br />

1. Upoštevajoč pravila slučajnega vzorčenja izberemo dva vzorca, v prvega smo izbirali med<br />

podjetji, ki namenjajo manj kot 50 d.e. na prodajalca za izobraževanje, v drugega pa med<br />

podjetji, ki namenjajo več kot 50 d.e. Vzorca sta izbrana tako, da dobro predstavljata<br />

populacijo.<br />

2. Izračunamo povprečno prodajo na prodajalca v obeh vzorcih. Obe povprečni vrednosti<br />

primerjamo s pomočjo določenega statističnega testa.<br />

3. Sledi zaključek o tem, ali so razlike med obema povprečnima vrednostma nastale slučajno,<br />

ali pa so posledica »resničnih« oziroma statistično značilnih razlik med obema skupinama<br />

(kar bi pomenilo, da so rezultat različnega vlaganja v izobraževanje prodajalcev).<br />

4. Zaključek, dobljen na osnovi vzorčnega pristopa, posplošimo na celotno populacijo, torej<br />

na vsa podjetja.<br />

Vsak tip ničelne domneve je povezan z določenim tipom statističnega parametra in vsak tip<br />

statističnega parametra je povezan z določeno porazdelitvijo, katere značilnosti primerjamo z<br />

vzorčnimi podatki. Kako »deluje« statistični test?<br />

1. Postavitev ničelne domneve.<br />

2. Izbira stopnje značilnosti preizkusa.<br />

3. Izbira primernega testa.<br />

4. Izračun testne vrednosti. Je rezultat izbranega testa in jo izračunamo na določen način. To<br />

je številska vrednost.<br />

5. Izbira kritične vrednosti, ki jo potrebujemo, da vemo, kdaj ničelno domnevo zavreči.<br />

Kritične vrednosti se nahajajo v tabelah oziroma nam jo poda računalniški program.<br />

6. Primerjava izračunane testne vrednosti (v koraku 4) in kritične vrednosti (v koraku 5).<br />

7. Če je izračunana vrednost ekstremnejša od kritične vrednosti, ničelne domneve ne<br />

moremo sprejeti.<br />

5. Če izračunana vrednost ne presega kritične vrednosti, ničelne domneve ne zavrnemo.<br />

4.2.1 Dva neodvisna vzorca<br />

Za neodvisna vzorca uporabimo z-test za neodvisne vzorce takrat, kadar sta vzorca velika ali<br />

pa takrat, kadar je varianca iz osnovne statistične množice znana. Kadar imamo majhen<br />

vzorec, uporabimo t-test za neodvisne vzorce. Izračunano vrednost iz vzorčnih podatkov<br />

izračunamo v obeh primerih enako, razlikuje se le kritična vrednost.<br />

16


Primer 4.2.1<br />

Poglejmo primer: želimo ugotoviti, ali obstajajo značilne razlike v povprečni porabi neke<br />

pijače na dan med prebivalci toplejšega, primorskega dela nekega področja in prebivalci<br />

hladnejšega, gorskega dela. Izbrali smo dva vzorca po 30 prebivalcev. Vzorčni podatki o<br />

porabi pijače na dan (v k.e.) so za vsakega od 30 prebivalcev zapisani v razpredelnici 4.3.<br />

Razpredelnica 4.3. Vzorčni podatki o porabi pijače na dan (v k.e.)<br />

Poraba prebivalcev gorskega dela Poraba prebivalcev Primorskega dela<br />

7 5 5 5 3 4<br />

3 4 7 4 2 3<br />

3 6 1 4 5 2<br />

2 10 9 5 4 7<br />

3 10 2 5 4 6<br />

8 5 5 7 6 2<br />

8 1 2 8 7 8<br />

5 1 12 8 7 9<br />

8 4 15 9 5 7<br />

5 3 4 8 6 6<br />

Postavimo ničelno domnevo: Ho: μ1 = μ2 in raziskovalno domnevo H1: μ1 ≠ μ2. Z μ1 smo<br />

označili povprečno porabo pijače prebivalcev gorskega dela na dan, z μ2 pa povprečno porabo<br />

pijače prebivalcev primorskega dela na dan. Domneva je dvostranska. Izbira stopnje<br />

značilnosti je prepuščena nam, običajno je 0,05.<br />

Če značilnost razlik med povprečnima vrednostma ugotavljamo s t-testom s programom SPSS<br />

dobimo naslednje izpise:<br />

poraba<br />

poraba<br />

skupina<br />

1<br />

2<br />

Equal variances<br />

assumed<br />

Equal variances<br />

not assumed<br />

Group Statistics<br />

N Mean Std. Deviation<br />

Std. Error<br />

Mean<br />

30 5,43 3,421 ,625<br />

30 5,53 2,063 ,377<br />

Levene's Test<br />

for Equality of<br />

Variances<br />

F Sig.<br />

Independent Samples Test<br />

t df<br />

4,994 ,029 -,14 58 ,891 -,100 ,729 -1,560 1,360<br />

-,14 48 ,892 -,100 ,729 -1,567 1,367<br />

17<br />

t-test for Equality of Means<br />

Sig.<br />

(2-tailed)<br />

Mean<br />

Differ.<br />

Std.<br />

Error<br />

95%<br />

Confidence<br />

Interval of the<br />

Difference<br />

Differ. Lower Upper<br />

Iz izpisa odčitamo natančno verjetnost, da so razlike med obema skupinama nastale slučajno.<br />

Ta verjetnost je enaka 0,891. To nam dovoljuje zaključek, da razlike niso posledica kakega<br />

<strong>si</strong>stematičnega vpliva, pač so nastale slučajno. Zato ničelne domneve ne zavrnemo.


4.2.2 Dva odvisna vzorca<br />

Kadar imamo dva odvisna vzorca, za analizo značilnih razlik med dvema povprečnima<br />

vrednostma uporabimo t-test za odvisne vzorce.<br />

Primer 4.2.2<br />

Poglejmo primer: želimo analizirati uspešnost izobraževalnega tečaja za uporabo<br />

računalniškega programa v nekem podjetju, ki jo merimo s številom opravljenih nalog v<br />

časovni enoti. V ta namen smo izbrali v vzorec 25 zaposlenih in merili število opravljenih<br />

nalog v časovni enoti pred obiskom tečaja in po končanem tečaju. Torej imamo dva vzorca, v<br />

vsakem je 25 zaposlenih, vzorca pa sta odvisna, saj smo iste zaposlene anketirali pred in po<br />

tečaju. Vzorčni podatki o številu opravljenih nalog v časovni enoti so v razpredelnici 4.4.<br />

Razpredelnica 4.4. Podatki o številu opravljenih nalog<br />

Pred 3 5 4 6 5 5 4 5 3 6 7 8 7 6 7 8 8 9 9 8 7 7 6 7 8<br />

Po 7 8 6 7 8 9 6 6 7 8 8 7 9 10 9 9 8 8 4 4 5 6 9 8 12<br />

Postavimo ničelno domnevo: Ho: μpo = μpred in raziskovalno domnevo H1: μpo > μpred. Z μpo in<br />

μpred smo označili povprečno število opravljenih nalog v časovni enoti po in pred<br />

usposabljanjem. Domneva je enostranska, saj domnevamo, da bodo delovni rezultati po<br />

opravljenem usposabljanju boljši kot so bili pred njim.<br />

Za ugotavljanje značilnosti razlik uporabimo t-test za odvisne vzorce, ki smo ga za primer<br />

4.2.2 izvedli s programom SPSS in dobili naslednje izpise:<br />

Pair<br />

1<br />

Pair 1<br />

Pair 1<br />

pred<br />

po<br />

pred & po<br />

pred - po<br />

Paired Samples Statistics<br />

Mean N Std. Deviation<br />

Std. Error<br />

Mean<br />

6,32 25 1,725 ,345<br />

7,52 25 1,828 ,366<br />

Paired Samples Correlations<br />

N Correlation Sig.<br />

25 ,051 ,810<br />

Paired Samples Test<br />

Paired Differences<br />

Std. Error<br />

95% Confidence<br />

Interval of the<br />

Difference<br />

Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed)<br />

-1,200 2,449 ,490 -2,211 -,189 -2,449 24 ,022<br />

S programom SPSS ne moremo izvesti enostranskega t-testa za odvisna vzorca. Zato se<br />

verjetnost 0,022 nanaša na dvostranski test. Pripadajoča verjetnost za enostranski test je torej<br />

0,011. Ker je dobljena verjetnost manjša od stopnje značilnosti (0,05), ničelno domnevo<br />

18


zavrnemo in zaključimo, da razlike v povprečnem številu opravljenih nalog v časovni enoti<br />

niso nastale slučajno, pač pa kot posledica vpliva usposabljanja.<br />

4.2.3 Analiza variance (ANOVA)<br />

To analizo oziroma statistični test uporabljamo takrat, kadar analiziramo značilnost razlik<br />

med povprečnimi vrednostmi za več kot dva vzorca, pri čemer so vzorci med seboj neodvisni.<br />

Analizo variance je primerno uporabiti v različnih <strong>si</strong>tuacijah. Tukaj se bomo ukvarjali le z<br />

enostavno analizo variance, kjer analiziramo le eno spremenljivko, imamo pa več kot dva<br />

vzorca (enostavno analizo variance imenujemo z angleškim izrazom tudi one-way analyis of<br />

variance). Ta metoda se imenuje tako zato, ker celotno variiranje vrednosti (merjeno z<br />

povprečnim kvadratnim odklonom vrednosti od aritmetične sredine = varianca) razdelimo na<br />

variiranje vrednosti zaradi razlik znotraj vzorcev in na variiranje vrednosti zaradi razlik med<br />

vzorci. Obe sestavini variance nato primerjamo med seboj.<br />

Primer 4.2.3<br />

Poglejmo primer. Vodja trženja v nekem srednje velikem podjetju za proizvodnjo osvežilcev<br />

prostorov je oblikoval tri različne oglaševalne akcije za novo vrsto osvežilca. Testirati želimo<br />

uspešnost teh treh oglaševalnih akcij in v ta namen smo izbrali 30 velikih trgovin. Razdelili<br />

smo jih v tri skupine po 10 trgovin in v vsaki skupini izvedli po eno oglaševalno akcijo.<br />

Zabeležili smo prodajo po vsaki akciji. (Domnevajmo, da so trgovine enakovredne po<br />

obiskanosti, po kupni moči prebivalcev v njihovem okolišu, domnevajmo, da izvedba<br />

posamezne akcije v eni trgovini ne vpliva na prodajo v drugi ipd.) Podatki o prodaji v<br />

denarnih enotah (d.e.) v teh 30 trgovinah po vsaki od oglaševalnih akcij so v razpredelnici<br />

4.5.<br />

Razpredelnica 4.5. Prodaja po izvedbi oglaševalskih akcij<br />

Prodaja<br />

po prvi<br />

akciji<br />

Prodaja<br />

po drugi<br />

akciji<br />

Prodaja<br />

po tretji<br />

akciji<br />

87 87 89<br />

86 85 91<br />

76 99 96<br />

56 85 87<br />

78 79 89<br />

98 81 90<br />

77 82 89<br />

66 78 96<br />

75 85 96<br />

67 91 93<br />

Postavimo ničelno domnevo: Ho: μ1 = μ2 = μ3 in raziskovalne domneve H1: μ1 ≠ μ2 ≠ μ3. Z<br />

μ1, μ2 in μ3 smo označili povprečno prodajo po posamezni oglaševalski akciji v osnovni<br />

statistični množici. Za stopnjo značilnosti vzemimo vrednost 0,05.<br />

Za ugotavljanje značilnosti razlik uporabimo ANOVA test, ki ga bomo izvedli s programom<br />

SPSS in dobili naslednje izpise:<br />

19


prodaja<br />

1<br />

2<br />

3<br />

Total<br />

prodaja<br />

Between Groups<br />

Within Groups<br />

Total<br />

Descriptives<br />

95% Confidence<br />

Interval for Mean<br />

Std. Std. Lower Upper<br />

N Mean Deviation Error Bound Bound Minimum Maximum<br />

10 76,60 11,965 3,784 68,04 85,16 56 98<br />

10 85,20 6,197 1,960 80,77 89,63 78 99<br />

10 91,60 3,406 1,077 89,16 94,04 87 96<br />

30 84,47 9,951 1,817 80,75 88,18 56 99<br />

ANOVA<br />

Sum of<br />

Squares df Mean Square F Sig.<br />

1133,067 2 566,533 8,799 ,001<br />

1738,400 27 64,385<br />

2871,467 29<br />

V našem primeru je izračunana verjetnost (Sig.) manjša od 0,05, kar pomeni, da razlike v<br />

prodaji med tremi skupinami trgovin niso nastale slučajno, pač pa so posledica <strong>si</strong>stematičnega<br />

vpliva oglaševalske akcije na prodajo. Ker nas zanima, katere skupine podatkov se med seboj<br />

bistveno razlikujejo, smo opravili še dodatno analizo, ki se imenuje post hoc analiza. V njej<br />

primerjamo povprečje vsake skupine s povprečjema preostalih dveh skupin. Iz izpisa<br />

rezultatov te analize, ki smo jo naredili s Tukeyevo metodo, je razvidno, da značilne razlike<br />

obstajajo med prodajo po prvi in prodajo po tretji akciji, prodaja po drugi in tretji akciji ter<br />

prodaja po prvi in drugi akciji pa se med seboj značilno ne razlikujejo.<br />

Dependent Variable: prodaja<br />

Tukey HSD<br />

Multiple Comparisons<br />

Mean<br />

95% Confidence<br />

Interval<br />

Difference Std.<br />

Lower Upper<br />

(I) akcija (J) akcija (I-J) Error Sig. Bound Bound<br />

1 2<br />

-8,600 3,588 ,060 -17,50 ,30<br />

3<br />

-15,000* 3,588 ,001 -23,90 -6,10<br />

2 1<br />

8,600 3,588 ,060 -,30 17,50<br />

3<br />

-6,400 3,588 ,194 -15,30 2,50<br />

3 1<br />

15,000* 3,588 ,001 6,10 23,90<br />

2<br />

6,400 3,588 ,194 -2,50 15,30<br />

*. The mean difference is <strong>si</strong>gnificant at the .05 level.<br />

Za ugotavljanje razlik med aritmetičnimi sredinami s t-testom morata biti izpolnjena pogoja o<br />

enakosti varianc in normalni porazdelitvi vrednosti spremenljivke. Program SPPS nam<br />

posreduje rezultate t-testa za primer, ko je pogoj o enakosti varianc izpolnjen in za primer, ko<br />

ta pogoj ni izpolnjen. Pojavi pa se vprašanje, kako ravnati, ko ni izpolnjen pogoj o normalni<br />

20


porazdelitvi vrednosti spremenljivke. Na voljo sta nam dve možnosti. Po eni poskušamo<br />

poiskati tako transformiracijo podatkov, po kateri bodo transformirani podatki normalno<br />

porazdeljeni. Če po tej poti ne uspemo rešiti našega problema, tedaj <strong>si</strong> pomagamo z<br />

neparametrični testi. Njihova dobra lastnost je, da zanje velja manj predpostavk kot za njihove<br />

primerljive parametrične teste.<br />

4.3 Neparametrični testi<br />

Neparametrične teste uporabljamo za ugotavljanje razlik med povprečnimi vrednostmi za<br />

opisne spremenljivke, ki jih merimo na ordinalni skali ali za številske spremenljivke, katerih<br />

vrednosti niso normalno porazdeljene.<br />

4.3.1 Neparametrični testi za en vzorec<br />

Pomemben pogoj pri izboru ustrezne metode je normalna porazdelitev vrednosti proučevane<br />

spremenljivke ali spremenljivk. Ali je ta pogoj izpolnjen lahko preverimo s Kolmogorov-<br />

Smirnovim testom in Shapiro-Wilkovim testom. V teh testih se primerjajo vrednosti<br />

proučevane spremenljivke z vrednostmi normalno porazdeljene spremenljivke z enako<br />

aritmetično sredino in standardnim odklonom, kot ga ima proučevana spremenljivka. Ko je<br />

test neznačilen (p > 0,05), tedaj se porazdelitev proučevane spremenljivke bistveno ne<br />

razlikuje od normalne porazdelitve. Proučevana spremenljivka ni normalno porazdeljena, ko<br />

je test statistično značilen (p < 0,05). Slabost teh testov je, da lahko za velike vzorce dobimo<br />

statistično značilen test tudi v primeru, ko je proučevana spremenljivka normalno<br />

porazdeljena. Zato <strong>si</strong> moramo pri velikih vzorcih, ko dobimo statistično značilen test,<br />

pomagati še s sliko porazdelitve in koeficientoma a<strong>si</strong>metrije in sploščenosti.<br />

Vzemimo, da smo s Kolmogorov-Smirnovim testom in Shapiro-Wilkovim testom ugotavljali,<br />

statistično značilnost razlik med porazdelitvijo vrednosti spremenljivke v1 in normalno<br />

porazdelitvijo. Rezultati obeh testov, dobljenih s programom SPSS, so podani v razpredelnici<br />

4.6.<br />

Razpredelnica 4.6. Rezultati Kolmogorov-Smirnovega in Shapiro-Wilkovega testa<br />

Tests of Normality<br />

Statistic df Sig. Statistic<br />

Shapiro-Wilk<br />

df Sig.<br />

v1<br />

,135 20 ,200* ,938 20 ,219<br />

*. This is a lower bound of the true <strong>si</strong>gnificance.<br />

Kolmogorov-Smirnov a<br />

a. Lilliefors Significance Correction<br />

V obeh testih je p > 0,05, kar kaže, da se porazdelitev vrednosti spremenljivke v1 bistveno ne<br />

razlikuje od normalne porazdelitve. V nadaljnjih raziskavah smemo vzeti, da je pogoj o<br />

normalni porazdelitvi spremenljivke v1 izpolnjen.<br />

21


4.3.2 Neparametrični testi za ugotavljanje značilnih razlik med dvema<br />

povprečnima vrednostma za neodvisna vzorca<br />

Mann-Whitneyev test in Wilcoxon rank-sum test uporabljamo za ugotavljanje razlik med<br />

dvema povprečnima vrednostma za neodvisna vzorca, ko proučevana številska spremenljivka<br />

ni normalno porazdeljena ali za opisne spremenljivke, merjene na ordinalni skali. Testa<br />

predstavljata neparametrična ekvivalenta parametričnemu t-testu. Pri obeh testih se vrednosti<br />

številske spremenljivke pretvorijo v range, tako da se najmanjši vrednosti pripiše rang 1,<br />

naslednji najmanjši rang 2, itd. Za izračun testne statistike se uporabijo vrednosti rangov.<br />

Pri Wilcoxon rank-sum testu je testna statistika Ws, ki je pri enako velikih skupinah enaka<br />

manjši od obeh vsot rangov skupine oziroma vsoti rangov manjše skupine, ko skupini nista<br />

enako veliki. Vrednost statistike Ws je statistično značilna pri p < 0,05, če je njena absolutna<br />

standardizirana vrednost z večja od 1,96. Njena standardizirana vrednost je opredeljena z:<br />

Ws<br />

−W<br />

z =<br />

SE<br />

W<br />

s<br />

s<br />

kjer je Ws povprečna vrednost testne statistike in<br />

vrednosti izračunamo z:<br />

n1(<br />

n1<br />

+ n2<br />

+ 1)<br />

Ws<br />

=<br />

2<br />

SE<br />

W s<br />

=<br />

n1n2<br />

( n1<br />

+ n2<br />

+ 1)<br />

12<br />

kjer sta n1 in n2 velikost prve oziroma druge skupine.<br />

22<br />

SE W njena standardna napaka. Njuni<br />

s<br />

Zelo podoben Wilcoxonov rank-sum testu je Man-Whitneyev test, ki temelji na testni<br />

statistiki U, opredeljeni za skupino i z:<br />

n ( n + 1)<br />

2<br />

1 1<br />

Ui = n1n2<br />

+ −<br />

kjer je Ri vsota rangov skupine i.<br />

R<br />

i<br />

Primer 4.3.2<br />

Poglejmo primer, ko želimo proučiti vpliv ukrepov za povečanje zadovoljstva zaposlenih na<br />

letno število bolniških izostankov. V ta namen smo 20 izbranih podjetij razvrstili v dve<br />

skupini po 10 podjetij. Omenjeni ukrepi so se izvajali eno leto le v podjetjih, razvrščenih v<br />

drugo skupino. Podatki o letnem številu bolniških pred in po enoletnem izvajanju ukrepov so<br />

podani v razpredelnici 4.7. Ker podatki o številu bolniških niso normalno porazdeljeni, bomo<br />

uporabili neparametrični test za ugotavljanje značilnosti razlik v povprečnih vrednostih obeh<br />

skupin. Zaradi lažjega razumevanja so v četrtem in šestem stolpcu te razpredelnice navedeni<br />

rangi, ki pripadajo posameznim vrednostim spremenljivke, ki pa jih uporabniku programa<br />

SPSS ni potrebno računati.


Razpredelnica 4.7. Podatki in rangi<br />

Podjetje Skupina Št. bolniških Rang Št. bolniških Rang<br />

1 1 150 5 280 12<br />

2 1 350 20 350 17<br />

3 1 160 8,5 350 17<br />

4 1 180 13 240 10<br />

5 1 190 15,5 390 20<br />

6 1 170 11 320 15<br />

7 1 270 19 270 11<br />

8 1 160 8,5 290 13<br />

9 1 130 1,5 360 19<br />

10 1 200 17,5 350 17<br />

11 2 160 8,5 50 2<br />

12 2 150 5 60 3,5<br />

13 2 200 17,5 300 14<br />

14 2 150 5 80 6<br />

15 2 160 8,5 90 7<br />

16 2 130 1,5 70 5<br />

17 2 140 3 60 3,5<br />

18 2 190 15,5 170 9<br />

19 2 180 13 30 1<br />

20 2 180 13 100 8<br />

Če s programom SPSS opravimo neparametrični test za dva neodvisna vzorca za podatke v<br />

razpredelnici 4.7, dobimo rezultate, podane v razpredelnici 4.8 in 4.9. V razpredelnici 4.8 so<br />

podane vsote rangov za obe skupini pred in po izvedbi ukrepov in povprečne vrednosti<br />

rangov. Tako je vsota rangov za prvo skupino pred izvedbo ukrepov 119,5 in za drugo<br />

skupino 90,5. Povprečni rang za prvo skupino pred izvedbo ukrepov (bolpred) je 11,95 in za<br />

drugo 9,05. Na enak način razložimo rezultate v tej razpredelnici za spremenljivko bopo, to je<br />

za stanje po izvedbi ukrepov. Iz primerjave povprečnih vrednostih vidimo, da je povprečni<br />

rang za drugo skupino manjši v obeh primerih, to je pred in po izvajanju ukrepov za<br />

izboljšanje zadovoljstva zaposlenih. Zanima nas, ali so te razlike v povprečnih vrednostih<br />

rangov značilne. Odgovor najdemo v razpredelnici 4.9.<br />

Najprej je podana vrednost Mann-Whitneyeve statistike U in nato vrednost Wilcoxonove<br />

statistike Ws ter njena standardizirana vrednost. Absolutna vrednost spremenljivke z za stanje<br />

števila bolniških pred izvajanjem ukrepov je manjša od 1,96, za stanje po izvajanju ukrepov<br />

pa večja od 1,96. Pripadajočo stopnjo značilnosti za njene vrednosti najdemo v naslednji vrsti.<br />

Upoštevaje navedene rezultate smemo zaključiti, da se pred izvajanjem ukrepov prva skupina<br />

ni značilno razlikovala od druge skupine po letnem številu bolniških izostankov. To pa ne<br />

velja za število bolniških izostankov po opravljenih ukrepih. Tu je razlika med povprečnimi<br />

rangi značilna (z = |3,484|, α < 0,01), kar pomeni, da so ukrepi za izboljšanje zadovoljstva<br />

zaposlenih vplivali tudi na zmanjšanje letnega števila bolniških izostankov.<br />

Razpredelnica 4.8. Rangi in testne statistike<br />

23


olpred<br />

bopo<br />

skupina<br />

1<br />

2<br />

Total<br />

1<br />

2<br />

Total<br />

Ranks<br />

N Mean Rank Sum of Ranks<br />

10 11,95 119,50<br />

10 9,05 90,50<br />

20<br />

10 15,10 151,00<br />

10 5,90 59,00<br />

20<br />

Razpredelnica 4.9. Testne statistike<br />

Test Statistics b<br />

35,500 4,000<br />

90,500 59,000<br />

-1,105 -3,484<br />

,269 ,000<br />

,280 a<br />

bolpred bopo<br />

Mann-Whitney U<br />

Wilcoxon W<br />

Z<br />

Asymp. Sig. (2-tailed)<br />

Exact Sig. [2*(1-tailed<br />

Sig.)]<br />

Exact Sig. (2-tailed) ,288 ,000<br />

Exact Sig. (1-tailed) ,144 ,000<br />

Point Probability<br />

,013 ,000<br />

a. Not corrected for ties.<br />

b. Grouping Variable: skupina<br />

,000 a<br />

4.3.3 Neparametrični test za ugotavljanje značilnih razlik med dvema<br />

povprečnima vrednostma za odvisna vzorca<br />

Wilcoxon <strong>si</strong>gned-rank test, ki ga uporabljamo za ugotavljanje značilnih razlik med<br />

povprečnima vrednostma dveh spremenljivk, ki smo jih dobili od istih subjektov (statističnih<br />

enot), je neparametrični ekvivalent parametričnemu t-testu za odvisne vzorce.<br />

Wilcoxon <strong>si</strong>gned-rank test izhaja iz razlik med vrednostmi spremenljivk za iste enote, ki se<br />

glede na njihovo absolutno vrednost razvrščajo od najmanjše, ki dobi rang ena, do največje.<br />

Razlike, ki so enake nič, se pri razvrščanju ne upoštevajo. Tvorita se dve vsoti rangov, in <strong>si</strong>cer<br />

vsota rangov, ki pripadajo pozitivnim razlikam, in vsota rangov, ki pripadajo negativnim<br />

razlikam. Vrednost testne statistike T je enaka manjši od obeh vsot rangov. Vrednost statistike<br />

T je statistično značilna pri p < 0,05, če je njena absolutna standardizirana vrednost z večja od<br />

1,96. Ta je opredeljena z:<br />

T − T<br />

z =<br />

SET<br />

kjer je T povprečna vrednost testne statistike in SE T njena standardna napaka. Njuni<br />

vrednosti izračunamo z:<br />

n(<br />

n + 1)<br />

T =<br />

4<br />

24


SET =<br />

n(<br />

n + 1)(<br />

2n<br />

+ 1)<br />

24<br />

kjer n pomeni velikost vzorca.<br />

Podatki, podani v razpredelnici 4.7, nam omogočajo še analizo povprečnega letnega števila<br />

bolniških odsotnosti pred in po končanih ukrepih za vsako skupino posebej. Za skupino<br />

podjetij, v katerih so se ukrepi izvajali, lahko preverimo, ali so ukrepi vplivali na število<br />

bolniških izostankov, za skupino podjetij, v katerih se ukrepi niso izvajali, pa ali so razlike<br />

med številom bolniških odsotnosti med dvema časovnima trenutkoma, statistično značilne.<br />

Če opravimo Wilcoxon <strong>si</strong>gned-rank test s programom SPSS za drugo skupino, kjer so izvajali<br />

ukrepe za izboljšanja zadovoljstva, dobimo rezultate, prikazane v razpredelnicah 4.10. V prvi<br />

razpredelnici (Descriptive Statistics) sta za drugo skupino podani aritmetični sredini letnih<br />

izostankov pred (bolpred) in po končanju izvajanja ukrepov (bopo). Povprečno število<br />

bolniških izostankov po izvajanju ukrepov se je zmanjšalo, zanima nas pa, ali je razlika med<br />

tema dvema aritmetičnima sredinama značilna. V drugi razpredelnici (Ranks) je v stolpcu N<br />

podano najprej število negativnih razlik med številom bolniških pred in po izvajanju ukrepov,<br />

nato povprečni rang za negativne razlike in povprečni rang za pozitivne razlike ter v zadnjem<br />

stolpcu še vsota rangov za negativne in vsota rangov za pozitivne razlike. Vrednost T<br />

statistike je enaka manjši vsoti rangov, v tem primeru je T = 8. Njena absolutna<br />

standardizirana vrednost, ki jo skupaj s stopnjo značilnosti najdemo v zadnji razpredelnici<br />

(Test statistics), je večja od 1,96, kar kaže na značilnost razlik med aritmetičnimi sredinami<br />

rangov. To potrjuje tudi stopnja značilnosti α, ki je manjša od 0,05. Za prvo skupino so ti<br />

rezultati podani v razpredelnicah 4.11.<br />

Razpredelnice 4.10. Rezultati Wilcoxon <strong>si</strong>gned-rank test za drugo skupino podjetij<br />

Descriptive Statistics a<br />

N Mean Std. Deviation Minimum Maximum<br />

bolpred 10 164,00 22,706 130 200<br />

bopo<br />

a. skupina = 2<br />

10 101,00 79,505 30 300<br />

bopo - bolpred<br />

Negative Ranks<br />

Po<strong>si</strong>tive Ranks<br />

Ties<br />

Total<br />

a. bopo < bolpred<br />

b. bopo > bolpred<br />

c. bopo = bolpred<br />

d.<br />

skupina = 2<br />

Ranks d<br />

9a N Mean Rank Sum of Ranks<br />

5,22 47,00<br />

1 b 8,00 8,00<br />

0 c<br />

10<br />

25


Test Statistics b,c<br />

bopo -<br />

bolpred<br />

Z<br />

Asymp. Sig. (2-tailed) ,047<br />

a. Based on po<strong>si</strong>tive ranks.<br />

-1,990 a<br />

b. Wilcoxon Signed Ranks Test<br />

c. skupina = 2<br />

Razpredelnice 4.11. Rezultati Wilcoxon <strong>si</strong>gned-rank test za prvo skupino podjetij<br />

bolpred<br />

bopo<br />

a. skupina = 1<br />

bopo - bolpred<br />

Descriptive Statistics a<br />

N Mean Std. Deviation Minimum Maximum<br />

10 196,00 66,030 130 350<br />

10 320,00 47,842 240 390<br />

Negative Ranks<br />

Po<strong>si</strong>tive Ranks<br />

Ties<br />

Total<br />

a. bopo < bolpred<br />

b. bopo > bolpred<br />

c. bopo = bolpred<br />

d. skupina = 1<br />

Test Statistics b,c<br />

bopo -<br />

bolpred<br />

Z<br />

Asymp. Sig. (2-tailed) ,012<br />

a. Based on negative ranks.<br />

-2,527 a<br />

b. Wilcoxon Signed Ranks Test<br />

c. skupina = 1<br />

Ranks d<br />

0a N Mean Rank Sum of Ranks<br />

,00 ,00<br />

8 b 4,50 36,00<br />

2 c<br />

10<br />

Pregled vrednosti v razpredelnicah 4.11 pokaže, da se je v podjetjih, razvrščenih v prvo<br />

skupino, število bolniških izostankov v obdobju, ko so se v drugi skupini podjetij izvajali<br />

ukrepi za izboljšanje zadovoljstva zaposlenih, povečalo. Rezultati Wilcoxon <strong>si</strong>gned-rank testa<br />

pokažejo, da je povečanje bolniških izostankov značilno. Primerjava rezultatov za obe skupini<br />

nam dovoljuje zaključek, da izvedeni ukrepi za izboljšanje zadovoljstva zaposlenih vplivajo<br />

na zmanjšanje bolniških izostankov.<br />

26


5 Analiza odvisnosti med številskimi spremenljivkami<br />

5.1 Enostavna regre<strong>si</strong>ja<br />

Z regre<strong>si</strong>jsko in korelacijsko analizo ugotavljamo medsebojno odvisnost med dvema ali več<br />

skupinami spremenljivk. S korelacijsko analizo ugotavljamo jakost odvisnosti, z regre<strong>si</strong>jsko<br />

analizo pa je mogoče odvisnost med odvisno in eno (ali več) neodvisnimi spremenljivkami<br />

izraziti v obliki regre<strong>si</strong>jske enačbe. Korelacijska analiza (kakor tudi noben drugi matematični<br />

postopek) pa ne omogoča ugotavljanja vzročnosti. Le–to je mogoče ugotavljati na osnovi<br />

poznavanja pojavov oz. študija relevantne teorije.<br />

Študij odvisnosti med eno odvisno in eno neodvisno spremenljivko (enostavna regre<strong>si</strong>ja) je<br />

najenostavneje pričeti s prikazom dvojic vrednosti obeh spremenljivk v razsevnem grafikonu<br />

(angl. scatter diagram). Ta omogoča ugotoviti obliko, smer in jakost odvisnosti. Oblika je<br />

lahko linearna ali krivuljčna, smer je lahko pozitivna (z naraščanjem vrednosti neodvisne<br />

spremenljivke naraščajo tudi vrednosti odvisne) ali negativna, glede na jakost pa je lahko bolj<br />

ali manj močna.<br />

Regre<strong>si</strong>jska premica in regre<strong>si</strong>jska enačba<br />

V kolikor obstaja med opazovanima spremenljivkama odvisnost, je mogoče med točke<br />

narisati regre<strong>si</strong>jsko premico (v primeru linearne odvisnosti) oz. regre<strong>si</strong>jsko krivuljo (v primeru<br />

krivuljčne odvisnosti) tako, da se premica oz. krivulja čim bolje prilega točkam. Ker v večini<br />

primerov pri proučevanju ekonomsko-socialnih pojavov ne gre za primer funkcijske<br />

odvisnosti (vse točke ne ležijo na premici oz. krivulji) y = f(x), zapišemo linearno<br />

korelacijsko odvisnost med spremenljivkama x in y v obliki modela korelacijske odvisnosti<br />

y = f (x) + e<br />

yi = a0 + a1xi + ei za i = 1,2,…,N,<br />

kjer je y odvisna spremenljivka, x je neodvisna spremenljivka, e pa je napaka, imenovana tudi<br />

ostanek ali rezidual (angl. error, disturbance term), ki nastane zaradi slučajnih vplivov, napak<br />

pri merjenju ali zaradi tega, ker v model niso vključeni v<strong>si</strong> vplivi (spremenljivke) na odvisno<br />

spremenljivko.<br />

Pri analitičnem določanju parametrov regre<strong>si</strong>jske premice uporabimo metodo najmanjših<br />

kvadratov (angl. least-squares solution). Ob uporabi te metode so vrednosti parametrov<br />

regre<strong>si</strong>jske premice določene tako, da je vsota kvadratov odklonov stvarnih vrednosti (y) od<br />

vrednosti na regre<strong>si</strong>jski premici ( yˆ ) najmanjša, torej<br />

N<br />

N<br />

i=<br />

1<br />

i<br />

i=<br />

1<br />

i<br />

2 2<br />

S = ∑( y − yˆ ) = ∑e⇒min Za napake e = y – yˆ se pri metodi najmanjših kvadratov predpostavlja, da so normalno<br />

porazdeljene s povprečno vrednostjo nič, da je varianca za vrednosti e konstantna in torej<br />

neodvisna od vrednosti neodvisne spremenljivke ter da so vrednosti e med seboj neodvisne.<br />

Analiza variance temelji na enačbi:<br />

2 n<br />

2 n<br />

2 2 2<br />

( y − y)<br />

= ( y − y)<br />

+ ( y yˆ<br />

) = σ + σ<br />

n<br />

i=<br />

1<br />

i<br />

i=<br />

1<br />

i<br />

i=<br />

1<br />

∑ ∑ ˆ ∑ i − i xy ey<br />

27


Z zgornjo enačbo je vsota kvadratov odstopanj dejanskih vrednosti spremenljivke y od njene<br />

aritmetične sredine razčlenjena v dve sestavini. Prva izraža vsoto kvadratov odstopanj z<br />

regre<strong>si</strong>jsko funkcijo dobljenih vrednosti odvisne spremenljivke od njene aritmetične sredine.<br />

To sestavino imenujemo tudi z regre<strong>si</strong>jskim modelom pojasnjena vsota kvadratov odstopanj<br />

ali kratko pojasnjena varianca. Druga sestavina izraža vsoto kvadratov odstopanj dejanskih<br />

vrednosti od vrednosti, ki jih za spremenljivko y dobimo z regre<strong>si</strong>jskim modelom. Imenujemo<br />

jo tudi nepojasnjena varianca.<br />

Standardna napaka ocene je kvadratni koren iz nepojasnjene variance in izraža povprečno<br />

odstopanje dejanskih vrednosti spremenljivke y od vrednosti na regre<strong>si</strong>jski premici:<br />

σey =<br />

2<br />

σ ey<br />

Analiza kakovosti izračunane regre<strong>si</strong>jske funkcije<br />

Zanesljivost izračunane regre<strong>si</strong>jske funkcije ugotavljamo z F testom, zanesljivost njenih<br />

regre<strong>si</strong>jskih koeficientov pa s t testom. Z F testom preizkušamo domnevi<br />

H0: 2<br />

xy<br />

r = 0 in<br />

H1: 2<br />

r xy ≠ 0,<br />

kjer je 2<br />

rxy determinacijski koeficient, opredeljen kot razmerje med pojasnjeno in skupno<br />

varianco za odvisno spremenljivko. Statistika F je definirana z:<br />

F =<br />

n<br />

( yˆ<br />

y)<br />

∑ −<br />

( y − yˆ<br />

)<br />

∑ / n − k − 1<br />

i=<br />

1<br />

n<br />

i=<br />

1<br />

i<br />

i<br />

i<br />

2<br />

2<br />

/ k<br />

kjer je vrednost v števcu enaka pojasnjeni varianci, v imenovalcu pa nepojasnjeni varianci. Če<br />

je izračunana vrednost za F pri k in (n – k – 1) stopinjah prostosti in pri vnaprej določeni<br />

stopnji tveganja večja od teoretične vrednosti, ki jo odčitamo v tabeli kritičnih vrednosti za F-<br />

porazdelitev, lahko trdimo, da je determinacijski koeficient 2<br />

xy<br />

28<br />

r značilno različen od nič in<br />

zavrnemo ničelno domnevo.<br />

Zanesljivost izračunanih parametrov regre<strong>si</strong>jske premice pa testiramo s t-testom. Pri tem<br />

testiramo domnevi:<br />

H0: aj = 0<br />

H1: aj ≠ 0<br />

na osnovi Studentove t statistike pri (n - k - 1) prostostnih stopinjah:<br />

aˆ<br />

j<br />

t =<br />

s<br />

aˆ<br />

j<br />

kjer je j a s ˆ je standardna napaka regre<strong>si</strong>jskega koeficienta j.<br />

Če je izračunana vrednost statistike t večja od teoretične vrednosti, ki jo najdemo v tabeli za tporazdelitev<br />

pri (n – k – 1) prostostnih stopinjah in ustrezni stopnji tveganja (α/2), lahko<br />

trdimo, da je vrednost regre<strong>si</strong>jskega koeficienta a1 (v primeru enostavne regre<strong>si</strong>je) značilno<br />

različna od nič in zavrnemo ničelno domnevo. Na podoben način testiramo tudi konstanto a0.


Primer 5.1<br />

Poglejmo primer, ki podjetje prodaja svoje izdelke na 40 prodajnih področjih in želi ugotoviti<br />

kako je prodaja (odvisna spremenljivka) odvisna od števila propagandnih akcij (neodvisna<br />

spremenljivka). Podatki o prodaji in številu propagandnih akcij so podani v datoteki regenost.<br />

S programom SPSS smo dobili naslednje izpise.<br />

Model Summary<br />

,880a Adjusted R<br />

Std. Error<br />

of the<br />

Model R R Square Square Estimate<br />

1<br />

,775 ,769 595,60<br />

a. Predictors: (Constant), propaganda<br />

Korelacijski koeficient (R=0,88) kaže na močno linearno povezavo med spremenljivko<br />

prodaja in spremenljivko število propagandnih akcij. Determinacijski koeficient (R Square) pa<br />

kaže delež pojasnjene variance v skupni varianci za odvisno spremenljivko. 77,5 % celotne<br />

variance je pojasnjene z variabilnostjo spremenljivke število propagandnih akcij.<br />

ANOVA b<br />

4,6E+07 1 5,E+07 130,644 ,000a Sum of<br />

Mean<br />

Model<br />

Squares df Square F Sig.<br />

1 Regres<strong>si</strong>on<br />

Re<strong>si</strong>dual 1,3E+07 38 354742<br />

Total<br />

6,0E+07 39<br />

a. Predictors: (Constant), propaganda<br />

b. Dependent Variable: prodaja<br />

F test kaže, da obstaja med spremenljivkama linearna odvisnost; pri enostavni regre<strong>si</strong>ji je Ftest<br />

identičen testiranju hipoteze H0: â j = 0 s t-testom. Prav tako F-test kaže, da obstaja med<br />

spremenljivkama linearna odvisnost. Pri enostavni regre<strong>si</strong>ji je F-test identičen testiranju<br />

domneve Ho: aˆ j = 0 .<br />

Coefficients a<br />

Unstandardized<br />

Coefficients<br />

29<br />

Standar<br />

dized<br />

Coeffici<br />

ents<br />

Model<br />

B Std. Error Beta t Sig.<br />

1 (Constant) 1354,34 259,065 5,228 ,000<br />

propaganda 253,077 22,142 ,880 11,430 ,000<br />

a. Dependent Variable: prodaja<br />

Vrednost statistike t in raven značilnosti (Sig.) kažeta, da je koeficient a1 značilno različen od<br />

nič, kar pomeni, da obstaja odvisnost med opazovanima spremenljivkama. Enačba regre<strong>si</strong>jske<br />

premice je:<br />

yˆ =<br />

1354,<br />

34 + 253,<br />

077x


5.2 Multipla regre<strong>si</strong>ja<br />

V primeru, ko na vrednosti ene odvisne spremenljivke vpliva več dejavnikov – spremenljivk,<br />

govorimo o multipli regre<strong>si</strong>ji. Model linearne multiple regre<strong>si</strong>je predstavlja naslednja enačba<br />

yi = a0 + a1xi1 + a2xi2 + … + akxik + ei za i = 1,2, …, n<br />

kjer je:<br />

yi - vrednost odvisne spremenljivke pri i-ti enoti<br />

a k - vrednost regre<strong>si</strong>jskega koeficienta pri k-ti neodvisni spremenljivki<br />

xik - vrednost k-te neodvisne spremenljivke pri i-ti enoti<br />

Na osnovi vzorčnega pristopa ter z uporabo metode najmanjših kvadratov dobimo ocene<br />

regre<strong>si</strong>jskih koeficientov<br />

yˆ = â + â x + â x + ... + â x<br />

za i = 1,2, …, n<br />

i<br />

0<br />

1 i1<br />

2<br />

i2<br />

k<br />

ik<br />

Koeficienti â j j=1,…,k so enaki parcialnim regre<strong>si</strong>jskim koeficientom. Koeficient â 1 pove<br />

spremembo vrednosti odvisne spremenljivke, če se vrednost neodvisne spremenljivke x1<br />

spremeni za enoto pri pogoju, da vrednosti neodvisnih spremenljivk x2, x3,…,xk, ostanejo<br />

nespremenjene.<br />

Multipli korelacijski koeficient, multipli determinacijski koeficient<br />

Multipli korelacijski koeficient R kaže jakost odvisnosti med odvisno in k neodvisnimi<br />

spremenljivkami in je vedno pozitivna vrednost. Multipli determinacijski koeficient R 2 pa<br />

predstavlja delež variance v odvisni spremenljivki, ki je pojasnjena z variabilnostjo v<br />

neodvisnih spremenljivkah.<br />

Zanesljivost dobljene regre<strong>si</strong>jske funkcije se ugotavlja z F-testom, pri čemer preizkušamo<br />

domnevi:<br />

H0: R 2 = 0<br />

H1: R 2 ≠ 0<br />

in s t-testom domnevi:<br />

H0 : aj (j = 1,2....k) = 0<br />

H1 : vsaj eden aj je različen od nič.<br />

Ničelno domnevo zavrnemo, če je izračunana vrednost statistike F večja od njene teoretične<br />

vrednosti pri k oz. (n – k – 1 ) prostostnih stopinjah in vnaprej določeni stopnji tveganja α. Če<br />

smo ničelno domnevo zavrnili, pomeni, da je vsaj en koeficient različen od nič. S<br />

Studentovim t-testom ugotavljamo, kateri regre<strong>si</strong>jski koeficienti so različni od nič.<br />

Primer 5.2<br />

Poglejmo primer podjetja, opisanega v primeru 5.1, ki prodaja svoje izdelke na 40 prodajnih<br />

področjih. Tokrat želi ugotoviti, kako je prodaja odvisna od števila propagandnih akcij in<br />

števila trgovskih potnikov. Podatki za spremenljivke: y = prodaja, x1 = število propagandnih<br />

akcij, x2 = število trgovskih potnikov so podani v datoteki regmult.<br />

S programom SPSS in metodo Enter smo dobili za ta primer naslednje izpise rezultatov.<br />

30


Model Summary<br />

,935a Adjusted R<br />

Std. Error<br />

of the<br />

Model R R Square Square Estimate<br />

1<br />

,874 ,867 451,65<br />

a. Predictors: (Constant), število trgovskih<br />

potnikov, propaganda<br />

ANOVA b<br />

5,2E+07 2 3,E+07 128,141 ,000a Sum of<br />

Mean<br />

Model<br />

Squares df Square F Sig.<br />

1 Regres<strong>si</strong>on<br />

Re<strong>si</strong>dual 7547456 37 203985<br />

Total<br />

6,0E+07 39<br />

a. Predictors: (Constant), število trgovskih potnikov, propaganda<br />

b. Dependent Variable: prodaja<br />

Coefficients a<br />

Unstandardized<br />

Coefficients<br />

31<br />

Standar<br />

dized<br />

Coeffici<br />

ents<br />

Model<br />

B Std. Error Beta t Sig.<br />

1 (Constant)<br />

693,285 231,555 2,994 ,005<br />

propaganda 141,562 26,636 ,492 5,315 ,000<br />

število trgovskih<br />

potnikov<br />

375,313 69,593 ,500 5,393 ,000<br />

a. Dependent Variable: prodaja<br />

Povečana vrednost multiplega determinacijskega koeficienta kaže, da se je delež pojasnjene<br />

variance v skupni varianci povečal od 76,9 % na 86,7 % z vključitvijo še ene neodvisne<br />

spremenljivke (x2) v model. F-test in raven značilnosti kažeta, da obstaja odvisnost med<br />

prodajo ter številom propagandnih akcij in številom trgovskih potnikov. t-testi in ravni<br />

značilnosti za posamezne regre<strong>si</strong>jske koeficiente kažejo, da so v<strong>si</strong> regre<strong>si</strong>jski koeficienti<br />

značilno različni od nič na ravni značilnosti manjši od 0,05. V<strong>si</strong> ti rezultati kažejo na<br />

smiselnost uporabe regre<strong>si</strong>jskega modela, ki ga zapišemo z enačbo:<br />

y ˆ = 693,<br />

285 + 141,<br />

562x1<br />

+ 375,<br />

313x2<br />

Koeficient regre<strong>si</strong>jske enačbe pri x1 pove, za koliko se v poprečju spremeni odvisna<br />

spremenljivka yˆ , če se neodvisna spremenljivka x1 poveča za enoto pri nespremenjeni<br />

vrednosti spremenljivke x2.<br />

Običajno želimo ugotovitve, dobljene s pomočjo vzorca, posplošiti na statistično množico. To<br />

smemo storiti, če so izpolnjene predpostavke, na katerih temelji regre<strong>si</strong>jska analiza. Te so.<br />

• Neodvisne spremenljivke med seboj niso premočno korelirane (multikolinearnost).<br />

Prisotnost multikolinearnosti preverjamo z variance inflation factor (VIF). Če je njegova<br />

vrednost 10, obstaja premočna koreliranost med neodvisnimi spremenljivkami.


• Homoskedastičnost pomeni, da mora biti varianca rezidualov konstantna za vse vrednosti<br />

odvisne spremenljivke.<br />

• Reziduali morajo biti nekorelirani. Za poljubni dve vrednosti odvisne spremenljivke<br />

morata biti pripadajoča reziduala nekorelirana. Izpolnitev te predpostavke ugotavljamo z<br />

Durbin-Watsonovim testom. Če je njegova vrednost enaka dva, reziduali med seboj niso<br />

korelirani, če je njegova vrednost večja od dva obstaja negativna korelacija med reziduali,<br />

o pozitivni korelaciji med reziduali pa govorimo, ko je vrednost Durbin-Watsonovega<br />

testa manjša od dva. Običajno vrednosti Durbin-Watsonovega testa, ki so večje od tri in<br />

manjše od ena, kažejo na zaskrbljujočo koreliranost med reziduali.<br />

• Reziduali morajo biti normalno porazdeljene slučajne spremenljivke s povprečno<br />

vrednostjo nič.<br />

5.3 Diskriminantna analiza<br />

Diskriminantna analiza je primerna metoda za proučevanje odvisnosti, kadar je odvisna<br />

spremenljivka opisna, neodvisne spremenljivke pa so številske. Zanima nas na primer ali se in<br />

kako razlikujejo kupci naših izdelkov od kupcev konkurenčnih izdelkov. Odvisna<br />

spremenljivka je opisna z dvema vrednostma(1=kupec naših izdelkov, 2=kupec konkurenčnih<br />

izdelkov), neodvisne spremenljivke pa so lahko starost kupcev, njihov osebni dohodek,<br />

stopnja izobrazbe itd. (številske spremenljivke).<br />

Cilji diskriminantne analize so:<br />

1. oblikovanje diskriminantne funkcije kot linearne kombinacije izbranih neodvisnih<br />

spremenljivk tako, da le-ta v čim večji možni meri omogoča razlikovanje med skupinami<br />

na osnovi izbranih neodvisnih spremenljivk.<br />

2. ugotavljanje ali obstajajo značilne razlike med skupinami z vidika izbranih neodvisnih<br />

spremenljivk.<br />

3. določitev prispevka neodvisnih spremenljivk k razlikovanju med skupinami.<br />

4. razvrščanje enot v eno izmed skupin na osnovi diskriminantne funkcije in vrednosti<br />

neodvisnih spremenljivk.<br />

Kadar ima odvisna spremenljivka samo dve vrednosti (dve skupini), govorimo o<br />

diskriminantni analizi z dvema skupinama, če pa ima 3 ali več vrednosti (3 ali več skupin) pa<br />

govorimo o multipli diskriminantni analizi.<br />

Diskriminantna analiza je podobna multipli regre<strong>si</strong>jski analizi, le da je odvisna spremenljivka<br />

opisna. Z diskriminantno analizo ugotavljamo in pojasnjujemo razlike med skupinami. Da bi<br />

na primer ugotovili, kako se razlikujejo kupci naših izdelkov od kupcev, ki kupujejo<br />

konkurenčne izdelke glede na dohodek, starost, izobrazbo (neodvisne spremenljivke), bi lahko<br />

za posamezne skupine izračunali povprečen dohodek, starost, izobrazbeno raven in ugotovili<br />

kakšna so povprečja v posamezni skupini. To je vsekakor zanimivo z vidika posameznih<br />

spremenljivk, nič pa ne pove o njihovem skupnem vplivu pri predpostavki, da je mala<br />

verjetnost, da imajo vse spremenljivke neodvisne učinke. Če se npr. skupine razlikujejo glede<br />

na povprečen dohodek, se zelo verjetno razlikujejo tudi glede na izobrazbo, saj sta ti dve<br />

spremenljivki med seboj močno povezani. Zato nas zanima skupen učinek obeh spremenljivk,<br />

prav tako pa, katera spremenljivka ima večji učinek. Diskriminantna analiza omogoča, da<br />

obravnavamo spremenljivke hkrati, tako da upoštevamo njihove medsebojne odvisnosti in<br />

informacije, ki se delno pokrivajo.<br />

32


5.3.1 Diskriminantna analiza z dvema skupinama<br />

Da bi ugotovili, katere spremenljivke prispevajo največ k razlikovanju med dvema skupinama<br />

enot, oblikujemo novo spremenljivko – diskriminantno funkcijo, oblikovano tako, da se<br />

vrednosti enot, izračunane z diskriminantno funkcijo, v obeh skupinah med seboj v največji<br />

možni meri razlikujejo. Analiza variance bi za tako oblikovane nove vrednosti enot pokazala<br />

značilne razlike med povprečnima vrednostma proučevanih skupin. V okviru diskriminantne<br />

analize se za ugotavljanje učinkovitosti diskriminantne funkcije uporablja statistika Wilks<br />

lambda.<br />

Diskriminantno funkcijo zapišemo:<br />

D = a1y1 + a2y2 +…+ akyk<br />

kjer je:<br />

D - vrednost diskriminantne funkcije (discriminant scores)<br />

ak - koeficient diskriminantne funkcije pri spremenljivki yk<br />

yk - k-ta neodvisna spremenljivka<br />

V primeru dveh skupin enot <strong>si</strong> lahko predstavljamo dve delno pokrivajoči normalni<br />

porazdelitvi vrednosti D za dve skupini. Vrednosti D so oblikovane tako (z izbiro ustreznih<br />

vrednosti koeficientov a1, a2, ….ak), da sta obe porazdelitvi med seboj čim bolj oddaljeni.<br />

Koeficienti oz. uteži so določene tako, da je razmerje<br />

Variabilnost<br />

med skupinami<br />

Variabilnost<br />

znotrajskupin<br />

mak<strong>si</strong>malno. Na ta način so <strong>si</strong> enote z vidika vrednosti D znotraj skupin med seboj čim bolj<br />

podobne, med skupinama pa čim bolj različne. Tako se problem več neodvisnih spremenljivk<br />

zmanjša na problem ene neodvisne spremenljivke. Zaradi tega ni potrebno primerjati skupini<br />

po vseh neodvisnih spremenljivkah, temveč samo glede na vrednosti ene spremenljivke D.<br />

Prav tako je tudi zagotovljeno, da sta <strong>si</strong> skupini glede na vrednosti D med seboj v največji<br />

možni meri različni.<br />

V nadaljevanju je potrebno ugotoviti, v čem se skupini med seboj najbolj razlikujeta oz.<br />

katere spremenljivke največ prispevajo k razlikovanju med skupinama.<br />

Interpretacija diskriminantne funkcije<br />

Statistično značilna diskriminantna funkcija pomeni, da so razlike med skupinama značilne,<br />

kar se preverja z analizo variance.<br />

Koeficiente diskriminantne funkcije razložimo podobno kot regre<strong>si</strong>jske keoeficiente. Vsak<br />

koeficient odraža relativni prispevek k diskriminantni funkciji pri spremembi vsake neodvisne<br />

spremenljivke za eno enoto. Majhna vrednost koeficienta pomeni majhni relativni prispevek<br />

spremenljivke k vrednosti diskriminantne funkcije in obratno. Problem nastopi, kadar so<br />

spremenljivke izražene v različnih enotah. Zato se v teh primerih prispevek posamezne<br />

spremenljivke – uteži - izrazi še v standardizirani obliki. Absolutna velikost standardiziranih<br />

uteži tako omogoča ugotavljanje relativnega prispevka posamezne spremenljivke. Majhna<br />

standardizirana vrednost torej pomeni, da spremenljivka ni pomembna pri diskriminiranju<br />

med skupinami, ali pa se je njen učinek izgubil zaradi multikolinearnosti med<br />

spremenljivkami.<br />

Diskriminantne uteži (discriminant loadings) kažejo pomen neodvisnih spremenljivk v<br />

razlikovanju med skupinami in se izračunajo kot enostavni korelacijski koeficienti med<br />

diskriminantnimi vrednostmi in vrednostmi za posamezno neodvisno spremenljivko. Kvadrati<br />

33


teh koeficientov se pojasnjujejo kot determinacijski koeficienti in kažejo delež variabilnosti v<br />

diskriminantni vrednosti, ki je pojasnjen z ustrezno neodvisno spremenljivko.<br />

Če povzamemo, so v bistvu tri možnosti za ocenjevanje relativnega pomena spremenljivk pri<br />

razlikovanju med skupinama: razlike v aritmetični sredini spremenljivk med skupinami,<br />

standardizirani koeficienti in diskriminantne uteži. Vse tri analize dajo iste zaključke o<br />

relativnem pomenu spremenljivk, če med neodvisnimi spremenljivkami ni multikolinearnosti.<br />

V primeru multikolinearnosti so lahko zaključki različni, zato je potrebna toliko večja<br />

pazljivost pri razlaganju izidov statistične analize.<br />

5.3.2 Multipla diskriminantna analiza<br />

Pri multipli diskriminantni analizi z G skupinami je mogoče oceniti G-1 diskriminantnih<br />

funkcij, če je število neodvisnih spremenljivk večje od G, kar je običajno. Prva funkcija ima<br />

največje vrednost količnika med varianco med skupinami in varianco znotraj skupin<br />

(eigenvalue). Druga, nekorelirana s prvo, ima drugi največji količnik itd. Vendar pa ni rečeno,<br />

da so vse funkcije statistično značilne. Prva funkcija prispeva mak<strong>si</strong>malno k razlikovanju, kar<br />

pomeni, da imajo enote znotraj skupin zelo podobne diskriminantne vrednosti, med skupinami<br />

pa se te vrednosti zelo razlikujejo.<br />

Primer 5.3<br />

Diskriminantno analizo bomo izvedli na primeru 30 družin, za katere nas zanima, katere<br />

njihove lastnosti vplivajo na to, da družina obišče zdravilišče ali ne (v primeru diskriminantne<br />

analize z dvema skupinama) oziroma katere so tiste lastnosti družin, ki vplivajo na to, ali<br />

družina porabi male, srednje ali visoke zneske za dopust (v primeru diskriminantne analize s<br />

tremi skupinami). Pri diskriminantni analizi je odvisna spremenljivka skupina. V našem<br />

primeru z dvema skupinama so v skupini 1 družine, ki so obiskale zdravilišče, v skupini 2 pa<br />

družine, ki zdravilišča niso obiskale. V primeru treh skupin pa so v skupini 1 družine, ki<br />

porabijo mali znesek za dopust, v skupini 2 družine, ki porabijo srednje velike zneske za<br />

dopust in v skupini 3 družine, ki porabijo visoke zneske za dopust. Spremenljivke, ki naj bi<br />

vplivale na odločitev o obisku zdravilišča oz. na znesek, ki ga družina porabi za dopust so:<br />

višina letnega dohodka družine (DOHODEK), kako rada družina potuje (ODNOS), kako<br />

pomemben je dopust za družino (POMEN), velikost družine (VELIKOST), starost očeta ali<br />

matere (STAROST). Spremenljivke ODNOS in POMEN smo merili na intervalni skali od 1<br />

do 9 (1 = družina ne potuje rada, oz. dopust ni pomemben; 9 = družina zelo rada potuje, oz.<br />

dopust je zelo pomemben). Podatki so v datoteki diskrim.<br />

S programom SPSS smo najprej opravili diskriminantno analizo z dvema skupinama in dobili<br />

naslednje izpise.<br />

Eigenvalues<br />

1,786a % of Cumulative Canonical<br />

Function Eigenvalue Variance % Correlation<br />

1<br />

100,0 100,0 ,801<br />

a. First 1 canonical discriminant functions were used in the<br />

analy<strong>si</strong>s.<br />

Lastna vrednost (Eigenvalue) je razmerje med vsoto kvadratov med skupinami in vsoto<br />

kvadratov znotraj skupin. Večja kot je njena vrednost, boljša je diskriminantna funkcija.<br />

34


Test of Function(s)<br />

1<br />

Wilks' Lambda<br />

Wilks'<br />

Lambda Chi-square df Sig.<br />

,359 26,130 5 ,000<br />

Wilks' λ je enaka količniku med vsoto kvadratov znotraj skupin in celotno vsoto kvadratov.<br />

Njene vrednosti so med 0 in 1. Vrednost λ blizu 1 pomeni, da aritmetične sredine<br />

diskriminantnih vrednosti med skupinami niso značilno različne, mala vrednost pa da so. Do<br />

enakega zaključka pridemo ob upoštevanju vrednost hi-kvadrat, ki jo uporabimo pri testiranju<br />

ničelne domneve, da so aritmetične sredine diskriminantnih vrednosti skupin enake. Ker je v<br />

tem primeru raven značilnosti manjša od 0,05, smemo ničelno domnevo o enakosti<br />

aritmetičnih sredin diskriminantnih vrednosti skupin zavreči s tveganjem, manjšim od 0,05.<br />

Standardized Canonical<br />

Discriminant Function Coefficients<br />

LETNI DOHODEK<br />

DRUŽINE<br />

ODNOS DO<br />

ZDRAVILIŠČ<br />

POMEN DRUŽINSKIH<br />

POČITNIC<br />

ŠTEVILO DRUŽINSKIH<br />

ČLANOV<br />

STAROST OČETA ALI<br />

MATERE<br />

Structure Matrix<br />

LETNI DOHODEK<br />

DRUŽINE<br />

ŠTEVILO DRUŽINSKIH<br />

ČLANOV<br />

POMEN DRUŽINSKIH<br />

POČITNIC<br />

ODNOS DO<br />

ZDRAVILIŠČ<br />

STAROST OČETA ALI<br />

MATERE<br />

Function<br />

1<br />

,743<br />

,096<br />

,233<br />

,469<br />

,209<br />

Function<br />

1<br />

,822<br />

,541<br />

,346<br />

,213<br />

,164<br />

Pooled within-groups correlations between<br />

discriminating variables and standardized<br />

canonical discriminant functions<br />

Variables ordered by absolute <strong>si</strong>ze of<br />

correlation within function.<br />

Standardizirani koeficienti kažejo na<br />

relativni pomen spremenljivk pri<br />

razlikovanju med skupinama.<br />

Spremenljivke z večjo vrednostjo<br />

standardiziranega koeficienta prispevajo<br />

več k razlikovanju med skupinama.<br />

Najpomembnejša spremenljivka je torej<br />

letni dohodek, sledi ji število družinskih<br />

članov itd.<br />

35<br />

V strukturni matriki je relativni<br />

pomen posameznih spremenljivk<br />

pri razlikovanju med skupinama<br />

prikazan po vrstnem redu ob<br />

upoštevanju diskriminantnih uteži<br />

(discriminant loadings). To so<br />

enostavni korelacijski koeficienti<br />

med diskriminantno funkcijo in<br />

posameznimi spremenljivkami.


Functions at Group Centroids<br />

OBISK ZDRAVILIŠČA<br />

1<br />

2<br />

Function<br />

1<br />

1,291<br />

-1,291<br />

Unstandardized canonical discriminant<br />

functions evaluated at group means<br />

Clas<strong>si</strong>fication Results a<br />

Predicted Group<br />

Membership<br />

OBISK ZDRAVILIŠČA 1 2 Total<br />

Original Count 1<br />

12 3 15<br />

2<br />

0 15 15<br />

% 1<br />

80,0 20,0 100,0<br />

2<br />

,0 100,0 100,0<br />

a. 90,0% of original grouped cases correctly clas<strong>si</strong>fied.<br />

Kla<strong>si</strong>fikacijska matrika prikazuje število z diskriminantno funkcijo pravilno razvrščenih enot<br />

v skupini. Uspešnost kla<strong>si</strong>fikacije je prikazana s količnikom med pravilno razvrščenimi<br />

enotami in skupnim številom enot (hit ratio).<br />

Za izvedbo diskriminantne analize s tremi skupinami se postopek v našem primeru razlikuje v<br />

toliko, da razvrščamo enote v tri skupinah po spremenljivki ZNESEK DRUŽINE.<br />

Rezultati analize, dobljeni s programom SPSS za diskriminantno analizo s tremi skupinami,<br />

so:<br />

Eigenvalues<br />

3,819a 93,9 93,9 ,890<br />

,247a % of Cumulative Canonical<br />

Function Eigenvalue Variance % Correlation<br />

1<br />

2<br />

6,1 100,0 ,445<br />

a. First 2 canonical discriminant functions were used in the<br />

analy<strong>si</strong>s.<br />

Prva funkcija ima večjo lastno vrednost (eigenvalue), omogoča torej boljše razlikovanje med<br />

skupinami. Na osnovi Wilks' lambde, hi-kvadrata in stopnje značilnosti sklepamo, da prva<br />

funkcija omogoča razlikovanje med skupinami: majhna vrednost Wilks' Lambde, nizka<br />

stopnja tveganja (α ‹ 0,05).<br />

Test of Function(s)<br />

1 through 2<br />

2<br />

Wilks' Lambda<br />

Wilks'<br />

Lambda Chi-square df Sig.<br />

,166 44,831 10 ,000<br />

,802 5,517 4 ,238<br />

36<br />

Centroid je povprečje<br />

diskriminantnih<br />

vrednosti v skupini.


Če izločimo iz analize prvo funkcijo, pa vidimo, da druga funkcija ne prispeva značilno k<br />

razlikovanju med skupinama: visoka vrednost Wilks' Lambde, visoka stopnja tveganja (α ›<br />

0,05).<br />

LETNI DOHODEK<br />

DRUŽINE<br />

ŠTEVILO DRUŽINSKIH<br />

ČLANOV<br />

ODNOS DO<br />

ZDRAVILIŠČ<br />

POMEN DRUŽINSKIH<br />

POČITNIC<br />

STAROST OČETA ALI<br />

MATERE<br />

Structure Matrix<br />

Function<br />

1 2<br />

,856* -,278<br />

,193* ,077<br />

,219 ,588*<br />

,149 ,454*<br />

,166 ,341*<br />

Pooled within-groups correlations between<br />

discriminating variables and standardized<br />

canonical discriminant functions<br />

Variables ordered by absolute <strong>si</strong>ze of correlation<br />

within function.<br />

*. Largest absolute correlation between each<br />

variable and any discriminant function<br />

Iz strukturne matrike vidimo, da je prva funkcija, ki največ prispeva k razlikovanju med<br />

skupinama, povezana s spremenljivkama LETNI DOHODEK IN ŠTEVILO DRUŽINSKIH<br />

ČLANOV. Ta funkcija omogoča razlikovanje med vsemi tremi skupinami: skupina 3 ima<br />

največji letni dohodek in največje število družinskih članov, sledi skupina 2 in nato skupina 1<br />

(povprečne vrednosti vidimo v Tabeli 5.2.1: Group Statistics). Podobno lahko komentiramo<br />

drugo diskriminantno funkcijo, ki pa prispeva slabše k razlikovanju med skupinami.<br />

Slika 5.1. Razsevni grafikon<br />

Function 2<br />

3<br />

2<br />

1<br />

0<br />

-1<br />

-2<br />

-3<br />

Canonical Discriminant Functions<br />

-4<br />

Function 1<br />

1<br />

-2<br />

2<br />

0<br />

2<br />

3<br />

4<br />

6<br />

ZNESEK DRUŽINE ZA LE<br />

Group Centroids<br />

Ungrouped Cases<br />

3<br />

2<br />

1<br />

37<br />

Prva funkcija je povezana s<br />

spremenljivkama LETNI DOHODEK in<br />

ŠTEVILO DRUŽINSKIH ČLANOV (*),<br />

druga funkcija pa s preostalimi<br />

spremenljivkami.


Razsevni grafikon kaže položaj posamezne enote oz. skupine enot glede na prvo in drugo<br />

diskriminantno funkcijo ter razlike med skupinami, upoštevajoč spremenljivke povezane s<br />

posameznima funkcijama.<br />

Aritmetične sredine in standardni odkloni za spremenljivke, uporabljene v diskriminantni<br />

analizi za tri skupine družin so podane v razpredelnici Group Statistics.<br />

38


ZNESEK DRUŽINE<br />

ZA LETNI DOPUST<br />

1<br />

2<br />

3<br />

Total<br />

LETNI DOHODEK<br />

DRUŽINE<br />

ODNOS DO<br />

ZDRAVILIŠČ<br />

POMEN DRUŽINSKIH<br />

POČITNIC<br />

ŠTEVILO DRUŽINSKIH<br />

ČLANOV<br />

STAROST OČETA ALI<br />

MATERE<br />

LETNI DOHODEK<br />

DRUŽINE<br />

ODNOS DO<br />

ZDRAVILIŠČ<br />

POMEN DRUŽINSKIH<br />

POČITNIC<br />

ŠTEVILO DRUŽINSKIH<br />

ČLANOV<br />

STAROST OČETA ALI<br />

MATERE<br />

LETNI DOHODEK<br />

DRUŽINE<br />

ODNOS DO<br />

ZDRAVILIŠČ<br />

POMEN DRUŽINSKIH<br />

POČITNIC<br />

ŠTEVILO DRUŽINSKIH<br />

ČLANOV<br />

STAROST OČETA ALI<br />

MATERE<br />

LETNI DOHODEK<br />

DRUŽINE<br />

ODNOS DO<br />

ZDRAVILIŠČ<br />

POMEN DRUŽINSKIH<br />

POČITNIC<br />

ŠTEVILO DRUŽINSKIH<br />

ČLANOV<br />

STAROST OČETA ALI<br />

MATERE<br />

Group Statistics<br />

39<br />

Mean<br />

Std.<br />

Valid N (listwise)<br />

Deviation Unweighted Weighted<br />

38,570 5,297 10 10,000<br />

4,500 1,716 10 10,000<br />

4,700 1,889 10 10,000<br />

3,100 1,197 10 10,000<br />

50,300 8,097 10 10,000<br />

50,110 6,002 10 10,000<br />

4,000 2,357 10 10,000<br />

4,200 2,486 10 10,000<br />

3,400 1,506 10 10,000<br />

49,500 9,253 10 10,000<br />

64,970 8,614 10 10,000<br />

6,100 1,197 10 10,000<br />

5,900 1,663 10 10,000<br />

4,200 1,135 10 10,000<br />

56,000 7,601 10 10,000<br />

51,217 12,795 30 30,000<br />

4,867 1,978 30 30,000<br />

4,933 2,100 30 30,000<br />

3,567 1,331 30 30,000<br />

51,933 8,574 30 30,000


6 Analiza medsebojne odvisnosti<br />

6.1 Analiza skupin (Cluster analy<strong>si</strong>s)<br />

V marketingu, pa tudi na drugih področjih, se mnogokrat kaže potreba po razvrščanju<br />

subjektov – enot v homogene skupine, t.j. skupine s čim bolj podobnimi lastnostmi. Npr.<br />

podjetje želi segmentirati tržišče, to je razvrstiti potencialne kupce v homogene skupine, ki so<br />

dovolj velike ali dobičkonosne za nadaljnjo obravnavo z vidika zadovoljevanja njihovih<br />

specifičnih potreb. Pri razvrščanju v skupine je mogoče upoštevati številne lastnosti<br />

potrošnikov kot so demografske (spol, starost….), ekonomske, vedenjske, p<strong>si</strong>hološke. Takšno<br />

analizo omogoča analiza skupin. Njen cilj je razvrstiti enote v skupine tako, da so znotraj<br />

skupin enote med seboj čim bolj podobne, med skupinami pa čim bolj različne. Pri tej analizi<br />

gre torej za združevanje enot in s tem zmanjševanje njihovega števila. Razvrščanje v skupine<br />

se izvede na osnovi ustreznih spremenljivk, pri čemer analiza skupin ne razlikuje med<br />

odvisnimi in neodvisnimi spremenljivkami.<br />

V okviru analize skupin je treba rešiti naslednja vprašanja:<br />

1. Katere spremenljivke so v konkretni raziskavi pomembne za razvrščanje enot v homogene<br />

skupine?<br />

2. Katero merilo upoštevati pri določanju razlik med enotami?<br />

3. Kateri kriterij upoštevati pri vključevanju enot v skupine?<br />

Postopek pri izvedbi analize skupin:<br />

1. Definiranje problema<br />

2. Izbira merila razlik oz. podobnosti med enotami (distance measure)<br />

3. Izbira metode<br />

4. Odločitev o številu skupin<br />

5. Interpretacija skupin<br />

4. Ocenjevanje kvalitete rezultatov razvrščanja enot v skupine (reliability and validity of<br />

clustering).<br />

Definiranje problema<br />

Pri definiranju problema je zelo pomembno pravilno določiti - izbrati značilnosti enot<br />

(spremenljivke), po katerih se bodo enote združevale v skupine – klastre. Spremenljivke se<br />

določajo na osnovi preteklih raziskovanj (izkušenj), teorije na relevantnem področju oz. na<br />

osnovi hipotez, ki se testirajo.<br />

Izbira merila<br />

Ker je cilj analize skupin razvrstiti enote v homogene skupine potrebujemo mero, s katero je<br />

mogoče presojati podobnost oz. različnost med posameznimi enotami. Na razpolago je več<br />

načinov merjenja razlik oz. podobnosti med enotami. Kot najbolj pogosto merilo podobnosti<br />

se uporablja evklidska razdalja (euclidean distance) oz. njen kvadrat. Kvadrirana evklidska<br />

razdalja je vsota kvadriranih razlik med vrednostmi dveh spremenljivk za vse možne pare<br />

enot. Če so vrednosti spremenljivk podane v različnih enotah mere, jih je potrebno predhodno<br />

standardizirati.<br />

40


Kvadrirana evklidska razdalja je definirana z:<br />

p<br />

d = ∑ ( x − x )<br />

2<br />

rs<br />

j=<br />

1<br />

rj<br />

sj<br />

2<br />

2<br />

kjer je d rs kvadrirana evklidska razdalja med enotama r in s, xrj je vrednost j-te spremenljivke<br />

pri enoti r in xsj je vrednost j-te spremenljivke pri enoti s, p pa je število spremenljivk.<br />

Izbira metode<br />

Tako kot je več načinov merjenja razlik oz. podobnosti med enotami je tudi več metod, ki<br />

omogočajo združevanje enot v skupine.<br />

Pri metodi variance se skupine tvorijo na osnovi minimiziranja variance znotraj skupin<br />

(within-cluster variance) – Wardova metoda. Wardova metoda združuje enote in skupine na<br />

principu mak<strong>si</strong>miranja homogenosti znotraj skupin. Vsota kvadratov znotraj skupin služi kot<br />

merilo homogenosti. Ob vsakem koraku se skupine formirajo tako, da je za oblikovane<br />

skupine vsota kvadratov znotraj skupin minimalna (within cluster sums of squeres). Wardova<br />

metoda zahteva uporabo evklidske razdalje. Na osnovi izračunanih evklidskih razdalj se tvori<br />

matrika podobnosti (Similarity Matrix), ki v nadaljevanju omogoča združevanje enot v<br />

skupine po različnih metodah. Metoda hierarhičnega (drevesnega) razvrščanja prične<br />

razvrščanje s številom skupin, ki je enako številu enot, nato pa se v vsakem koraku število<br />

skupin zmanjša za eno (združevanje enot oz. skupin je prikazano v dendrogramu).<br />

Odločitev o številu skupin<br />

Glede odločitve o številu skupin ni trdnih pravil, upoštevati pa je mogoče naslednje.<br />

• Spoznanja na osnovi teorije in prakse obravnavanega področja.<br />

• Pri uporabi hierarhične metode je mogoče upoštevati razlike (kvadrirana evklidska<br />

razdalja), pri katerih pride do združevanja skupin. Informacijo lahko dobimo iz pregleda<br />

združevanja (agglomeration schedule) ali iz dendrograma.<br />

• Število enot v posameznih skupinah ne sme biti premalo.<br />

Interpretacija skupin<br />

Skupine je mogoče razložiti s pomočjo centroidov skupin. Ti predstavljajo povprečno<br />

vrednost enot v skupini za vsako spremenljivko. Prav tako je mogoče skupine razložiti s<br />

pomočjo diskriminantne analize in analize variance, ki omogočata določitev spremenljivk, ki<br />

največ prispevajo k razlikovanju med oblikovanimi skupinami. Pri tem so v pomoč tudi<br />

spremenljivke, ki se niso uporabile pri razvrščanju enot v skupine.<br />

Ocenjevanje kvalitete razvrščanja enot v skupine (reliability and validity of clustering)<br />

Kvaliteto razvrščanja lahko preverimo z naslednjimi postopki:<br />

• Na istih podatkih uporabimo drugačno mero razlik med enotami. S primerjavo rezultatov<br />

lahko določimo stabilnost rešitev.<br />

• Uporabimo različne metode združevanja in primerjamo rezultate.<br />

• Na slučajen način razdelimo podatke na dva dela. Primerjamo centroide skupin iz obeh<br />

delov podatkov.<br />

• Na slučajen način izpuščamo spremenljivke. Primerjamo rezultate z rezultati, ki smo jih<br />

dobili z uporabo vseh spremenljivk.<br />

Večina metod analize skupin je relativno enostavna za razumevanje in ne zahtevajo<br />

poglobljenega statističnega znanja. V okviru analize skupin se uporabljajo naslednji pojmi:<br />

41


Načrt združevanja (agglomeration schedule) podaja informacije o enotah, ki se na<br />

posameznih stopnjah hierarhične metode združujejo v skupine.<br />

Centroid skupine (cluster centroid) je povprečna vrednost spremenljivk za enote, ki so v<br />

določeni skupini.<br />

Članstvo v skupini (cluster membership) pokaže kateri skupini pripada določena enota.<br />

Dendrogram je grafični prikaz rezultatov združevanja (drevo), ki kaže razvrščanje enot v<br />

skupine na ustreznih ravneh ob upoštevanju razlik oz. podobnosti med enotami. Na vertikalni<br />

skali je prikazano združevanje enot v skupine, na horizontalni skali pa so prikazane<br />

»razdalje«, pri katerih pride do združevanja. Dendrogram se čita z leve proti desni.<br />

Primer 6.1<br />

Analizo skupin bomo izvedli na primeru 20 kupcev, ki jih želimo razvrstiti v tri homogene<br />

skupine glede na njihove navade oz. njihov odnos do nakupovanja. Kupci so na intervalni<br />

skali od 1 (se v celoti ne strinjam) do 7 (se v celoti strinjam) izrazili svoje mnenje o naslednjih<br />

trditvah:<br />

1. nakupovanje je zabava (ZABAVA)<br />

2. nakupovanje zmanjšuje družinski proračun (STROŠEK)<br />

3. ob nakupovanju običajno ne ko<strong>si</strong>m doma (KOSILO)<br />

4. pri nakupovanju poskušam doseči najugodnejši nakup (UGODNO)<br />

5. nakupovanje me ne zanima (NEZANIMA)<br />

6. s primerjavo cen lahko dosti prihraniš (PRIHRAN)<br />

V oklepajih so navedena imena spremenljivk. Podatki za izvedbo analize skupin so v datoteki<br />

podatki cluster. S programom SPSS dobimo naslednje izpise.<br />

42


Razpredelnica 6.1. Članstvo v skupinah<br />

Cluster Membership<br />

Case<br />

1<br />

2<br />

3<br />

4<br />

5<br />

6<br />

7<br />

8<br />

9<br />

10<br />

11<br />

12<br />

13<br />

14<br />

15<br />

16<br />

17<br />

18<br />

19<br />

20<br />

3 Clusters<br />

1<br />

2<br />

1<br />

3<br />

2<br />

1<br />

1<br />

1<br />

2<br />

3<br />

2<br />

1<br />

2<br />

3<br />

1<br />

3<br />

1<br />

3<br />

3<br />

2<br />

Slika 6.1. Dendrogram<br />

Dendrogram u<strong>si</strong>ng Ward Method<br />

Rescaled Distance Cluster Combine<br />

C A S E 0 5 10 15 20 25<br />

Label Num +---------+---------+---------+---------+---------+<br />

14 òø<br />

16 òú<br />

10 òú<br />

4 òôòòòø<br />

19 ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòø<br />

18 òòòòò÷ ùòòòòòòòòòòòòòòòòòòòø<br />

2 òûòø ó ó<br />

13 ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó<br />

5 òø ó ó<br />

11 òôò÷ ó<br />

9 òú ó<br />

20 ò÷ ó<br />

3 òûòø ó<br />

8 ò÷ ó ó<br />

6 òø ó ó<br />

7 òú ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷<br />

12 òú ó<br />

1 òôòø<br />

17 ò÷ ó<br />

15 òòò÷<br />

Iz desnega stolpca je razvidno, v katero<br />

skupino je razvrščena posamezna enota.<br />

43<br />

Iz dendrograma je<br />

razvidno, da je bilo na<br />

začetku 20 skupin (enot),<br />

ki so se nato postopoma<br />

združevale v skupine<br />

tako, da so na koncu vse<br />

enote združene v eni<br />

skupini


Iz drugega stolpca razpredelnice 6.1 je razvidno, da so enote razvrščene v tri skupine (clustre).<br />

Številka v tem stolpcu pove, v katero skupino je razvrščena posamezna enota. Potek<br />

razvrščanja v skupine je prikazan z dendrogramom. Na začetku razvrščanje je bilo 20 enot, ki<br />

so se postopoma združevale v skupine, na koncu razvrščanja so vse enote združene v eno<br />

skupino. Odločiti se je treba, v koliko skupin je smiselno združiti enote. V tem primeru smo<br />

se odločili za tri skupine.<br />

6.2 Faktorska analiza – metoda glavnih komponent<br />

Pri proučevanju kompleksnih pojavov moramo pogosto upoštevati veliko medsebojno<br />

odvisnih spremenljivk. Če pri analizi njihovega vpliva na odvisno spremenljivko uporabimo<br />

multiplo regre<strong>si</strong>jsko analizo, izgubimo precejšen del informacij, vsebovanih v neznačilnih<br />

regresorjih, ki jih v nadaljnji analizi ne upoštevamo. Zato v takih primerih uporabimo<br />

faktorsko analizo, ki nam z uvedbo <strong>si</strong>ntetičnih spremenljivk (faktorjev) zmanjša število<br />

spremenljivk. Pri klastrski analizi združujemo v skupine enote, pri faktorski analizi pa<br />

spremenljivke.<br />

Tako je na primer število dejavnikov, ki vplivajo na uspeh novega izdelka, zelo veliko. Iz<br />

velikega števila dejavnikov želimo s faktorsko analizo opredeliti nekaj faktorjev, ki pojasnijo<br />

čim večji delež celotne variance. Namesto velikega števila spremenljivk vključimo v<br />

nadaljnje analize samo manjše število faktorjev.<br />

Prvi faktor je zato določen tako, da pojasni čim večji delež celotne variance. Drugi je izbran<br />

tako, da je neodvisen od prvega in pojasni čim večji delež še nepojasnjene variance. Na<br />

podoben način so določeni še preostali faktorji.<br />

Potek faktorske analize je možno opisati z naslednjimi koraki:<br />

1. določitev spremenljivk in analiza odvisnosti med njimi<br />

2. odločitev o številu faktorjev<br />

3. vsebinska opredelitev faktorjev<br />

Prva faza se nanaša na izbor spremenljivk, ki jih bomo upoštevali v faktorski analizi. Te<br />

izberemo na osnovi predhodnih raziskav ali naše presoje. Število izbranih spremenljivk<br />

določa velikost vzorca. Izkustveno pravilo kaže, da naj je v vzorcu vsaj 4 k enot, kjer je k<br />

število spremenljivk. Odvisnost med spremenljivkami proučujemo s korelacijsko matriko.<br />

Faktorska analiza namreč ni smiselna, če obstaja šibka povezanost med spremenljivkami.<br />

Smiselnost uporabe faktorske analize preizkušamo z Bartlettovim testom sferičnosti. Z njim<br />

preizkušamo ničelno domnevo, da je osnovna korelacijska matrika enaka matriki enote, kar<br />

pomeni, da ne obstaja odvisnost med opazovanimi spremenljivkami. Velika vrednost te<br />

statistike govori v prid uporabe faktorske analize. Poleg Bartlettovega testa sferičnosti se<br />

uporablja še Keiser-Meyer-Olkinova statistika (KMO), ki temelji na primerjavi velikosti<br />

korelacijskih in parcialnih korelacijskih koeficientov. Uporaba faktorske analize je smiselna<br />

pri veliki vrednosti te statistike, to je pri vrednosti, ki je večja od 0,5.<br />

V naslednjem koraku določimo nove, to je <strong>si</strong>ntetične spremenljivke, ki jih bomo imenovali<br />

faktorje. Za to je možno uporabiti dve metodi. Pri metodi glavnih komponent so faktorji<br />

določeni kot linearna kombinacija prvotnih spremenljivk. Pri kla<strong>si</strong>čni faktorski analizi pa pri<br />

44


določanju faktorjev upoštevamo predpostavke o strukturi spremenljivk in njihovih virih<br />

variacije.<br />

Model glavnih komponent je določen z:<br />

z1 = a11F1 + a12F2 + … + a1kFk<br />

z2 = a21F1 + a22F2 + … + a2kFk<br />

M<br />

zk = ak1F1 + ak2F2 + … + akkFk<br />

kjer pomeni:<br />

zi – standardizirana vrednost i-te opazovane spremenljivke, i = 1, …, k<br />

Fj - j-ta glavna komponenta oziroma faktor, j = 1, …, k<br />

aij - faktorska utež pri i-ti spremenljivki in j-tem faktorju.<br />

Vsako opazovano spremenljivko smo izrazili s k glavnimi komponentami. Komponente<br />

določamo zaporedoma, tako da linearna kombinacija spremenljivk, ki določa prvo<br />

komponento, pojasni največji del celotne variance. Druga komponenta je določena kot druga<br />

najboljša linearna kombinacija, ki pojasni največji del s prvo komponento še nepojasnjene<br />

variance.<br />

V drugi fazi izvajanja faktorske analize želimo določiti faktorje, ki pojasnijo čim večji delež<br />

celotne variance. Pri tem <strong>si</strong> pomagamo s komunalitetami in lastnimi vrednostmi. Vsoto<br />

kvadratov faktorskih uteži za m faktorjev imenujemo komunaliteto in jo za spremenljivko zi<br />

označimo s h 2<br />

i , pri čemer je m < k. Ta je torej enaka:<br />

h = a + a + ... + a<br />

2<br />

i<br />

2<br />

i1<br />

2<br />

i 2<br />

2<br />

im<br />

in izraža prispevek m faktorjev k pojasnitvi variance za spremenljivko zi. Delež nepojasnjene<br />

variance, če upoštevamo le m faktorjev, je 1 - 2<br />

h i . Ena pomembnih nalog pri uporabi<br />

faktorske analize je določiti primerno vrednost za m.<br />

Vsoto kvadratov faktorskih uteži za j-ti faktor imenujemo lastna vrednost λi. Izraža tisti del<br />

celotne variance, ki je pojasnjena z j-tim faktorjem. Njena vrednost je določena z:<br />

a 2<br />

j<br />

1 + a 2<br />

2 j + … + a 2<br />

kj = λj<br />

Pri metodi glavnih komponent so faktorji določeni tako, da prvi pojasni največji del celotne<br />

variance, drugi faktor največji del s prvim faktorjem še nepojasnjene variance itd., zato velja:<br />

λ1 > λ2 > … > λk<br />

Ker je celotna varianca enaka<br />

k<br />

k<br />

2<br />

∑∑a = ∑ 1 = k<br />

ij<br />

i=<br />

1 j=<br />

1 i=<br />

1<br />

k<br />

45


je odstotek celotne variance, ki je pojasnjen z j-tim faktorjem določen z:<br />

λ<br />

100<br />

j<br />

k<br />

Za nadaljnjo analizo izrazimo faktorje še kot funkcije spremenljivk zj j=1, 2, …, r. Tako<br />

izrazimo j-ti faktor z:<br />

Fj = c1jz1 + c2jz2 + … + ckj zk<br />

Druga faza faktorske analize se zaključi z določitvijo števila faktorjev (glavnih komponent),<br />

ki jih bomo upoštevali v nadaljnjih analizah. Pri tem je možno uporabiti različna pravila. Ta<br />

temeljijo na:<br />

a) izkušnjah, ki pomagajo raziskovalcu pri vnaprejšnji oceni števila faktorjev, ki bodo<br />

pojasnili čim večji delež variance;<br />

b) lastni vrednosti λj , j = 1, 2, … , k. Pri tem pristopu se vključijo v nadaljnjo analizo le tisti<br />

faktorji, ki jim pripada lastna vrednost, ki je večja od ena.<br />

c) diagramu lastnih vrednosti, ki ga dobimo, če na absciso nanašamo rang faktorjev, na<br />

ordinato pa njihove lastne vrednosti. Oblika tako dobljenega linijskega grafikona nam<br />

omogoča določiti ustrezno število faktorjev. V nadaljnji analizi upoštevamo le faktorje z<br />

lastno vrednostjo, ki je večja od tiste, ki je na prelomu linije. Običajno je število faktorjev,<br />

določeno s tem pristopom, večje od števila, ki ga dobimo z uporabo v točki b opisanega<br />

pristopa;<br />

d) odstotku pojasnjene celotne variance; število faktorjev je odvisno od vnaprej predpisanega<br />

odstotka celotne variance, ki naj bo pojasnjen z izbranim številom faktorjev. Od vsebine<br />

problema je odvisen predpisan odstotek celotne variance, vendar strokovnjaki priporočajo<br />

naj bo le-ta vsaj 60 %;<br />

e) statističnem testu značilnosti faktorjev, ki temelji na ugotavljanju statistične značilnosti<br />

lastnih vrednosti. V nadaljnji analizi obdržimo faktorje, ki jim pripadajo statistično<br />

značilne lastne vrednosti. Ta pristop da slabo izbiro pri velikih vzorcih (n > 200), saj so<br />

pri le-teh statistično značilne tudi lastne vrednosti manjše od ena.<br />

V tretji fazi opredelimo vsebinski pomen izbranih faktorjev. Pri tem <strong>si</strong> pomagamo s<br />

faktorskimi utežmi aij. Te izražajo moč zveze med i-to spremenljivko in j-tim faktorjem.<br />

Vsebinski pomen j-tega faktorja zato določa spremenljivka oziroma spremenljivke z visoko<br />

vrednostjo faktorske uteži. Vsebinsko pojasnjevanje j-tega faktorja pa je oteženo, če je ta<br />

močno koreliran z vsemi ali večino spremenljivk, ki imajo visoke faktorske uteži tudi pri<br />

drugih faktorjih. Zato je v večini primerov potrebna še rotacija faktorjev, ki da enostavnejšo<br />

faktorsko strukturo. Za njo je značilno, da vsakemu faktorju pripada ena ali manjše število<br />

uteži z veliko vrednostjo, vrednosti drugih faktorskih uteži pri tem faktorju pa so zelo majhne.<br />

Nadaljnja pomembna lastnost te strukture je, da ima vsaka spremenljivka le eno faktorsko<br />

utež z visoko vrednostjo. Z rotacijo faktorjev se ne spremenijo vrednosti komunalitet in<br />

odstotek pojasnjene celotne variance z izbranim številom faktorjev, spremenijo pa se lastne<br />

vrednosti izbranih faktorjev in s tem tudi odstotek s posameznim faktorjem pojasnjene<br />

variance.<br />

Najbolj pogosto uporabljena analitična metoda, ki da enostavnejšo faktorsko strukturo, je<br />

varimax metoda. Je ortogonalna metoda, ki zagotavlja medsebojno neodvisnost rotiranih<br />

faktorjev. Če iz teorije izhaja, da faktorji utegnejo biti med seboj odvisni, uporabimo eno od<br />

oblique rotacij.<br />

46


Primer 6.2<br />

Pri proučevanju odvisnosti med načinom preživljanja prostega časa in nakupnim obnašanjem<br />

želimo upoštevati tudi mnenje potencialnih potrošnikov o naslednjih trditvah:<br />

V1: Raje bi preživel-a miren večer doma, kot odšel(a) na zabavo.<br />

V2: Vedno preverim ceno izdelka, tudi za izdelke z nizko ceno.<br />

V3: Branje revij je zanimivejše od gledanja televizije.<br />

V4: Odločitve o nakupu izdelka ne sprejemam pod vplivom oglaševanja.<br />

V5: Najraje sem doma.<br />

V6: Hranim in unovčim kupone za popust pri ceni.<br />

V7: Podjetja potrošijo preveč denarja za oglaševanje.<br />

Zastavljene trditve smo testirali na vzorcu 25 anketirancev. Njihovo mnenje o vsaki trditvi<br />

smo merili na intervalni skali od 1 do 7 (1 pomeni popolno nestrinjanje, 7 pa popolno<br />

strinjanje s trditvijo). S programom SPSS smo izvedli faktorsko analizo in dobili naslednje<br />

rezultate.<br />

V razpredelnici 6.2 je podana korelacijska matrika, ki omogoča analizo odvisnosti med<br />

spremenljivkami. Iz velikosti korelacijskih koeficientov ugotovimo, da obstaja srednje močna<br />

odvisnost med spremenljivkami V1, V3 in V5, med spremenljivkama V2 in V6, med<br />

spremenljivkama V3 in V7 ter spremenljivkama V4 in V7.<br />

Razpredelnica 6.2. Korelacijska matrika<br />

Correlation<br />

V1<br />

V2<br />

V3<br />

V4<br />

V5<br />

V6<br />

V7<br />

Correlation Matrix<br />

V1 V2 V3 V4 V5 V6 V7<br />

1.000 -.004 .628 .082 .675 -.100 -.338<br />

-.004 1.000 .151 -.248 .048 .582 -.251<br />

.628 .151 1.000 -.182 .480 .090 -.588<br />

.082 -.248 -.182 1.000 .272 .017 .469<br />

.675 .048 .480 .272 1.000 -.110 -.082<br />

-.100 .582 .090 .017 -.110 1.000 .014<br />

-.338 -.251 -.588 .469 -.082 .014 1.000<br />

Analiza odvisnosti med spremenljivkami kaže na smiselnost uporabe faktorske analize, kar<br />

potrjujeta še Bartlettov test sferičnosti in Kaiser-Meyer-Olkinov kazalec (KMO). Izidi teh<br />

dveh testov so podani v razpredelnici 6.3. Vrednost kazalca KMO je večja od 0,5 in s<br />

tveganjem manjšim od 0,05 smemo zavrniti ničelno domnevo, da je korelacijska matrika<br />

enaka matriki enote (Bartlettov test sferičnosti).<br />

Razpredelnica 6.3. KMO in Bartlettov test<br />

KMO and Bartlett's Test<br />

Kaiser-Meyer-Olkin Measure of Sampling Adequacy.<br />

Bartlett's Test of Sphericity<br />

47<br />

Approx. Chi-Square<br />

df<br />

Sig.<br />

.550<br />

57.994<br />

21<br />

.000


V drugem stolpcu razpredelnice 6.4 so podane lastne vrednosti za posamezne faktorje. Prvi<br />

trije faktorji imajo lastno vrednost večjo od ena. Največja lastna vrednost pripada prvemu<br />

faktorju in je enaka 2,485. Z njim je pojasnjene 35,505 % celotne variance, z drugim<br />

faktorjem 26,013 % in 19,131 % s tretjim. Odstotek celotne variance, pojasnjen s prvim<br />

faktorjem je enak:<br />

2,<br />

485<br />

100 = 35,<br />

5%<br />

7<br />

Celotna varianca enaka številu spremenljivk, to je 7 v našem primeru. S prvimi tremi faktorji<br />

je pojasnjeno 80,649 % celotne variance.<br />

Razpredelnica 6.4. Lastne vrednosti in pojasnjena varianca<br />

Initial Eigenvalues Extraction Sums of Squared Loadings<br />

Component<br />

Total<br />

% of<br />

Variance<br />

Cumulative<br />

%<br />

Total % of<br />

Variance<br />

Cumulative<br />

%<br />

1 2.485 35.505 35.505 2.485 35.505 35.505<br />

2 1.821 26.013 61.518 1.821 26.013 61.518<br />

3 1.339 19.131 80.649 1.339 19.131 80.649<br />

4 .508 7.258 87.907<br />

5 .376 5.373 93.280<br />

6 .279 3.990 97.270<br />

7 .191 2.730 100.000<br />

S faktorsko analizo želimo določiti manjše število faktorjev kot je število spremenljivk. Zato<br />

je pri izvajanju faktorske analize pomembna odločitev o številu faktorjev, ki jih bomo<br />

upoštevali v nadaljnjih analizah.<br />

Če pri tej odločitvi uporabimo pravilo lastne vrednosti, bi se v obravnavanem primeru odločili<br />

za prve tri faktorje, ki imajo lastno vrednost večjo od 1. Ti bi bili izbrani tudi po pravilu<br />

celotne pojasnjene variance, saj je z njimi pojasnjene 80,649 % celotne variance, kar je več od<br />

predpisanega minimalnega odstotka (več kot 60 %). Na tri faktorje kaže tudi diagram lastnih<br />

vrednosti, prikazan na sliki 6.3, saj je prelom linije pri k = 4. Po tem pravilu namreč zadržimo<br />

tiste faktorje, ki imajo večjo lastno vrednost kot faktor, ki leži na prelomu.<br />

Slika 6.2. Diagram lastnih vrednosti<br />

Eigenvalue<br />

3.0<br />

2.5<br />

2.0<br />

1.5<br />

1.0<br />

.5<br />

0.0<br />

1<br />

Scree Plot<br />

2<br />

Component Number<br />

3<br />

4<br />

5<br />

6<br />

7<br />

48


V razpredelnici 6.5 so za prve tri faktorje podane faktorske uteži. Kažejo moč odvisnosti med<br />

2<br />

i-to spremenljivko in j-tim faktorjem. Kvadrat faktorske uteži a ij pa kaže del celotne variance<br />

i-te spremenljivke, ki je pojasnjena z j-tim faktorjem.<br />

Razpredelnica 6.5. Faktorske uteži<br />

V1<br />

V2<br />

V3<br />

V4<br />

V5<br />

V6<br />

V7<br />

Component Matrix a<br />

1<br />

Component<br />

2 3<br />

.817 .378 8.69E-02<br />

.279 -.714 .457<br />

.887 -2.7E-02 -4.3E-02<br />

-.204 .634 .597<br />

.664 .505 .329<br />

5.01E-02 -.604 .689<br />

-.684 .383 .426<br />

Extraction Method: Principal Component Analy<strong>si</strong>s.<br />

a. 3 components extracted.<br />

Komunalitete so podane v stolpcu »Extraction« razpredelnice 6.6. Njihove vrednosti povedo<br />

odstotek variance spremenljivke, ki je pojasnjena s prvimi tremi faktorji.<br />

Razpredelnica 6.6. Komunalitete<br />

V1<br />

V2<br />

V3<br />

V4<br />

V5<br />

V6<br />

V7<br />

Communalities<br />

Initial Extraction<br />

1.000 .818<br />

1.000 .796<br />

1.000 .790<br />

1.000 .800<br />

1.000 .805<br />

1.000 .841<br />

1.000 .796<br />

Extraction Method: Principal Component Analy<strong>si</strong>s.<br />

S faktorskimi utežmi, podanimi v razpredelnici 6.5, ni podana enostavna faktorska struktura,<br />

ki bi olajšala vsebinsko pojasnitev posameznih faktorjev. Zato z rotacijo faktorjev poiščemo<br />

enostavnejšo strukturo. To storimo z varimax metodo. Zaradi rotacije faktorjev se spremenijo<br />

njihove lastne vrednosti in delež s posameznim faktorjem pojasnjene celotne variance, ne<br />

spremeni pa se delež pojasnjene celotne variance z obdržanimi faktorji. Spremenjene lastne<br />

vrednosti in pripadajoči deleži pojasnjene celotne variance so podani v razpredelnici 6.7.<br />

Razpredelnica 6.7. Lastne vrednosti in pojasnjene variance po rotaciji<br />

Component<br />

Rotation Sums of Squared Loadings<br />

Total % of Variance Cumulative %<br />

1 2.315 33.076 33.076<br />

2 1.731 24.729 57.805<br />

3 1.599 22.844 80.649<br />

49


S primerjavo lastnih vrednosti, podanih v razpredelnici 6.7 in 6.4, ugotovimo zmanjšanje<br />

lastne vrednosti pri prvem in drugem faktorju ter povečanje pri tretjem. Tudi po rotaciji je s<br />

prvimi tremi faktorji pojasnjene 80,649 % celotne variance. Faktorske uteži, dobljene z<br />

metodo varimax, so podane v razpredelnici 6.8. Čim višja je vrednost faktorske uteži, tem več<br />

pripadajoča spremenljivka prispeva k pojasnitvi celotne variance. V obravnavanem primeru<br />

imajo spremenljivke V1, V3 in V5 visoke faktorske uteži pri prvem faktorju. Te spremenljivke<br />

torej pojasnjujejo vsebino prvega faktorja, ki po rotaciji pojasnjuje 33,076 % celotne variance.<br />

Upoštevajoč vsebino teh spremenljivk, bi prvi faktor lahko poimenovali »način preživljanja<br />

prostega časa«. Spremenljivke V4 in V7 imajo visoke faktorske uteži pri drugem faktorju, zato<br />

bi ga lahko poimenovali z »oglaševanje«. Ta faktor pojasni 24,729 % celotne variance. Tretji<br />

faktor, ki pojasni 22,844 % celotne variance, ima visoke faktorske uteži pri spremenljivkah V2<br />

in V6. Poimenovali bi ga lahko s »cena in popusti«.<br />

Razpredelnica 6.8. Faktorske uteži dobljene z varimax metodo<br />

V1<br />

V2<br />

V3<br />

V4<br />

V5<br />

V6<br />

V7<br />

Rotated Component Matrix a<br />

1<br />

Component<br />

2 3<br />

.897 -8.2E-02 -7.6E-02<br />

4.86E-02 -.232 .860<br />

.762 -.440 .125<br />

.214 .867 -5.2E-02<br />

.868 .224 -1.7E-02<br />

-5.7E-02 9.06E-02 .911<br />

-.351 .817 -7.3E-02<br />

Extraction Method: Principal Component Analy<strong>si</strong>s.<br />

Rotation Method: Varimax with Kaiser Normalization.<br />

a.<br />

Rotation converged in 4 iterations.<br />

50


Kazalo slik<br />

Slika 2.1. Normalna porazdelitev............................................................................................... 8<br />

Slika 2.2. Histogram in krivulja normalne porazdelitve za spremenljivko K4 ........................ 10<br />

Slika 3.1. Kla<strong>si</strong>fikacija univariatnih statističnih metod............................................................ 12<br />

Slika 3.2. Kla<strong>si</strong>fikacija multivariatnih statističnih metod ........................................................ 13<br />

Slika 6.2. Razsevni grafikon .................................................................................................... 37<br />

Slika 6.1. Dendrogram ............................................................................................................. 43<br />

Slika 6.3. Diagram lastnih vrednosti ........................................................................................ 48<br />

Kazalo razpredelnic<br />

Razpredelnica 2.1. Statistike za spremenljivko K4.................................................................... 9<br />

Razpredelnica 2.2. Frekvenčna in kumulativna porazdelitev za spremenljivko K4 ............... 10<br />

Razpredelnica 2.3. Standardizirane vrednosti spremenljivke ocena učbenika......................... 11<br />

Razpredelnica 3.1. <strong>Metode</strong> za proučevanje odvisnosti med spremenljivkami ........................ 13<br />

Razpredelnica 4.1. Ničelna domneva ter raziskovalne domneve............................................. 14<br />

Razpredelnica 4.2. Ničelna domneva in zaključki ................................................................... 15<br />

Razpredelnica 4.3. Vzorčni podatki o porabi pijače na dan (v k.e.) ......................................... 17<br />

Razpredelnica 4.4. Podatki o številu opravljenih nalog........................................................... 18<br />

Razpredelnica 4.5. Prodaja po izvedbi oglaševalskih akcij ..................................................... 19<br />

Razpredelnica 4.6. Rezultati Kolmogorov-Smirnovega in Shapiro-Wilkovega testa.............. 21<br />

Razpredelnica 4.7. Podatki in rangi ......................................................................................... 23<br />

Razpredelnica 4.8. Rangi in testne statistike............................................................................ 23<br />

Razpredelnica 4.9. Testne statistike ......................................................................................... 24<br />

Razpredelnice 4.10. Rezultati Wilcoxon <strong>si</strong>gned-rank test za drugo skupino podjetij.............. 25<br />

Razpredelnice 4.11. Rezultati Wilcoxon <strong>si</strong>gned-rank test za prvo skupino podjetij................ 26<br />

Razpredelnica 6.1. Članstvo v skupinah .................................................................................. 43<br />

Razpredelnica 6.2. Korelacijska matrika.................................................................................. 47<br />

Razpredelnica 6.3. KMO in Bartlettov test.............................................................................. 47<br />

Razpredelnica 6.4. Lastne vrednosti in pojasnjena varianca.................................................... 48<br />

Razpredelnica 6.5. Faktorske uteži .......................................................................................... 49<br />

Razpredelnica 6.6. Komunalitete ............................................................................................. 49<br />

Razpredelnica 6.7. Lastne vrednosti in pojasnjene variance po rotaciji .................................. 49<br />

Razpredelnica 6.8. Faktorske uteži dobljene z varimax metodo.............................................. 50<br />

51

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!