11.07.2015 Views

Statistika - radni materijali - Odjel za matematiku

Statistika - radni materijali - Odjel za matematiku

Statistika - radni materijali - Odjel za matematiku

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Mirta BenšićNenad Šuvak<strong>Statistika</strong> - <strong>radni</strong> <strong>materijali</strong>Sveučilište J. J. Strossmayera u Osijeku<strong>Odjel</strong> <strong>za</strong> <strong>matematiku</strong>Osijek, 21. prosinca 2010.


Sadržaj1 Uvod 42 Prikupljanje i organi<strong>za</strong>cija podataka 72.1 Populacija i uzorak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 Izvori podataka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3 Tipovi varijabli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3.1 Kvalitativne varijable . . . . . . . . . . . . . . . . . . . . . . . . 92.3.2 Numeričke varijable . . . . . . . . . . . . . . . . . . . . . . . . . 93 Deskriptivna statistika 143.1 Metode opisivanja kvalitativnih podataka . . . . . . . . . . . . . . . . . 143.1.1 Tablični prikaz frekvencija i relativnih frekvencija . . . . . . . . 163.1.2 Grafički prikazi frekvencija i relativnih frekvencija . . . . . . . . 183.2 Metode opisivanja numeričkih podataka . . . . . . . . . . . . . . . . . . 223.2.1 Postupak razvrstavanja numeričkih podataka u kategorije . . . . 313.2.2 Mjere centralne tendencije i raspršenosti podataka . . . . . . . . 353.2.3 Detekcija stršećih vrijednosti . . . . . . . . . . . . . . . . . . . . 423.3 Domaća <strong>za</strong>daća 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454 Slučajna varijabla 474.1 Definicija slučajne varijable . . . . . . . . . . . . . . . . . . . . . . . . 474.2 Vjerojatnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.2.1 Uobičajene oznake i nazivi . . . . . . . . . . . . . . . . . . . . . 514.2.2 Klasična metoda modeliranja vjerojatnosti . . . . . . . . . . . . 524.2.3 Statistička metoda modeliranja vjerojatnosti . . . . . . . . . . . 554.2.4 Neka svojstva vjerojatnosti . . . . . . . . . . . . . . . . . . . . . 574.3 Diskretna slučajna varijabla . . . . . . . . . . . . . . . . . . . . . . . . 604.4 Empirijska distribucija diskretne slučajne varijable . . . . . . . . . . . . 634.5 Kontinuirana (neprekidna) slučajna varijabla . . . . . . . . . . . . . . . 664.6 Mjere centralne tendencije i raspršenosti slučajne varijable . . . . . . . 734.7 Važni primjeri diskretnih i neprekidnih slučajnih varijabli . . . . . . . . 764.7.1 Bernoullijeva slučajna varijabala . . . . . . . . . . . . . . . . . . 764.7.2 Binomna slučajna varijabla . . . . . . . . . . . . . . . . . . . . 762


Uvod 34.7.3 Normalna slučajna varijabala . . . . . . . . . . . . . . . . . . . 804.8 Empirijska distribucija slučajne varijable . . . . . . . . . . . . . . . . . 824.9 Zadaci <strong>za</strong> vježbu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 835 Statističko <strong>za</strong>ključivanje o jednoj slučajnoj varijabli 855.1 Procjena distribucije, očekivanja i varijance . . . . . . . . . . . . . . . . 855.2 Procjena očekivanja intervalom <strong>za</strong>dane pouzdanosti <strong>za</strong> velike uzorke . . 905.3 Procjena proporcije intervalom <strong>za</strong>dane pouzdanosti . . . . . . . . . . . 935.4 Testiranje hipote<strong>za</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 975.4.1 Pogreške statističkog testa . . . . . . . . . . . . . . . . . . . . . 985.5 Testiranje hipote<strong>za</strong> o očekivanju <strong>za</strong> velike uzorke . . . . . . . . . . . . . 985.6 Testiranje hipote<strong>za</strong> o vjerojatnosti događaja <strong>za</strong> velike uzorke . . . . . . 1025.7 Testiranje hipote<strong>za</strong> o distribuciji općenito . . . . . . . . . . . . . . . . . 1045.7.1 Kako saznati da li podaci dolaze iz normalne distribucije? . . . 1056 Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 1076.1 Statističko <strong>za</strong>ključivanje o razlikama u distribuciji između dvije varijable1076.2 Usporedba očekivanja — neve<strong>za</strong>ni uzorci . . . . . . . . . . . . . . . . . 1106.2.1 Veliki uzorci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1106.2.2 Mali uzorci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1106.3 Usporedba očekivanja — uzorci u paru . . . . . . . . . . . . . . . . . . 1156.4 Usporedba proporcija u velikim uzorcima . . . . . . . . . . . . . . . . . 1186.5 Dvodimenzionalan slučajan vektor . . . . . . . . . . . . . . . . . . . . . 1196.5.1 Tablica distribucije . . . . . . . . . . . . . . . . . . . . . . . . . 1196.5.2 Uvjetne distribucije. Ne<strong>za</strong>visnost . . . . . . . . . . . . . . . . . 1226.6 Anali<strong>za</strong> kategoriziranih podataka . . . . . . . . . . . . . . . . . . . . . 1246.7 Jednostavna linearna regresija . . . . . . . . . . . . . . . . . . . . . . . 1266.7.1 Regresijski pravac . . . . . . . . . . . . . . . . . . . . . . . . . . 1276.8 Koeficijent korelacije . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1336.9 Zadaci <strong>za</strong> vježbu - jedostavna linearna regresija . . . . . . . . . . . . . 134


Poglavlje 1UvodKorištenje riječi statistika u svakodnevnom životu najčešće je pove<strong>za</strong>no s brojčanimvrijednostima kojima pokušavamo opisati bitne karakteristike nekog skupa podataka.Na službenim web stranicama Državnog <strong>za</strong>vod <strong>za</strong> statistiku Republike Hrvatske možemopročitati (http://www.dzs.hr/ dana 6.6.2009):Prosječna mjesečna isplaćena neto plaća po <strong>za</strong>poslenome u pravnim osobama RepublikeHrvatske <strong>za</strong> srpanj 2009. iznosila je 5 308 kuna.Minimalna plaća <strong>za</strong> razdoblje od 1. lipnja 2009. do 31. svibnja 2010. u RepubliciHrvatskoj iznosi 2 814,00 kuna.Stopa registrirane ne<strong>za</strong>poslenosti <strong>za</strong> kolovoz 2009. iznosila je 14,2%.Udio aktivnog stanovništva u radno sposobnom (stopa aktivnosti) iznosi 48%, istovremeno43,7% radno sposobnih osoba je <strong>za</strong>posleno (stopa <strong>za</strong>poslenosti), a8,9% radne snage je ne<strong>za</strong>posleno (stopa ne<strong>za</strong>poslenosti).Temelj statistike, kao znanstvene discipline, kao i svih istraživanja koja se koristestatističkim metodama <strong>za</strong>ista čine skupovi podataka.<strong>Statistika</strong>, kao znanstvena disciplina, bavi se razvojem metoda prikupljanja,opisivanja i analiziranja podataka te primjenom tih metoda uprocesu donošenja <strong>za</strong>ključaka na temelju prikupljenih podataka.Statističko istraživanje fokusirano je na skup objekata, tj. jedinki (ljudi, životinja,biljaka, stvari, država, gradova, poduzeća, itd.) i skup odabranih veličina koje se nanjima promatraju. Veličine koje se na jednikama promatraju zovemo varijablama.Sve jedinke koje se žele obuhvatiti istraživanjem, tj. o kojima se želi <strong>za</strong>ključivati, činepopulaciju.Primjer 1.1 Bavimo se istraživanjem uspjeha iz kolegija statistika na Učiteljskom fakultetuu Osijeku, u generaciji 2009./2010.4


Uvod 5jedinke:varijabla:osobe, imenom i prezimenom ili nekom šifromocjena iz statistikeU ovom primjeru navedena je samo jedna varijabla koja se analizira na jedinkamapopulacije, tj. uspjeh iz statistike. Međutim, često nas <strong>za</strong>nima nekoliko varijabli i/iliveze među njima. Npr. želimo li ispitati ovisi li uspjeh iz statistike u prethodnomprimjeru o spolu, potrebno je u istraživanju populacije <strong>za</strong> svaku jedinku <strong>za</strong>bilježitii vrijednost varijable spol (M ili Ž); želimo li ispitati ovisi li uspjeh iz statistike opripadnosti pojedinoj grupi vježbi, potrebno je <strong>za</strong> svaku jedinku <strong>za</strong>bilježiti koju grupuvježbi je pohađala. Zbog preglednosti, prikupljene podatke prikazujemo tablično takoda jedan redak odgovara određenoj jedinki, a stupac jednoj varijabli.Primjer 1.2 Bavimo se istraživanjem uspjeha iz kolegija statistika na Učiteljskom fakultetuu Osijeku, u generaciji 2009./2010. u ovisnosti o spolu ispitanika i grupi vježbikoju student pohađa. Tablicu <strong>za</strong> bilježenje prikupljenih podataka treba organizirati nasljedeći način:matični broj studenta ocjena iz statistike spol grupa vježbi1206 5 Ž A1326 2 Ž B942 4 Ž C....U prethodnim primjerima nije problem istražiti cijelu populaciju obzirom da na Učiteljskomfakultetu u Osijeku, u generaciji 2009./2010. ima 81 upisan student. Međutim, istražujemoli, prije izbora <strong>za</strong> predsjednika neke države, preferencije građana premanekom od kandidata, ne možemo ispitati sve osobe populacije (tj. sve državljane kojiimaju pravo glasa) jer bi to bilo ekvivalentno provođenju izbora. Kada nije mogućeistražiti veličine koje nas <strong>za</strong>nimaju na svim jedinkama populacije potrebno je iz populacijeizdvojiti uzorak na kojemu će biti prikupljeni podaci. Obzirom da se o cijelojpopulaciji želi <strong>za</strong>ključivati na temelju podataka prikupljenih na uzorku, <strong>za</strong> istraživanjeje vrlo važno znati kako kreirati kvalitetan uzorak.Primjena statistike u istraživanju podrazumijeva da se u pripremi istraživanja i<strong>za</strong>branogproblema poštuju sljedeća pravila:• Populaciju koja je predmet istraživanja potrebno je detaljno proučiti, <strong>za</strong>bilježitinjene osnovne karakteristike i ciljeve istraživanja, kreirati kvalitetan uzorak iodabrati metodu <strong>za</strong> prikupljanje podataka.• I<strong>za</strong>brati prikladne metode <strong>za</strong> opis skupa prikupljenih podataka (deskriptivnastatistika).


Uvod 6• I<strong>za</strong>brati prikladne statističke metode <strong>za</strong> <strong>za</strong>ključivanje o populaciji na temaljuprikupljenih podataka na uzorku.Sukladno ovim razmatranjima, u ovom kolegiju ćemo se baviti nekim metodamaprikupljanja podataka i kreiranja uzorka, metodama deskriptivne statistike i metodamastatističkog <strong>za</strong>ključivanja. Obzirom da se metode kojima se kreira uzorak i metodestatističkog <strong>za</strong>ključivanja temelje na poznavanju osnovnih pojmova teorije vjerojatnosti,u kolegiju ćemo također navesti temeljne pojmove i <strong>za</strong>kone teorije vjerojatnostipotrebne <strong>za</strong> razumijevanje osnovnog statističkog aparata.


Poglavlje 2Prikupljanje i organi<strong>za</strong>cija podataka2.1 Populacija i uzorakPopulaciju čine sve jedinke koje su predmet istraživanjaPrimjer 2.1 Istražujemo prehrambene navike i razlike u prehrambenim navikama izmeđustanovnika Slavonije i Baranje i stanovnika Dalmacije. Populaciju čine svi stanovniciSlavonije, Baranje i Dalmacije. Međutim, ako nas <strong>za</strong>nimaju samo prehrambene navikestudenata iz tih područja, onda populaciju čine samo studenti iz Slavonije, Baranje iDalmacije.Uzorak je podskup jedinki iz populacijeDa bi <strong>za</strong>ključci prilikom istraživanja o populaciji, na temelju podataka iz uzorka, biliispravni, nužno je da uzorak bude REPREZENTATIVAN, tj. u njemu moraju biti<strong>za</strong>stupljne sve tipične karakteristike populacije bitne <strong>za</strong> istraživanje.Primjer 2.2 U prethodnom primjeru, ako populaciju čine svi stanovnici Slavonije, Baranjei Dalmacije, onda ne možemo istraživanje provesti samo na uzorku djece koja pohađajusrednju školu. To bi nam možda bilo praktično, ali takav uzorak nije reprezentativan<strong>za</strong> <strong>za</strong>ključivanje o cijeloj populaciji.Jedan od načina izbora jedinki iz populacije u uzorak je temeljen na formiranju takozvanogslučajnog uzorka.Slučajan uzorak iz populacije formira se tako da svaka jedinka populacijeima jednaku vjerojatnost (šansu) da uđe u uzorak.Obzirom da se u gornjoj definiciji pojavljuje pojam vjerojatnost, metodu formiranjaslučajnog uzorka ostavljamo <strong>za</strong> sljedeća poglavlja, nakon što pojasnimo pojamvjerojatnosti.7


Prikupljanje i organi<strong>za</strong>cija podataka 82.2 Izvori podataka• Podaci iz javnih izvora (knjige, časopisi, novine, web).• Podaci iz di<strong>za</strong>jniranog eksperimenta (Istraživač raspoređuje eksperimentalnejedinke u skupine nad kojima vrši eksperimente te bilježi podatke <strong>za</strong> varijablekoje ga <strong>za</strong>nimaju).Primjer 2.3 Jedno medicinsko istraživanje proučava snagu nekog lijeka u prevencijimoždanog udara. Skupinu ljudi s kojima će se vršiti istraživanje istraživačdijeli na dvije skupine: tretiranu i kontrolnu. Ljudima u tretiranoj skupini dajese lijek, dok se ljudima u kontrolnoj skupini daje nadomjestak koji izgleda istokao lijek ali <strong>za</strong>pravo nije ništa što može imati bilo kakav utjecaj na organi<strong>za</strong>m.• Podaci iz ankete.Istraživač sastavlja anketni upitnik, i<strong>za</strong>bire skupinu ljudi koju anketira i naosnovu njihovih odgovora prikuplja podatke.• Podaci prikupljeni promatranjem.Istraživač promatra eksperimentalne jedinke u njihovom prirodnom okruženju ibilježi podatke <strong>za</strong> varijable od interesa.Primjer 2.4 (stanovnistvo.xls; stanovnistvo.sta)Pretpostavimo da želite saznati starosnu strukturu (prema godinama starosti) stanovništvau svom Osijeku te da ste u tu svrhu počeli s prikupljanjem podataka (u ovom konkretnomprimjeru podatke prikupljate usmenom anketom). Dobivene podatke organiziramou bazu koja sadrži četiri varijable:• osnovna škola - varijabla koja sadrži podatke o godinama starosti <strong>za</strong> pedeset slučajnoodabranih učenika vama najbliže osnovne škole u Osijeku,• fakultet - varijabla koja sadrži podatke o godinama starosti <strong>za</strong> pedeset slučajnoodabranih studenata fakulteta na kojem i sami studirate,• gradska knjižnica - varijabla koja sadrži podatke o godinama starosti <strong>za</strong> pedesetslučajno odabranih posjetitelja gradske knjižnice,• telefonska anketa - varijabla koja sadrži podatke o godinama starosti <strong>za</strong> pedesetosoba čiji smo telefonski broj slučajno odabrali u imeniku.Zadatak 2.1 Nakon kratke analize baze podataka stanovnistvo.sta komentirajte reprezentativnostuzorka. Razmislite o mogućim načinima prikupljanja podataka kojima bikreirali reprezentativan uzorak (<strong>za</strong> starosnu strukturu) iz populacije stanovnika Osijeka.


Prikupljanje i organi<strong>za</strong>cija podataka 92.3 Tipovi varijabli2.3.1 Kvalitativne varijableVrijednosti kvalitativnih varijabli svrstavamo u kategorije.Primjer 2.5 Sljedeće varijable su kvalitativnog tipa:• radna mjesta u školi (spremačica, domar, tajnik, nastavnik, pedagog, ravnatelj),• opisne ocjene (ništa, malo, srednje, puno),• krvne grupe (A, B, AB, 0),• spol (m ili ž).2.3.2 Numeričke varijableVrijednosti numeričke varijable su elementi skupa realnih brojeva.Primjer 2.6 Sljedeće varijable su numeričkog tipa:• broj ulovljenih komaraca u klopku,• postotak prolaznosti na pojedinim ispitima u toku jedne akademske godine,• temperatura mora,• broj bodova na državnoj maturi iz matematike.Među numeričkim varijablama razlikujemo diskretne i kontinuirane varijable.Diskretne varijable mogu poprimiti samo konačno ili prebrojivo mnogovrijednostiPrimjer 2.7 Sljedeće numeričke varijable su diskretne:• broj ulovljenih komaraca u klopku,• broj dana u godini s temperaturom zraka većom od 35 o C.Skup mogućih vrijednosti kontinuiranih numeričkih varijabli je cijeliskup realnih brojeva ili neki interval.Primjer 2.8 Sljedeće numeričke varijable su kontinuirane:• postotak prolaznosti na pojedinim ispitima u toku jedne akademske godine,• temperatura mora,• vodostaj neke rijeke.


Prikupljanje i organi<strong>za</strong>cija podataka 10Primjer 2.9 (auti.sta)Ba<strong>za</strong> podataka sastoji se od dvije varijable:• auti - diskretna numerička varijabla koja sadrži podatke o broju prodanih automobilapo danu <strong>za</strong> sto promatranih dana,• uspješnost dana - kvalitativna varijabla koja podatke iz varijable auti klasificira upet kategorija (svaka kategorija je jedan konačan skup) na sljedeći način:Broj prodanih automobila Pridružena kategorija0 - 4 15 - 8 29 - 12 313 - 16 4više od 17 5Primjer 2.10 (gluko<strong>za</strong>.sta)Ba<strong>za</strong> podataka sastoji se od tri varijable:• dob osobe - diskretna numerička varijabla koja sadrži podatke o godinama starosti<strong>za</strong> sto promatranih osoba,• koncentracija glukoze - kontinuirana numerička varijabla koja sadrži podatke okoncentraciji glukoze u krvi <strong>za</strong> svaku od sto promatranih osoba,• kategorija - kvalitativna varijabla koja podatke iz varijable koncentracija glukozeklasificira u dvije kategorije (svaka kategorija je jedan interval pozitivnih realnihbrojeva) na sljedeći način:Interval koncentracije glukozekoncentracija < 6 mMol/Lkoncentracija ≥ 6 mMol/LPridružena kategorijaN - normalna koncentracijaP - povišena koncenracijaPrimjer 2.11 (kolegij.sta)Ba<strong>za</strong> podataka sastoji se od sedam varijabli:• godina upisa - kvalitativna varijabla koja sadrži podatke o akademskoj godiniupisa na studij <strong>za</strong> sto promatranih studenata,• kategorija - kvalitativna varijabla koja podatke iz varijable godina upisa klasificirau tri kategorije (svaka kategorija je jedan konačan skup) na sljedeći način:Akademska godina upisaPridružena kategorijastudent upisan prije 1990. godine 1student upisan 1990., 1991. ili 1992. godine 2student upisan 1993. ili 1994. godine 3


Prikupljanje i organi<strong>za</strong>cija podataka 11• opća kemija, organska kemija, anorganska kemija, mikrobiologija - četiri diskretnenumeričke varijable koje sadrže podatke o postignutim ocjenama na ispitima izspomenutih kolegija <strong>za</strong> svakog od sto promatranih studenata,• prosjek - kontinuirana numerička varijabla koja sadrži prosječne ocjene iz četirispomenuta kolegija <strong>za</strong> svakog od sto promtranih studenata.Primjer 2.12 (student.sta, student-grupe.sta)Ba<strong>za</strong> podataka student.sta sastoji se od dvije varijabli:• klasično studiranje - diskretna numerička varijabla koja sadrži podatke o godinamastarosti <strong>za</strong> grupu promatranih studenata koji studiraju na klasičan način(stanuju u gradu u kojem studiraju ili putuju na predavanja),• e-learning - diskretna numerička varijabla koja sadrži podatke o godinama starosti<strong>za</strong> grupu promatranih studenata koji studiraju putem Interneta (tzv. e-learning).Ba<strong>za</strong> podataka student-grupe.sta sastoji se od dvije varijabli:• dob studenta - diskretna numerička varijabla koja sadrži podatke o godinamastarosti <strong>za</strong> sto promatranih studenata koji studiraju ili na klasičan način iliputem Interneta,• način studiranja - kvalitativna varijabla koja podatke iz varijable dob studentaklasificira u dvije kategorije prema sljedećem kriteriju (bez obzira na podatkesadržane u varijabli dob studenta):Kriterij klasifikacijePridružena kategorijastudent studira na klasičan način 1student studira putem Interneta 0Primjer 2.13 (anketa.sta)Ba<strong>za</strong> podataka sastoji se od šest varijabli:• prosjek - kontinuirana numerička varijabla koja sadrži podatke o prosječnoj ocjenistudiranja <strong>za</strong> 49 promatranih studenata,• položeno - kvalitativna varijabla koja promatrane studente klasificira u dvijekategorije s obzirom na to jesu li položili ispit iz promatranog kolegija premasljedećem kriteriju:Status ispitaPridružena kategorijastudent je položio ispit 1student nije položio ispit 0


Prikupljanje i organi<strong>za</strong>cija podataka 12• prisutnost p, prisutnost v - dvije kvalitativne varijable koje prisutnost studenatana predavanjima/vježbama klasificiraju u tri kategorije na sljedeći način:Prisutnost studenta na p/vPridružena kategorijastudent sa p/v nije nikada izostao 1student je sa p/v izostao samo jednom 2student je sa p/v izostao barem dva puta 3• težina kolegija, dostatnost materijala - dvije diskretne numeričke varijable kojasadrže subjektivne ocjene (u standardnoj skali od 1 do 5) promatranih studenata<strong>za</strong> težinu kolegija i dostatnost dostupnih materijala <strong>za</strong> pripremanje ispitaiz promatranog kolegija.Zadatak 2.2 Na sličan način proanalizirajte sljedeće baze podataka:a) ba<strong>za</strong> podataka TV-program.sta sastoji se od sljedećih varijabli:– varijabla spol sadrži informaciju o spolu ispitanika,– varijable HRT1, HRT2, NovaTV i RTL sadrže subjektivne ocjene kvaliteteljetne programske sheme navedenih televizijskih programa,– varijabla prosjek sadrži prosječnu ocjenu kvalitete ljetne programske shemenavedenih televizijskih programa.b) Ba<strong>za</strong> podataka zdravlje.sta sadrži neke zdravstvene podatke anketiranih ispitanika:– varijable godine i spol sadrže podatke o starosti u godinama i spolu ispitanika;– vrijednosti varijable zdravlje su subjektivne ocjene vlastitog zdravstvenogstanja ispitanika;– varijabla broj-pregleda sadrži informacije o ukupnom broju zdravstvenih pregledasvakog ispitanika u tekućoj kalendarskoj godini;– varijabla dodatno-zdravstveno sadrži podatke o dodatnom zdravstvenom osiguranjusvakog ispitanika (1 - ispitanik je dodatno osiguran; 0 - ispitaniknije dodatno osiguran);– varijabla cijena sadrži cijenu u kunama najskupljeg zdravstvenog pregledasvakog ispitanika (u tekućoj kalendarskoj godini).Zadatak 2.3 U bazi podataka navike.sta nalaze se rezultati praćenja životnih navikasvakog pojedinca iz uzorka u vremenskom periodu od 300 dana. Bilježeni su podaci obroju različitih dnevnih novina koje je prelistao (varijablaDnevne_novine), broju televizijskih vijesti koje je gledao na raličitim TV kanalima(varijabla TV_vijesti) te broju kava koje je popio (varijabla Kava), a sve to na bazijednog dana. U varijabli Vrijeme nalaze se podaci o vremenskim prilikama svakog odpromatranih dana. Odredite tipove varijabli.


Prikupljanje i organi<strong>za</strong>cija podataka 13Zadatak 2.4 U bazi podataka gorivo.sta nalaze se podaci o udaljenosti od radnogmjesta (varijabla Udaljenost_posao) i mjesečnim troškovima <strong>za</strong> gorivo (varijabla Troskovi_gorivo)<strong>za</strong> 100 slučajno odabranih <strong>za</strong>poslenih ljudi. Odredite tipove varijabli.


Poglavlje 3Deskriptivna statistika3.1 Metode opisivanja kvalitativnih podatakaKvalitativne varijable primaju vrijednosti koje su razvrstane u kategorije.Primjer 3.1 Svaki čovjek prema spolu pripada jednoj od dvije kategorije (ženskomspolu - Ž ili muškom spolu - M), a prema tipu svoje krvne grupe jednoj od četirikategorije (A, B, AB ili 0). Raspolažemo podacima o spolu i tipu krvne grupe <strong>za</strong>deset ispitanika:ispitanik spol krvna grupa1 Ž A2 Ž B3 M 04 Ž 05 M AB6 M B7 Ž B8 M A9 Ž AB10 Ž AIz prethodne tablice vidimo da je <strong>za</strong> svakog ispitanika iz promatranog uzorka vrijednostvarijable spol pripada kategoriji M ili kategoriji Ž, a vrijednost varijable krvnagrupa jednoj od kategorija A, B, AB ili 0. Prema tome, varijable spol i krvnagrupa su kvalitativne varijable. Informacije koje je moguće dobiti iz prethodnetablice ve<strong>za</strong>ne su uz <strong>za</strong>stupljenost pojedine kategorije u promatranom uzorku. Takoje npr. moguće dobiti odgovore na sljedeća i slična pitanja:• Koliko ispitanika ženskog spola ima u promatranom uzorku?• Koliki je udio ispitanika s krvnom grupom 0 u promatranom uzorku?14


Deskriptivna statistika 15• Koliko ispitanika ženskog spola iz promatranog uzorka ima krvnu grupu A?• Koliki udio od ispitanika muškog spola iz promatranog uzorka ima krvnu grupuB ili AB?Kako izmjeriti <strong>za</strong>stupljenost pojedine kategorije u uzorku?• Osnovna mjera kojom opisujemo <strong>za</strong>stupljenost jedne kategorije u uzorku jefrekvencija kategorije:Neka varijabla, koju ćemo označiti X, ima k kategorija (recimok = 5 znači da varijabla ima 5 kategorija). Označimo pojedine kategorijekao x 1 , x 2 , . . . , x k , odnosno, u drugom <strong>za</strong>pisu {x i : i = 1, . . . , k}.Frekvencija kategorije x i je broj izmjerenih vrijednosti varijablekoje pripadaju kategoriji x i , i = 1, . . . , k. Frekvenciju kategorije x ioznačavamof i .Frekvencija pojedine kategorije ovisi o broju izvršenih mjeranja, tj. dimenzijiuzorka.• Da bismo lakše usporedili i tumačili rezultate raznih istraživanja, u opisu <strong>za</strong>stupljenostijedne kategorije u uzorku često koristimo i relativnu frekvencijukategorije:Relativna frekvencija kategorije x i je broj izmjerenih vrijednostivarijable koje pripadaju kategoriji x i podijeljen s ukupnim brojemizmjerenih vrijednosti <strong>za</strong> ispitivanu varijablu, i = 1, . . . , k. Ako jen dimenzija uzorka, tj. broj svih izmjerenih vrijednosti ispitivanevarijable, relativnu frekvenciju kategorije x i računamo kaof in .Relativna frekvencija kategorije je mjera <strong>za</strong>stupljenosti koja daje informaciju oudjelu kategorije u uzorku poznate dimenzije i često se izražava kao postotak.Frekvencije i relativne frekvencije pojedinih kategorija prikazujemo tablično i grafički.


Deskriptivna statistika 163.1.1 Tablični prikaz frekvencija i relativnih frekvencijaU tabličnom prikazu frekvencija i relativnih frekvencija trebaju biti <strong>za</strong>stupljene svekategorije promatrane varijable.Primjer 3.2 Tablica frekvencija i relativnih frekvencija <strong>za</strong> sve kategorije varijable spoliz primjera 3.1:spol frekvencija relativna frekvencijaŽ 6 6/10 = 0.6 = 60%M 4 4/10 = 0.4 = 40%Tablica frekvencija i relativnih frekvencija <strong>za</strong> sve kategorije varijable krvna grupaiz primjera 3.1:krvna grupa frekvencija relativna frekvencijaA 3 3/10 = 0.3 = 30%B 3 3/10 = 0.3 = 30%AB 2 2/10 = 0.2 = 20%0 2 2/10 = 0.2 = 20%Od velike važnosti su i kategorizirane tablice frekvencija i relativnih frekvencija. Promotrimotakve tablice <strong>za</strong> izmjerene vrijednosti varijable krvna grupa kategoriziraneprema spolu ispitanika:spol = Žkrvna grupa frekvencija relativna frekvencijaA 2 2/6B 2 2/6AB 1 1/60 1 1/6spol = Mkrvna grupa frekvencija relativna frekvencijaA 1 1/4 = 0.25 = 25%B 1 1/4 = 0.25 = 25%AB 1 1/4 = 0.25 = 25%0 1 1/4 = 0.25 = 25%Odgovori na pitanja postavljena u primjeru 3.1 su redom:• U uzorku ima šest ispitanika ženskog spola (tj. frekvencija žena u uzorku ješest).• U uzorku ima 20% ispitanika s krvnom grupom 0 (tj. relativna frekvenicja krvnegrupe nula u uzorku je 20%).


Deskriptivna statistika 17• U uzorku ima dvije žene s krvnom grupom A (tj. frekvencija žena s krvnomgrupom A u uzorku je dva).• Od svih ispitanika muškog spola njih 50% ima krvnu grupu B ili AB.Zadatak 3.1 U programskom paketu Statistica napravite bazu koja sadrži podatke ospolu i krvnoj grupi <strong>za</strong> deset ispitanika iz primjera 3.1.a) Napravite tablice frekvencija i relativnih frekvencija <strong>za</strong> izmjerene vrijednostivarijabli krvna grupa i spol.b) Napravite tablice frekvencija i relativnih frekvencija <strong>za</strong> izmjerene vrijednostivarijabli spol kategorizirane prema krvnoj grupi ispitanika.Rješenje:a) Statistics → Basic Statistics/Tables → Freq. Tables → Variables → SummaryFrequency table: krvna grupa (KrvnaGrupa_Spol.sta)Count Cumulative Percent CumulativeCategoryCountPercentA3 3 30,00000 30,0000B3 6 30,00000 60,0000AB2 8 20,00000 80,0000O2 10 20,00000 100,0000Missing 0 10 0,00000 100,0000krvna grupaFrequency table: spol (KrvnaGrupa_Spol.sta)Count Cumulative Percent CumulativeCategoryCountPercentŽ6 6 60,00000 60,0000M4 10 40,00000 100,0000Missing 0 10 0,00000 100,0000spolb) Kategorizirane tablice frekvencija i relativnih frekvencija - budući želimo promatrativrijednosti varijable spol kategorizirane prema krvnoj grupi ispitanikapodatke moramo profiltrirati, tj. moramo <strong>za</strong>dati uvjet prema kojemu će u daljnjuanalizu biti uključena samo uvjetom određena kategorija podataka:Selection → označiti Enable Selection Conditions → pod Include Cases odabratiopciju "Specific, selected by expression" (u polje <strong>za</strong> unos teksta upisati krvnagrupa="A" ako želimo u obzir uzeti samo ispitanike s krvnom grupom A (analognopostavljete uvjete krvna grupa="B" <strong>za</strong> krvnu grupu B, krvna grupa="AB" <strong>za</strong>krvnu grupu AB, krvna grupa="O" <strong>za</strong> krvnu grupu O) → OK.


Deskriptivna statistika 18Frequency table: spol (KrvnaGrupa_Spol.sta)Include condition: krvna_grupa="A"Count Cumulative Percent CumulativeCategoryCountPercentŽ2 2 66,66667 66,6667M1 3 33,33333 100,0000Missing 0 3 0,00000 100,0000kategorija: krvna grupa AFrequency table: spol (KrvnaGrupa_Spol.sta)Include condition: krvna_grupa="B"Count Cumulative Percent CumulativeCategoryCountPercentŽ2 2 66,66667 66,6667M1 3 33,33333 100,0000Missing 0 3 0,00000 100,0000kategorija: krvna grupa BFrequency table: spol (KrvnaGrupa_Spol.sta)Include condition: krvna_grupa="O"Count Cumulative Percent CumulativeCategoryCountPercentŽ1 1 50,00000 50,0000M1 2 50,00000 100,0000Missing 0 2 0,00000 100,0000kategorija: krvna grupa OFrequency table: spol (KrvnaGrupa_Spol.sta)Include condition: krvna_grupa="AB"Count Cumulative Percent CumulativeCategoryCountPercentŽ1 1 50,00000 50,0000M1 2 50,00000 100,0000Missing 0 2 0,00000 100,0000kategorija: krvna grupa ABPrimjer 3.3 Proučite podatke u dokumentima tablica.xls i graf.xls te proanalizirajtetablice frekvencija i relativnih frekvencija kategorija <strong>za</strong> varijable kvalitativnog tipa.Zadatak 3.2 (hormon.sta, nalaz.sta)U ba<strong>za</strong>ma podataka hormon.sta i nalaz.sta pomoću programskog paketa Statisticaodredite frekvencije i relativne frekvencije svih kategorija <strong>za</strong> varijable koje smatratekvalitativnima. Rezultate prikažite tablično.Rješenje:Tablice frekvencija i relativnih frekvencija <strong>za</strong> kvalitativne varijable s najvećim brojemkategorija: Statistics → Basic Statistics/Tables → Freq. Tables → Variables →SummaryFrequency table: dijagno<strong>za</strong> (hormon.STA)Count Cumulative Percent CumulativeCategoryCountPercentG21 21 25,60976 25,6098E b4 25 4,87805 30,4878U b 30 55 36,58537 67,0732U z 13 68 15,85366 82,9268E z 14 82 17,07317 100,0000Missing 0 82 0,00000 100,0000hormon.staFrequency table: skupina (Nalaz.sta)Count Cumulative Percent CumulativeCategoryCountPercentg1: g1 10 10 9,80392 9,8039g2: g2 5 15 4,90196 14,7059g3: g3 15 30 14,70588 29,4118g4: g4 11 41 10,78431 40,1961g5: g5 11 52 10,78431 50,9804g6: g6 9 61 8,82353 59,8039g7: g7 9 70 8,82353 68,6275g8: g8 11 81 10,78431 79,4118g921 102 20,58824 100,0000Missing 0 102 0,00000 100,0000nalaz.sta3.1.2 Grafički prikazi frekvencija i relativnih frekvencijaFrekvencije i relativne frekvencije kategorija kvalitativnih varijabli grafički prikazujemopomoću histograma frekvencija i histograma relativnih frekvencija.U istu svrhu može se koristiti i strukturirani krug frekvencija i relativnih


Deskriptivna statistika 19frekvencija (strukturirani krug se često naziva kružni dijagram, a popularni naziv<strong>za</strong> isti grafički prikaz je "pita").Primjer 3.4 Grafički prikažite frekvencije i relativne frekvencije kategorija kvalitativnihvarijabli iz dokumenata tablica.xls i graf.xls.Primjer 3.5 (hormon.sta)U bazi podataka hormon.sta odredite frekvencije i relativne frekvencije svih kategorija<strong>za</strong> varijable koje smatrate kvalitativnima. Rezultate prikažite grafički koristeći programskipaket Statistica.Rješenje: Histogrami i kružni dijagrami frekvencija i relativnih frekvencija <strong>za</strong> kvalitativnuvarijablu kava su prika<strong>za</strong>ni na sljedećim slikama:• histogram frekvencija: Statistics → Basic Statistics/Tables → Frequency Tables→ Choose variables → Histograms• histogram frekvencija i relativnih frekvencija: Graphs → Histograms → Choosevariables → Advanced → Pod "Y axis" uključiti "% and N" → OK35Histogram: dijagno<strong>za</strong>35Histogram of dijagno<strong>za</strong>43%303037%252530%No. of obs.2015No of obs201524%18%101012%556%0G E b U b U z E z0G E b U b U z E z0%Categorydijagno<strong>za</strong>• strukturirani krugovi: Graphs → 2D Graphs → Graph type (opcija "Pie Chart- Counts") → Choose variables → Advanced → Pie Legend - odabrati opciju"Text and Value" <strong>za</strong> kružni dijagram frekvencija, a opciju "Text and Percent"<strong>za</strong> kružni dijagram relativnih frekvencija → OK.Pie Chart of dijagno<strong>za</strong>Pie Chart of dijagno<strong>za</strong>E z; 14E z; 17%G; 21G; 26%U z; 13U z; 16%E b; 4E b; 5%U b; 30U b; 37%dijagno<strong>za</strong>dijagno<strong>za</strong>


Deskriptivna statistika 20Zadatak 3.3 (nalaz.sta)U bazi podataka nalaz.sta odredite frekvencije i relativne frekvencije svih kategorija<strong>za</strong> varijable koje smatrate kvalitativnima.a) Rezultate prikažite grafički koristeći programski paket Statistica.b) Varijabla stupanj je kvalitativna varijabla čije su vrijednosti kategoriziraneu deset kategorija: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. Za koliko ispitanika je vrijednostvarijable stupanj manja od tri, <strong>za</strong> koliko je vrijednost barem četiri ali manjaod sedam, a <strong>za</strong> koliko je vrijednost barem osam?c) Za frekvencije iz <strong>za</strong>datka a) odredite pripadne relativne frekvencije.Rješenje:a) Histogram frekvencija i relativnih frekvencija te strukturirani krug relativnihfrekvencija:14Histogram of stupanj14%Pie Chart of stupanj1212%10; 9%1; 12%1010%9; 8%2; 11%No of obs868%6%8; 8%7; 12%3; 12%44%22%6; 10%4; 9%5; 11%01 2 3 4 5 6 7 8 9 10stupanj0%stupanjb) Frekvencija ispitanika <strong>za</strong> koje je vrijednost varijable stupanj manja od tri je23, frekvencija ispitanika <strong>za</strong> koje je vrijednost barem četiri ali manja od sedamje 30, a frekvencija ispitanika <strong>za</strong> koje je vrijednost barem osam je 25.c) Pripadne relativne frekvencije su redom 23/102 ≈ 22.55%, 30/102 ≈ 29.41% i25/102 ≈ 24.51%.Zadatak 3.4 (bebe.sta)U bazi podataka bebe.sta nalazi se dio podataka o nekim ocjenama tek rođene bebe,načinu poroda i majci iz istraživanja koje je provedeno u jednoj bolnici. Odreditefrekvencije i relativne frekvencije svih kategorija <strong>za</strong> varijable koje smatrate kvalitativnima.a) Rezultate prikažite tablično i grafički koristeći programski paket Statistica.b) Varijabla spol je kvalitativna varijabla čije vrijednosti pripadaju jednoj od dvijekategorije: Ž ako je novorođenče djevojčica i M ako je novorođenče dječak. Imali u ovom uzorku više djevojčica ili dječaka?


Deskriptivna statistika 21Rješenje:a) Tablični i grafički prikaz frekvencija i relativnih frekvencija <strong>za</strong> kategorije varijablespol:200Histogram of Spol59%18053%16047%14041%Frequency table: Spol (bebe.sta)Count Cumulative Percent CumulativeCategoryCountPercentM 178 178 52,19941 52,1994Ž160 338 46,92082 99,1202Missing 3 341 0,87977 100,0000No of obs1201008060402036%30%24%18%12%6%tablica frekvencija i relativnih frekvencija00%MŽSpolhistogram frekvencija i relativnih frekvencijaPie Chart of SpolPie Chart of SpolŽ; 160M; 178Ž; 47%M; 53%Spolstrukturirani krug frekvencijaSpolstrukturirani krug relativnih frekvencijab) Uzorkom je obuhvaćeno 341 novorođenče, od čega <strong>za</strong> njih troje nije <strong>za</strong>bilježenspol. U uzorku od 338 novorođenčadi <strong>za</strong> koje znamo informaciju o spolu ima 160djevojčica i 178 dječaka. Pripadne relativne frekvencije su 160/341 ≈ 46.92% <strong>za</strong>djevojčice i 178/341 ≈ 53.08% <strong>za</strong> dječake. Dakle, u uzorku ima više dječaka.Zadatak 3.5 (navike.sta)U bazi podataka navike.sta odredite frekvencije i relativne frekvencije svih kategorija<strong>za</strong> varijable koje smatrate kvalitativnima.a) Rezultate prikažite tablično i grafički koristeći programski paket Statistica.b) Varijabla raspolozenje je kvalitativna varijabla čije vrijednosti pripadaju jednojod tri kategorije: D (dobro raspoloženje), O (osrednje raspoloženje) i L(lože raspoloženje). Koliko je ispitanika dobro raspoloženo? Je li više ispitanikaraspoloženo dobro ili osrednje ili ih je više lošeg raspoloženja?


Deskriptivna statistika 22Rješenje:a) Tablični i grafički prikaz frekvencija i relativnih frekvencija <strong>za</strong> kategorije varijableraspoloženje:140Histogram of Raspolozenje47%12040%10033%Frequency table: Raspolozenje (navike.sta)Count Cumulative Percent CumulativeCategoryCountPercentD84 84 28,00000 28,0000O84 168 28,00000 56,0000L132 300 44,00000 100,0000Missing 0 300 0,00000 100,0000tablica frekvencija i relativnih frekvencijaNo of obs8027%6020%4013%207%00%D O LRaspolozenjehistogram frekvencija i relativnih frekvencijaPie Chart of RaspolozenjePie Chart of RaspolozenjeD; 84D; 28%L; 132L; 44%O; 84O; 28%Raspolozenjestrukturirani krug frekvencijaRaspolozenjestrukturirani krug relativnih frekvencijab) Uzorkom je obuhvaćeno 300 ispitanika. Dobro je raspoloženo njih 84, što čini84/300 = 28% od ukupnog broja ispitanika. Osrednje je raspoloženo također84 (28%) ispitanika, a loše njih 132 (44%). Dakle, više je ispitanika koji suraspoloženi dobro ili osrednje - u te dvije kategorije spada 168 (56 %) ispitanika.3.2 Metode opisivanja numeričkih podatakaNumerički podaci mogu biti ili diskretni ili kontinuirani.Primjer 3.6 (hormon.sta, anketa.sta)Proučite numeričke podatke u ba<strong>za</strong>ma hormon.sta i anketa.sta.varijable diskretne a koje kontinuirane?Koje su numeričkeRješenje:


Deskriptivna statistika 23• hormon.sta - niti jedna numerička varijabla nije diskretna• anketa.sta - diskretne numeričke varijable su težina kolegija i dostatnostmaterijala.Primjer 3.7 Proučite numeričke podatke u ba<strong>za</strong>ma cijena.sta i komarci.sta. Koje sunumeričke varijable diskretne a koje kontinuirane?Ako su numeričke varijable diskretne, možemo u opisu mjerenih vrijednosti <strong>za</strong> tevarijable ponovo primijeniti frekvencije i relativne frekvencije pojedine kategorije,odnosno grafički prika<strong>za</strong>ti podatke histogramima i strukturiranim krugovima.Primjer 3.8 (anketa.sta)Za jednu diskretnu numeričku varijablu iz baze podataka anketa.sta odredite frekvencijei relativne frekvencije svih kategorija.a) Rezultate prikažite tablično i grafički koristeći programski paket Statistica.b) Varijabla težina kolegija je diskretna numerička varijabla čije vrijednostipripadaju jednoj od pet kategorija (1, 2, 3, 4, 5). Te su kategorije <strong>za</strong>pravo subjektivneocjene kojima su ispitanici ocijenili težinu kolegija (1 - kolegij je bio jakotežak; 5 - kolegij je bio jednostavan). Koliko ispitanika je težinu kolegija ocijeniloocjenom većom od 3? S obzirom na udio ispitanika koji su težinu kolegijaocijenili s 3, koliko ih je težinu kolegija ocijenilo s 4?Rješenje:a) Tablica frekvencija i relativnih frekvencija <strong>za</strong> varijablu težina kolegija:Statistics → Basic Statistics/Tables → Frequency Tables → Choose variables →Summary;Frequency table: težina kolegija (anketa.sta)Count Cumulative Percent CumulativeCategoryCountPercent11 1 2,04082 2,040839 10 18,36735 20,4082418 28 36,73469 57,1429521 49 42,85714 100,0000Missing 0 49 0,00000 100,0000Histogram frekvencija i relativnih frekvencija <strong>za</strong> varijablu težina kolegija:Graphs → Histograms → Choose variables → Advanced → Pod "Y axis" uključiti"% and N" → OK.


Deskriptivna statistika 242220181614Histogram of težina kolegija45%41%37%33%29%No of obs1210864224%20%16%12%8%4%01 2 3 4 5težina kolegija0%Strukturirani krug relativnih frekvencija <strong>za</strong> varijablu težina kolegija:Graphs → 2D Graphs → Graph type (opcija "Pie Chart - Counts") → Choosevariables → Advanced → Pie Legend - odabrati opciju "Text and Percent" <strong>za</strong>strukturirani krug relativnih frekvencija (analogno, odabrati opciju "Text andValue" <strong>za</strong> strukturirani krug frekvencija → OK.Pie Chart of težina kolegija1; 2%3; 18%5; 43%4; 37%težina kolegijab) Ocjenom većom od 3 težinu kolegija je ocijenilo čak 39 ispitanika, tj. čak 39/49 ≈79.59% od ukupnog broja ispitanika. Ocjenom 3 težinu kolegija ocijenilo je 9(9/49 ≈ 18.37%), a ocjenom 4 čak 18 (18/49 ≈ 36.73%) ispitanika. Dakle,dvostruko više ispitanika težinu kolegija ocijenilo je ocjenom 4 nego ocjenom 3.Primjer 3.9 (zdravlje.sta)Za kvalitativne i diskretne numeričke varijable iz baze podataka zdravlje.sta napravitesljedeće tablične i grafičke prikaze:a) napravite tablice i nacrtajte histograme frekvencija i relativnih frekvencija <strong>za</strong>podatke sadržane u varijablama zdravlje i spol,b) napravite tablice i nacrtajte histograme frekvencija i relativnih frekvencija <strong>za</strong>podatke sadržane u varijabli zdravlje posebno <strong>za</strong> kategoriju ispitanika ženskogspola, a posebno <strong>za</strong> kategoriju ispitanika muškog spola,


Deskriptivna statistika 25c) nacrtajte <strong>za</strong>jednički histogram frekvencija i relativnih frekvencija svih podatakasadržanih u varijabli zdravlje kategoriziran prema spolu ispitanika,d) nacrtajte strukturirane krugove frekvencija i relativnih frekvencija kategorija <strong>za</strong>podatke sadržane u varijablama spol i zdravlje,e) nacrtajte strukturirane krugove relativnih frekvencija <strong>za</strong> podatke sadržane uvarijabli zdravlje posebno <strong>za</strong> kategoriju ispitanika ženskog spola, a posebno<strong>za</strong> kategoriju ispitanika muškog spola.Rješenje:a) Tablica i histogram frekvencija i relativnih frekvencija <strong>za</strong> kategorije varijablespol:45Histogram of spol90%4080%3570%3060%CategoryZ: ženaM: muškaracMissingFrequency table: spol (zdravlje.sta)Count Cumulative Percent CumulativeCountPercent11 11 22,00000 22,000039 50 78,00000 100,00000 50 0,00000 100,0000No of obs25201510550%40%30%20%10%00%ZMspolTablica i histogram frekvencija i relativnih frekvencija <strong>za</strong> kategorije varijable zdravlje:20Histogram of zdravlje40%1836%1632%1428%1224%Frequency table: zdravlje (zdravlje.sta)Count Cumulative Percent CumulativeCategoryCountPercent14 4 8,00000 8,000028 12 16,00000 24,0000318 30 36,00000 60,0000412 42 24,00000 84,000058 50 16,00000 100,0000Missing 0 50 0,00000 100,0000No of obs10864201 2 3 4 5zdravlje20%16%12%8%4%0%b) Da bismo dobili kategorizirane tablične i grafičke prikaze kategorija varijablezdravlje grupirane prema spolu ispitanika podatke moramo profiltrirati, tj.moramo <strong>za</strong>dati uvjet prema kojemu će u daljnju analizu biti uključena samouvjetom određena kategorija podataka:Selection → označiti Enable Selection Conditions → pod Include Cases odabratiopciju "Specific, selected by expression" (u polje <strong>za</strong> unos teksta upisati spol="Z"


Deskriptivna statistika 26ako želimo u obzir uzeti samo ispitanike ženskog spola (analogno postavljeteuvjete spol="M" ako želimo u obzir uzeti samo ispitanike muškog spola) → OK.6Histogram of zdravljezdravlje.sta 6v*50cInclude condition: spol="Z"55%545%Frequency table: zdravlje (zdravlje.sta)Include condition: spol="Z"Count Cumulative Percent CumulativeCategoryCountPercent11 1 9,09091 9,090922 3 18,18182 27,272735 8 45,45455 72,727342 10 18,18182 90,909151 11 9,09091 100,0000Missing 0 11 0,00000 100,0000No of obs432101 2 3 4 5zdravlje36%27%18%9%0%14Histogram of zdravljeInclude condition: spol="M"36%1231%1026%Frequency table: zdravlje (zdravlje.sta)Include condition: spol="M"Count Cumulative Percent CumulativeCategoryCountPercent13 3 7,69231 7,692326 9 15,38462 23,0769313 22 33,33333 56,4103410 32 25,64103 82,051357 39 17,94872 100,0000Missing 0 39 0,00000 100,0000No of obs864201 2 3 4 5zdravlje21%15%10%5%0%c) Zajednički histogram frekvencija i relativnih frekvencija svih podataka sadržanihu varijabli zdravlje kategoriziran prema spolu ispitanika:Graphs → Categorized Graphs → Histograms → Variables (Variable - zdravlje,X-Category - spol) → Layout (Separate - <strong>za</strong> odvojene histograme kategorijavarijable zdravlje kategoriziranih s obzirom na vrijednosti varijable spol;Overlaid - <strong>za</strong> prikaz frekvencija kategorija varijable zdravlje kategoriziranihs obzirom na vrijednosti varijable spol na istom histogramu)Histogram of zdravlje; categorized by spolHistogram of zdravlje; categorized by spol141412121010No of obs86No of obs86442201 2 3 4 5spol: Zzdravlje1 2 3 4 5spol: M01 2 3 4 5zdravljespol: Zspol: M


Deskriptivna statistika 27d) Strukturirani krugovi frekvencija i relativnih frekvencija kategorija <strong>za</strong> podatkesadržane u varijablama spol i zdravlje:Graphs → 2D Graphs → Graph type (opcija "Pie Chart - Counts") → Choosevariables → Advanced → Pie Legend - odabrati opciju "Text and Value" <strong>za</strong>kružni dijagram frekvencija, a opciju "Text and Percent" <strong>za</strong> kružni dijagramrelativnih frekvencija → OK.Pie Chart of spolPie Chart of zdravljeZ; 22%5; 16%1; 8%2; 16%4; 24%M; 78%3; 36%spolzdravljee) Strukturirani krugovi relativnih frekvencija <strong>za</strong> podatke sadržane u varijabli zdravljekategorizirani prema spolu ispitanika:Graphs → Categorized Graphs → Pie Charts → Graph Type: Pie Chart - Counts→ Variables (Vars - zdravlje, X-Category - spol) → Advanced → Pie Legend(Text and Value <strong>za</strong> kružne dijagrame frekvencija, Text and Percent <strong>za</strong> kružnedijagrame relativnih frekvencija)zdravlje.sta5; 9%1; 9%5; 18%1; 8%4; 18%2; 18%2; 15%4; 26%3; 33%3; 45%spol: Zzdravljespol: M


Deskriptivna statistika 28Zadatak 3.6 (TV-program.sta)Za kvalitativne i diskretne numeričke varijable iz baze podataka TV-program.sta napravitesljedeće tablične i grafičke prikaze:a) napravite tablice i nacrtajte histograme frekvencija i relativnih frekvencija <strong>za</strong>podatke sadržane u varijablama spol i HRT1,b) napravite tablice i nacrtajte histograme frekvencija i relativnih frekvencija <strong>za</strong>podatke sadržane u varijabli HRT1 posebno <strong>za</strong> kategoriju ispitanika ženskogspola, a posebno <strong>za</strong> kategoriju ispitanika muškog spola,c) nacrtajte <strong>za</strong>jednički histogram frekvencija i relativnih frekvencija svih podatakasadržanih u varijabli HRT1 kategoriziran prema spolu ispitanika,d) nacrtajte kružne dijagrame frekvencija i relativnih frekvencija <strong>za</strong> podatke sadržaneu varijablama spol i NovaTV,e) nacrtajte kružne dijagrame relativnih frekvencija <strong>za</strong> podatke sadržane u varijabliNovaTV posebno <strong>za</strong> kategoriju ispitanika ženskog spola, a posebno <strong>za</strong> kategorijuispitanika muškog spola.Rješenje:a) Tablica i histogram frekvencija i relativnih frekvencija <strong>za</strong> kategorije varijablespol:60Histogram of spol60%5050%4040%Frequency table: spol (TV_program.sta)Count Cumulative Percent CumulativeCategoryCountPercentm54 54 54,00000 54,0000z46 100 46,00000 100,0000Missing 0 100 0,00000 100,0000No of obs30201030%20%10%0mzspolTablica i histogram frekvencija i relativnih frekvencija <strong>za</strong> kategorije varijable HRT1:0%


Deskriptivna statistika 2945Histogram of HRT145%4040%3535%3030%Frequency table: HRT1 (TV_program.sta)Count Cumulative Percent CumulativeCategoryCountPercent243 43 43,00000 43,0000328 71 28,00000 71,0000421 92 21,00000 92,000058 100 8,00000 100,0000Missing 0 100 0,00000 100,0000No of obs25201510502 3 4 5HRT125%20%15%10%5%0%b) Da bismo dobili kategorizirane tablične i grafičke prikaze kategorija varijableHRT1 grupirane prema spolu ispitanika podatke moramo profiltrirati, tj. moramo<strong>za</strong>dati uvjet prema kojemu će u daljnju analizu biti uključena samo uvjetomodređena kategorija podataka:Selection → označiti Enable Selection Conditions → pod Include Cases odabratiopciju "Specific, selected by expression" (u polje <strong>za</strong> unos teksta upisati spol="z"ako želimo u obzir uzeti samo ispitanike ženskog spola (analogno postavljeteuvjete spol="m" ako želimo u obzir uzeti samo ispitanike muškog spola) → OK.242220Histogram of HRT1Include condition: spol="z"52%48%43%Frequency table: HRT1 (TV_program.sta)Include condition: spol="z"Count Cumulative Percent CumulativeCategoryCountPercent223 23 50,00000 50,0000311 34 23,91304 73,913048 42 17,39130 91,304354 46 8,69565 100,0000Missing 0 46 0,00000 100,0000No of obs1816141210864239%35%30%26%22%17%13%9%4%02 3 4 5HRT10%22Histogram of HRT1Include condition: spol="m"41%2037%1833%1630%Frequency table: HRT1 (TV_program.sta)Include condition: spol="m"Count Cumulative Percent CumulativeCategoryCountPercent220 20 37,03704 37,0370317 37 31,48148 68,5185413 50 24,07407 92,592654 54 7,40741 100,0000Missing 0 54 0,00000 100,0000No of obs141210864202 3 4 5HRT126%22%19%15%11%7%4%0%c) Zajednički histogram frekvencija i relativnih frekvencija svih podataka sadržanih


Deskriptivna statistika 30u varijabli HRT1 kategoriziran prema spolu ispitanika:Graphs → Categorized Graphs → Histograms → Variables (Variable - zdravlje,X-Category - spol) → Layout (Separate - <strong>za</strong> odvojene histograme kategorija varijableHRT1 kategoriziranih s obzirom na vrijednosti varijable spol; Overlaid -<strong>za</strong> prikaz frekvencija kategorija varijable HRT1 kategoriziranih s obzirom na vrijednostivarijable spol na istom histogramu)Histogram of HRT1; categorized by spolTV_program.staHistogram of HRT1; categorized by spolTV_program.sta2424%2424%2222%2222%2020%2020%1818%1818%1616%1616%No of obs141210864202 3 4 5spol: mHRT12 3 4 5spol: z14%12%10%8%6%4%2%0%No of obs141210864202 3 4 5HRT114%12%10%8%6%4%2%0%spol: mspol: zd) Strukturirani krugovi frekvencija i relativnih frekvencija kategorija <strong>za</strong> podatkesadržane u varijablama spol i NovaTV:Graphs → 2D Graphs → Graph type (opcija "Pie Chart - Counts") → Choosevariables → Advanced → Pie Legend - odabrati opciju "Text and Value" <strong>za</strong>kružni dijagram frekvencija, a opciju "Text and Percent" <strong>za</strong> kružni dijagramrelativnih frekvencija → OK.Pie Chart of spolPie Chart of NovaTVTV_program.sta5; 15%z; 46%4; 11%2; 39%m; 54%3; 35%spolNovaTVe) Strukturirani krugovi relativnih frekvencija <strong>za</strong> podatke sadržane u varijabli NovaTVkategorizirani prema spolu ispitanika:Graphs → Categorized Graphs → Pie Charts → Graph Type: Pie Chart - Counts→ Variables (Vars - NovaTV, X-Category - spol) → Advanced → Pie Legend


Deskriptivna statistika 31(Text and Value <strong>za</strong> kružne dijagrame frekvencija, Text and Percent <strong>za</strong> kružnedijagrame relativnih frekvencija)TV_program.sta5; 17%5; 13%4; 9%2; 37%4; 13%2; 41%3; 37%3; 33%spol: mNovaTVspol: zPrimjer 3.10 Odredite tablicu, histogram i strukturirani krug <strong>za</strong> prikaz frekvencijajedne od varijabli iz baze komarci.sta po izboru. Uočite da su histogram i strukturiranikrug vrlo nepraktični <strong>za</strong> prikazivanje kategorija kvalitativnih ili diskretnih numeričkihvarijabli s velikim brojem kategorija.Ako numerička varijabla nije diskretna, <strong>za</strong> prikazivanje skupa izmjerenihvrijednosti neće nam puno pomoći frekvencije, histogrami istrukturirani krugovi napravljeni na osnovu svake pojedine izmjerenevrijednosti.Primjer 3.11 Zašto? Otvorite bazu podataka komarci.sta i odredite tablicu frekvencijai histogram frekvencija tako da <strong>za</strong> kategorije uzmete sve međusobno različite izmjerenevrijednosti varijable broj.3.2.1 Postupak razvrstavanja numeričkih podataka u kategorije• Najčešće skup svih mjerenih vrijednosti (ili nešto veći skup koji sadrži skup svihmjerenih vrijednosti ali kojega je jednostavnije podijeliti na jednake dijelove)podijelimo na disjunktne intervale jednake duljine.• Nije nužno da su intervali jednake duljine. Nema točno definiranog pravila pokojemu bi trebalo definirati duljine intervala niti nihov broj, ali je jasno da ihne smije biti niti previše niti premalo da bi cijeli postupak imao smisla i služiosvrsi (a to je u ovom času prikazivanje skupa mjerenih vrijednosti).


Deskriptivna statistika 32• Kriterij <strong>za</strong> kategori<strong>za</strong>ciju vrijednosti kontinuirane numeričke varijable treba bititemeljen na razumijevanju problema koji proučavamo, tj. podatke ćemo kategoriziratina način koji nam omogućava efikasno dobivanje potrebnih informacija.Primjer 3.12 (komarci.sta)Iskoristite podatke iz baze komarci.sta. Mijenjajte broj intervala na koji dijelite skupvrijednosti. Proučavajte što se događa i pribilježite vaš <strong>za</strong>ključak.Zadatak 3.7 (anketa.sta)a) Odredite tablicu frekvencija i histogram kontinuirane numeričke varijable prosjekiz baze podataka hormon.sta tako da <strong>za</strong> kategorije uzmete sve međusobno različiteizmjerene vrijednosti te varijable.b) Iskoristite izmjerene vrijednosti varijable prosjek i mijenjajte broj intervala nakoji vršite podjelu. Proučavajte što se događa i pribilježite vaš <strong>za</strong>ključak.c) Kategori<strong>za</strong>ciju izmjerenih vrijednosti varijable prosjek napravite na način kojivam izravno daje informaciju o frekvenciji i relativnoj frekvenciji studenata kojiimaju prosjek ocjena veći od 3.5.Rješenje:a) Zbog prevelikog broja različitih izmjerenih vrijednosti broj kategorija je prevelik irezultat analize najčešće ne daje željene informacije. Na sljedećoj slici prika<strong>za</strong>nisu histogram frekvencija i relativnih frekvencija te strukturirani krug izmjerenihvrijednosti varijable prosjek u kojima su kao kategorije uzete sve različite izmjerenevrijednosti:4Histogram of prosjek8%Pie Chart of prosjekNo of obs32102,162,452,862,872,882,933,003,163,233,283,353,363,393,433,463,563,573,633,763,984,034,134,164,234,294,364,394,404,434,454,484,564,584,634,674,724,764,834,874,985,00prosjek6%4%2%0%54,984,874,832,162,45 2,86 2,87 2,882,934,7633,164,724,674,634,583,233,283,353,364,563,393,434,484,454,433,463,563,574,43,634,394,36 3,763,984,29 4,034,234,164,13prosjekb) Budući tablični i grafički prikazi kontinuiranih numeričkih varijabli u kojima kaokategorije uzimamo sve različite izmjerene vrijednosti nisu pregledni, pa stoganiti osobito korisni, pribjegavamo različitim metodama kategoriziranja takvihvarijabli. Ako veliki skup podataka kategoriziramo (podijelimo) u nekoliko disjunktnihintervala po kriteriju <strong>za</strong> koji smatramo da će nam dati željene rezultate,


Deskriptivna statistika 33tablični i grafički prikazi frekvencija i relativnih frekvencija postaju pregledniji iinformativniji. Takva dva načina kategori<strong>za</strong>cije izmjerenih vrijednosti varijableprosjek grafički su prika<strong>za</strong>ni sljedećim histogramoma i strukturiranim krugovima:10Histogram of prosjekIzmjerene vrijednosti su kategorizirane u deset disjunknih intervala jednake duljine20%Pie Chart of prosjekIzmjerene vrijednosti su kategorizirane u deset disjunknih intervala jednake duljine918% 4,716; 18%(2,728;3,012]; 10%714%612%(3,012;3,296]; 8%No of obs5410%8%(4,432;4,716]; 16%(3,296;3,58]; 14%36%24%(3,58;3,864]; 4%12%(4,148;4,432]; 18%(3,864;4,148]; 6%02,160 2,444 2,728 3,012 3,296 3,580 3,864 4,148 4,432 4,716 5,000prosjek0%prosjek18Histogram of prosjekIzmjerene vrijednosti su kategorizirane u pet disjunknih intervala jednake duljine37%Pie Chart of prosjekIzmjerene vrijednosti su kategorizirane u pet disjunknih intervala jednake duljine1633% 4,432; 35%No of obs10820%16%6412%8%(3,296;3,864]; 18%24%(3,864;4,432]; 24%02,160 2,728 3,296 3,864 4,432 5,000prosjek0%prosjekc) Počevši od 2.0, izmjerene vrijednosti varijable prosjek kategorizirane su u šestdisjunktnih intervala duljine 0.5. Na taj način jednostavno je dobiti informacijuo <strong>za</strong>stupljenosti studenata s prosjekom većim od 3.5 u promatranom uzorku -takvih studenata ima 33 (33/49 ≈ 67.35%).16Histogram of prosjekPočevši od 2, izmjerene vrijednosti su kategorizirane u 6 disjunktnih intervala duljine 0.533%Pie Chart of prosjekPočevši od 2, izmjerene vrijednosti su kategorizirane u 6 disjunktnih intervala duljine 0.51429%(2;2,5]1224%(4,5;5](2,5;3]1020%No of obs816%(3;3,5]612%48%(3,5;4]24%(4;4,5]01,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5prosjek0%prosjekZadatak 3.8 (hormon.sta)


Deskriptivna statistika 34a) Odredite tablicu frekvencija i histogram neke od kontinuiranih numeričkih varijabliiz baze podataka hormon.sta tako da <strong>za</strong> kategorije uzmete sve međusobnorazličite izmjerene vrijednosti.b) Iskoristite izmjerene vrijednosti iste varijable iz baze podataka hormon.sta. Mijenjajtebroj intervala na koji dijelite skup vrijednosti. Proučavajte što se događai pribilježite vaš <strong>za</strong>ključak.Rješenje:a) Histogram frekvencija i relativnih frekvencija te strukturirani krug izmjerenihvrijednosti varijable Gastr S u kojima su kao kategorije uzete sve različiteizmjerene vrijednosti (analogno <strong>za</strong> varijable Somat S i Somat Z):3Histogram of Gastr S4%Pie Chart of Gastr SNo of obs2100%16,23 40,50 42,90 45,40 49,80 56,20 68,66 140,3038,08 41,86 44,20 48,70 53,30 61,60 82,30Gastr S3%1%93,694,2140,316,2392,3 92,4732,536,3 36,937,682,373,576,838,0871,639,1139,469,239,6468,6667,539,767,262,740,562,541,261,660,1241,559,641,659,341,758,9641,8656,241,955,4942,355,142,755,0942,853,742,953,343,0152,0243,143,750,944,150,744,249,9744,349,844,549,5 45,344,649,148,948,845,448,748,648,548,2 47,2Gastr Sb) Promjeri dvaju načina kategori<strong>za</strong>cije izmjerenih vrijednosti varijable Gastr S(analogno <strong>za</strong> varijable Somat S i Somat Z):45Histogram of Gastr SIzmjerene vrijednosi kategoriti<strong>za</strong>ne su u deset disjunktnih intervala jednake duljine58%Pie Chart of Gastr SIzmjerene vrijednosi kategoriti<strong>za</strong>ne su u deset disjunktnih intervala jednake duljine403551%45% 127,893; 1%(78,265;90,672]; 1%(28,637;41,044]; 17%(65,858;78,265]; 9%3038%No of obs252032%26%(53,451;65,858]; 15%1519%1013%56%(41,044;53,451]; 50%016,230 41,044 65,85828,637 53,451 78,265Gastr S90,672 115,486103,079 127,8930%140,300Gastr S


Deskriptivna statistika 3540Histogram of Gastr SPočevši od 10, izmjerene su vrijednosti kategorizirane u disjunktne intervale duljine 1051%Pie Chart of Gastr S3545%(10;20]; 1%(90;100]; 5%(140;150]; 1%(80;90]; 1%(70;80]; 4%(30;40]; 14%3038%(60;70]; 10%2532%No of obs2026%1519%(50;60]; 18%10513%6%(40;50]; 45%00%0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160Gastr SGastr S3.2.2 Mjere centralne tendencije i raspršenosti podatakaKarakteristika numeričkih varijabli je da među njihovim vrijednostima postoji prirodanuređaj. Na osnovu te činjenice možemo definirati numeričke karakteristike tihvarijabli koje imaju logičnu interpretaciju i mogu se iskoristiti u cilju prikazivanjaskupa mjerenih vrijednosti.Aritmetička sredinaAritmetička sredina ni<strong>za</strong> izmjerenih vrijednosti x 1 , x 2 , . . . , x n varijable X definiranaje izrazom:¯x = 1 nAritmetička sredina je numerička karakteristika koja spada u mjere centralne tendencije,tj. ona mjeri "srednju vrijednost" podataka.n∑i=1x iMedijanDa bismo razumjeli i odredili medijan potrebno je prvo poredati izmjerene vrijednostix 1 , x 2 , . . . , x n varijable X po veličini (u rastućem poretku, tj. od manjeg premavećem). Medijan je također jedna mjera centralne tendencije kao i aritmetička sredina,a ima značenje izmjerene vrijednosti koja se nalazi na sredini ni<strong>za</strong> podataka kadaje on uređen po veličini, tj. baram pola podataka je manje ili jednako medijanu, aistovremeno je barem pola podataka veće ili jednako od medijana.Način njegovog izračuna ovisi o tome da li imamo paran ili neparanbroj izmjerenih vrijednosti <strong>za</strong> varijablu.Ukoliko imamo neparan broj izmjerenih vrijednosti, onda postoji vrijednost kojaje na srednjoj poziciji u uređenom skupu, pa nju definiramo kao medijan.Primjer 3.13 Neka su izmjerene vrijednosti jedne varijable sljedeće:1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3.


Deskriptivna statistika 36Prvo ove vrijednosti poredamo po veličini:1, 1, 2, 2, 2, 2, 3, 5, 5, 6, 7.Obzirom da ih ima ukupno 11, medijan je vrijednost koja je na šestoj poziciji u takodobivenom nizu, tj. broj 2.Ukoliko imamo paran broj izmjerenih vrijednosti, onda ne postoji podatak kojije na srednjoj poziciji jer srednju poziciju "<strong>za</strong>uzimaju" dva podatka. Medijan setada definira kao polovina između ta dva podatka (tj. aritmetička sredina tih dvajupodataka).Primjer 3.14 Neka su izmjerene vrijednosti jedne varijable sljedeće:1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3.Prvo ove vrijednosti poredamo po veličini:1, 1, 2, 2, 2, 2, 3, 3, 5, 5, 6, 7.Obzirom da ima 12 podataka, "sredinu" čine šesti i sedmi podatak, tj. vrijednosti 2 i3. Medijan ovog skupa podataka je sredina ta dva broja, tj. medijan je (2+3)/2 = 2.5.Postotna vrijednost, donji i gornji kvatilMedijan odgovara pedeset postotnoj vrijednosti obzirom da je barem 50% podatakamanje od medijana i barem 50% podataka veće od medijana. Postotna vrijednost<strong>za</strong> neki i<strong>za</strong>brani broj p ∈ 〈0, 100〉, označimo je x ′ p, definira se poštujući <strong>za</strong>htjev daje barem p% izmjerenih vrijednosti manje ili jednako x ′ p, dok je barem (100 − p)%vrijednosti veće ili jednako x ′ p. Dvadesetpet postotna vrijednost zove se donji kvartil,a sedamdesetpet postotna vrijednost zove se gornji kvartil. Analogno kao ikod računanja medijana, ako se na traženoj poziciji <strong>za</strong> računaje postotne vrijednostinalaze dva podatka u uređenom skupu izmjerenih vrijednosti, postotnu vrijednostodređujemo kao njihovu sredinu. Donji i gornji kvartil su mjere koje spadaju u grupumjera raspršenosti podataka.Primjer 3.15 Neka su izmjerene vrijednosti jedne varijable sljedeće:1, 2, 5, 6, 6, 1, 3, 7, 3, 3, 3, 3.Prvo ove vrijednosti poredamo po veličini:1, 1, 2, 3, 3, 3, 3, 3, 5, 6, 6, 7.Želimo li odrediti donji kvartil, potrebno je prvo odrediti četvrtinu podataka (25%).Obzirom da imamo 12 podataka, četvrtinu (25%) čine tri podatka. Treći podatak ugornjem skupu je broj 2, a četvrti 3. Donji kvartil je 2.5. Deveti broj u gornjem skupupodataka je broj 5, a deseti 6 pa je gornji kvartil 5.5.


Deskriptivna statistika 37Najmanja i najveća vrijednost, raspon podatakaRaspon podataka je mjera koja pokazuje koliko su podaci raspršeni, tj. to je jednaod mjera raspršenosti podataka. Definiran je kao razlika između najveće i najmanjevrijednosti u skupu mjerenih vrijednosti varijable (tj. razlika maksimalne i minimalneizmjerene vrijednosti varijable). Ako su x 1 , x 2 , . . . , x n izmjerene vrijednosti varijableX, označimo najmanju od njih (minimum) x min , a najveću x max .Primjer 3.16 Neka su izmjerene vrijednosti jedne varijable sljedeće:1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3.Vidimo da je vrijednost 1 najmanja izmjerena vrijednost, a 7 najveća. Prema tome,raspon ovog skupa izmjerenih vrijednosti je 7 − 1 = 6.U mnogim primjerima <strong>za</strong>nimljivo je promatrati maksimalno odstupanje izmjerenihvrijednosti varijable od "prosjeka", tj. aritmetičke sredine, izmjerenih vrijednosti. Taje numerička karakteristika definirana kao veći od brojeva (¯x − x min ) i (x max − ¯x), tj.brojmax {(¯x − x min ), (x max − ¯(x))}.Primjer 3.17 Neka su 1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3 izmjerene vrijednosti neke varijable X.Tada jex min = 1, x max = 7, ¯x = 1 + 2 + 5 + 6 + 5 + 1 + 2 + 7 + 2 + 2 + 3 + 312= 3.25.Maksimalno odstupanje izmjerenih vijednosti ove varijable od njihovog prosjeka jemax {3.25 − 1, 7 − 3.25} = max {2.25, 3.75} = 3.75.Varijanca i standardna devijacijaVarijanca i standardna devijacija također spadaju u grupu mjera raspršenosti podataka.One karakteriziraju raspršenost podataka oko aritmetičke sredine. Varijancani<strong>za</strong> izmjerenih vrijednosti x 1 , x 2 , . . . , x n varijable X definirana je izrazom:s 2 = 1 nn∑(x i − ¯x) 2 ,i=1a standardna devijacija je kvadratni korijen varijance, tj.s = √ s 2 = √ 1 n∑(x i − ¯x)n2 .ModMod je vrijednost iz ni<strong>za</strong> izmjerenih vrijednosti varijable X kojoj pripada najvećafrekvencija, tj. izmjerena je najviše puta. Mod ne mora biti jedinstven.i=1


Deskriptivna statistika 38Primjer 3.18 Neka su izmjerene vrijednosti jedne varijable sljedeće:1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3.Vidimo da je vrijednost 2 izmjerena najviše puta (četiri puta) pa je 2 mod ovog skupapodataka.Primjer 3.19 Neka su izmjerene vrijednosti jedne varijable sljedeće:1, 2, 5, 6, 5, 3, 1, 2, 7, 2, 2, 3, 3.Vidimo da su najviše puta izmjerene dvije vrijednosi - 2 i 3 su obje izmjerene točnočetiri puta. Dakle, mod ovog skupa podataka nije jedinstven. U programskom paketuStatistica <strong>za</strong> mod ovog skupa izmjerenih vrijednosti bi pisalo mod = multiple, te bismou tom slučaju sve vrijednosti moda saznali analizom pripadne tablice frekvencija.Korištenjem numeričkih karakteristika numeričkih varijabli može se skup mjerenihvrijednosti prika<strong>za</strong>ti grafički pomoću kutijastog dijagrama (engleski: box plot iliboxplot ili box-and-whisker plot).Kutijastm dijagramom prikazujemo odnos pet numeričkih karakteristikaskupa izmjerenih vrijednosti: minimalnu vrijednost, donji kvartil,medijan, gornji kvartil i maksimalnu vrijednost. Na kutijastom dijagramuse također označavaju takozvane stršeće vrijednosti (engl.outliers) ako postoje.Primjer 3.20 Pažljivim proučavanjem kretanja cijena prehrambenih proizvoda analitičartržišta uočio je da isti proizvodi nemaju jednaku cijenu u različitim trgovačkimcentrima. Promatrajući deset trgovačkih centara, <strong>za</strong>bilježio je cijene proizvoda kodkojega su razlike bile najizraženije:Trgovački centar 1 2 3 4 5 6 7 8 9 10Cijena proizvoda 45.52 44.64 39.99 48.95 51.59 46.89 52.02 56.89 50.21 49.99a) Izračunajte aritmetičku sredinu, mod, raspon te varijancu i standardnu devijacijuovog skupa podataka.b) Izračunajte numeričke karakteristike ovog skupa podataka koje su vam potrebneda biste skicirali kutijasti dijagram te ga skicirajte.c) Koristeći Statisticu i Excel kreirajte bazu podataka, izračunajte sve spomenuteRješenje:numeričke karakteristike ovog skupa podataka te nacrtajte pripadni kutijastidijagram na bazi medijana.


Deskriptivna statistika 39b) Tražene numeričke karakteristike računamo u programskom paketu Statistica:Statistics → Basic Statistics/Tables → Descriptive Statistics → Variables →Advanced → označiti mean (aritmetička sredina), mod, range (raspon), variancei standard deviation → Summary.Descriptive Statistics (cijene_proitvoda.sta)Valid N Mean Mode Frequency Range Variance Std.Dev.Variableof Modecijena proizvoda 10 49,66900 Multiple 1 20,00000 34,73377 5,893536Uočimo da mod nije jedinstven - naime sve su izmjerene vrijednosti međusobnorazličite, tj. svaka je vrijednost izmjerena točno jedanput.c) Za skiciranje kutijastog dijagrama potrebne su nam sljedeće numeričke katakteristikeovog skupa podataka:Statistics → Basic Statistics/Tables → Descriptive Statistics → Variables →Advanced → označiti median, minimum & maximum i lower & upper quartiles(donji i gornji kvartil) → Summary.Descriptive Statistics (cijene_proitvoda.sta)Valid N Median Minimum Maximum Lower Upper RangeVariableQuartile Quartilecijena proizvoda 10 49,58000 39,99000 59,99000 45,52000 52,02000 20,00000Kutijasti dijagram na bazi medijana:Statistics → Basic Statistics/Tables → Descriptive Statistics → Variables →Options → po "Options for Box-Whisker Plots" označiti opciju "Median/Quartiles/Range" → Quick → Box and whisker Plot for all variables.


Deskriptivna statistika 4062Box & Whisker Plot605856545250484644424038cijena proizvodaMedian = 49,5825%-75%= (45,52, 52,02)Min-Max= (39,99, 59,99)Zadatak 3.9 U razredu koji broji 25 učenika <strong>za</strong>ključne ocjene iz matematike na krajuškolske godine raspodjenjene su na sljedeći način: tri učenika ima peticu, sedamučenika četvorku, osam učenika trojku, pet učenika dvojku, a dva učenika moraju pristupitipopravnom ispitu (imaju jedinicu).a) Sastavite tablicu frekvencija i relativnih frekvencija <strong>za</strong> kategoriju ocjena .b) Koristeći Statisticu grafički prikažite frekvencije i relativne frekvencije (histogramimai strukturiranim krugovima).c) Izračunajte aritmetičku sredinu, mod, raspon te varijancu i standardnu devijacijuovog skupa podataka.d) Izračunajte numeričke karakteristike ovog skupa podataka koje su vam potrebneda biste skicirali kutijasti dijagram te ga skicirajte.e) Koristeći Statisticu i kreirajte bazu podataka, izračunajte sve spomenute numeričkekarakteristike ovog skupa podataka te nacrtajte pripadni kutijasti dijagramna bazi medijana.Primjer 3.21 (ocjena.sta)Proučite bazu podataka ocjena.sta. Odredite obrađene numeričke karakteristike <strong>za</strong>nekoliko varijabli po vašem izboru. Komentirajte značenje aritmetičke sredine i moda.Također prikažite izmjerene vrijednosti tih varijabli kutijastim dijagramima i proanalizirajteih.Rješenje: Numeričke karakteristike varijable ukupno koja sadrži ocjene jednog predavanjaiz matematike održanog u osnovnoj školi (0 - najniža ocjena; 10 - najviša ocjena):


Deskriptivna statistika 41Descriptive Statistics (ocjena.sta)Valid N Mean Mode Frequency Range Variance Std.Dev.Variableof Modeukupno 62 8,112903 9,000000 19 6,000000 2,265732 1,505235Descriptive Statistics (ocjena.sta)Valid N Median Minimum Maximum Lower UpperVariableQuartile Quartileukupno 62 8,000000 4,000000 10,00000 7,000000 9,000000Uočimo da je čak 19 ispitanika predavanje ocijenilo visokom ocjenom 9 (ocjena 9 jemedijan ovog skupa izmjerenih vrijednosti) te da je prosječna ocjena predavanje 8.11.Kutijasti dijagram:11Box & Whisker Plot109876543ukupnoMedian = 825%-75%= (7, 9)Min-Max= (4, 10)Anali<strong>za</strong> kutijastog dijagrama: nitko od ispitanika predavanje nije ocijenio ocjenomnižom od četiri, barem 25% ispitanika je predavanje ocijenilo ocjenama 4, 5, 6 ili 7,barem 25% ocjenama 7 ili 8, barem 25% ocjenama 8 ili 9 te barem 25% ocjenama 9ili 10. Zanimljivo je uočiti da je barem 75% ispitanika predavanje ocijenilo ocjenom7 i više.Zadatak 3.10 (anketa.sta)Proučite bazu podataka anketa.sta. Odredite obrađene numeričke karakteristike <strong>za</strong>nekoliko varijabli po vašem izboru. Komentirajte značenje aritmetičke sredine i moda.Također prikažite izmjerene vrijednosti tih varijabli kutijastim dijagramima i proanalizirajteih.Rješenje: Numeričke karakteristike varijable težina kolegija (1 - najniža ocjena; 5 -najviša ocjena):


Deskriptivna statistika 42Descriptive Statistics (anketa.sta)Valid N Mean Mode Frequency Range Variance Std.Dev.Variableof Modetežina kolegija 49 4,183673 5,000000 21 4,000000 0,778061 0,882078Descriptive Statistics (anketa.sta)Valid N Median Minimum Maximum Lower UpperVariableQuartile Quartiletežina kolegija 49 4,000000 1,000000 5,000000 4,000000 5,000000Uočimo da je čak 21 ispitanik težinu kolegija ocijenio ocjenom 5 (ocjena 5 je medijanovog skupa izmjerenih vrijednosti) te da je prosječna ocjena težine kolegija 4.18.Kutijasti dijagram:5,5Box & Whisker Plot5,04,54,03,53,02,52,01,51,00,5težina kolegijaMedian = 425%-75%= (4, 5)Min-Max= (1, 5)Anali<strong>za</strong> kutijastog dijagrama: barem 25% ispitanika je težinu kolegija ocijenilo ocjenama1, 2, 3 ili 4, barem 50% ocjenom 4 te barem 25% ocjenama 4 ili 5. Zanimljivoje uočiti da je barem 75% ispitanika težinu kolegija ocijenilo ocjenam 4 ili 5.3.2.3 Detekcija stršećih vrijednostiPodatak koji je značajno veći ili manji u odnosu na druge izmjerene vrijednosti jednevarijable nazivamo stršeći podatak ili outlier. Pojavljivanje stršećih podataka najčešćeje ve<strong>za</strong>no uz jedan od sljedećih razloga:• podatak je ili netočno izmjeren ili krivo unesen u bazu podataka,• podatak dolazi iz druge populacije (ne iz populacije koju promatramo u kontekstuproblema kojeg proučavamo) - npr. ako u varijablu čije su izmjerene vrijednostigodišnje plaće 1000 poreznih obveznika u Hrvatskoj upišemo godišnjuplaću Microsoftovog managera iz SAD-a taj će podatak biti stršeća vrijednost,


Deskriptivna statistika 43• podatak je točno izmjeren i unesen u bazu, ali predstavlja rijetku pojavu upopulaciji - npr. ako se u varijabli čije su izmjerene vrijednosti koncentracijeglukoze u krvi <strong>za</strong> 1000 osoba nađe točno izmjerena vrijednost 46.7 taj ćemopodatak smatrati outlierom jer se radi o vrlo visokoj koncentraciji glukoze kojase rijetko pojavljuje.Vrlo korisna grafička metoda <strong>za</strong> detekciju stršećih vrijednosti je kutijasti dijagramna bazi medijana - u programskom paketu Statistica kutijasti dijagrami osjetljivi nastršeće vrijednosti crtaju se na sljedeći način:Graphs → 2D Graphs → BoxPlots → Variables → Advanced → pod Whisker odabrati"Non-outlier range" → pod Outliers odabrati "Outl. & Extremes" → OK.Zadatak 3.11 (zdravlje.sta, zdravlje-sv.sta)a) Nacrtajte i proanalizirajte kutijasti dijagram na bazi medijana <strong>za</strong> podatke sadržaneu varijabli godine u bazi podataka zdravlje.sta.b) Među podacima u varijabli godine u bazi podataka zdravlje-sv.sta nalaze se dvijestršeće vrijednosti. Pokušajte ih identificirati crtanjem kutijastog dijagramaosjetljivog i neosjetljivog na stršeće vrijednosti. Što se događa s numeričkimkarakteristikama podataka u varijabli godine nakon <strong>za</strong>nemarivanja identificiranestršeće vrijednosti.Rješenje:7065Box & Whisker Plot260240Box Plot of godinezdravlje_sv.sta 6v*50c60220552001805016045140401201003580302520godineMedian = 39,525%-75%= (35, 53)Min-Max= (25, 66)6040200godineMedian = 4025%-75%= (35, 54)Non-Outlier Range= (25, 66)OutliersExtremeszdravlje.sta: godinezdravlje-sv.sta: godineNumeričke karakteristike varijable godine iz baze podataka zdravlje-sv.sta sa i bez stršećihvrijednosti:Descriptive Statistics (zdravlje_sv.sta)Valid N Mean Median Mode Frequency Minimum Maximum Lower UpperVariableof ModeQuartile Quartilegodine 50 46,84000 40,00000 39,00000 7 25,00000 235,0000 35,00000 54,00000


Deskriptivna statistika 44Descriptive Statistics (zdravlje_sv.sta)Valid N Mean Median Mode Frequency Minimum Maximum Lower UpperVariableof ModeQuartile Quartilegodine 49 43,00000 40,00000 39,00000 7 25,00000 66,00000 35,00000 53,00000Iz tablica deskriptivne statistike koje sadrže vrijednosti nekih numeričkih karakteristikavarijable godine vidimo da su se uklanjanjem stršećeg podatka (starost 235 godina) izskupa izmjerenih vrijednosti aritmetička sredina (mean) i gornji kvartil smanjili, doksu mod medijan i donji kvartil ostali isti. Općenito, uklanjanjem stršećih podatakamod će najčešće ostati nepromijenjen.Zadatak 3.12 (gluko<strong>za</strong>-sv.sta)a) Napravite deskriptivnu statistiku podataka sadržanih u varijabli koncentracijaglukoze. Grafičkom metodom odredite stršeću vrijednost u ovom skupu podataka.Možete li se složiti s tvrdnjom da je identificirani podatak <strong>za</strong>ista stršeća vrijednostili ipak sumnjate u dobiveni rezultat? Obrazložite svoj odgovor.b) Grafičkom metodom identificirajte stršeće vrijednosti među podacima u varijablidob osobe. Što se događa s numeričkim karakteristikama podataka nakon <strong>za</strong>nemarivanjaidentificirane stršeće vrijednosti.Rješenje:a) Deskriptivna statistika i stršeće vrijednosti skupa izmjerenih vrijednosti varijablekoncentracija glukozeDescriptive Statistics (gluko<strong>za</strong>_sv.sta)Valid N Mean Median Minimum Maximum Lower UpperVariableQuartile Quartilekoncentracija glukoze 100 7,726000 6,650000 4,700000 16,70000 5,700000 9,50000018Box Plot of koncentracija glukozegluko<strong>za</strong>_sv.sta16141210864koncentracija glukozeMedian = 6,6525%-75%= (5,7, 9,5)Non-Outlier Range= (4,7, 13,8)OutliersExtremesStatistica je kao stršeću vrijednost detektirala podatak 16.7. Kako se ta koncentracijaglukoze u krvi može <strong>za</strong>ista pojaviti pri mjerenjima, ovaj podatak nećemo tretirati kaostršeću vrijednost.


Deskriptivna statistika 45b) Deskriptivna statistika i stršeće vrijednosti skupa izmjerenih vrijednosti varijabledob osobe800Box Plot of dob osobegluko<strong>za</strong>_sv.sta7006005004003002001000-100dob osobeMedian = 5625%-75%= (40, 73)Non-Outlier Range= (12, 101)OutliersExtremesDescriptive Statistics (gluko<strong>za</strong>_sv.sta)Valid N Mean Median Minimum Maximum Lower UpperVariableQuartile Quartiledob osobe 100 66,88000 56,00000 12,00000 688,0000 40,00000 73,00000Descriptive Statistics (gluko<strong>za</strong>_sv.sta)Valid N Mean Median Minimum Maximum Lower UpperVariableQuartile Quartiledob osobe 98 56,12245 55,50000 12,00000 101,0000 40,00000 72,00000Statistica je kao stršeće vrijednosti među izmjerenim vrijednostima varijable dob osobedetektirala podatke 500 i 688. Uklanjanjem tih stršećih podataka dolazi do smanjenjaaritmetičke sredine (mean) i medijana izmjerenih vrijednosti.3.3 Domaća <strong>za</strong>daća 1Zadatak 3.13 Koristeći javne izvore podataka ili podatke koje ste prikupljali u drugimkolegijima u eksperimentalnim uvjetima formirajte jednu bazu podataka koja će sadržavatinajmanje dvije kvalitativne varijable, najmanje jednu diskretnu numeričku varijablui jednu kontinuiranu numeričku varijablu. Opišite o kakvom se istraživanjuradi i <strong>za</strong>što se mjere vrijednosti navedenih varijabli. Vodite računa da ba<strong>za</strong> sadrži štoviše jedinki. Navedite točan izvor podataka. Iskoristite prethodno opisane postupke ipojmove te prikažite vašu bazu podataka.Domaću <strong>za</strong>daću treba predati <strong>za</strong> 14 dana u printanom obliku. Bazu podataka neprintati u potpunosti nego samo tabelirani izvadak iz baze koji sadrži 5 jedinki i njihovevrijednosti <strong>za</strong> sve varijable.Zadatak 3.14 Ba<strong>za</strong> podataka tlak.sta sadrži podatke o krvnom tlaku <strong>za</strong> ispitanike jedneankete:• varijable spol i dob sadrže informacije o spolu i broju godina <strong>za</strong> svakog ispitanika,


Deskriptivna statistika 46• varijable sistolički-tlak i dijastolički-tlak sadrže vrijednosti sistoličkog i dijastoličkogtlaka <strong>za</strong> svakog ispitanika,• varijabla tlak klasificira vrijednosti sistoličkog i dijastoličkog tlaka u tri kategorije:N - ni<strong>za</strong>k tlak, O - normalan tlak, P - povišen tlak,• varijabla puls sadrži broj otkucaja srca u minuti (puls) <strong>za</strong> svakog ispitanika,• varijabla opće-stanje sadrži subjektivnu ocjenu (u standardnoj skali od 1 do 5)vlastitog zdravstvenog stanja svakog ispitanika.Na temelju podataka sadržanih u ovoj bazi odgovorite na sljedeća pitanja:a) Odredite tablice frekvencija i relativnih frekvencija, nacrtajte i proanalizirajtehistograme frekvencija i relativnih frekvencija te kružni dijagram s prikazom relativnihfrekvencija <strong>za</strong> podatke sadržane u varijabli opće-stanje. Kolike su frekvencijai relativna frekvencija ispitanika koji su svoje opće zdravstveno stanje ocijenilibarem ocjenom 4? [1 bod]b) Odredite tablice frekvencija i relativnih frekvencija <strong>za</strong> podatke sadržane u varijabliopće-stanje posebno <strong>za</strong> kategoriju ispitanika ženskog spola i kategoriju ispitanikamuškog spola te nacrtajte pripadne histograme frekvencija i relativnihfrekvencija. Također nacrtajte histograme frekvencija i relativnih frekvencija <strong>za</strong>podatke sadržane u varijabli opće-stanje kategorizirane po vrijednostima varijabletlak (N, O, P). Proanalizirajte dobivene histograme? [2 boda]c) Odredite i ukratko protumačite sljedeće numeričke karakteristike podataka sadržanihu varijabli dob: aritmetičku sredinu, medijan, donji i gornji kvartil, mod, rasponi standardnu devijaciju. Je li mod jedinstven? Koliko iznosi maksimalno odstupanjepodataka sadržanih u varijabli dob od njihove aritmetičke sredine? Nacrtajtei detaljno proanalizirajte kutijasti dijagram na bazi medijana <strong>za</strong> podatkesadržane u varijabli dob. Obrazložite svoj odgovor. [2 boda]d) Nacrtajte i detaljno proanalizirajte kutijasti dijagram na bazi medijana <strong>za</strong> podatkesadržane u varijabli dob. Obrazložite svoj odgovor. [2 boda]e) Crtanjem i analizom kutijastog dijagrama na bazi medijana neosjetljivog nastršeće vrijednosti i kutijastog dijagrama na bazi medijana osjetljivog na stršećevrijednosti donesite <strong>za</strong>ključak o tome pojavljuju li se među podacima sadržanimau varijabli puls stršeće vrijednosti ili ne. Ako ste se uvjerili u njihovo postojanjekorištenjem kategoriziranih tablica frekvencija odredite sve prisutne stršeće vrijednostimeđu podacima u varijabli puls. Kako biste neutralizirali njihov utjecajna numeričke karakteristike podataka? [1 bod]


Poglavlje 4Slučajna varijabla4.1 Definicija slučajne varijableU prethodnom poglavlju naučili smo da su predmet istraživanja, u kojemu želimonapraviti statističku analizu, varijable čije vrijednosti mjerimo na jedinkama.Primjer 4.1 Pretpostavimo da je građanima iz reprezentativnog uzorka stanovnikagrada Osijeka jednog dana u podne izmjerena koncentracija glukoze u krvi. Rezultattog istraživanje je podatak o koncentraciji glukoze u krvi <strong>za</strong> svaku osobu iz uzorka- te izmjerene vrijednosti u svrhu statističke analize podataka organiziramo u varijabluKoncentracija glukoze. U sljedećoj tablici prika<strong>za</strong>no je samo nekoliko izmjerenihvrijednosti te varijable:Osoba Koncentracijaglukoze (mmol/L)1 5.6352 12.5603 19.817..Međutim, jasno je da su ove izmjerene vrijednosti samo neke od svih vrijednostikoje koncentracija glukoze u krvi može poprimiti. Medicinska istraživanja pokazujuda koncentracija glukoze u krvi čovjeka može biti bilo koji realan broj iz intervala〈0, 131]. Dakle, izmjerena vrijednost varijable Koncentracija glukoze <strong>za</strong> svaku osobu izovog uzorka je jedna vrijednost iz skupa svih mogućih vrijednosti koje koncentracijaglukoze u krvi čovjeka može poprimiti.Primjer 4.2 Na nekoj mjernoj postaji svakog se sata mjeri vodostaj rijeke Drave. Neko-47


Slučajna varijabla 48liko <strong>za</strong>dnjih izmjerenih vodostaja prika<strong>za</strong>o je u sljedećoj tablici:Dan i sat Vodostaj (cm)17.11.2010. - 9:00 17417.11.2010. - 8:00 16117.11.2010. - 7:00 152..Prema povijesnim podacima najniži izmjereni vodostaj Drave na ovoj mjernoj postajibio je 105 cm (1978.), a najviši čak 511 cm (1972.). Ove činjenice opravdavaju visokstupanj vjerovanja da vodostaj rijeke Drave na promatranoj mjernoj postaji može bitibilo koji realan broj iz intervala [105, 511]. Prema tome, svaka izmjerena vrijednostvarijable Vodostaj iz gornje tablice je jedna vrijednost iz skupa svih mogućih vrijednostikoje vodostaj Drave može poprimiti na toj mjernoj postaji. Podaci su preuzetisa http://www.voda.hr.Prethodni primjeri navode na ideju da izmjerene vrijednosti varijable od interesa(koncentracija glukoze u krvi ili vodostaj rijeke Drave) možemo na neki način modelirati.Naime, prije samog mjerenja i u toku mjerenja istraživač ne zna koji će rezultatmjerenja (tj. izmjerenu vrijednost varijable) dobiti, ali zna iz kojeg skupa izmjerenavrijednost te varijable može biti: iz 〈0, 131] <strong>za</strong> varijablu Koncentracija glukoze teiz [105, 511] <strong>za</strong> varijablu Vodostaj. Dakle, da bismo napravili model na osnovu kojegamožemo raditi statističko <strong>za</strong>ključivanje, varijable ćemo modelirati kao slučajnevarijable. Zašto ove varijable treba nazvati slučajnima? Razlog je taj što one moguprimiti mnogo različitih vrijednosti, a mi u trenutku njihovog proučavanja ne možemosa sigurnošću sagledati uvjete pod kojima će primiti neku od tih vrijednosti. Zapravo,mjerenje varijable provodimo, između ostalog, <strong>za</strong>to da ocijenimo stupanj izvjesnosti davarijabla u određenim uvjetima primi neke vrijednosti. Slučajna varijabla i način kakoje opisujemo predmet su ovog poglavlja. Slučajne varijable označavat ćemo velikimslovima, recimo X, Y, Z. 1Slučajna varijabla je veličina čije reali<strong>za</strong>cije su realni brojevi, alinjene reali<strong>za</strong>cije nisu jednoznačno određene uvjetima koje možemosagledati prilikom istraživanja.Već iz primjera 4.1 i 4.2 možemo vidjeti da je osnovni objekt koji služi <strong>za</strong> modeliranjeslučajne varijable skup svih mogućih reali<strong>za</strong>cija slučajne varijable (u matematicitaj skup zovemo slika slučajne varijable). Skup svih mogućih reali<strong>za</strong>cija slučajnevarijable X označit ćemo R(X).1 U matematici se varijable obično označavaju malim slovima x, y, z.


Slučajna varijabla 49Primjer 4.3 Bacamo novčić i smatramo uspjehom ako je palo pismo. Reali<strong>za</strong>cije ovogpokusa možemo modelirati slučajnom varijablom. Recimo, kažemo da slučajna varijablaX prima vrijednost 1 ako je palo pismo, a 0 ako nije palo pismo (tj.ako je palaglava). Na taj način dolazimo do skupa mogućih reali<strong>za</strong>cija slučajne varijable X:R(X) = {0, 1} ⊂ R.Primjer 4.4 Bacamo igraću kocku. Broj koji se okrene prilikom jednog bacanja nagornjoj strani kocke je reali<strong>za</strong>cija jedne slučajne varijable, označimo ju X. Prirodno,skup svih mogućih reali<strong>za</strong>cija slučajne varijable X je skup R(X) = {1, 2, 3, 4, 5, 6} ⊂R.Primjer 4.5 Bacamo igraću kockicu dva puta. Zbroj brojeva koji se okrenu prilikomtih dvaju bacanja kockice je reali<strong>za</strong>cija jedne slučajne varijable X. Skup svih mogućihreali<strong>za</strong>cija slučajne varijable X je skup R(X) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} ⊂ R.Primjer 4.6 Broj ulovljenih komaraca u jednu klopku u Osijeku, u jednom danu lipnja2009. godine, možemo modelirati kao slučajnu varijablu. Naime, jedan dan u klopkusmo uhvatili, npr. 20 komaraca, drugi dan 25, treći dan 45, četvrti dan opet 20. Kolikoćemo ih uhvatiti sutra, prekosutra? Ne znamo kako će se ta varijabla realizirati sutrai prekosutra, ali znamo da će to svakako biti neki prirodan broj ili nula. Osim toga,ako smo postavili dvije identične klopke jednu pored druge, može se dogoditi da je uistom danu na jednu klopku uhvaćeno 20 komaraca, a na drugu 23. Dakle, prirodno jesmatrati tu varijablu slučajnom varijablom jer, u uvjetima koje mi možemo sagledati,ne možemo sa sigurnošću znati kako će se realizirati. Skup svih mogućih reali<strong>za</strong>cijaove slučajne varijable je skup prirodnih brojeva s nulom (N 0 = {0, 1, 2, . . .} ⊂ R).Primjer 4.7 Ako imamo jako preciznu vagu i mjerimo neto masu šećera koji je pakovanu pakovanja deklarirane mase 1 kg, da li ćemo dobiti točno 1 kg? Ako uzmemo drugopakovanje istog tipa, koliko vam se čini izvjesno da će neto težina biti ista kao uprethodno vaganom pakovanju? Očekujete li velika odstupanja? Ako neto težinušećera u toj seriji pakovanja modeliramo slučajnom varijablom X, koji skup svihmogućih reali<strong>za</strong>cija biste Vi definirali <strong>za</strong> tu slučajnu varijablu? (Odgovor: skup svihmogućih reali<strong>za</strong>cija ove slučajne varijable je interval realnih brojeva [0, 1] ⊂ R.)4.2 VjerojatnostPromatrajući skup vrijednosti koji može primiti slučajna varijabla X uočavamo daje naš stupanj vjerovanja (uvjerenja) u reali<strong>za</strong>ciju nekih podskupova od R(X) većiod stupnja vjerovanja u reali<strong>za</strong>ciju nekih drugih poskupova od R(X). Kažemo dase neki podskupovi od R(X) realiziraju s većom šansom od nekih drugih poskupovaistog skupa.


Slučajna varijabla 50Primjer 4.8 U primjeru bacanja igraće kocke smo ishod jednog bacanja modeliralislučajnom varijablom X čiji je skup svih mogućih reali<strong>za</strong>cija R(X) = {1, 2, 3, 4, 5, 6}.Razmislite i odgovorite na sljedeća pitanja:• Kojim biste realnim brojem iska<strong>za</strong>li svoj stupanj vjerovanja u reali<strong>za</strong>ciju skupa{3}? (Rješenje: 1/6.)• Da li očkujete da se vaš stupanj vjerovanja u reali<strong>za</strong>ciju skupa {3} razlikuje odstupnja vjerovanja u reali<strong>za</strong>ciju skupa {5} u slučaju pravilno izrađene igračekocke? (Rješenje: ne, stupnjevi vjerovanja u reali<strong>za</strong>ciju skupova {3} i {5} sujednaki - {3} i {5} su jednako mogući skupovi.)• Kojim biste realnim brojem iska<strong>za</strong>li svoj stupanj vjerovanja u reali<strong>za</strong>ciju parnogbroja pri bacanju kocke (tj. da se na kocki okrene paran broj)? (Rješenje: radise o skupu {2, 4, 6}, a stupanj vjerovanja u reali<strong>za</strong>ciju broja iz tog skupa je 1/2.)Primjer 4.9 Promotrimo skup Ω = {♣, ♦, ♥, ♠}. Elementi ovog skupa su oznake <strong>za</strong>crne karte (tref i pik) i crvene karte (karo i herc) u standardnom špilu angloameričkihigraćih karata. Dakle skup Ω ima četiri elementa i možemo reći da njegovi elementiopisuju ishod pokusa koji se sastoji od izvlačenja jedne karte iz špila pri čemu nas<strong>za</strong> izvučenu kartu <strong>za</strong>nima samo boja (crvena ili crna) i tip (tref, pik, karo ili herc).Razmislite i odgovorite na sljedeća pitanja:• Kojim biste realnim brojem iska<strong>za</strong>li svoj stupanj vjerovanja u reali<strong>za</strong>ciju skupa{♣} ⊂ Ω? (Rješenje: 1/4.)• Kojim biste realnim brojem iska<strong>za</strong>li svoj stupanj vjerovanja u reali<strong>za</strong>ciju skupa{♣, ♦} ⊂ Ω, a kojim stupanj vjerovanja u reali<strong>za</strong>ciju skupa {♥, ♠}? (Rješenje:stupnjevi vjerovanja su jednaki i izražavamo ih realnim brojem 1/2 - {♣, ♦} i{♥, ♠} su jednako mogući skupovi.)• Kojim biste realnim brojem iska<strong>za</strong>li svoj stupanj vjerovanja u reali<strong>za</strong>ciju skupa{♣, ♦, ♥} ⊂ Ω, a kojim stupanj vjerovanja u reali<strong>za</strong>ciju skupa {♥}? (Rješenje:stupnjeve vjerovanja izražavamo realnim brojevima 3/4 i 1/4, redom.)Iz primjera 4.9 vidimo da ima smisla govoriti o stupnju vjerovanja u reali<strong>za</strong>ciju nekogpodskupa skupa čiji elementi nisu realni brojevi. I <strong>za</strong> takve skupove, čiji su elementiproizvoljni objekti (npr. slova, neki specijalni znakovi, razne kategorije), stupanjvjerovanja u reali<strong>za</strong>ciju nekog podskupa izražavamo prikaldnim realnim brojem.Dakle, mjeru kojom izražavamo stupanj vjerovanja u reali<strong>za</strong>ciju nekog podkupamožemo definirati <strong>za</strong> proizvoljan nepra<strong>za</strong>n skup Ω, bez obzira na prirodu njegovihelemenata. Mjeru koja modelira stupanj vjerovanja da će se realizirati neki podskuppromatranog nepraznog skupa Ω zvat ćemo vjerojatnost. Podskupove skupa Ω zvatćemo događajima. U ovom poglavlju navodimo definiciju vjerojatnosti, načine kako


Slučajna varijabla 51u konkretnim primjerima možemo modelirati vjerojatnost te neka osnovna svojstvavjerojatnosti.Neka je Ω nepra<strong>za</strong>n skup te neka familija skupova F sadrži određenepodskupove od Ω (tj. određene događaje). Vjerojatnost (oznaka P ) jefunkcija koja svakom događaju A ∈ F pridružuje realan broj iz intervala[0, 1] (tj. 0 ≤ P (A) ≤ 1) tako da vrijede sljedeći <strong>za</strong>htjevi:(i) P (Ω) = 1,(ii) ako su A 1 i A 2 događaji iz F koji nemaju <strong>za</strong>jedničkih elemenata, tj.A 1 , A 2 ∈ F i A 1 ∩ A 2 = ∅, tada vrijediP (A 1 ∪ A 2 ) = P (A 1 ) + P (A 2 ),tj. vjerojatnost unije događaja A 1 i A 2 jednaka je zbroju vjerojatnostiP (A 1 ) i P (A 2 ).Vidimo da je na ovaj način definirana vjerojatnost na familiji podskupova proizvoljnognepraznog skupa Ω. Uzmemo li da je Ω = R(X) dobivamo definiciju vjerojatnosti naskupu svih mogućih reali<strong>za</strong>cija slučajne varijable X.4.2.1 Uobičajene oznake i naziviNeka je R(X) skup svih mogućih reali<strong>za</strong>cija slučajne varijable X i F familija podskupovaod R(X) na kojoj je definirana vjerojatnost P . Familiju F obično zovemofamilija događaja.Zbog lakšeg razumijevanja i opisivanja događaja koje razmatramo, tj. podskupovaod R(X) (odnosno elemenata od F) skup C ∈ F označavat ćemo oznakom {X ∈ C}.Naime, skup C će se dogoditi (realizirati) ako slučajna varijabla X primi vrijednosti(reali<strong>za</strong>cije) iz skupa C. Na taj način lakše povezujemo događaje sa slučajnom varijablomna koju se odnose.Primjer 4.10• Skup {X ∈ [2, 3]} definira događaj koji se dogodi ako se slučajna varijablarealizira nekom vrijednošću iz intervala [2, 3]. Uočimo da isti događaj možemo<strong>za</strong>pisati i na sljedeći način:{2 ≤ X ≤ 3}.• Skup {4 < X ≤ 7} definira događaj koji se dogodi ako se slučajna varijablarealizira brojem koji je veći od 4, ali manji od ili jednak 7.


Slučajna varijabla 52Slučajnu varijablu X smo definirali ako smo definirali R(X) i vjerojatnost P na familijipodskupova F. Tada kažemo da smo <strong>za</strong>dali razdiobu (distribuciju) slučajnevarijable X.Definiranje vjerojatnosti <strong>za</strong> pojedine primjere temelji se na dosadašnjem iskustvu uistraživanju dane slučajne varijable i može biti složen postupak. Međutim, u velikombroju primjera, <strong>za</strong> definiranje vjerojatnosti se može koristiti jedna od dvije metode <strong>za</strong>modeliranje vjerojatnosti opisane u nastavku poglavlja: klasična metoda i statističkametoda.4.2.2 Klasična metoda modeliranja vjerojatnostiNeka vrijede sljedeći uvjeti:(1) skup Ω ≠ ∅ ima konačno mnogo elemenata, tj. Ω je oblikaΩ = {ω 1 , . . . , ω n }, n ∈ N,(2) svi jednočlani podskupovi skupa Ω su jednako vjerojatni, tj.P ({ω i }) = P ({ω j }) ,<strong>za</strong> sve i, j ∈ {1, . . . , n}.Tada vjerojatnost skupa (događaja) A ⊆ Ω definiramo na sljedeći način:P (A) =broj elemenata od Abroj elemenata od Ω = k(A)k(Ω) ,gjde je k(·) oznaka <strong>za</strong> broj elemenata skupa (tj. k(A) je oznaka <strong>za</strong> broj elemenataskupa A, a k(Ω) <strong>za</strong> broj elemenata skupa Ω).Klasična metoda definiranja vjerojatnosti temelji se na ideji da vjerojatnost predstavljamjeru dijela u odnosu na cjelinu.SlikaNa potpuno isti način možemo definirati vjerojatnost na familiji podskupova skupasvih mogućih reali<strong>za</strong>cija slučajne varijable X, tj. skupu R(X), pod uvjetom da R(X)ima konačno mnogo jednako vjerojatnih elemenata. Dakle, ako je Ω = R(X), tadavjerojatnost skupa B ⊆ R(X) definiramo na sljedeći način:P (B) =k(B)k (R(X)) .Primjer 4.11 Iz špila karata koji se sastoji od 32 karte (mađarice) izvlačimo jednukartu.Kolika je vjerojatnost da je izvučena karta as (tipove karata kodiramo nasljedeći način: "as" brojem 1, "kralj" brojem 2, itd.)?Kolika je vjerojatnost daizvučena karta nije as? Kolika je vjerojatnost da je izvučena karta as ili kralj?


Slučajna varijabla 53Rješenje: Karte "mađarice" možemo podijeliti u 8 skupina od po 4 karte: sedmica(4), osmica (4), ...., kralj (4), as (4). Kodirajući kao što je navedeno, vidimo dase izvlačenjem jedne karte mogu realizirati brojevi 1, 2, 3, . . . , 8. Time smo <strong>za</strong>pravodefinirali slučajnu varijablu X koja svakoj karti iz špila (kojeg možemo shvatiti kaoskup Ω) pridružuje točno jedan od brojeva 1, 2, 3, 4, 5, 6, 7, 8 prema definiranom pravilukodiranja. Dakle, skup svih mogućih reali<strong>za</strong>cija slučajne varijable X je R(X) ={1, 2, 3, 4, 5, 6, 7, 8}. R(X) ima 8 elemenata koji su svi jednako mogući. Prema tome,iz klasične metode <strong>za</strong> modeliranje vjerojatnosti slijedi da vjerojatnost da izvučemoasa iznosi 1/8. Vjerojatnost da ne izvučemo asa tada iznosi 7/8, a vjerojatnost daizvučemo asa ili kralja 1/8+1/8 = 1/4 (prema svojstvu (2) iz definicije vjerojatnosti).Primjer 4.12 Iz špila karata koji se sastoji od 32 karte (mađarice) izvlačimo dvije karte<strong>za</strong> redom. Kolika je vjerojatnost da su obje izvučene karte asovi?Rješenje: Skup Ω ovdje se sastoji od svih parova različitih karata iz špila - kako se špilsastoji od 32 karte i svaku kartu možemo spariti sa svakom drugom kartom (ali ne i sasamom sobom, jer nakon prvog izvlačenja izvučenu kartu ne vraćamo u špil pa drugukartu biramo od preostale 31 karte) <strong>za</strong>ključujemo da takvih parova ima 32 · 31 = 992,tj. k (Ω) = 248. Budući u špilu ima četiri različita asa, <strong>za</strong> svakog prvog izvučenog asadrugog asa izvlačimo od preostala tri asa, pa takvih parova (as1, as2) ima 4 cot 3 = 12,tj. k(A) = 12, gdje je A skup svih parova različitih asova. Prema klasičoj metodimodeliranja vjerojatnosti slijedi:P (A) = k(A)k(Ω) = 12992 = 3248 .Primjer 4.13 Slučajan pokus sastoji se od bacanja simetrične igraće kockice.se na kockici okrene paran broj <strong>za</strong>radit ćemo jednu kunu, a ako se okrene neparanbroj izgubit ćemo jednu kunu. Primjenom klasične metode modeliranja vjerojatnostiodredite vjerojatnost <strong>za</strong>rade.Rješenje:(1) Ω = {1, 2, 3, 4, 5, 6}, A = {2, 4, 6} ⊂ Ω, P (A) = k(A)k(Ω) = 3 6 = 1 2(2) Definirajmo slučajnu varijablu X čija je reali<strong>za</strong>cija 1 ako pri bacanju kockiceAkopadne paran broj, a (−1) ako pri bacanju kockice padne neparan broj. Dakle,R(X) = {−1, 1}. Zarada jedne kune realizira se samo onda kada pri bacanjukockice padne paran broj, što odgovara vrijednosti 1 slučajne varijable X. Dakle,povoljan događaj u ovo kontekstu je događaj {1} ⊂ R(X), pa jeP (X = 1) = P (A) = 1 2 .


Slučajna varijabla 54Primjer 4.14 Bacamo jednom dvije simetrične igraće kocke.a) Kolika je vjerojatnost da je suma brojeva koji su pali na obje kocke jednaka 6?b) Kolika je vjerojatnost da je suma brojeva koji su pali na obje kocke manja od6?Rješenje:(1) Ω = {(i, j) : i, j ∈ {1, 2, 3, 4, 5, 6}}, k(Ω) = 6 · 6 = 36.a) A - suma brojeva koji su pali na obje kocke jednaka je 6A = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} ⊂ ΩP (A) = k(A)k(Ω) = 5 36 .b) A - suma brojeva koji su pali na obje kocke manja je od 6B = {(1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (4, 1)} ⊂ ΩP (B) = k(B)k(Ω) = 1036 = 5 18 .(2) Definirajmo slučajnu varijablu X čija je reali<strong>za</strong>cija zbroj brojeva koji su pali pribacanju dviju kockica, dakle R(X) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.a) A - suma brojeva koji su pali na obje kocke jednaka je 6P (X = 6) = P (A) = 5 36 .b) A - suma brojeva koji su pali na obje kocke manja je od 6P (X < 6) = P (B) = 5 18 .Vjerojatnost na R(X) <strong>za</strong>dana je sljedećom tablicom (u prvom redu tablice su elementiskupa R(X), a u donjem redu pripadne vjerojatnosti):k 2 3 4 5 6 7 8 9 10 11 12P (X = k) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36Primjer 4.15 Simetrična igraća kockica baca se dva puta.pojavljivanja sljedećih događaja:Zanima nas vjerojatnosta) A - pali su jednaki brojevi,b) B - suma brojeva koji su pali je 8,c) C - produkt brojeva koji su pali je 8.Rješenje: Ω = {(i, j) : i, j ∈ {1, 2, 3, 4, 5, 6}}, k(Ω) = 6 · 6 = 36.a) A = {(i, j) ∈ Ω : i = j}, P (A) = 6/36 = 1/6.


Slučajna varijabla 55b) B = {(i, j) ∈ Ω : i + j = 8}, P (B) = 5/36.c) C = {(i, j) ∈ Ω : i · j = 8}, P (C) = 2/36 = 1/18.Primjer 4.16 Promotrimo kutiju u kojoj se nalazi 100 papirića numeriranih brojevima1, 2, . . . , 100. Reali<strong>za</strong>cija slučajne varijable je broj na jednom slučajno izvučenompapiriću. Odredite vjerojatnosti sljedećih događaja:a) A - izvučeni broj je jednoznamenkast,b) B - izvučeni broj je dvoznamenkast,c) C - izvučeni broj je manji ili jednak od 57,d) D - izvučeni broj je strogo veći od 57.Rješenje: Ω = {1, 2, . . . 100}, k(Ω) = 100.a) A = {1, . . . , 9}, P (A) = 9/100.b) B = {10, . . . , 99}, P (A) = 90/100 = 9/10.c) C = {1, . . . , 57}, P (C) = 57/100.d) A = {58, . . . , 100}, P (D) = 1 − (57/100) = 43/100.Zadatak 4.1 Ako ispunite listić s 12 kombinacija u igri LOTO 6 od 45, kolika je vjerojatnostda osvojite dobitak na pogođenih svih šest brojeva, a kolika je vjerojatnost daosvojite dobitak na pet pogođenih brojeva?4.2.3 Statistička metoda modeliranja vjerojatnostiIzvedite sljedeći pokus: bacite novčić 40 puta. U Statistici (ili Excelu) bilježite reali<strong>za</strong>cijepisma (oznaka 1) ili glave (oznaka 0) kao što je to prika<strong>za</strong>no u sljedećojtablici.Redni broj bacanja Reali<strong>za</strong>cija1 02 13 04 0..Izračunajte relativne frekvencije pojavljivanja pisma u prvih n bacanja <strong>za</strong> svaki n =1, . . . , 40. Tako dobiven niz relativnih frekvencija prikažite grafički. Grafički prikazrelativnih frekvencija pojavljivanja pisma <strong>za</strong> 40 bacanja novčića <strong>za</strong>bilježenih u Exceldokumentu novcic.xls):


Slučajna varijabla 56Ako je pokus takav da ga možemo ne<strong>za</strong>visno ponavljati mnogo puta, relativnafrekvencija pojavljivanja događaja A će se s povećanjem brojaponavljanja pokusa stabilizirati oko nekog broja koji predstavlja statističkidefiniranu vjerojatnost pojavljivanja događaja A.Primjer 4.17 Iskoristite vaše podatke dobivene bacanjem novčića i statističkom metodommodeliranja vjerojatnosti odredite vjerojatnost da se pri bacanju okrene pismo <strong>za</strong>novčić koji ste bacali. Usporedite rezultate s kolegama u grupi.Primjer 4.18 (kolegij.sta)Ba<strong>za</strong> podataka kolegij.sta sadrži informacije o spolu, ocjenama iz sedam položenihkolegija (varijable org-kemija, anorg-kemija, opća-kemija, biokemija, praktikum-1, praktikum-2, praktikum-3) i prosječnu ocjenu studenta na osnovu ocjene svih sedam kolegija(varijabla prosjek) <strong>za</strong> 100 slučajno odabranih studenata nekog fakulteta. Statističkommetodom odredite vjerojatnost da slučajnim odabirom i<strong>za</strong>beremo studenta koji jeorgansku kemiju položioa) ocjenom 5,b) barem ocjenom 4,c) ocjenom manjom od 3,d) ocjenom 2 ili ocjenom 3.Rješenje: Rješenja možemo dobiti pomoću tablice frekvencija i relativnih frekvencijasvih izmjerenih vrijednosti varijable org-kemija:Frequency table: organska kemija (kolegij.sta)Count Cumulative Percent CumulativeCategoryCountPercent256 56 56,00000 56,0000319 75 19,00000 75,0000414 89 14,00000 89,0000511 100 11,00000 100,0000Missing 0 100 0,00000 100,0000


Slučajna varijabla 57Vjerojatnost (određena statističkom metodom) da je slučajnim odabirom i<strong>za</strong>bran studentkoji je organsku kemiju položioa) ocjenom 5 je 0.11,b) barem ocjenom 4 (tj. ocjenom 4 ili ocjenom 5) je 0.14 + 0.11 = 0.25,c) ocjenom manjom od 3 (tj. ocjenom 2) je 0.56,d) ocjenom 2 ili ocjenom 3 je 0.56 + 0.19 = 0.75.4.2.4 Neka svojstva vjerojatnostiDa bismo lakše računali vjerojatnosti događaja <strong>za</strong> razne podskupove konkretnog skupaΩ, u ovom poglavlju ćemo navesti osnovna svojstva vjerojatnosti.(S1) Vjerojatnost suprotnog događaja:Ako je A ∈ F, tada jeP (A c ) = 1 − P (A),gdje je A c = Ω \ A komplement skupa A.Dokaz. Svojstvo (1) iz definicije vjerojatnosti glasi P (Ω) = 1. Cijeli skup Ω možemo prika<strong>za</strong>tikao uniju skupova A i A c (koji nemaju <strong>za</strong>jedničkih elemenata, tj A ∩ A c = ∅), tj.A ∪ A c = Ω.Sada prema svojstvu (2) iz definicije vjerojatnosti slijedi:1 = P (Ω) = P (A ∪ A c ) = P (A) + P (A c ) ⇒ P (A c ) = 1 − P (A).(S2) Vjerojatnost nemogućeg događaja:P (∅) = 0.Dokaz.Obzirom da je ∅ = Ω c , primjenom svojstva (1) iz definicije vjerojatnosti i prethodnodoka<strong>za</strong>nog svojstva (S1) slijedi:P (∅) = P (Ω c ) = 1 − P (Ω) = 0.


Slučajna varijabla 58(S3) Monotonost vjerojatnosti:Ako su A i B skupovi iz F takvi da je A ⊆ B, tada je P (A) ≤ P (B). Osimtoga vrijedi i da je P (B \ A) = P (B) − P (A).Dokaz.• Prikažimo skup B kao uniju skupova koji nemaju <strong>za</strong>jedničkih elemenata: B =A ∪ (B \ A), A ∩ (B \ A) = ∅. Sada prema svojstvu (2) iz definicije vjerojatnostislijedi:P (B) = P (A ∪ (B \ A)) = P (A) + P (B \ A) ≥ P (A),jer je zbog nenegativnosti vjerojatnosti P (B\A) ≥ 0. Slijedi da je u tom slučajuP (B) ≥ P (A), tj. P (A) ≤ P (B).• Primjenjujemo isti pristup kao u dokazu prethodne tvrdnje:P (B) = P (A ∪ (B \ A)) = P (A) + P (B \ A) ⇒ P (B \ A) = P (B) − P (A).(S4) Vjerojatnost unije:Ako su A, B ∈ F proizvoljni događaji (koji ne moraju biti disjunktni), tada jeP (A ∪ B) = P (A) + P (B) − P (A ∩ B).Dokaz. Prikažimo skup A ∪ B kao uniju skupova koji nemaju <strong>za</strong>jedničkih elemenata:A ∪ B = (A \ B) ∪ (A ∩ B) ∪ (B \ A) = (A \ (A ∩ B)) ∪ (A ∩ B) ∪ (B \ (A ∩ B)) ,gdje je A ∩ B ⊆ A i A ∩ B ⊆ B. Sada prema svojstvu (2) iz definicije vjerojatnostislijedi:P (A ∪ B) = P (A \ (A ∩ B)) + P (A ∩ B) + P (B \ (A ∩ B)) =P (A) − P (A ∩ B) + P (A ∩ B) + P (B) − P (A ∩ B) = P (A) + P (B) − P (A ∩ B).


Slučajna varijabla 59Primjer 4.19 Računalo slučajno generira posljednju znamenku telefonskog broja. Odreditevjerojatnost da je ta znamenka:a) jednaka 8,b) jednaka 8 ili 9,c) neparna ili 2,d) parna ili 2,e) neparna, ali nije 3.Rješenje: Ω = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, k(Ω) = 10.a) P ({8}) = 1/10,b) P ({8} ∪ {9}) = P ({8, 9}) = 2/10 = 1/5,c) P ({1} ∪ {3} ∪ {5} ∪ {7} ∪ {9} ∪ {2}) = P ({1, 2, 3, 5, 7, 9}) = 6/10 = 3/5,d) P ({0} ∪ {2} ∪ {4} ∪ {6} ∪ {8} ∪ {2}) = P ({0, 2, 4, 6, 8}) = 5/10 = 1/2,e) P ({1, 5, 7, 9}) = P ({1, 3, 5, 7, 9} \ {3}) = P ({1, 3, 5, 7, 9})−P ({3}) = (5/10)−(1/10) = 4/10 = 2/5.Zadatak 4.2 Između 100 istovrsnih objekata označenih različitim brojevima od 1 do100, na slučajan način i<strong>za</strong>biremo jedan objekt. Odredite sljedeće vjerojatnosti:a) i<strong>za</strong>bran je objekt s oznakom većom ili jednakom 30,b) i<strong>za</strong>bran je objekt s oznakom većom od 30 ili manjom od 10,c) i<strong>za</strong>bran je objekt s parnom oznakom,d) i<strong>za</strong>bran je objekt s parnom oznakom ili s oznakom većom od 30,e) i<strong>za</strong>bran je objekt s oznakom kojoj je <strong>za</strong>dnja znamenka 8,f) i<strong>za</strong>bran je objekt kojemu <strong>za</strong>dnja znamenka nije 8,g) i<strong>za</strong>bran je objekt s parnom oznakom kojoj <strong>za</strong>dnja znamenka nije 8.


Slučajna varijabla 604.3 Diskretna slučajna varijablaKao što smo opisali u poglavlju o tipovima varijabli koje su predmet statističkogopisivanja i istraživanja, bitna je razlika u opisu numeričkih varijabli koje su diskretnogtipa od onih koje su kontinuiranog tipa. Te razlike vidljive su i u načinu koji koristimokada opisujemo vjerojatnosna svojstva slučajnih varijabli kojima modeliramo varijableu istraživanju. Mi ćemo razlikovati dva tipa slučajnih varijabli: diskretne slučajnevarijable i neprekidne slučajne varijableUkoliko je R(X) konačan ili prebrojiv skup kažemo da je slučajna varijablaX diskretna.U tom slučaju skup svih mogućih reali<strong>za</strong>cija označit ćemo R(X) = {x 1 , x 2 , x 3 , . . . , x n }ako je on konačan, odnosno, R(X) = {x 1 , x 2 , x 3 , . . .} ako je beskonačan. Vjerojatnostidogađaja ve<strong>za</strong>nog uz reali<strong>za</strong>ciju diskretne slučajne varijable možemo najjednostavnijeračunati koristeći vjerojatnosti da se dogode pojedinačne reali<strong>za</strong>cije. Zato, uz skupsvih mogućih reali<strong>za</strong>cija diskretne slučajne varijable X, u njezinom opisu ključnu uloguima i pridruženi niz pozitivnih realnih brojeva (p 1 , p 2 , p 3 , . . . , p n ) (odnosno (p i , i ∈ N),ako je R(X) beskonačan) kojim su <strong>za</strong>dane vjerojatnosti da se dogode pojedinačnereali<strong>za</strong>cije iz R(X). Preciznije to možemo iska<strong>za</strong>ti na sljedeći način.Neka je X diskretna slučajna varijabla sa konačnim skupom svih mogućihreali<strong>za</strong>cija R(X) = {x 1 , x 2 , x 3 , . . . , x n } (odnosno prebrojivim skupom svihmogućih reali<strong>za</strong>cija R(X) = {x 1 , x 2 , x 3 , . . .}). Za svaku pojedinu reali<strong>za</strong>cijux i definiramo realan brojp i = P ({X = x i }) .Diskretna slučajna varijabla X je u potpunosti <strong>za</strong>dana skupom R(X)i pripadnim nizom (p i , i = 1, . . . , n) (odnosno nizom (p i , i ∈ N) ako je R(X)prebrojiv skup).Uočimo da <strong>za</strong> ovako definiran niz realnih brojeva (p i , i = 1, . . . , n) (odnosno (p i , i ∈N)) moraju vrijediti sljedeća dva bitna svojstva kako bi on definirao vjerojatnost naR(X):(1) p i ≥ 0 <strong>za</strong> sve pripadne x i ∈ R(X),∑(2)p i = 1.svim x i ∈R(X)Također, korištenjem svojstava iz definicije vjerojatnosti izvodimo način računanjavjerojatnosti da slučajna varijabla primi vrijednosti iz nekog skupa A ⊆ R(X).Naime, vrijedi:P ({X ∈ A}) = ∑ p i .x i ∈A


Slučajna varijabla 61Dokaz.Svaki skup A ⊆ R(X) možemo prika<strong>za</strong>ti kao uniju jednočlanih podskupova {x i } odR(X) gdje je i ∈ I A , tj.A = ∪ i∈IA {x i }.Odavde korištenjem poopćenja svojstva (2) iz definicije vjerojatnosti slijedi:P ({X ∈ A}) = P ({X ∈ ∪ i∈IA {x i }}) = ∑ i∈I AP ({X = x i }) = ∑ x i ∈Ap i .Korištenjem ovih rezultata, diskretna slučajna varijabla se često prikazuje pomoću tadva bitna ni<strong>za</strong> na sljedeći način:X =()(x 1 x 2 . . . x n, odnosno X =p 1 p 2 . . . p nx 1 x 2 x 3 . . .p 1 p 2 p 3 . . .pri čemu se prvom tablicom <strong>za</strong>daje diskretna slučajna varijabla karakterizirana konačnimskupom R(X), a drugom tablicom diskretna slučajna varijabla karakteriziranaprebrojivim skupom R(X) (pogledajte primjer 4.14). Ovakvu tablicu zovemo tablicadistribucije diskretne slučajne varijable. Ako je poznata tablica distribucije nekediskretne slučajne varijable, kažemo da je poznata razdioba ili distribucija tediskretne slučajne varijable.Tablice distribucije možemo prikazivati i u klasičnom tabličnom obliku:vrijednosti x 1 x 2 . . . x nvjerojatnosti p 1 p 2 . . . p n.Distribuciju diskretne slučajne varijable možemo slikovito prika<strong>za</strong>ti histogramom.Primjer 4.20 Diskretna slučajna varijabla X <strong>za</strong>dana je sljedećom tablicom distribucije:()1 2 3 4 5X =.Nacrtajte histogram distribucije ove slučajne varijable.151511011025),1/ 2Histogram distribucije diskretne slučajne varijable X2/ 5vjerojatnosti3/101/ 51/1001 2 3 4 5moguće reali<strong>za</strong>cije slučajne varijable X


Slučajna varijabla 62Uočite:P ({X = 5}) = 2 5 , P ({X ∈ {2, 3}}) = P ({X = 2})+P ({X = 3}) = 1 5 + 1 10 = 3 10 .Primjer 4.21 Diskretna slučajna varijabla koja može primiti vrijednosti 2, 3, 8, 10 <strong>za</strong>danaje sljedećom tablicom distribucije:vrijednosti 2 3 8 10vjerojatnosti 0.15 0.10 0.25 0.5Kolika je vjerojatnost da ova slučajna varijabla primi vrijednosti manje ili jednake 8?Rješenje:P ({X ≤ 8}) = P ({X ∈ {2, 3, 8}}) == P ({X = 2}) + P ({X = 3}) + P ({X = 8}) = 0.15 + 0.10 + 0.25 = 0.5.Primjer 4.22 Procjenjuje se učinak investicije na jednom području izražen u oblikudobiti odnosno gubitka. Distribucija vjerojatnosti učinka investicije navedena je tablicom:dobit (gubitak) / 1000 kn vjerojatnost−400 0.05−200 0.15−100 0.30 0.1100 0.3200 0.03300 0.04400 0.03a) Kolika je vjerojatnost da će investicija rezultirati gubitkom?b) Kolika je vjerojatnost da investicija neće rezultirati dobitkom?c) Kolika je vjerojatnost da će dobit biti barem 100, ali manje od 300 tisuća kuna?Rješenje: Neka je X diskretna slučajna varijabla čije su reali<strong>za</strong>cije iznosi dobitka(odnosno gubitka) u tisućama kuna. Prema prethodnoj tablici jeR(X) = {−400, −200, −100, 0, 100, 200, 300, 400},a pripadne vjerojatnosti su sljedeće:P (X = −400) = 0.05, P (X = −200) = 0.15, P (X = −100) = P (X = 100) = 0.3,P (X = 0) = 0.1, P (X = 200) = P (X = 400) = 0.03, P (X = 300) = 0.04.Dakle, predhodnom tablicom <strong>za</strong>pravo je <strong>za</strong>dana distribucija dikretne slučajne varijableX.


Slučajna varijabla 63a) Investicija rezultira gubitkom ako slučajna varijabla X primi neku od vrijednostiiz skupa {−400, −200, −100} ⊂ R(X):P (X ∈ {−400, −200, −100}) = 0.05 + 0.15 + 0.3 = 0.5.b Investicija neće rezultirati dobitkom ako slučajna varijabla X primi neku od vrijednostiiz skupa {−400, −200, −100, 0} ⊂ R(X):P (X ∈ {−400, −200, −100, 0}) = 0.05 + 0.15 + 0.3 + 0.1 = 0.6.c) Vjerojatnost da će dobit biti barem 100, ali manje od 300 tisuća kuna:P (X ∈ {100, 200}) = 0.3 + 0.03 = 0.33.Primjer 4.23 Objasnite <strong>za</strong>što sljedećom tablicom nije dana distribucija diskretne slučajnevarijable:vrijednosti 2 3 8 10vjerojatnosti 0.15 0 0.21 0.2Rješenje: Zato što suma u drugom redu tablice nije jednaka 1 (0.15 + 0 + 0.21 + 0.2 =0.56), pa niz brojeva 0.15, 0, 0.21, 0.2 ne definira vjerojatnost na skupu {2, 3, 8, 10}.4.4 Empirijska distribucija diskretne slučajne varijableU statističkom ispitivanju bilježimo reali<strong>za</strong>cije jedne diskretne numeričke varijable uM promatranja. Uvjereni smo da svi ti podaci predstavljaju ne<strong>za</strong>visne reali<strong>za</strong>cije istediskretne slučajne varijable X:X =()x 1 x 2 . . . x n,p 1 p 2 . . . p nali pripadni niz vjerojatnosti p i , i = 1, . . . , n, želimo odrediti na osnovu prikupljenihpodataka.U tu svrhu iskoristit ćemo statističku definiciju vjerojatnosti i odreditipojedini p i korištenjem relativne frekvencije pojavljivanja reali<strong>za</strong>cije x i u prikupljenimpodacima. Ovako dobivenu distribuciju zovemo empirijska distribucija diskretneslučajne varijable X.Dakle, ako s f i označimo frekvenciju pojavljivanja reali<strong>za</strong>cije x i u podacima, onda jeempirijska distribucija ove slučajne varijable <strong>za</strong>dana tablicom()x 1 x 2 . . . x nX =f 1 f 2. . . f n, f 1 + f 2 + · · · f n = M.M M MRezultati koji su doka<strong>za</strong>ni u okviru matematičke statistike garantiraju da će empirijskadistribucija to bolje oslikavati stvarnu distribuciju slučajne varijable što je brojpromatranja (tj. izmjerenih vrijednosti varijable od interesa) veći.


Slučajna varijabla 64Primjer 4.24 U jednoj trgovini uveden je novi proizvod. Nakon nekog vremena vlasnika<strong>za</strong>nima da li se kupcima taj proizvod sviđa ili ne pa je provedeno ispitivanjeslučajnog uzorka kupaca. Pri tome je provedeno sljedeće kodiranje odgovora:• ne sviđa mi se: −1,• niti mi se sviđa niti mi se ne sviđa: 0,• sviđa mi se: 1.Bilježeći odgovore na ovaj način, ispitivanjem 50 kupaca, dobiven je niz nula, jedinicai minus jedinica koji preglednije prikazujemo pomoću tablice frekvencija:x i -1 0 1n i 24 11 15a) Sastavite empirijsku distribuciju slučajne varijable koja može primiti navedenetri vrijednosti i modelira odnos kupaca prema novom proizvodu. Distribucijuprikažite histogramom.−1 0 10.48 0.22 0.3b) Uz pretpostavku da empirijska distribucija odgovara stvarnoj distribuciji oveslučajne varijable, odredite kolika je vjerojatnost da se slučajno odabanomkupcu iz populacije sviđa novi proizvod. (Rješenje: 0.3.)c) Ako u trgovinu dođe 200 kupaca iz ove populacije, koji broj kupaca kojima seovaj proizvod sviđa možete očekivati među njima. (Rješenje: možemo očekivati60 kupaca.)Primjer 4.25 (carsold.sta)Promatramo broj prodanih automobila dnevno jednog prodajnog salona <strong>za</strong> proteklih100 dana. Podaci su dani u bazi carsold.sta. Analizom tih podataka mogu se donijetiizvjesni <strong>za</strong>ključi o budućoj prodaji što će pomoći u donošenju poslovnih odluka.a) Nacrtajte histogram i odredite empirijsku distribuciju.9 10 11 12 13 14 15 16 170.07 0.15 0.08 0.11 0.12 0.09 0.11 0.13 0.14b) Koliko iznosi prosječna dnevna prodaja, a koliko je maksimalno odsupanje odprosjeka? (Rješenje: x = 13.26, max {x max − x, x − x min } = 4.26.)c) Uz pretpostavku da empirijska distribucija odgovara stvarnoj distribuciji oveslučajne varijable, odredite vjerojatnost da će ova auto kuća prodati više od 13automobila dnevno? (Rješenje: 0.47.)


Slučajna varijabla 65d) Uz pretpostavku da empirijska distribucija odgovara stvarnoj distribuciji oveslučajne varijable, odredite vjerojatnost da bude prodano više od 9, ali manjeod 12 automobila dnevno? (Rješenje: 0.23.)Primjer 4.26 (training.sta)Broj treninga koje treba provesti prije no što studenti savladaju jedan složeni kompjutorskiprogram kreće se u rasponu od jednog do pet. Proizvođači programa odlučili suprikupiti podatke koji pokazuju koliko je treninga bilo potrebno svakom pojedinomispitaniku da bi savladao program. Podaci su dani u bazi training.sta.a) Odredite empirijsku distribuciju broja provedenih treninga do savladavanja programai nacrtajte histogram.1 2 3 4 50.1 0.26 0.4 0.14 0.1b) Ako proizvođači tog programa žele osigurati da barem 76% studenata savladaprogram, koji je minimalan broj treninga koji trebaju provesti? (Rješenje: 3.)Primjer 4.27 (coffee.sta)Broj gostiju koji dnevno dolaze na kavu u "Sunrise Coffee Shop" nalazi se u bazipodataka coffee.sta.a) Odredite empirijsku distribuciju i prikažite je histogramom.45 46 . . . 670.057 0.0143 . . . 0.0143b) Ako vjerojatnost da će dnevno biti najmanje 56 gostiju iznosi više od 0.5 vlasnikkafića planira <strong>za</strong>posliti još jednog konobara. Ako odluči vjerovati da jeempirijska distribucija broja gostiju iz navedenog ispitivanja identična stvarnojdistribuciji broja gostiju, treba li mu još jedan konobar ili ne? (Rješenje: treba,vjerojatnost je 0.53.)c) Kolika je u tom slučaju vjerojatnost da će kafić posjetiti izmedu 50 i 54 osobednevno? (Rješenje: treba, vjerojatnost je 0.085714.)Primjer 4.28 (prihod.sta)Raspolažemo podacima o prihodu od prodaje <strong>za</strong> 153 poduzeća u Hrvatskoj.a) Nacrtajte histogram i izračunajte očekivanje i standardnu devijaciju empirijskedistribucije. (Rješenje: x = 742398.4, ŝ = 525905.9.)b) Koji je najčešći prijavljeni prihod <strong>za</strong> ispitana poduzeća? (Rješenje: mod je999999.)


Slučajna varijabla 66c) Uz pretpostavku da empirijska distribucija odgovara stvarnoj distribuciji oveslučajne varijable, odredite vjerojatnost da će prihod biti 1200000 i veći, te daće prihod biti izmedu 300000 i 700000 eura? (Rješenje: 0.196078, 0.078432.)Primjer 4.29 (mba.sta)Vijeće jednog MBA studija ima <strong>za</strong>datak odrediti graničnu vrijednost <strong>za</strong> primanjestudenata na MBA studij koristeći GMAT test (Graduate Management AdmissionTest). Vijeće predlaže da se odabere takva granična vrijednost koja će odobriti upis<strong>za</strong> 25% prijavljenih studenata sa najboljim rezultatima na GMAT testu.a) Koja bi to vrijednost bila? (Rješenje: gornji kvartil skupa podataka je 523.)b) Jedan od profesora predlaže da se primi 1/3 studenata. Koliko bi u tom slučajutrebala iznosti granična vrijednost? (Rješenje: 506.)Primjer 4.30 (dob-poduz.sta)Raspolažemo podacima o dobi 200 poduzetnika u Hrvatskoj.a) Zanima nas prosječna starost poduzetnika kao i standardna devijacija empirijskedistribucije. (Rješenje: x = 42.605, ŝ = 8.994078.)b) Također, raspolažemo informacijom da je u SAD-u 50% poduzetnika mlađe od 35godina, pa nas <strong>za</strong>nima kakva je situacija u Hrvatskoj. (Rješenje: 19% poduzetnikau Hrvatskoj je mlađe od 35 godina.)c) Kolika je relativna frekvencija poduzetnika koji imaju između 46 i 60 godina?(Rješenje: 0.275.)4.5 Kontinuirana (neprekidna) slučajna varijablaDiskretne slučajne varijable poslužit će kao matematički model kojim opisujemo diskretnenumeričke varijable u istraživanju. Za modeliranje kontinuiranih numeričkih varijabliu istraživanjima trebat će nam model slučajne varijable čiji skup svih mogućih reali<strong>za</strong>cijaR(X) ima oblik intervala ili segmenta iz skupa realnih brojeva ili je naprostoR(X) = R. Za takve slučajne varijable bit će karakteristično da se, općenito, njihovavjerojatnosna svojstva ne mogu modelirati korištenjem ni<strong>za</strong> vjerojatnosti pojedinačnihreali<strong>za</strong>cija kao u diskretnom slučaju. Kao što smo već uočili kod kontinuiranih varijabli,naglasak pri njihovom opisivanju je stavljen na interval vrijednosti koje takvavarijabla prima, a ne na pojedinačne reali<strong>za</strong>cije.Za slučajnu varijablu X kažemo da je kontinuirana (neprekidna) slučajnavarijabla ako postoji nenegativna realna funkcija f, definirana naskupu realnih brojeva, takva da je vjerojatnostP {a ≤ X ≤ b} = P {a < X ≤ b} = f(x) dx.∫ ba


Slučajna varijabla 67Takvu funkciju f zovemo funkcija gustoće kontinuirane (neprekidne)slučajne varijable X.Uočimo da vjerojatnost P {a ≤ X ≤ b} = P {a < X < b} <strong>za</strong>pravo predstavlja površinuizmeđu osi x i grafa funkcije f na intervalu [a, b].f(x)P {a ≤ X ≤ b}a b xSlika 4.1: Vjerojatnost kao površina između osi x i grafa funkcije f na intervalu [a, b]Na taj način lako vizualiziramo značenje vjerojatnosti da kontinuirana slučajna varijablaprimi vrijednost iz nekog podskupa skupa R. Dakle, prilikom računanja vjerojatnosti<strong>za</strong> kontinuiranu slučajnu varijablu treba prvo skicirati graf njene funkcijegustoće i koristiti ga prilikom analiziranja slučajne varijable i računanja vjerojatnostida ona primi vrijednost iz nekog skupa. Kontinuirana slučajna varijabla je <strong>za</strong>danaako je poznata njena funkcija gustoće. Tada kažemo da poznajemo razdiobu ilidistribuciju kontinuirane slučajne varijable.Primjer 4.31 Funkcija gustoće neprekidne slučajne varijable dana je izrazom{1/2 , x ∈ [−1, 1]f(x) =0 , x /∈ [−1, 1]Odredite vjerojatnosti sljedećih događaja.a) P {X ∈ (0, 1)},b) P {X ∈ (−1, −1/2)},c) P {X ∈ (−1/2, 1)},d) P {X ∈ (−3/2, 1/2)},e) P {X ∈ (−2, 2)}.Primjer 4.32 Funkcija gustoće neprekidne slučajne varijable dana je izrazom{−|x| + 1 , x ∈ [−1, 1]f(x) =0 , x /∈ [−1, 1]


Slučajna varijabla 681.00.80.60.40.21.5 1.0 0.5 0.0 0.5 1.0 1.5Slika 4.2: Graf funkcije gustoće fOdredite vjerojatnosti sljedećih događaja.a) P {X ∈ (0, 1)},b) P {X ∈ (−1, −1/2)},c) P {X ∈ (−1/2, 1)}.Rješenje:1.01.01.00.80.80.80.60.60.60.40.40.40.20.20.21.5 1.0 0.5 0.0 0.5 1.0 1.51.5 1.0 0.5 0.0 0.5 1.0 1.51.5 1.0 0.5 0.0 0.5 1.0 1.5a) P {X ∈ (0, 1)} = 1 b) P {X ∈ (−1, −1/2)} = 1 c) P {X ∈ (−1/2, 1)} = 7 2 8 8Primjer 4.33 Funkcija gustoće neprekidne slučajne varijable dana je izrazom{|x| , x ∈ [−1, 1]f(x) =0 , x /∈ [−1, 1]1.00.80.60.40.21.5 1.0 0.5 0.0 0.5 1.0 1.5Slika 4.3: Graf funkcije gustoće f


Slučajna varijabla 69Odredite vjerojatnosti sljedećih događaja.a) P {X ∈ (0, 1)},b) P {X ∈ (−1, −1/2)},c) P {X ∈ (−1/2, 1)}.Rješenje:1.01.01.00.80.80.80.60.60.60.40.40.40.20.20.21.5 1.0 0.5 0.0 0.5 1.0 1.51.5 1.0 0.5 0.0 0.5 1.0 1.51.5 1.0 0.5 0.0 0.5 1.0 1.5a) P {X ∈ (0, 1)} = 1 b) P {X ∈ (−1, −1/2)} = 3 c) P {X ∈ (−1/2, 1)} = 5 2 8 8Primjer 4.34 Pokrenite programski paket Statistica te i<strong>za</strong>berite:Statistics → Probability Calculator → Distributions.Pogledajte grafove nekih funkcija gustoća vjerojatnosti koje se koriste u primjenama.Diskutirajte razlike u grafovima. Odaberite jednu slučajnu varijablu koja prima brojevebliske nuli s velikom vjerojatnošću.Primjer 4.35a) U programskom paketu Statistica pod opcijom Distributions u Probability Calculatoruproučite grafove funkcija gustoća normalne, Studentove, Fisherove, eksponencijalnei χ 2 distribucije (koristite parametre unaprijed <strong>za</strong>dane u Statistici).Za svaku od ovih distribucija odredite P (X ≤ −1), P (X ≤ 1), P (X ≥ 1)i P (0 < X ≤ 1).b) Uočite sličnost grafa funkcija gustoća normalne distribucije s parametrima 0i 1 i Studentove distribucije. Povećavajte parametar df (tj. broj stupnjevaslobode) Studentove distribucije. Što se događa s grafom gunkcije gustoće <strong>za</strong>velike vrijednosi parametra df?c) Mijenjajte vrijednost parametra mean normalne distribucije - kakve su vjerojatnostiP (X ≤ −1) i P (X ≥ 1) kada mean nije nula?Rješenje:


Slučajna varijabla 70a) normalna distribucija s parametrima µ = 0 i σ = 1 (mean=0, st.dev.=1):0.40.40.30.30.20.20.10.14 3 2 1 1 2 3 44 3 2 1 1 2 3 4P (X ≤ −1) P (X ≤ 1)0.40.40.30.30.20.20.10.14 3 2 1 1 2 3 44 3 2 1 1 2 3 4P (X ≥ 1) P (0 < X ≤ 1)P (0 < X ≤ 1) =P (X ≤ −1) =P (X ≤ 1) =P (X ≥ 1) = 1 −∫ 1∫ 1f(x) dx −−∞∫ 0∫ −1−∞∫ 1−∞−∞−∞f(x) dx = 0.158655,f(x) dx = 0.841345,f(x) dx = 1 − 0.841345 = 0.158655,Studentova distribucija s jednim stupnjem slobode (df=1):f(x) dx = 0.841345 − 0.341345 = 0.341345.0.300.300.250.250.200.200.150.150.100.100.050.054 3 2 1 1 2 3 44 3 2 1 1 2 3 4P (X ≤ −1) P (X ≤ 1)0.300.300.250.250.200.200.150.150.100.100.050.054 3 2 1 1 2 3 44 3 2 1 1 2 3 4P (X ≥ 1) P (0 < X ≤ 1)


Slučajna varijabla 71P (0 < X ≤ 1) =P (X ≤ −1) =P (X ≤ 1) =P (X ≥ 1) = 1 −∫ 1∫ 1−∞f(x) dx −∫ −1−∞∫ 1−∞−∞−∞f(x) dx = 0.25,f(x) dx = 0.75,f(x) dx = 1 − 0.75 = 0.25,∫ 0f(x) dx = 0.75 − 0.25 = 0.25.Fisherova distribucija sa stupnjevima slobode m = 10 i n = 10 (df1=10, df2=10):0.70.60.50.40.30.20.10.70.60.50.40.30.20.11 1 2 3 41 1 2 3 4P (X ≤ 1) = P (0 < X ≤ 1) P (X ≥ 1)P (X ≤ −1) =P (X ≤ 1) =P (X ≥ 1) = 1 −P (0 < X ≤ 1) =∫ 1∫ 1∫ −1−∞∫ 1−∞−∞f(x) dx −−∞−∞f(x) dx = 0,f(x) dx = 0.5,f(x) dx = 1 − 0.5 = 0.5,∫ 0Eksponencijalna distribucija s parametrom λ = 1:f(x) dx = 0.5 − 0 = 0.5.1.01.00.80.80.60.60.40.40.20.21 1 2 3 41 1 2 3 4P (X ≤ 1) = P (0 < X ≤ 1) P (X ≥ 1)P (X ≤ −1) =P (X ≤ 1) =P (X ≥ 1) = 1 −∫ 1−∞∫ 1−∞∫ −1−∞f(x) dx = 0,f(x) dx = 0.632121,f(x) dx = 1 − 0.632121 = 0.367879,


Slučajna varijabla 72P (0 < X ≤ 1) =∫ 1f(x) dx −∫ 0−∞−∞χ 2 distribucija s 3 stupnja slobode (df=3):f(x) dx = 0.632121 − 0 = 0.632121.0.250.250.200.200.150.150.100.100.050.051 1 2 3 4 5 6 7 8 9 101 1 2 3 4 5 6 7 8 9 10P (X ≤ 1) = P (0 < X ≤ 1) P (X ≥ 1)P (X ≤ −1) =P (X ≤ 1) =P (X ≥ 1) = 1 −P (0 < X ≤ 1) =∫ 1∫ 1−∞f(x) dx −∫ 1−∞−∞−∞∫ −1−∞f(x) dx = 0,f(x) dx = 0.198748,f(x) dx = 1 − 0.198748 = 0.801252,∫ 0f(x) dx = 0.198748 − 0 = 0.198748.Uočavamo da je kod normalne distribucije s parametrima 0 i 1 i Studentovedistribucije s parametrom df = 1 (tj. s jednim stupnjeva slobode) P (X ≤ −1) =P (X ≥ 1) što ukazuje na simetričnost tih distribucija. Budući je kod Fisherove,eksponencijalne i χ 2 distribucije P (X ≤ −1) = P (X ≤ 0) = 0, <strong>za</strong>ključujemo dasu te tri distribucije nenegativne, tj. da slučajne varijable s tim distribucijamane poprimaju negativne vrijednosti.b) Graf funkcije gustoće Studentove distribucije s povećanjem vrijednoste parametradf (tj. s povećanjem broja stupnjeva slobode) sve više nalikuje grafu funkcijegustoće normalne distribucije s parametrima 0 i 1. Što je broj stupnjeva slobodeveći, to je vjerojatnost da slučajna varijabla sa Studentovom distribucijompoprimi vrijednosti iz nekog intervala realnih brojeva bliža vjerojatnosti da slučajnavarijabla s normalnom distribucijom poprimi vrijednosti iz tog istog intervala.c) Kada vrijednost parametra mean nije 0 nego npr. 1, uočavamo da je P (X ≤−1) = 0.022750, a P (X ≥ 1) = 0.5. No u ovom je slučaju P (X ≤ 1) = P (X ≥1) = 0.5 i također P (X ≤ 0) = P (X ≥ 2) = 0.158655. Zaključujemo da jenormalna distribucija simetrična s obzirom na vrijednost parametra mean.


Slučajna varijabla 734.6 Mjere centralne tendencije i raspršenosti slučajnevarijableKao što smo kod podataka prikupljenih mjerenjem numeričkih varijabli koristili mjerecentralne tendencije i raspršenosti da bismo lakše opisali skup podataka, tako i kodslučajnih varijabli možemo koristiti analogne mjere <strong>za</strong> lakši opis svojstava slučajnihvarijabli. Međutim, teorijska anali<strong>za</strong> takvih mjera precizno definiranih na osnovutablice distribucije kod diskretnih, odnosno funkcije gustoće kod neprekidnih, slučajnihvarijabli donosi i neke njihove bitne značajke koje se koriste u statističkom <strong>za</strong>ključivanju.U ovom poglavlju definirat ćemo mjere centralne tendencije i raspršenostislučajne varijable posebno <strong>za</strong> diskretne a posebno <strong>za</strong> neprekidne slučajne varijable.Neka je X diskretna slučajna varijabla:()(x 1 x 2 . . . x nX =odnosno X =p 1 p 2 . . . p nx 1 x 2 x 3 . . .p 1 p 2 p 3 . . .).Očekivanje slučajne varijable X je realan broj (ako postoji):∑µ = EX = x i p i ,svim x i ∈R(X)a njena varijanca realan broj (ako postoji):∑σ 2 = V ar X = (x i − µ) 2 p i .svim x i ∈R(X)Neka je X neprekidna slučajna varijabla s gustoćom f. Očekivanje ove slučajnevarijable je realan broj (ako postoji)µ = EX =∫ ∞x f(x) dx,−∞a varijanca realan broj (ako postoji):σ 2 = V ar X =∫ ∞(x − µ) 2 f(x) dx.−∞Drugi korijen iz varijance zovemo standardna devijacija slučajne varijable i označavamoga σ.Očekivanje je jedna od mjera centralne tendencije, a varijanca (i standardna devijacija)jedna od mjera raspršenja oko očekivanja. Ovu činjenicu potkrijepljuju mnogirezultati teorije vjerojatnosti, a jedan od njih je i takozvana Čebiševljeva nejednakost.


Slučajna varijabla 74Čebiševljeva nejednakost:Neka je X slučajna varijabla koja ima varijancu. Neka je σ standardnadevijacija te slučajne varijable, a µ njeno očekivanje. Tada <strong>za</strong> svakiprirodan broj k vrijedi:P {|X − µ| ≥ kσ} ≤ 1 k , k ∈ N.2Interpretacija: Vjerojatnost da se slučajna varijabla realizira vrijednostima kojesu od očekivanja µ udaljene više od kσ manja je ili jednaka 1/k 2 . Uvrštavajući k = 3vidimo da reali<strong>za</strong>cija slučajne varijable pada u interval 〈µ − 3σ, µ + 3σ〉 s vjerojatnošćupribližno 0.9. Ta činjenica praktično znači da približno 90% reali<strong>za</strong>cija slučajnevarijable X padne u interval 〈µ − 3σ, µ + 3σ〉.Iz Čebiševljeve nejednakosti primjernom svojstva vjerojatnosti suprotnog događajaslijedi da jeP {|X − µ| < kσ} ≥ 1 − 1 k . 2Na sljedećim slikama prika<strong>za</strong>na je vjerojatnost P {|X − µ| < kσ} <strong>za</strong> k = 1 i k = 3 <strong>za</strong>normalnu slučajnu varijablu X s parametrima µ = 0 i σ = 1.f(x)P {|X − µ| < σ}−σ σ xSlika 4.4: Prema Čebiševljevoj nejednakosti je P {|X − µ| < σ} = P {X ∈ 〈µ − σ, µ + σ〉} ≥ 0f(x)P {|X − µ| < 3σ}−3σ 3σ xSlika 4.5: Prema Čebiševljevoj nejednakosti je P {|X − µ| < 3σ} = P {X ∈ 〈µ − 3σ, µ + 3σ〉} ≥ 8 9


Slučajna varijabla 75Medijan slučajne varijable X je realan broj m <strong>za</strong> koji vrijedi:P {X ≥ m} ≥ 1 2i P {X ≤ m} ≥ 1 2 .Medijan je također jedna mjera centralne tendencije.Primjer 4.36 Odredite očekivanje, varijancu, standardnu devijaciju i medijan svakeslučajne varijable iz primjera poglavlja 4.4. Također, <strong>za</strong> svaku od navedenih slučajnihvarijabli odredite P {|X − µ| < 3σ} korištenjem distribucije slučajne varijable.Dobiveni rezultat usporedite s ocjenom vjerojatnosti dobivenom pomoću Čebiševljenejednakosti.Rješenje: Navodimo rješenje <strong>za</strong> podatke iz baze carsold.sta.Pretpostavljamo da jestvarna distribucija slučajne varijable iz koje potječu ovi podaci jednaka empirijskojdistribuciji - očekivanje, varijanca, standardna devijacija i medijan su dane u sljedećojtablici:Descriptive Statistics (CARSOLD.STA)Variable Valid N Mean Median Variance Std.Dev.AUTI 100 13,26000 13,00000 6,840808 2,615494Iz distribucije ove slučajne varijable slijedi:P {|X − µ| < 3σ} = P {µ − 3σ < X < µ + 3σ} = P (5.413518 < X < 21.106482) = 1.Ocjena ove vjerojatnosti dobivena pomoću Čebiševljeve nejednakosti je (pogledajte sliku4.5)P {|X − µ| < 3σ} ≥ 1 − 1 9 = 8 9 ≈ 0.888.Primjer 4.37 Odredite očekivanje, varijancu i standardnu devijaciju svake slučajne varijableiz primjera poglavlja 4.5. Također, <strong>za</strong> svaku od navedenih slučajnih varijabliodredite P {|X − µ| < 3σ} korištenjem distribucije slučajne varijable. Dobiveni rezultatusporedite s ocjenom vjerojatnosti dobivenom pomoću Čebiševlje nejednakosti.Rješenje: Navodimo rješenje <strong>za</strong> normalnu slučajnu varijablu s parametrima 0 i 1 -iz Probability Calculatora u programskom poaketu Statistica vidimo da je EX = 0,V ar X = 1, σ = 1 i medijan = 0. Iz distribucije ove slučajne varijable slijedi:P {|X − µ| < 3σ} = P {|X| < 3} = P {−3 < X < 3} = P (X < 3) − P (X ≤ −3) ==∫ 3f(x) dx =∫ 3f(x) dx −∫ −3−3−∞−∞f(x) dx = 0.998650 − 0.001350 = 0.9973.Ocjena ove vjerojatnosti dobivena pomoću Čebiševljeve nejednakosti je (pogledajte sliku4.5)P {|X − µ| < 3σ} = P {|X| < 3} ≥ 1 − 1 9 = 8 9 ≈ 0.888.


Slučajna varijabla 764.7 Važni primjeri diskretnih i neprekidnih slučajnihvarijabli4.7.1 Bernoullijeva slučajna varijabalaUkoliko varijabla koju istražujemo može primiti samo dvije vrijednosti (npr. 0 ili 1),možemo ju modelirati korištenjem Bernoullijeve slučajne varijable.Bernoulijeva slučajna varijabla s parametrom p ∈ 〈0, 1〉 je svaka slučajna varijablakoja ima tablicu distribucije sljedećeg oblika:( )0 1X = , p ∈ 〈0, 1〉, q = 1 − p.q pParametar p ∈ 〈0, 1〉 ima značenje vjerojatnosti da slučajna varijabla X primi vrijednost1.Primjer 4.38 Igramo kockarsku igru u kojoj ostvarujemo dobitak ako se na igraćojkocki okrene šestica.X =(0 156Dakle, reali<strong>za</strong>ciju šestice možemo modelirati Bernoullijevom slučajnom varijablom:ako se pri bacanju kockice realizira šestica Bernoullijeva slučajna varijabla X poprimavrijednost 1, a inače poprima vrijednost 0. Uočite da su vjerojatnosti u tablici distribucijeslučajne varijable X određene klasičnom metodom modeliranja vjerojatnosti.Primjer 4.39 Izvlačimo jedan proizvod iz velike pošiljke u kojoj je 2% loših proizvoda(oznake: 0 - loš proizvod, 1 - dobar proizvod). Modelirajte rezultat izvlačenja slučajnomvarijablom.X =(160 1)0.02 0.98Očekivanje Bernoulijeve slučajne varijable s parametrom p je.)EX = 1 · p + 0 · q = p,.a varijancaV ar X = pq.4.7.2 Binomna slučajna varijablaBinomna slučajna varijabla ve<strong>za</strong>na je uz n ne<strong>za</strong>visnih ponavljanja pokusa koji imasamo dva moguća ishoda - uspjeh i neuspjeh (oznake: 1 -uspjeh; 0 - neuspjeh). Pritome se u svakom izvoženju pokusa uspjeh relaizira s vjerojatnošću p ∈ 〈0, 1〉. Svakoponavljanje takvog pokusa opisano je Bernoullijevom slučajnom varijablom.


Slučajna varijabla 77Binomna slučajna varijabla s parametrima n ∈ N i p ∈ 〈0, 1〉 je slučajna varijablakoja ima tablicu distribucije sljedećeg oblika:X =Oznaka: X ∼ B(n, p)⎛⎜⎝⎞0( )1( )2 . . . n⎟q n npq n−1 np 2 q n−2 . . . p n ⎠ .12Objašnjenje: pokus čijim se jednim izvoženjem moše realizirati ili uspjeh (0) ili neuspjeh(1) ponavljamo ne<strong>za</strong>visno n puta. Zanima nas kolika je vjerojatnost da se pojavitočno k uspjeha (tj. točno k jedinica), k = 0, 1, . . . , n. Prema tablici distribucijebinomne slučajne varijable slijedi:P (X = k) =(nk)p k q n−k ,jer se u n ne<strong>za</strong>visnih ponavljanja pokusa točno k puta (svaki puta sa vjerojatnošćup) pojavila reali<strong>za</strong>cija koju nazivamo uspjeh i točno (n − k) puta reali<strong>za</strong>cija kojunazivamo neuspjeh (svaki puta sa vjerojatnošću q).značenje parametara binomne distribucije: n - broj ne<strong>za</strong>visnih ponavljanja pokusa sasamo dva moguća ishoda; p - vjerojatnost reali<strong>za</strong>cije uspjeha (1) u jednom izvođenjutog pokusa.Primjer 4.40 Broj reali<strong>za</strong>cija šestice pri n ne<strong>za</strong>visnih bacanja simetrične igraće kockicemožemo modelirati binomnom slučajnom varijablom X s parametrima n i p = 1/6.Neka je n = 100, dakle X ∼ B(100, 1/6). Histogram koji prikazuje distribuciju (tj.vjerojatnosti iz tablice distribucije) slučajne varijable X je sljedećeg oblika:0.100.080.060.040.0220 40 60 80 100Nadalje, jedna reali<strong>za</strong>cija slučajne varijabe Y ∼ B(100, 5/6) u ovom kontekstu je brojkoji nam kaže koliko se puta šestica nije pojavila u 100 ne<strong>za</strong>visnih bacanja simetričneigraće kockice. Histogram koji prikazuje distribuciju slučajne varijable Y je sljedećegoblika:


Slučajna varijabla 780.100.080.060.040.0220 40 60 80 100Očekivanje binomne slučajne varijable s parametrom p jeEX = np,a varijancaV ar X = npq.Primjer 4.41 Neka je X binomna slučajna varijabla s parametrima n = 10 i p = 0.1,tj. X ∼ B(10, 0.1). Prema tome očekivanje, varijanca i standardna devijacija slučajnevarijable X suEX = 1, V ar(X) = 0.9, σ = √ 0.9 ≈ 0.95.Vjerojatnost da reali<strong>za</strong>cija slučajne varijable X padne u interval 〈EX − σ, EX + σ〉 =〈0.05, 1.95〉 jeP {|X − 1| < 0.95} = P {X ∈ 〈0.05, 1.95〉} = P {X = 1} = 0.38742.Nadalje, vjerojatnost da reali<strong>za</strong>cija slučajne varijable X padne u interval 〈EX −3σ, EX + 3σ〉 = 〈−1.85, 3.85〉 jeP {|X − 1| < 3 · 0.95} = P {X ∈ 〈−1.85, 3.85〉} == P {X = 0} + P {X = 1} + P {X = 2} + P {X = 3} =( )3∑ 10=0.1 k 0.9 10−k ≈ 0.987205.kk=0Vidimo da su obje izračunate vjerojatnosti u skladu s odgovarajućom Čebiševljevomocjenom (pogledajte slike 4.4 i 4.5)Zadatak 4.3 Poznato je da je u velikom skladištu trgovine informatičkom opremomvjerojatnost pojavljivanja prijenosnog računala s greškom nastalom u proizvodnji jednaka0.02. Pretpostavimo da iz tog skladišta biramo 10 prijenosnih računala. Odreditesljedeće vjerojatnosti:


Slučajna varijabla 79a) vjerojatnost da je točno 5 prijenosnih računala sa greškom,(Rješenje: 7.28922 · 10 −7 )b) vjerojatnost da su s greškom najviše 3 prijenosna računala,(Rješenje: 0.999969)c) vjerojatnost da je s greškom barem 6 prijenosnih računala.(Rješenje: 1.25423 · 10 −8 )Zadatak 4.4 Jedno je istraživanje poka<strong>za</strong>lo da se 5% Amerikanaca boje biti sami u kućitijekom noći. Ako na reprezentativan način odaberemo uzorak od 20 Amerikanaca,odredite sljedeće vjerojatnosti:a) ima točno pet ljudi u uzorku koji se boje biti sami noću,(Rješenje: 0.00224465)b) ima najviše tri osobe u uzorku koje se boje biti same noću,(Rješenje: 0.984098)c) Ima barem tri osobe u uzorku koje se boje biti same noću.(Rješenje: 0.0754837)Zadatak 4.5 Računovodstvena služba nekog poduzeća je utvrdila da 40% kupaca neplaća račune na vrijeme. Ako se na slučajan način iz skupa računa odabere 6 kupaca,kolika je vjerojatnost:a) Da su svi odabrani kupci podmirili račune na vrijeme?(Rješenje: 0.046656)b) Da je preko 3 odabranih kupaca podmirilo račune?4(Rješenje: 0.23328)c) Da 50% odabranih kupaca nije platilo račune na vrijeme?(Rješenje: 0.27648)Zadatak 4.6 Vjerojatnost da izvještaj o povratu pore<strong>za</strong> neke osobe bude ponovo pregledaniznosi 1.5% <strong>za</strong> prihod manji od 100000 dolara, a 3% ako je prihod jednak100000 dolara i veći (izvor: Statistical Abstract of the USA, 1998).a) Kolika je vjerojatnost da poreznom obvezniku, čiji je prihod manji od 100000 $,porezna kartica bude ponovno pregledana, a kolika <strong>za</strong> onoga čiji je prihod jednakili veći od 100000?(Rješenje: 0.015, 0.03)b) Ako se odabere 5 poreznih obveznika sa prihodom manjim od 100000, kolika jevjerojatnost da će biti pregledana samo jedna porezna prijava, a kolika da će ihbiti pregledano više od jedne?(Rješenje: 0.0706002, 0.00218326)


Slučajna varijabla 80c) Isto izračunajte <strong>za</strong> 5 poreznih obveznika s prihodom većim od 100000.(Rješenje: 0.132794, 0.00847205)d) Koje pretpostavke ste morali postaviti da biste riješili ove <strong>za</strong>datke upotrebombinomne distribucije?(Rješenje: pretpostavljamo da se radi o malom uzorku (5 osoba) iz velike populacije,što aproksimativno odgovara modelu u kojem 5 puta ne<strong>za</strong>visno ponavljamoisti Bernoullijev pokus. Ta pretpostavka ovdje omogućuje upotrebubinomne distribucije.)4.7.3 Normalna slučajna varijabalaNormalna slučajna varijabla je najvažnija neprekidna slučajna varijabla. Njena važnostposljedica je činjenice da se suma mnogo ne<strong>za</strong>visnih i jednako distribuiranihslučajnih varijabli može dobro aproksimirati slučajnom varijablom kojaima normalnu distribuciju. Analogna tvrdnja često vrijedi i ako sve slučajne varijableu sumi nisu jednako distribuirane, a također i u nekim slučajevima kada nisune<strong>za</strong>visne.Normalna slučajna varijabla je neprekidna slučajna varijabla <strong>za</strong> kojujeR(X) = R,a funkcija gustoće vjerojatnosti definirana je izrazomf(x) = 1σ √ (x−µ)2e− 2σ 2 ,2πgdje je µ bilo koji realan broj, a σ > 0. Oznaka: X ∼ N (µ, σ 2 ).Graf funkcije gustoće normalne slučajne varijable ovisi o izboru parametara µ i σ 2 .Na Slici 4.6 prika<strong>za</strong>ni su grafovi funkcije gustoće normalne distribucije <strong>za</strong> različitevrijednosti parametara µ i σ 2 .Specijalno, ako je µ = 0, σ 2 = 1, normalnu slučajnu varijablu zovemo standardnanormalna slučajna varijabla. Graf funkcije gustoće standardne normalne slučajnevarijable je zeleni graf prika<strong>za</strong>n na slici 4.6.Značenje parametara normalne distribucije:µ = EX, σ 2 = V ar X.Uočimo:• Funkcija gustoće normalne slučajne varijable ima maksimum <strong>za</strong> x = µ.• Funkcija gustoće normalne slučajne varijable simetrična je u odnosu na pravackoji prolazi maksimumom krivulje i paralelan je s y osi.


Slučajna varijabla 8110.80.6Μ⩵0, Σ 2 ⩵1Μ ⩵2,Σ 2 ⩵0.25Μ⩵2, Σ 2 ⩵40.40.2-4 -2 2 4 6 8 10Slika 4.6: Graf funkcije gustoće normalne distribucije <strong>za</strong> različite µ and σ 2• Standardna devijacija je pozitivan broj i ona određuje koliko je funkcija gustoće"široka".Postupak standardi<strong>za</strong>cije:Neka je X normalna slučajna varijabla X ∼ N (µ, σ 2 ). Tada je slučajna varijablaZ = X − µσstandardna normalna slučajna varijabla (tj. normalna slučajna varijabla s očekivanjem0 i varijancom 1).Primjer 4.42 Dokažite sljedeće tvrdnje korištenjem postupka standardi<strong>za</strong>cije i nekogkalkulatora površine (npr. Probability Calculator iz programskog paketa Statistica)ispod grafa funkcije gustoće standardne normalne slučajne varijable.• Vjerojatnost da reali<strong>za</strong>cija padne u interval [µ − σ, µ + σ] iznosi 0.68.• Vjerojatnost da reali<strong>za</strong>cija padne u interval [µ − 2σ, µ + 2σ] iznosi 0.95.• Vjerojatnost da reali<strong>za</strong>cija padne u interval [µ − 3σ, µ + 3σ] iznosi 0.9972.Zadatak 4.7 Neka je Z standardna normalna slučajna varijabla, tj Z ∼ N (0, 1).Odredite sljedeće vjerojatnosti:1. P (−0.5 ≤ Z ≤ 1.1)(Rješenje: 0.555796)2. P (−0.38 ≤ Z ≤ 1.72)(Rješenje: 0.605311)3. P (Z ≥ 1.6)(Rješenje: 0.054799)


Slučajna varijabla 824. P (Z ≤ −1.8)(Rješenje: 0.035930)Zadatak 4.8 Prinos usjeva određenog gospodarstva mjeri se količinom proizvoda kojise proizvede po hektaru. Poznato je da se normalna slučajna varijabla može upotrijebiti<strong>za</strong> opis prinosa kroz vrijeme (izvor: American Journal of Agricultural Economics,1999). Povijesni podaci pokazuju da prinos pamuka <strong>za</strong> iduću godinu može biti opisannormalnom distribucijom s očekivanjem 1500 funti po hektaru i standardnom devijacijom250. Poljoprivredno gospodarstvo koje promatramo bit će profitabilno akoproizvede barem 1600 funti po hektru.1. Kolika je vjerojatnost da će to gospodarstvo izgubiti novac slijedeće godine?(Rješenje: 0.655422)2. Kolika je vjerojatnost da slijedeće godine prinos padne unutar dvije standardnedevijacije oko 1500?(Rješenje: 0.9545)Zadatak 4.9 Količina novca koji aviokompanije troše na hranu po jednom putniku jenormalno distribuirana sa očekivanjem 64 kn i standardnom devijacijom 16. Odredite:1. Koliki postotak aviokompanija troši više od 100 kn po putniku?(Rješenje: 0.012224)2. Koliki postotak aviokompanija troši između 48 i 80 kn po putniku?(Rješenje: 0.68269)4.8 Empirijska distribucija slučajne varijableU statističkim istraživanjima, varijable o kojima prikupljamo podatke na osnovuuzorka modeliramo kao slučajne varijable. Ukoliko su varijable numeričke i diskretnepo svom karakteru, <strong>za</strong> modeliranje koristimo diskretnu slučajnu varijablu. Pri tomekao distribuciju možemo koristiti empirijsku distribuciju diskretne slučajne varijableo kojoj je već bilo riječi. U tom slučaju, očekivanje slučajne varijable <strong>za</strong>pravo primavrijednost aritmetičke sredine prikupljenih podataka, a varijanca i standardna devijacijaslučajne varijable primaju vrijednost varijance odnosno standardne devijacijeprikupljenih podataka iz te varijable. Preciznije govoreći vrijedi sljedeća tvrdnja.Ako <strong>za</strong> distribuciju slučajne varijable, <strong>za</strong> koju smo ne<strong>za</strong>visnim ponavljanjem pokusa(mjerenja) prikupili reali<strong>za</strong>cije (x 1 , . . . , x n ), smatramo empirijsku distribuciju tog skupapodataka, tj. računamo vjerojatnosti kao:P {X ∈ [a, b]} = relativna frekvencija pojavljivanja reali<strong>za</strong>cije iz intervala [a, b]


Slučajna varijabla 83tada vrijedi:EX = 1 ∑x i = ¯x,niV ar X = 1 ∑(x i − ¯x) 2 .niUpitno je koliko je opravdano empirijsku distribuciju podataka prikupljenih na osnovune<strong>za</strong>visnih reali<strong>za</strong>cija slučajne varijable smatrati njezinom pravom distribucijom.Kod varijabli koje su po karakteru kontinuirane i želimo ih modelirati kao kontinuiraneslučajne varijable, očigledno je da računanje vjerojatnosti korištenjem empirijskedistribucije može biti samo aproksimacija stvarnih vjerojatnosti (vidi definicijukontinuirane slučajne varijable).Zapravo, empirijska distribucija podataka prikupljenih na osnovu ne<strong>za</strong>visnih reali<strong>za</strong>cijaslučajne varijable X samo je procjena <strong>za</strong> njenu stvarnu distribuciju dok suaritmetička sredina, varijanca, standardna devijacija i medijan tih podataka procjene<strong>za</strong> očekivanje, varijancu, standardnu devijaciju i medijan slučajne varijable.4.9 Zadaci <strong>za</strong> vježbu1. Simetrična igraća kockica baca se dva puta. Zanima nas vjerojatnost pojavljivanjasljedećih događaja:a) A = {barem jednom se okrenuo broj 2},b) B = {suma brojeva koji su pali je 7},c) C = {produkt brojeva koji su pali je 4},2. Na raspolaganju nam je kutija u kojoj se nalazi 150 papirića numeriranih brojevima1, 2, . . . , 150. Reali<strong>za</strong>cija slučajne varijable je broj na jednom slučajnoizvučenom papiriću. Odredite vjerojatnosti sljedećih događaja:a) A = {izvučeni broj je djeljiv s tri},b) B = {izvučeni broj je troznamenkast},c) C = {izvučeni broj je manji ili jednak od 99},d) D = {izvučeni broj je strogo veći od 99},3. Neka je distribucija slučajne varijable X dana tablicom:()−3 −2 −1 4 5 6X =1616112• Odredite vjerojatnost skupova: {X < 0}, {X = −3}, {X = 0}, {X > 6},{X ≥ 5}.112112512


Slučajna varijabla 84• Odredite njeno očekivanje, varijancu i standardnu devijaciju.• Odredite P {|X − µ| ≤ 2σ}, gdje je µ očekivanje a σ 2 varijanaca.4. Ba<strong>za</strong> podataka desno.xls sadrži dio podataka iz istraživanja kojim se proučavaučestalost korišenja desne ruke u skupini dešnjaka, ljevaka i ambidekstera jednepoulacije. Varijabla sum sadrži ocjenu učestalosti korištenja desne ruke u deseti<strong>za</strong>branih radnji i može primiti vrijednosti od 0 do 30. Varijabla objetivno sadržiinformaciju o tome da li je osoba dešnjak, ljevak ili ambidekster.• Procijenite vjerojatnost da slučajnim izborom osobe iz ove populacije odaberemodešnjaka.• Procijenite vjerojatnost da slučajnim izborom osobe iz ove populacije odaberemoljevaka.• Procijenite vjerojatnost da slučajnim izborom osobe iz ove populacije odaberemoosobu čija učestalost korištenja desne ruke je manja ili jendaka10.• Procijenite vjerojatnost da slučajnim izborom osobe iz ove populacije odaberemoosobu čija učestalost korištenja desne ruke je barem 10.• Procijenite vjerojatnost da slučajnim izborom osobe iz ove populacije odaberemoosobu čija učestalost korištenja desne ruke nije 20.• Procijenite vjerojatnost da slučajnim izborom osobe iz ove populacije odaberemoosobu čija je učestalost korištenja desne ruke veća od 20.• Procijenite vjerojatnost da slučajnim izborom osobe iz ove populacije odaberemoosobu čija je učestalost korištenja desne ruke 30.• Uz pretpostavku da stvarna distribucija varijable slučajne sum odgovaraempirijskoj distribuciji te varijable, odredite njeno očekivanje, varijancu istandardnu devijaciju.• Uz pretpostavku da stvarna distribucija slučajne varijable sum odgovaraempirijskoj distribuciji, te uz oznaku µ = EX, σ 2 = V ar X, odreditesljedeće vjerojatnosti: P {|X−µ| ≤ σ}, P {|X−µ| ≤ 2σ} i P {|X−µ| ≤ 3σ}.• Uz pretpostavku da stvarna distribucija slučajne varijable sum odgovaraempirijskoj distribuciji, odredite jedan medijan slučajne varijable sum. Također,odredite P {|X − m| ≤ σ}, P {|X − m| ≤ 2σ} i P {|X − m| ≤ 3σ}, gdje jem medijan koji ste odabrali. Diskutirajte razlike u odnosu na prethodnopitanje.5. Odredite vjerojatnosti skupova {X ≤ 1}, {X ≥ 5}, {1 < X < 3}, ako je Xnormalna slučajna varijabla s očekivanjem 2 i varijancom 4.


Poglavlje 5Statističko <strong>za</strong>ključivanje o jednojslučajnoj varijabli5.1 Procjena distribucije, očekivanja i varijancePrimjer 5.1 Raspolažemo podacima o reali<strong>za</strong>ciji slučajne varijable X koja opisujepotrošnju goriva novog modela automobila pri brzini od 110 km/h na autocesti u100 ne<strong>za</strong>visnih mjerenja. Podaci se nalaze u bazi podataka automobili.sta. Često nas<strong>za</strong>nimaju odgovori na pitanja sljedećeg tipa:• Kolika je vjerojatnost da je potrošnja goriva tog modela u navedenim uvjetimamanja od 5.5 L?• Kolika je očekivana potrošnja goriva u navedenim uvjetima?• Kolika je standardna devijacija slučajne varijable koja opisuje potrošnju gorivau navedenim uvjetima?Problem prilikom rješavanja ovog <strong>za</strong>datka je činjenica da mi ne znamo stvarnu distribucijuslučajne varijable X koja opisuje potrošnju goriva u danim uvjetima. Ta namdistribucija treba <strong>za</strong> precizno odgovaranje na postavljena pitanja. Temeljem statističkedefinicije vjerojatnosti, znamo da ima smisla koristiti empirijsku distribucijuovih podataka kao osnovu <strong>za</strong> računanje vjerojatnosti događaja oblika P {X ∈ [a, b]},a, b ∈ R, ukoliko imamo veliki broj reali<strong>za</strong>cija (tj. nmnogo izmjerenih vrijednostipotrošnje goriva). Dapače, što je broj reali<strong>za</strong>cija veći, korištenje empirijske distribucije<strong>za</strong> računanje ovih vjerojatnosti je opravdanije. Zato kažemo da je empirijskadistribucija podataka (x 1 , . . . , x n ), koji predstavljaju ne<strong>za</strong>visne reali<strong>za</strong>cijejedne slučajne varijable X, dobar procjenitelj <strong>za</strong> distribuciju slučajne varijableX. Što je tih podataka više, procjena dobivena temeljem empirijske distribucijebit će kvalitetnija (tj. bliža očekivanju slučajne varijable X).Ako razmislimo o tipu slučajne varijable koja opisuje potrošnju goriva u gornjemprimjeru, prirodno je modelirati ju kao neprekidnu slučajnu varijablu. Međutim, empirijskadistribucija podataka koju koristimo kao temelj <strong>za</strong> računanje vjerojatnosti85


Zaključivanje o jednoj slučajnoj varijabli 86u upravo predloženom postupku je diskretna. Na osnovu poznavanja svojstava varijablekoju proučavamo često možemo unaprijed odrediti oblik neprekidne distribucijekoju je opravdano koristiti prilikom modeliranja slučajne varijable. Npr., već jespomenuto da suma puno ne<strong>za</strong>visnih slučajnih utjecaja na varijablu osigurava da seslučajan karakter varijable može opisati korištenjem normalne distribucije s nepoznatimočekivanjem µ i varijancom σ 2 . U takvim slučajevima <strong>za</strong> odrađivanje distribucijeiz podataka možemo koristiti pretpostavljeni tip distribucije te procijeniti nepoznateparametre: očekivanje i varijancu.Za procjenu očekivanja slučajne varijable koristimo aritmetičku sredinupodataka (x 1 , x 2 , . . . , x n ) dobivenih mjerenjem reali<strong>za</strong>cija navedene slučajnevarijable u međusobno ne<strong>za</strong>visnim ponavljanjima pokusa, tj.¯x n = 1 nn∑x i .i=1Za procjenu varijance slučajne varijable koristimo korigiranu varijancu podataka(x 1 , x 2 , . . . , x n ) dobivenih mjerenjem reali<strong>za</strong>cija navedene slučajnevarijable u međusobno ne<strong>za</strong>visnim ponavljanjima pokusa, tj.¯s 2 n = 1n − 1n∑(x i − ¯x) 2 .i=1Primjer 5.2 Promotrimo podatke o potrošnji goriva iz baze podataka automobili.sta.Već smo rekli da su izmjerene vrijednosti potrošnje goriva u danim uvjetima primjera5.1. reali<strong>za</strong>cije jedne kontinuirane slučajne varijable X. Pokušajmo odrediti o kojemse tipu neprekidne slučajne varijable radi tako da kategoriziramo podatke i nacrtamohistogram frekvencija i relativnih frekvencija:70Histogram of Potrosnja23%6020%5017%No of obs403013%10%207%103%01,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5Potrosnja0%


Zaključivanje o jednoj slučajnoj varijabli 87Iz ovog histograma uočavamo da ovu varijablu ima smisla modelirati kao normalnuslučajnu varijablu. Štoviše, povećanje broja kategorija podataka pokazuje još boljuusklađenost histograma kategoriziranih izmjerenih vrijednosti potrošnje goriva s funkcijomgustoće normalne distribucije. Sada smo odredili tip kontinuirane slučajne varijablekojom ima smisla modelirati potrošnju goriva ovog modela automobila u danimuvjetima, ali njezine numeričke karakteristike (očekivanje i varijanca) su nepoznate.Stvarno očekivanje i varijancu ni ne možemo znati, no obje ove numeričke karakteristikemožemo procijeniti na temelju 300 izmjerenih vrijednosti potrošnje goriva iz bazepodataka:x 300 = 5.12, s n = 0.97.Ove procjene <strong>za</strong> očekivanje i varijancu možemo iskoristiti kao parametre normalnedistribucije kojom vršimo modeliranje, tj. možemo uzeti da je X ∼ N (5.12, 0.97). Pomoćuove normalne distribucije s procijenjenim parametrima možemo izračunati vjerojatnostda je potrošnja goriva tog modela u navedenim uvjetima manja od 5.5 L (koristiteProbability Calculator u programskom paketu Statistica): P {X < 5.5} = 0.652.Istu vjerojatnost mogli smo izračunati i pomoću empirijske distribucije podataka -ovim pristupom dobivamo da je P {X < 5.5} = 0.657. Budući znamo da je empirijskadistribucija dobar procjenitelj <strong>za</strong> stvarnu distribuciju slučajne varijable X izkoje potječu podaci te smo korištenjem empirijske distribucije i normalne distribucijes parametrima x 300 = 5.12 i s 300 = 0.97 dobili približno jednake vjerojatnostiP {X < 5.5}, <strong>za</strong>ključujemo da je X ∼ N (5.12, 0.97) dobar model <strong>za</strong> promatranuvarijablu.Zadatak 5.1 Ba<strong>za</strong> podataka dob-poduz.sta sadrži podatke o godinama starosti <strong>za</strong> 200poduzetnika iz Republike Hrvatske.a) Procijenite očekivanje i varijancu slučajne varijable kojom modeliramo starost(u godinama) hrvatskih poduzetnika.b) Kategorizirajte podatke s kojima raspolažete te odlučite ima li smisla modeliratiovu varijablu kao normalnu slučajnu varijablu. Ako ima, korištenjem normalnedistribucije s procijenjenim vrijednostima očekivanja i varijance odredite vjerojatnostda je poduzetnik stariji od 30, ali mlađi od 40 godina.Zadatak 5.2 Ba<strong>za</strong> podataka farmakologija.sta sadrži podatke o koncentraciji nekog lijekau organizmu mjerenoj od trenutka njegovog unosa do trenutka njegove eliminacijeiz organizma.a) Modeliramo li koncentraciju lijeka u organizmu diskretnom ili kontinuiranomslučajnom varijablom? Kategorizirajte ove podatke i nacrtajte histogam frekvencijai relativnih frekvencija. Je li normalna slučajna varijabla prikladna <strong>za</strong> modeliranjeovih podataka? Ako smatrate da nije, pokušajte modelirati podatkepomoću eksponencijalne distribucije:


Zaključivanje o jednoj slučajnoj varijabli 88Graphs → Histograms → Advanced → Fit type - Exponential.Što <strong>za</strong>ključujete?b) Procijenite očekivanje i varijancu slučajne varijable kojom modeliramo koncentracijuovog lijeka u organizmu. Korištenjem empirijske distribucije i eksponencijalnedistribucije s parametrom λ = 0.37 odredite vjerojatnost da je koncentracijalijeka u krvi u slučajno odabranom trenutku prije njegove eliminacije izorganizma manja od pet. Što <strong>za</strong>ključujete?Obzirom da očekivanje i varijanca slučajne varijable imaju bitnu interpretaciju i kadane znamo točno tip distribucije, često je u primjenama korisno dobiti procijenjenevrijednosti <strong>za</strong> očekivanje i varijancu kao sumarnu informaciju o varijabli koju opisujemo.Npr., u primjeru o potrošnji goriva s početka ovog poglavlja kao informaciju opotrošnji goriva navedenog modela možemo reći da očekivanje potrošnje goriva iznosi5.12, varijanca 0.92, a standardna devijacija 0.985.Međutim, ponavljanjem mjerenja, dobit ćemo nove podatke. Procjena s tim novimpodacima dat će neku drugu vrijednost <strong>za</strong> očekivanje i varijancu.Primjer 5.3 Odredite procjene <strong>za</strong> očekivanje i standardnu devijaciju korištenjem samosto podataka iz baze automobili.sta. Ponovite procjenu korištenjem 150, 200 i 250podataka. Komentirajte svoja <strong>za</strong>pažanja.Da bismo bolje objasnili pojam procjene i procjenitelja kao i neka njihova svojstvapotrebna <strong>za</strong> statističko <strong>za</strong>ključivanje potrebno je prvo razumjeti matematički modeljednostavnog slučajnog uzorka koji koristimo <strong>za</strong> modeliranje skupa prikupljenihpodataka jedne varijable.Do sada smo naučili da varijablu koju istražujemo modeliramo kao slučajnu varijablu.Označimo je X. Podatak x koji smo pri tome dobili mjerenjem (odnosnonekom drugom metodom prikupljanja podataka opisanom u uvodu) jedna je reali<strong>za</strong>cijate slučajne varijable. Obzirom da smo iz te varijable prikupili n podataka,označili smo ih x 1 , . . . , x n . Pri tome je svaki x i jedna reali<strong>za</strong>cija slučajne varijable X i ,i ∈ {1, . . . , n} koja je distribuirana jednako kao slučajna varijabla X. Osim toga, postupakprikupljanja podataka mora biti takav da su mjerenja međusobno ne<strong>za</strong>visna.Na temelju ovoga, prirodno je izmjerene podatke x 1 , . . . , x n smatrati jednom reali<strong>za</strong>cijomod n slučajnih varijabli X 1 , . . . , X n koje imaju distribuciju kao X i međusobnosu ne<strong>za</strong>visne. Takav model u statistici zovemo model jednostavnog slučajnog uzorkaiz distribucije koja je <strong>za</strong>dana slučajnom varijablom X.Jednostavan slučajan uzorak iz distribucije <strong>za</strong>dane slučajnom varijablomX je uređena n-torka slučajnih varijabli (X 1 , . . . , X n ) od kojihsvaka ima istu distribuciju kao X i međusobno su ne<strong>za</strong>visne.


Zaključivanje o jednoj slučajnoj varijabli 89Obzirom da ćemo u ovom poglavlju koristiti samo model jednostavnog slučajnoguzorka, umjesto ovog dugačkog naziva koristit ćemo termin uzorak <strong>za</strong> model, a reali<strong>za</strong>cijauzorka <strong>za</strong> prikupljene podatke.U trenutku kada radimo procjenu neke numeričke karakteristike slučajne varijableX primjenjujemo <strong>za</strong>danu formulu na jednu reali<strong>za</strong>ciju uzorka (npr. formulu <strong>za</strong> aritmetičkusredinu jedne reali<strong>za</strong>cije utorka ako procjenjujemo očekivanje, formulu <strong>za</strong>korigiranu varijancu reali<strong>za</strong>cije uzorka ako procjenjujemo varijancu, . . . ). Obziromda uzorak ima slučajan karakter, neka druga reali<strong>za</strong>cija u ponovnom prikupljanju podatakaje prirodna, pa tako i druga vrijednost <strong>za</strong> procjenu. Samim tim i procjenune možemo smatrati determinističkom već slučajnom veličinom. Dakle, pojedinačnaprocjena nije ništa drugo do reali<strong>za</strong>cija jedne slučajne varijable, zovemo je procjenitelj,slično kao što je jedno mjerenje samo jedna reali<strong>za</strong>cija slučajne varijable kojanas <strong>za</strong>nima i o kojoj nastojimo nešto <strong>za</strong>ključiti.Dakle, iako mi želimo izvršiti procjenu neke numeričke vrijednosti jednim brojem, valjapriznati realnost, tj. slučajan karakter procjenitelja, i pokušati dobiti što kvalitetnijuinformaciju iz postupka procjene. U tu svrhu vršimo procijenu intervalom unaprijedi<strong>za</strong>brane pouzdanosti. Ako smo i<strong>za</strong>brali pouzdanost 95 % kažemo da smo procijenilidanu veličinu intervalom s pouzdanošću 95 %.Interval i<strong>za</strong>brane pouzdanosti γ <strong>za</strong> procjenu neke veličine (recimo očekivanja)u stvari nije pravi interval s granicama koji su realni brojevi. To jeinterval koji ima slučajne varijable kao granice i određen je temeljem <strong>za</strong>htjevada se stvarna vrijednost veličine koju procjenjujemo nalazi u takvom,slučajnom, intervalu s vjerojatnošću barem γ. Svaki puta kada primijenimoformule <strong>za</strong> određivanje granica intervala pouzdanosti γ na podatke izuzorka slučajne varijable, dobit ćemo običan interval s realnim brojevimakao granicama. U 100γ % slučajeva taj izračunati interval realnih brojevasadržavat će stvarnu vrijednost veličine koju procjenjujemo. Dakle, intervalpouzdanosti γ je takozvani slučajan interval, tj. granice su mu slučajne varijable.Jedna reali<strong>za</strong>cija intervala pouzdanosti γ, određena na osnovu prikupljenog uzorka,je običan interval realnih brojeva. Uobičajneno je u praksi i tu reali<strong>za</strong>ciju pouzdanogintervala također zvati pouzdani interval. Međutim, važno je znati razliku izmeđupouzdanog intervala kao slučajnog intervala i njegove reali<strong>za</strong>cije - običnog intervalarealnih brojeva.Pri tome je važno voditi računa o interpretaciji.


Zaključivanje o jednoj slučajnoj varijabli 905.2 Procjena očekivanja intervalom <strong>za</strong>dane pouzdanosti<strong>za</strong> velike uzorkeZa uzorak kažemo da je velik ako je njegova dimenzija veća od 30, tj.ako sadrživiše od 30 izmjerenih vrijednosti. Za velike uzorke možemo odrediti interval i<strong>za</strong>branepouzdanosti <strong>za</strong> očekivanje slučajne varijable iz koje smo sakupili uzorak na sljedećinačin.Neka je X n aritmetička sredina uzorka dimenzije n iz slučajne varijable X.Pretpostavimoda je očekivanje slučajne varijable X nepoznato i iznosi µ, a varijanca jepoznata i iznosi σ 2 . Teorija vjerojatnosti pokazuje da aritmetička sredina uzorka, <strong>za</strong>velike dimenzije uzorka, ima približno normalnu distribuciju s očekivanjem µ i varijancomσ2 . Korištenjem postupka standardi<strong>za</strong>cije odavde slijedi da slučajna varijablanZ = X n − EX√nV ar(X n )= X n − µ √ nσima standardnu normalnu distribuciju, Z ∼ N (0, 1).Neka je z γ takav broj <strong>za</strong> koji vrijedi: P {|Z| ≤ z γ } = γ. Budući je Z ∼ N (0, 1), vrijednostγ interpretiramo kao površinu ispod grafa funkcije gustoće standardne normalnedistribucije nad intervalom [−z γ , z γ ], tj.P {|Z| ≤ z γ } = 1 √2π∫z γ−z γe −x2 /2 dx = γ.Uvrštavanjem izra<strong>za</strong> Z = Xn−µ √σ n u jednakost P {|Z| ≤ zγ } = γ slijedi:= PP (|Z| ≤ z γ ) = P (−z γ ≤ Z ≤ z γ ) =(= P −z γ ≤ X )n − µ √ n ≤ zγ =σ)σ σ(X n − z γ √n ≤ µ ≤ X n + z γ √n= γ.Ovaj rezultat <strong>za</strong>pisujemo na sljedeći način:{]}σ σP µ ∈[X n − z γ √n , X n + z γ √n = γ.Ovo razmatranje dovodi do sljedećeg <strong>za</strong>ključka: ako je (x 1 , . . . , x n ) reali<strong>za</strong>cija uzorkaiz slučajne varijable X, x n aritmetička sredina koju smo izračunali iz te reali<strong>za</strong>cije iγ ∈ (0, 1), onda će u 100γ % slučajeva interval izračunat po formuli


Zaključivanje o jednoj slučajnoj varijabli 91[x n − z γσ √n , x n + z γσ √n]x n — aritmetička sredina uzorka,σ — standardna devijacija slučajne varijable X,z γ — takav broj <strong>za</strong> koji vrijedi: P {|Z| ≤ z γ } = γ,Z — standardna normalna slučajna varijabla.sadržati stvarnu (nepoznatu) vrijednost očekivanja slučajne varijable X, tj. vrijednostµ.Primjer 5.4(automobili.sta)Za podatke iz baze automobili.sta procijenite očekivanu potrošnju goriva intervalompouzdanosti 95 %.Rješenje:(1) Mjere deskriptivne statistike potrebne <strong>za</strong> računanje jedne reali<strong>za</strong>cije intervalapozdanosti 95 %:n = 300, x = 5.12, σ = 0.97.Vrijednost z γ <strong>za</strong> γ = 0.95 određujemo pomoću Probability Calculatora u Statistici:Sada uvrštavanjem slijedi:z γ = 1.959964 ≈ 1.96.x n − z γσ √n = 5.12 − 1.96 0.97 √300≈ 5.01023,x n + z γσ √n = 5.12 + 1.96 0.97 √300≈ 5.22977.Dakle, interval pouzdanosti je [5.01023, 5.22977].(2) Reali<strong>za</strong>ciju intervala pouzdanosti 95 %, temeljenu na podacima iz baze automobili.sta,možemo izračunati i u Statistici:Statistics → Basic Statistics/Tables → Descriptive Statistics → Variables →Advanced → označiti "Conf.95 % → Summary.limits for means interval" i odabrati vrijednostInterval pouzdanosti koji kao rješenje daje Statistica je [5.004597, 5.225560]. Razlikeu rezultatima posljedica su <strong>za</strong>okruživanja vrijednosti mjera deskriptivnestatistike u prvom načinu rješavanja.


Zaključivanje o jednoj slučajnoj varijabli 92Primjer 5.5(dob-poduz.sta)Podaci o dobi 200 poduzetnika u Hrvatskoj dani su u bazi podataka dob-poduz.sta.Procijenite očekivanje slučajne varijable kojom je modelirana dob poduzetnika uHrvatskoj intervalima pouzdanosti 95 % i 97 %. Koji od ovih dvaju intervala je širi?Obrazložite <strong>za</strong>što.Rješenje:Reali<strong>za</strong>cija intervala pouzdanosti 95 % - [41.35088, 43.85912].Reali<strong>za</strong>cija intervala pouzdanosti 97 % - [41.21490, 43.99510].Očito <strong>za</strong> izračunate intervale vrijedi[41.35088, 43.85912] ⊂ [41.21490, 43.99510].Objašnjenje leži u činjenici da <strong>za</strong> intervale različitih pouzdanosti γ 1 i γ 2 takve da jeγ 1 < γ 2 (npr. γ 1 = 0.95, γ 2 = 0.97) vrijedi da jez γ1 < z γ2 ,pa <strong>za</strong> istu reali<strong>za</strong>ciju (x 1 , . . . , x n ) slučajnog uzorka vrijedi]]σ σ σ σ[x n − z γ1 √n , x n + z γ1 √n ⊂[x n − z γ2 √n , x n + z γ2 √n .Primjer 5.6 (iq25.sta, iq60.sta)Zakon o diskriminaciji prema dobi iz 1967. godine označava ilegalnim postupak diskriminacijedjelatnika starih 40 godina i više. Oni koji se ne slažu sa <strong>za</strong>konom argumentirajuda postoje ekonomski razlozi <strong>za</strong>što poslodavci nerado <strong>za</strong>pošljavaju osobe kojesu blizu mirovine. Također govore da je sposobnost ljudi te dobi upitna. U bazi podatakaiq25.sta nalaze se rezultati testa inteligencije <strong>za</strong> 25-godišnjake, a u bazi iq60.starezultati testa inteligencije <strong>za</strong> 60-godišnjake. Procijenite očekivanje slučajne varijablekojom je modeliran reultat provedenog testa inteligencija intervalom pouzdanosti 95 %<strong>za</strong> obje dobi. Dajte objašnjenje tih intervala i komentar u kontekstu problema koji jeopisan.Rješenje:Interval pouzdanosti <strong>za</strong> očekivanje <strong>za</strong> 25-godišnjake je [61.97539, 71.69127], a <strong>za</strong> 60-godišnjake [41.00907, 49.60204].Primjer 5.7 (gluko<strong>za</strong>-kol.sta)U bazi podataka gluko<strong>za</strong>-kol.sta nalaze se podaci o dobi (varijabla dob) i koncentracijiglukoze u krvi (varijabla gluko<strong>za</strong>) <strong>za</strong> 100 ispitanika. Procijenite očekivanje slučajnevarijable kojom je modelirana koncentraciju glukoze intervalom pouzdanosti 95 %.Objasnite rezultat.


Zaključivanje o jednoj slučajnoj varijabli 93Rješenje:Interval pouzdanosti <strong>za</strong> očekivanje slučajne varijable kojom modeliramo koncentracijuglukoze u krvi je [5.495478, 6, 298322].Primjer 5.8 (turi<strong>za</strong>m1.sta)U bazi podataka turi<strong>za</strong>m1.sta nalaze se podaci o cijenama sedmodnevnih turističkiharanžmana <strong>za</strong> dvije osobe u ljetovalištima na jadranskoj obali (varijabla Obala) i uljetovalištima na otocima (varijabla Otoci).a) Je li viša prosječna cijena turističkog aranžmana na obali ili prosječna cijena turističkogaranžmana na otocima? Na temelju čega izvodite taj <strong>za</strong>ključak? Ima lismisla varijable Obala i Otoci modelirati normalnim slučajnim varijablama? Akosmatrate da ima, koje ćete vrijednosti parametara normalne slučajne varijablekoristiti i <strong>za</strong>što?b) Procijenite očekivanja slučajnih varijabli kojima modeliramo cijene turističkiharanžmana na obali i na otocima intervalima pouzdanosti 95 %. Usporeditedobivene intervale i komentirajte svoj <strong>za</strong>ključak.5.3 Procjena proporcije intervalom <strong>za</strong>dane pouzdanostiProcjena proporcije koristi se kada želimo procijeniti vjerojatnost pojavljivanja nekogunaprijed i<strong>za</strong>branog događaja na osnovu ne<strong>za</strong>visnih ponavljanja istog pokusa. Ovajnaziv dolazi iz interpretacije vjerojatnosti kao odnosa dijela i cjeline.Primjer 5.9• Vjerojatnost izvlačenja asa iz špila karata odgovara kvocijentu broja asova u špilui broja svih karata u špilu.• Vjerojatnost pobjede i<strong>za</strong>brane stranke na izborima odgovara kvocijentu broja osobakoje će glasati <strong>za</strong> tu stranku i ukupnog broja glasača.• Vjerojatnost izbora pokvarenog proizvoda iz nekog skupa proizvoda odgovara kvocijentubroja pokvarenih proizvoda i broja proizvoda u skupu iz kojeg biramo.Pri analizi ovakvih problema, možemo u modeliranju iskoristiti Bernoullijevu slučajnuvarijabu, tj.( )0 1X =p ∈ (0, 1), q = 1 − p.q pPri tome 1 odgovara činjenici da se dogodio događaj, a 0 čijenici da se događaj nijedogodio. Dakle, p je vjerojatnost da se odabrani događaj dogodi.Ne<strong>za</strong>visnim ponavljanjem našeg pokusa n puta bilježimo da li se dogodio odabranidogađaj (1) ili ne (0). Tako prikupljeni uzorak je niz jedinica i nula (sve skupa n


Zaključivanje o jednoj slučajnoj varijabli 94njih). Trebamo na neki način procijeniti vjerojatnost uspjeha p. Međutim, p je ujednoočekivanje Bernoullijeve slučajne varijable X, pa se problem procjene vjerojatnosti psvodi na problem procjene očekivanja slučajne varijable X.Očekivanje slučajne varijable procjenjujemo aritmetičkom sredinom uzorka. Obziromda se ovdje uzorak (x 1 , . . . , x n ) sastoji od samih nula i jedninica, aritmetička sredinauzorka odgovara relativnoj frekvenciji jedinica u uzorku.Za procjenu vjerojatnosti reali<strong>za</strong>cije jedinice u Bernoullijevoj slučajnoj varijabli,na osnovu n ne<strong>za</strong>visnih ponavljanja tog Bernoullijevog pokusa, koristimorelativnu frekvenciju jedinice u uzorku:ˆp = f 1n .Za određivanje intervala <strong>za</strong>dane pouzdanosti <strong>za</strong> vjerojatnost p koristimo ponovo činjenicuda, <strong>za</strong> velike dimenzije uzorka (n > 30), aritmetička sredina uzorka ima približnonormalnu distribuciju s očekivanjem koje odgovara populacijskom očekivanju ivarijancom koja je jednaka populacijskoj varijanci podjeljenoj s dimenzijom uzorka.Obzirom da je, u ovom problemu, populacijsko očekivanje jednako p, a populacijskavarijanca pq (pogledati poglavlje 4.7.1 o Bernoullijevoj slučajnoj varijabli), onda slučajnavarijablaZ = ˆp − p √ pq√ nima približno standardnu normalnu distribuciju, Z ∼ N (0, 1).Neka je z γ broj <strong>za</strong> koji vrijedi: P {|Z| ≤ z γ } = γ, gdje je Z ∼ N (0, 1). Uvrštavanjemizra<strong>za</strong> Z = √ ˆp−p √pqn u jednakost P {|Z| ≤ zγ } = γ i analiziranjem nejednakosti √ ˆp−p √pqn ≤z γ može se poka<strong>za</strong>ti da vrijedi{ [Pp ∈ˆp − z γ√ˆpˆqn , ˆp + z γ√ ]}ˆpˆq= γ.nOvo razmatranje dovodi do sljedećeg <strong>za</strong>ključka: ako je ˆp relativna frekvencija jedinicau n-dimenzionalnom uzorku iz Bernoullijeve distribucije i γ ∈ (0, 1), onda će u 100γ %slučajeva interval izračunat po formuli[√ √ ]ˆpˆq ˆpˆqˆp − z γn , ˆp + z γ ,nˆp — relativna frekvencija jedinice (uspjeha) u uzorku,ˆq = 1 − ˆp,z γ — broj <strong>za</strong> koji vrijedi P {|Z| ≤ z γ } = γ,Z — standardna normalna slučajna varijabla.


Zaključivanje o jednoj slučajnoj varijabli 95sadržavati pravu vrijednost vjerojatnosti p.Dimenzija uzorka je dovoljno velika ako interval[ √ √ ]ˆp(1 − ˆp) ˆp(1 − ˆp)ˆp − 3 , ˆp + 3nnne sadrži ni 0 ni 1.Uočimo da iz ovog razmatranja možemo odrediti dimenziju uzorka koja će osigurati<strong>za</strong>danu preciznost procjene pouzdanim intervalom, tj. <strong>za</strong>danu duljinu intervala.Analizirajte ovaj problem!Primjer 5.10 Jedna tvornica hrane želi provesti istraživanje tržišta intervjuirajući 1000potrošača kako bi odredili koju marku pahuljica <strong>za</strong> doručak oni preferiraju. Prikupljenipodaci su poka<strong>za</strong>li da 313 ispitanika upravo odabire marku tvornice koja jeprovela istraživanje. Na osnovu dobivenih rezultata odredite interval pouzdanosti95 % <strong>za</strong> proporciju konzumenata pahuljica navedene tvrtke u odnosu na sve potrošačepahuljica istraživanog tržišta. Objasnite rezultat.Rješenje:Interval pouzdanosti <strong>za</strong> proporciju konzumenata pahuljica tvrtke koja je provela istraživanjeje [0.284, 0.342].Primjer 5.11 (vrtic.sta)U vašem je poduzeću uposleno više od 3000 ljudi. Želite ponuditi pomoć svojim<strong>za</strong>poslenicima oko organi<strong>za</strong>cije čuvanja djece. Razmišljali ste o dvije opcije - otvoritislužbu čuvanja unutar poduzeća ili ponuditi novčanu pomoć roditeljima s malomdjecom i tako im pomoći da sami organiziraju čuvanje djece. Odabratli ste 60 roditeljai jednostavno ih upitali da odaberu opciju <strong>za</strong> koju smatraju da im više odgovara.Njihove ste odgovore označili na sljedeći način:0 - radije bih novčanu pomoć <strong>za</strong> samostalno organiziranje čuvanja djece1 - radije bih da poduzeće otvori službu <strong>za</strong> čuvanje djeceIntervalom pouzdanosti 95 % procijenite stvarnu proporciju <strong>za</strong>poslenika tvrtke kojižele organizirano čuvanje djece. Procijenite s pouzdanošću γ=0.95 proporciju roditeljakoji žele organizirano čuvanje djece.Rješenje:Interval pouzdanosti <strong>za</strong> proporciju <strong>za</strong>poslenika tvrtke koji žele organizirano čuvanjedjece je [0.512111, 0.755889].Primjer 5.12 Neka agencija je provela istraživanje koje je obuhvatilo 1252 osobe kojeposjeduju kreditnu karticu. Njih 180 koristilo je karticu <strong>za</strong> kupovinu putem Interneta.


Zaključivanje o jednoj slučajnoj varijabli 96a) Da li je uzorak dovoljno velik <strong>za</strong> konstruiranje valjanog intervala pouzdanosti <strong>za</strong>proporciju onih koji su koristili karticu <strong>za</strong> kupovinu putem Interneta u odnosuna sve osobe koje posjeduju kreditnu karticu? Obrazložite odgovor.b) Odredite interval pouzdanosti 98 % <strong>za</strong> navedenu proporciju te interpretirajterezultat u kontekstu problema koji proučavate.c) Da ste konstruirali interval pouzdanosti 90 % bi li on bio uži ili širi?Rješenje:a) Budući interval[ √ √ ]ˆp(1−ˆp)ˆp(1−ˆp)ˆp − 3 , ˆp + 3 = [0.114023, 0.173517] ne sadržnin nniti nulu niti jedinicu, uzorak je dovoljno velik <strong>za</strong> konstruiranje traženog intervalapouzdanosti.b) Interval pouzdanosti <strong>za</strong> proporciju korisnika kartice koji su karticu koristili <strong>za</strong>kupovinu putem Interneta je [0.120702, 0.166838].c) Interval pouzdanosti - [0.12746, 0.16008]. Očito je, temeljeno na istim podacima,reali<strong>za</strong>cija intervala pouzdanosti 90 % uža od reali<strong>za</strong>cije intervala pouzdanosti98 %.Primjer 5.13(gluko<strong>za</strong>-kol.sta)U bazi podataka gluko<strong>za</strong>-kol.sta nalaze se podaci o dobi (varijabla dob) i koncentracijiglukoze u krvi (varijabla gluko<strong>za</strong>) <strong>za</strong> 100 ispitanika. Odredite interval pouzdanosti95 % <strong>za</strong> proporciju ispitanika kod kojih je koncentracija glukoze u krvi između 4 i 6mMol/L. Objasnite rezultat.Rješenje:Interval pouzdanosti <strong>za</strong> proporciju ispitanika kod kojih je koncentracija glukoze u krviizmeđu 4 i 6 mMol/L je [0.256516, 0.443484].Primjer 5.14(kolokvij.sta)U bazi podataka kolokvij.sta nalaze se rezultati dvaju kolokvija iz nekog kolegija. Varijablaocjena sadži prijedloge ocjena s kojima ispitani studenti pristupaju usmenomispitu, a varijabla stanovanje informaciju o mjestu stanovanja studenta (Osijek - studentstanuje u Osijeku; Drugo-mjesto - student stanuje u nekom drugom mjestu).Intervalom pouzdanosti 95 % procijenite stvarnu proporciju studenata koji usmenomispitu pristupaju s ocjenom većom od 3 <strong>za</strong> svaku od spomenutih kategorija po mjestustanovanja.mjestu stanovanja.Odredite i interval pouzdanosti 95 % bez obzira na kategori<strong>za</strong>ciju po


Zaključivanje o jednoj slučajnoj varijabli 975.4 Testiranje hipote<strong>za</strong>Pretpostavimo da želimo provjeriti da li je očekivana vrijednost vremena čekanja uredu studentske menze u vrijeme ručka veća od pet minuta. Naime, ako je veća,onda ćemo u vrijeme ručka pokrenuti još jednu traku. U tu svrhu od sto studenatakoji odlaze na ručak u studentsku menzu prikupljamo podatke o vremenu čekanja <strong>za</strong>vrijeme ručka: (x 1 , . . . , x 100 ). Da bi donijeli odluku potrebno je testirati hipotezu naosnovu prikupljenih podataka. Ovakvim i sličnim problemima bavi se teorija testiranjastatističkih hipote<strong>za</strong>.Za testiranje hipoteze ve<strong>za</strong>ne uz varijablu koja nas <strong>za</strong>nima, koristimo modeliranjevarijable kao što je opisano u prethodnim poglavljima, tj. varijable u ispitavanju suslučajne varijable. Slučajna varijabla određena je svojom distribucijom. Distribucijenam nisu u potpunosti poznate ali smo već naučili kako možemo pribaviti nekeinformacije o distribuciji na osnovu teorije procjene. Hipotezu koju želimo testiratikorištenjem statističkog testa moramo izraziti u terminima hipoteze koja seodnosi na distribuciju slučajne varijable. Tako, u postupku donošenja odluke ootvaranju nove trake u studentskoj menzi, treba testirati jednu hipotezu o vrijednostiočekivanja slučajne varijable koja opisuje vrijeme čekanja u redu studentske menze<strong>za</strong> vrijeme ručka. Hipotezu koja je formulirana u terminima distribucije slučajnevarijable zovemo statistička hipote<strong>za</strong>.Postupak testiranja hipote<strong>za</strong> uvijek počinje postupkom prevođenja problema koji nas<strong>za</strong>nima u statističku hipotezu. Npr. u prethodnom primjeru studentske menze, udonošenju odluke nam može pomoći testiranje statističke hipoteze da je očekivanječekanja u redu veće od 5 minuta. Statističku hipotezu standardno označavamo H.Testirati hipotezu znači donijeti odluku da li ćemo H odbaciti ili prihvatiti. Zbog togačesto govorimo o testiranju dvije hipoteze u statističkom testu. Jednu od njih zovemonul-hipote<strong>za</strong> i označavamo H 0 , a drugu alternativna hipote<strong>za</strong> i označavamo H 1 .Alternativna hipote<strong>za</strong> je ona koju prihvaćamo u slučaju odbacivanja nulhipoteze.Statistički test koji ćemo koristiti <strong>za</strong> testiranje statističke hipoteze di<strong>za</strong>jniran je takoda, korištenjem informacija iz prikupljenih podataka o reali<strong>za</strong>cijama slučajne varijable,donosimo odluku o odbacivanju nulte hipoteze (prihvaćanju alternativnehipoteze) ili ne odbacivanju nulte hipoteze. Uočimo da nulta i alternativnahipote<strong>za</strong> u ovoj formulaciji nisu ravnopravne, npr. nigdje nije napisano da prihvaćamonultu hipotezu. Razlog <strong>za</strong> ovakvo neobično izražavanje leži u činjenici da se odlučivanjeu statističkom testu provodi uz toleranciju malih vjerojatnosti pogrešne odluke.Da bismo bolje razumjeli ovaj koncept opisat ćemo vrste pogrešaka statističkog testai mogućnosti koje daje test u odnosu na njihovu kontrolu.


Zaključivanje o jednoj slučajnoj varijabli 985.4.1 Pogreške statističkog testaOdluka koja je donesena statističkim testom može biti pogrešna ili ispravna. Pri tomese mogu dogoditi dva tipa pogrešne odluke:pogreška I. tipa: odbaciti H 0 ako je ona istinita ipogreška II. tipa: ne odbaciti H 0 ako je H 1 istinita.Vjerojatnost pogreške prvog tipa i pogreške drugog tipa ovisi o stvarnoj distribucijislučajne varijable o kojoj testiramo hipotezu, međutim, mi bi htjeli da su te vjerojatnostipogreške što je moguće manje. Postupak kreiranja statističkog testa, tj. definiranjepravila na osnovu kojih ćemo odlučivati, vodi računa upravo o tom <strong>za</strong>htjevu.Statistički test je di<strong>za</strong>jniran tako da dopušta istraživaču izbor maksimalne vjerojatnostipogreške prvog tipa koju istraživač želi prihvatiti. Te vrijednosti se uglavnombiraju izmađu brojeva 0.01, 0.05 ili 0.1. Odabrana maksimalna vjerojatnost pogreškeprvog tipa zove se razina značajnosti testa ili nivo signifikantnosti testa i standardnooznačava α. Maksimala vjerojatnost pogreške drugog tipa određena je di<strong>za</strong>jnomtesta uz i<strong>za</strong>brani nivo signifikantnosti. Testovi se di<strong>za</strong>jniraju uz nastojanje dase vjerojatnost pogreške drugog tipa učini što manjom i ona se, u pravilu, ne iskazujeu primjeni statističkih testova.Uzimajući u obzir da ćemo mi biti u mogućnosti birati maksimalnu vjerojatnostpogreške prilikom odbacivanja nulta hipoteze, to je informacija koju u primjeni testareferiramo. Npr. reći ćemo da odbacujemo nultu hipotezu na nivou značajnostiα i prihvaćamo hipotazu H 1 što će značiti da prihvaćamo alternativnu hipotezuuz vjerojatnost α da smo pri tome pogriješili. Ako pravilo testa primijenjeno na podatkesugerira da ne odbacimo nultu hipotezu, prilikom primjene testa nećemo imatidostupnu informaciju koliko iznosi maksimalna vjerojatnost da smo pogriješili. Zatoćemo tada reći da podaci ne podupiru tvrdnju da H 0 treba odbaciti.Ovakav neravnopravan odnos između nulte i alternativne hipoteze prilikom kreiranjastatističkog testa upućuje na činjenicu da nije svejedno kako smo izbrali nultu i alternativnuhipotezu i pripadni test. Ukoliko je moguće, uputno je u primjenibirati statistički test kojemu alternativna hipote<strong>za</strong> odgovara tvrdnji kojuželimo doka<strong>za</strong>ti.5.5 Testiranje hipote<strong>za</strong> o očekivanju <strong>za</strong> velike uzorkeU ovom poglavlju poka<strong>za</strong>t ćemo nekoliko statističkih testova koje možemo koristitiprilikom rješavanja problema potrebe <strong>za</strong> otvaranjem nove trake u studentskoj menziiz prethodnog poglavlja kao i u svim ostalim problemima koji se mogu modelirati naanalogan način.Primjer 5.15 Pretpostavimo da želimo provjeriti da li je očekivana vrijednost vremenačekanja u redu studentske menze u vrijeme ručka veća od pet minuta. U tu svrhu od


Zaključivanje o jednoj slučajnoj varijabli 99sto studenata koji odlaze na ručak u studentsku menzu prikupljamo podatke o vremenučekanja <strong>za</strong> vrijeme ručka: (x 1 , . . . , x 100 ). Na osnovu podataka procijenili smo očekivanjearitmetičkom sredinom. Procjena je iznosila 6.5 minuta. Znajući iz prethodnihproučavanja ove slučajne varijable da je njena varijanca 25, ispitajmo da li se očekivanovrijeme čekanja u redu statistički značajno razlikuje od 5 minuta.Neka je µ očekivanje slučajne varijable koja modelira vrijeme čekanja u redu menze<strong>za</strong> vrijeme ručka. Postavimo nultu i alternativnu hipotezu na sljedeći način:H 0 : µ = 5H 1 : µ ≠ 5.Ako je H 0 istinita hipote<strong>za</strong>, onda je distribucija artmetičke sredine uzorka približnonormalna s očekivanjem µ i varijancom σ2 . Dakle, pod pretpostavkom istinitosti nulte100hipoteze jeZ = X 100 − µ √100σpribližno standardna normalna slučajna varijabla i velika je vjerojatnost pojavljivanjareali<strong>za</strong>cije bliske nuli (vidi sliku).vrijednosti veće od 1.96 pojavljuju s vjerojatnošću 0.05.Uočimo da se reali<strong>za</strong>cije koje su po apsolutnojf(x)P {Z ≤ −1.96} = 0.025 P {Z ≥ 1.96} = 0.025−1.96 1.96 xSlika 5.1: P {|Z| ≥ 1.96} = P {Z ≤ −1.96} + P {Z ≥ 1.96} = 0.05Pretpostavimo da iz podataka možemo izračunati da se, u našem slučaju, Z realiziralabrojem 3. U uvjetima istinitosti hipoteze H 0 vjerojatnost da apsolutna vrijednost slučajnevarijable Z bude veća ili jednaka 3 iznosi 0.0027:P {|Z| ≥ 3} = P {Z ∈ 〈−∞ − 3] ∪ [3, ∞〉} = 0.0027.Gornje su vjerojatnosti izračunate pomoću Probability Calculatora u programskompaketu Statistica.Zaključujemo: Broj 3 je relativno daleko od nule. Ako je H 0 istinita hipote<strong>za</strong>, reali<strong>za</strong>cijeveće ili jednake 3 mogu se pojaviti ali je vjerojatnost <strong>za</strong> to tek 0.0027. Dakle,ako odbacim nultu hipotezu, vjerojatnost da ću time pogriješiti je samo 0.0027, što


Zaključivanje o jednoj slučajnoj varijabli 100je manje od standardno prihvaćenih vrijednosti <strong>za</strong> maksimalnu vjerojatnost pogreškeprvog tipa (nivo značajnosti). Dakle, razumno je odbaciti nul-hipotezu i prihvatitihipotezu da se očekivanje razlikuje od 5. Za naš problem to znači da treba pokrenutinovu traku u menzi. Izračunatu vjerojatnost da smo ovom odlukom pogriješili zovemop − vrijednost.U ovom postupku koristimo aritmetičku sredinu uzorka kao procjenu <strong>za</strong> očekivanje.Test statistika:H 0 : µ = µ 0z = x − µ 0σ/ √ nOvdje je n dimenzija uzorka, x aritmetička sredina uzorka, a σ standardnadevijacija uzorka.U uvjetima istinitosti nulte hipoteze očekujemo da je izračunata vrijednost <strong>za</strong> z (označitćemo je ẑ) blizu 0. Zapravo, može se poka<strong>za</strong>ti da slučajna varijabla <strong>za</strong> kojuje gornja vrijednost z jedna reali<strong>za</strong>cija ima standardnu normalnu distribuciju. Naosnovu reali<strong>za</strong>cije ẑ na našem uzorku možemo odrediti p-vrijednost kaop = P {|Z| ≥ ẑ},ako nultoj hipotezi suprotstavljamo alternativnu da je stvarno očekivanje µ različitood hipotetske vrijednosti. Međutim, ako nultoj hipotezi suprotstavljamo alternativuda je stvarno očekivanje µ veće (manje) od hipotetske vrijednosti, tada p-vrijednostodređujemo kaop = P {Z ≥ ẑ} (P {Z ≤ ẑ}).Tako izračunatu p-vrijednost uspoređujemo s nivoom značajnosti α - u slučaju daje p < α donosimo <strong>za</strong>ključak da na nivou značajnosti α odbacujemo nul-hipotezuH 0 i prihvaćamo alternativnu hipotezu H 1 . Ako je p > α <strong>za</strong>ključujemo da nemamodovoljno informacije koje bi poduprle odluku o odbacivanju nul-hipoteze.Ukoliko <strong>za</strong>sigurno znamo da naš uzorak potječe iz normalne distribucije,analogno testiranje možemo provesti i na malom uzorku (n < 30).Test statistika:H 0 : µ = µ 0t = x − µ 0s/ √ nOvdje je s uzoračka standardna devijacija, x aritmetička sredina uzorka,a n dimenzija uzorka.


Zaključivanje o jednoj slučajnoj varijabli 101U uvjetima istinitosti nulte hipoteze očekujemo da je izračunata vrijednost <strong>za</strong> t (označitćemo je ˆt) blizu 0. Zapravo, može se poka<strong>za</strong>ti da slučajna varijabla T <strong>za</strong> koju jegornja vrijednost t jedna reali<strong>za</strong>cija ima Studentovu distribuciju s (n − 1) stupnjevaslobode. Na osnovu reali<strong>za</strong>cije ˆt na našem uzorku možemo odrediti p-vrijednost kaop = P {|T | ≥ ˆt},ako nultoj hipotezi suprotstavljamo alternativnu da je stvarno očekivanje µ različitood hipotetske vrijednosti. Međutim, ako nultoj hipotezi suprotstavljamo alternativuda je stvarno očekivanje µ veće (manje) od hipotetske vrijednosti, tada p-vrijednostodređujemo kaop = P {T ≥ ˆt} (P {T ≤ ˆt}).Tako izračunatu p-vrijednost uspoređujemo s nivoom značajnosti α - u slučaju daje p < α donosimo <strong>za</strong>ključak da na nivou značajnosti α odbacujemo nul-hipotezuH 0 i prihvaćamo alternativnu hipotezu H 1 . Ako je p > α <strong>za</strong>ključujemo da nemamodovoljno informacije koje bi poduprle odluku o odbacivanju nul-hipoteze.Primjer 5.16 Godine 1979. osnovna kablovska televizija je, u prosjeku, koštala 7.37dolara mjesečno. Godine 1983. "Federalno udruženje kablovskih televizija" (broji višeod 4000 kablovskih sustava) <strong>za</strong>ključilo je da je kablovska televizija poskupjela <strong>za</strong> samo8% u odnosu na 1979., te da ne stoji statistički značajno više od 8 dolara mjesečno.No "Udruženje potrošača" sumnja u te izjave pa su ih odlučili provjeriti. Koristećipodatke prikupljene u bazi tv.sta provjerite govori li "Federalno udruženje kablovskihtelevizija" istinu.Rješenje:H 0 : µ = 8; H A : µ > 8; ne odbacujemo nultu hipotezu.Primjer 5.17 (lopta.sta)Jedan se poduzetnik bavi proizvodnjom loptica <strong>za</strong> golf. U suradnji s projektantimau poduzeću napravio je preinake na jednom dijelu stroja (ubrizgavalici). Cijeli jeproces di<strong>za</strong>jniran tako da proizvodi loptice prosječne mase 0.25 unci. Kako bi istražioda li nova ubrizgavalica radi <strong>za</strong>dovoljavajuće, odabire 40 loptica i bilježi njihove mase(podaci su dostupni u bazi lopta.sta). Provjerite može li poduzetnik prihvatiti hipotezuda prosječna masa loptice nije 0.25 unci.Rješenje:H 0 : µ = 0.25; H A : µ ≠ 0.25; odbacujemo nultu hipotezu na nivou značajnostiα = 0.05 i prihvaćamo alternativnu hipotezu.Primjer 5.18 Kako bi odgovorili na pitanje koji faktori sprečavaju proces učenja urazredu, istraživači na Murray State University ispitali su 40 učenika koji su trebaliocjenama od 1 (uopće ne) do 7 (u velikoj mjeri) ocijeniti razinu do koje određeni


Zaključivanje o jednoj slučajnoj varijabli 102faktori ometaju proces učenja. Faktor koji je dobio najveću ocjenu je: "Profesorikoji inzistiraju na jednom točnom odgovoru radije nego da evaluiraju cjelokupnorazmišljanje i kreativnost". Deskriptivna statistika <strong>za</strong> ocjenu razine utjecaja ovogfaktora je: x = 4.70, s = 1.62. Premašuje li očekivanje ocjene <strong>za</strong> navedeni faktorznačajno ocjenu 4? Interpretirajte rezultat.Rješenje:H 0 : µ = 4; H A : µ > 4; odbacujemo nultu hipotezu na nivou značajnosti α = 0.05 iprihvaćamo alternativnu hipotezu.5.6 Testiranje hipote<strong>za</strong> o vjerojatnosti događaja <strong>za</strong>velike uzorkeU sklopu modela Bernoullijevog pokusa(X =0 1qp)testiramo hipoteze o vrijednosti parametra p koji ima značenje vjerojatnosti reali<strong>za</strong>cijejedinice u jednom izvođenju tog pokusa.U ovom postupku koristimo relativnu frekvenciju jedinice kao procjenu <strong>za</strong> vjerojatnost(proporciju) p.H 0 : p = p 0Test statistika:z = ˆp − p 0√p 0 (1−p 0 )nU uvjetima istinitosti nul-hipoteze očekujemo da je izračunata vrijednost <strong>za</strong> z (označitćemo je ẑ) blizu 0. Zapravo, može se poka<strong>za</strong>ti da slučajna varijabla <strong>za</strong> kojuje gornja vrijednost z jedna reali<strong>za</strong>cija ima standardnu normalnu distribuciju. Naosnovu reali<strong>za</strong>cije ẑ na našem uzorku možemo odrediti p-vrijednost kaop = P {|Z| ≥ ẑ},ako nultoj hipotezi suprotstavljamo alternativnu da je stvarna vjerojatnost p različitaod hipotetske vrijednosti. Međutim, ako nultoj hipotezi suprotstavljamo alternativnuda je stvarna vjerojatnost p veća (manja) od hipotetske vrijednosti, tada p-vrijednostodređujemo kaop = P {Z ≥ ẑ} (P {Z ≤ ẑ}).


Zaključivanje o jednoj slučajnoj varijabli 103Tako izračunatu p-vrijednost uspoređujemo s nivoom značajnosti α - u slučaju daje p < α donosimo <strong>za</strong>ključak da na nivou značajnosti α odbacujemo nul-hipotezuH 0 i prihvaćamo alternativnu hipotezu H 1 . Ako je p > α <strong>za</strong>ključujemo da nemamodovoljno informacije koje bi poduprle odluku o odbacivanju nul-hipoteze.Dimenzija uzorka je dovoljno velika ako interval[ √ √ ]p0 (1 − p 0 ) p0 (1 − p 0 )p 0 − 3, p 0 + 3nnne sadrži ni 0 ni 1.Primjer 5.19 (perec.sta)Odlučili ste prodavati nove perece u svojoj pekari. Niste sigurni sviđaju li se ili nevašim kupcima. O tome ovisi hoćete li nastaviti prodavati te perece ili ne. U bazipodataka perec.sta nalaze se podaci dobiveni iz uzorka od 50 potrošača:0 - ne sviđa mi se1 - sviđa mi se2 - indiferentan sama) Odredite interval pouzdanosti 95 % <strong>za</strong> proporciju kupaca kojima se sviđaju novipereci.Rješenje: [0.173, 0.427].b) Što ćete učiniti s dimenzijom uzorka ako želite povećati preciznost procjene?Rješenje: treba povećati dimenziju uzorka.c) Testirajte hipotezu da je proporcija kupaca kojima se ne sviđaju novi perecijednaka 0.5.Rješenje: H 0 : p = 0.5; H A : p ≠ 0.5; ne odbacujemo nultu hipotezu.Primjer 5.20 (vrtic.sta)Za podatke iz primjera 5.11. odgovorite na sljedeće pitanje: management poduzećarazmišlja o tome da organizira čuvanje ako se pokaže da barem 75 % roditelja odaberetu opciju. Testirajte ovu hipotezu na nivou značajnosti α = 0.05.Rješenje: H 0 : p = 0.75; H A : p < 0.75; odbacujemo nultu hipotezu na nivou značajnostiα = 0.05 i prihvaćamo alternativnu hipotezu.Primjer 5.21 Reputacija mnogih poslova može biti snažno narušena pošiljkom proizvedenerobe koja sadrži veliki postotak oštećenih proizvoda. Na primjer, proizvođačalkalnih baterija želi biti siguran da je manje od 5% baterija u pošiljci oštećeno. Pretpostavimoda je slučajnim izborom iz vrlo velike pošiljke odabrano 300 baterija odkojih je 10 oštećenih. Je li to dovoljan dokaz proizvođaču da <strong>za</strong>ključi kako je proporcijadefektnih proizvoda u cijeloj pošiljci manja od 0.05 na nivou značajnosti α = 0.01?Rješenje: H 0 : p = 0.05; H A : p < 0.05; ne odbacujemo nultu hipotezu.


Zaključivanje o jednoj slučajnoj varijabli 1045.7 Testiranje hipote<strong>za</strong> o distribuciji općenitoU ovom poglavlju kao procjenu <strong>za</strong> stvarnu distribuciju slučajne varijable koristimo empirijskudistribuciju podataka koje smo sakupili kao reali<strong>za</strong>cije naše slučajne varijableprilikom ne<strong>za</strong>visnih ponavljanja pokusa.Želimo testirati da li naša slučajna varijabla iz koje sakupljamo podatke ima nekupretpostavljenu distribuciju (zovemo je teoretska distribucija).χ 2 test• Neka je teoretska distribucija dana tablicom:()x 1 x 2 . . . x np 1 p 2 . . . p nOvdje je x i ≠ x j <strong>za</strong> i ≠ j, p i ≥ 0 <strong>za</strong> svaki i ∈ {1, . . . , n} in∑p i = 1.• Da bi koristili ovaj test mora biti svaki np i veći od 5, gdje je n dimenzija uzorka.i=1H 0 : distribucija je jednaka teoretskoj• Iskoristimo programski paket Statistica. Formirajmo bazu podataka koja sadržieksperimentalno dobivene frekvencije i teoretske frekvencije izračunate na baziteoretske distribucije i broja podataka u uzorku. Provedemo χ 2 test i odbacimoH 0 ako je dobivena vrijednost <strong>za</strong> p < α, gdje je α odabrani nivo značajnostitesta.• Ovaj test možemo koristiti i kod neprekidnih slučajnih varijabli tako da R(X)razbijemo na disjunktne intervale i suprotstavimo teoretske frekvencije tih intervalanjihovim uzoračkim frekvencijama, ali je test jako osjetljiv na izbor intervala.Primjer 5.22 Savjetnik ekološkog kluba na jednom sveučilištu želi poštovati <strong>za</strong>htjev daklub sačinjava 10% brucoša, 20% studenata druge godine, 40% studenata treće godine,te 30% apsolvenata. Članstvo ekološkog kluba <strong>za</strong> ovu godinu brojilo je 14 brucoša,19 studenata druge godine, 51 studenta treće godine, te 16 apslovenata. Provjeritepostoji li statistički značajna razlika trenutnog sastava kluba od traženih standardana nivou značajnosti α = 0.1.Rješenje: odbacujemo nultu hipotezu na nivou značajnosti α = 0.1 i prihvaćamo alternativnuhipotezu.Primjer 5.23 T ržišni analitičar želi istražiti imaju li potrošači neke posebne sklonostiprema jednom od okusa sokova koji su se pojavili na tržištu. Na uzorku od 100 ljudi


Zaključivanje o jednoj slučajnoj varijabli 105prikupio je preferencije prema ponuđenim okusima. Frekvencije su dane u sljedećojtablici:višnja jagoda naranča limun grejp32 28 16 14 10Ispitajte postoji li na nivou značajnosti α = 0.05 statistički značajna preferencijapotrošača prema nekom od okusa ili je sklonost potrošača jednaka prema svim ponuđenimokusima.Rješenje: odbacujemo nultu hipotezu na nivou značajnosti α = 0.05 i prihvaćamoalternativnu hipotezu.Primjer 5.24 Jedna je studija na osnovu istraživanja o razlozima povratka na posaoljudi koji su umirovljeni postavila sljedeću distribuciju:38% se ponovo <strong>za</strong>posli u drugom poduzeću;32% osnuje obrt;23% rade kao konzultanti;7% osnuje vlastito poduzeće.Poklapaju li se sljedeći rezultati, dobiveni ponovnim istraživanjem, s prethodno postavljenomtezom ili možemo utvrditi postojanje statistički značajne razlike?122 se ponovo <strong>za</strong>poslilo u drugom poduzeću;85 je osnovalo obrt;76 su radili kao konzultanti;17 je osnovalo vlastito poduzeće.Rješenje: ne odbacujemo nultu hipotezu.5.7.1 Kako saznati da li podaci dolaze iz normalne distribucije?Ukoliko se radi o neprekidnoj slučajnoj varijabli, mi ćemo se u ovom kolegiju prvenstvenopo<strong>za</strong>baviti odgovorom na pitanje da li ona ima normalnu distribuciju ili ne.Odgovor na ovo pitanje od izuzetne je važnosti <strong>za</strong> točnost statističkih anali<strong>za</strong> obziromda su mnogi statistički testovi kreirani uz pretpostavku normalnosti obilježja.Da bismo testirali hipotezuH 0 : varijabla ima normalnu distribucijupotrebno je ne<strong>za</strong>visnim ponavljanjem pokusa prikupiti podatke iz reali<strong>za</strong>cija naševarijable.Za prvi uvid u moguća odstupanja od normalne distribucije možemo koristiti raznemjere deskriptivne statistike i grafičke prikaze dok <strong>za</strong> testiranje hipoteze koristitimonekoliko testova kreiranih u tu svrhu. Standardni statistički aplikativni programiuglavnom sadrže sljedeća dva testa:


Zaključivanje o jednoj slučajnoj varijabli 106• Lillieforsova inačica Kolmogorov-Smirnovljevog testa• Shapiro-Wilk’s W test.U ovom kolegiju nećemo opisivati test statistike na osnovu kojih su testovi kreirani,bit će dovoljno da ih naučimo koristiti. U tu svrhu, treba voditi računa o tome danulta hipote<strong>za</strong> oba testa ide u prilog normalnosti distribucije. Ukoliko je p-vrijednostdobivena provođenjem ovakvih testova na našim podacima manja od i<strong>za</strong>branog nivoaznačajnosti, treba odbaciti hipotezu da podaci dolaze iz normalne distribucije.Važno je također naglasiti da su oba navedena testa primjenjiva samo u slučaju velikogbroje podataka.Primjer 5.25 (auti1.sta)Raspolažemo mjerenjima potrošnje novog modela automobila <strong>za</strong> 100 takvih automobila.Provjerite da li je potrošnja normalna slučajna vrijabla.Rješenje: ne odbacujemo nultu hipotezu.Primjer 5.26 (dob-poduz.sta)Raspolažemo podacima o dobi 200 poduzetnika u nekoj zemlji. Zanima nas je li dobpoduzetnika u bazi podataka dob-poduz.sta normalno distribuirana slučajna varijabla.Napravite testiranje i donesite <strong>za</strong>ključak. Prokomentirajte dobiveni rezultat s obziromna kontekst pojave koju proučavate.Rješenje: ne odbacujemo nultu hipotezu.Primjer 5.27 (mba.sta) U bazi podataka mba.sta nalaze se podaci o rezultatima GMATtesta (Graduate Management Admission Test) <strong>za</strong> 100 studenata koji su prijavili nastudij. Provjerite potječu li podaci iz normalne distribucije.Rješenje: ne odbacujemo nultu hipotezu.


Poglavlje 6Statističko <strong>za</strong>ključivanje o dvijeslučajne varijable6.1 Statističko <strong>za</strong>ključivanje o razlikama u distribucijiizmeđu dvije varijableU praksi nas često <strong>za</strong>nima dolazi li do promjene obilježja koje proučavamo uslijedprovođenja neke akcije, u nekom drugom trenutku ili općenito u nekim drugim uvjetima.Sljedeći primjer ilustrira probematiku tog tipa.Primjer 6.1 (student.sta)Neko Sveučilište osim klasičnog načina studiranja nudi i studiranje putem Interneta.Povjerenstvo <strong>za</strong> praćenje kvalitete studiranja želi vidjeti postoji li razlika u dobiizmeđu studenata koji stanuju u gradu u kojemu je Sveučilište i onih koji studirajuputem Interneta. Podaci o dobi studenata nalaze se u bazi student.sta - varijablaklasican_studij sadrži podatke o dobi <strong>za</strong> 50 studenata koji studiraju na klasičan način,a varijabla Internet_studij podatke o dobi <strong>za</strong> 50 studenata koji studiraju putem Interneta.Uvid u dobnu strukturu tih dvaju uzoraka studenata daju nam osnovne mjeredeskriptivne statistike, empirijska distribucija i kutijasti dijagram na bazi medijana:Deskriptivna statistika <strong>za</strong> varijable klasican_studij i Internet_studij:Variableklasican_studijInternet_studijDescriptive Statistics (student.sta)Valid N Mean Median Mode Frequency Minimum Maximum Std.Dev.of Mode50 22,12000 21,50000 Multiple 9 18,00000 32,00000 3,68471750 22,80000 21,50000 19,00000 9 18,00000 36,00000 4,789444Kategorizirane tablice frekvencija i relativnih frekvencija:107


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 108Frequency table: klasican_studij (student.sta)Count Cumulative Percent CumulativeFrom ToCountPercent18,00000


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 109Frequency table: PRIJE: =6-OSOB (djeca.sta)Count Cumulative Percent CumulativeCategoryCountPercent33 3 9,09091 9,090949 12 27,27273 36,3636521 33 63,63636 100,0000Missing 0 33 0,00000 100,0000Frequency table: POSLIJE: =6-OSOB_2 (djeca.sta)Count Cumulative Percent CumulativeCategoryCountPercent31 1 3,03030 3,030345 6 15,15152 18,1818527 33 81,81818 100,0000Missing 0 33 0,00000 100,0000prijeKutijasti dijagrami:poslije5,2Box & Whisker Plot5,04,84,64,44,24,03,83,63,43,23,02,8PRIJEPOSLIJEMedian25%-75%Min-MaxBudući se ovdje radi o pručavanju istog obilježja (subjektivnog mišljenja djetetao samom sebi) na istom uzorku djece prije i poslije tretmana igrama, kažemo daproučavamo ve<strong>za</strong>ne uzorke.Primjer 6.3 (djeca.sta)Pretpostavimo da želimo usporediti daje li novi tip sjemana kukuru<strong>za</strong>, razvijen genetičkimmetodama, veće prinose nego do sada najčešće korištena sorta kukuru<strong>za</strong> na ovim područjima.Pokusi moraju biti izvedeni sijanjem ovih sorti na poljima koja osiguravajuiste uvjete <strong>za</strong> rast. Urod kukuru<strong>za</strong> po kvadratnom metru isparceliranih polja predstavljabazu podataka na osnovu koje možemo statistički <strong>za</strong>ključivati o pitanjimarazlika. U ovom se primjeru radi o proučavanju neve<strong>za</strong>nih uzoraka.Prvi korak u ovakvim anali<strong>za</strong>ma je uvijek anali<strong>za</strong> svake varijable. Varijable koje uspoređujemou ovakvim anali<strong>za</strong>ma <strong>za</strong>pravo opisuju isto obilježje ali u drugim uvjetimapa kažemo da analiziramo jedno obilježje u dva tretmana. Činjenica je da će seu empirijskim distribucijama kao i u procijenjenim vrijednostima <strong>za</strong> parametre kojinas <strong>za</strong>nimaju pojaviti razlike među tretmanima. Pitanje na koje odgovaramo u ovompoglavlju je:Jesu li uočene razlike posljedica različitih tretmana?


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 110Da bismo bili u stanju odgovoriti na ovako postavljeno pitanje pokusmora biti vrlo pažljivo pripremljen tako da se osiguraju dva slučajnauzorka koja se bitno razlikuju samo po tretmanu.O postupku kojim se pripremaju ovakvi uzorci i o tome što se podrazumijeva podterminom "bitne razlike" bit će riječi na kraju poglavlja.6.2 Usporedba očekivanja — neve<strong>za</strong>ni uzorciZanima nas postoji li razlika u očekivanju između dva tretmana. Iz svakog od njihne<strong>za</strong>visno sakupimo uzorak.To znači da mjerene vrijednosti varijable iz jednogtretmana nisu u nikakvoj vezi s mjerenim vrijednostima varijable iz drugog tretmana.Neka je n 1 dimenzija uzorka iz prve slučajne varijable (iz prvog tretmana), a n 2dimenzija uzorka iz druge slučajne varijable (iz drugog treetmana). Osim toga, nekasu µ 1 i σ 1 očekivanje i standardna devijacija prve slučajne varijable, a µ 2 i σ 2 očekivanjei standardna devijacija druge slučajne varijable.6.2.1 Veliki uzorciU uvjetima kada imamo velike uzorke možemo testirati hipotezu o jednakosti očekivanjaizmeđu varijabli u dva tretmana neovisno o distribuciji tih varijabli. Pod pojmom"veliki uzorci" obicno se podrazumijeva n 1 > 30 i n 2 > 30.• test statistika:H 0 : µ 1 − µ 2 = 0H 1 : µ 1 − µ 2 ≠ 0z = (¯x 1 − ¯x 2 )√σ 2 1n 1+ σ2 2n 2• ¯x 1 i ¯x 2 su aritmetičke sredine u pojedinim tretmanima• distribucija ove statistike, pri velikim uzorcima i u uvjetima istinitostinulte hipoteze, je približno standardna normalnaZa primjenu ovog testa potrebno je poznavati varijancu obilježja, što najčešće nijeslučaj. Međutim, pri velikim uzorcima možemo iskoristiti procjene <strong>za</strong> varijance.6.2.2 Mali uzorciUkoliko su varijable u tretmanima normalno distribuirane i varijance su im jednakebolje rezultate dobivamo primjenom t-testa. Dakle, ako vrijede sljedeće pretpostavke:


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 111• varijable u oba tretmana su normalno distribuirane• varijance u tretmanima, tj. σ1 2 i σ2, 2 su jednakemožemo dobiti odgovor na ovakvo pitanje i kod malih uzoraka na osnovu sljedećegtesta:H 0 : µ 1 − µ 2 = 0H 1 : µ 1 − µ 2 ≠ 0• test statistika:t = (¯x 1 − ¯x 2 )√1s pn 1+ 1 n 2s 2 p = (n 1 − 1)s 2 1 + (n 2 − 1)s 2 2n 1 + n 2 − 2• s 1 i s 2 su procjene standardnih devijacija• ¯x 1 i ¯x 2 su aritmetičke sredine u pojedinim tretmanima• distribucija ove statistike, u uvjetima istinitosti nulte hipoteze, jeStudentova t-distribucija s (n 1 + n 2 − 2) stupnja slobodeBudući nam stvarne varijance σ1 2 i σ2 2 nisu poznate u prethodnom testu koristimonjihove procjene s 2 1 i s 2 2. Zbog nepoznavanja stvarnih varijanci distribucija iz kojihdolaze podaci potrebno je testirati hipotezu o jednakosti varijanci σ1 2 i σ2:2H 0 : σ1 2 = σ2.2Za testiranje ove hipoteze koristimo tzv. F -test:H 0 : σ 2 1 = σ 2 2H 1 : σ 2 1 ≠ σ 2 2• test statistika:v = s2 1s 2 2• s 2 1 i s 2 2 su procjene varijanci σ1 2 i σ22• vrijednost test statistike v je reali<strong>za</strong>cija slučajne varijable V koja uuvjetima istinitosti nulte hipoteze ima F distribuciju s (n 1 − 1) i(n 2 − 1) stupnjeva slobode


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 112U uvjetima istinitosti nulte hipoteze očekujemo da je izračunata vrijednost <strong>za</strong> v (označitćemo je ˆv) približno 1. Nultu hipotezu odbacujemo ako <strong>za</strong> izračunatu vrijednost̂v vrijedi jedna od sljedećih nejednakostîv ≤ c 1 ili ̂v ≥ c 2 ,gdje su c 1 i c 2 pozitivni realni brojevi <strong>za</strong> koje u uvjetima istinitosti nul-hipotze vrijediP (V ≤ c 1 ) = P (V ≥ c 2 ) = α 2 ,gdje je α nivo značajnosti testa.f(x)0.70.60.50.40.30.2P {V ≤ c 1 } = α/2 P {V ≥ c 2 } = α/20.1c 1 c 2 x1 1 2 3 4Slika 6.1: P {V ≤ c 1 } + P {V ≥ c 1 } = αBrojeve c 1 i c 2 određujemo u Probability Calculatoru u Statistici pri čemu je ključno<strong>za</strong> distribuciju odabrati F distribuciju s parametrima (stupnjevima slobode) (n 1 − 1)i (n 2 − 1). Npr. <strong>za</strong> V ∼ F (10, 10) (n 1 = n 2 = 11) je c 1 = 0.645, a c 2 = 1.551. Dakle,ako jêv ∈ 〈−∞, c 1 ] ∪ [c 2 , ∞〉na nivou značajnosti α odbacujemo nul-hipotezu H 0 i prihvaćamo alternativnu hipotezuo postojanju razlike među varijancama σ1 2 i σ2 2 (tj. standardnim devijacijama σ 1 i σ 2 ).Ako jev ∈ 〈c 1 , c 2 〉,tada nemamo dovoljno informacija koje bi poduprle odluku o odbacivanju nul-hipoteze.Primjer 6.4 Za sljedeće parove uzoračkih standardnih devijacija provedite F -test nanivou značajnosti α te donesite <strong>za</strong>ključak:a) s 1 = 3.2, n 1 = 30, s 2 = 3, n 2 = 30, α = 0.01.b) s 1 = 1989, n 1 = 50, s 2 = 1843, n 2 = 30, α = 0.05.c) s 1 = 250, n 1 = 20, s 2 = 300, n 2 = 16, α = 0.05.


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 113Rješenje:Niti u jednom od ova tri slučaja nemamo dovoljno argumenata koji bi poduprli tvrdnjuo odbacivanju nulte hipoteze o jednakosti standardnih devijacija σ 1 i σ 2 procijenjenihsa s 1 i s 2 , redom.Primjer 6.5 Poduzeće koje se bavi izdavaštvom želi testirati hipotezu da postoji razlikau prosječnoj brzini dostavljanja materijala između dva transportna poduzeća.Deskriptivna statistika nizova prikupljenih podataka je sljedeća:prvo poduzeće:drugo poduzeće:n 1 =30, ¯x 1 =16 sati, σ 1 =3,2 satan 2 =30, ¯x 2 =18 sati, σ 2 =3 sataMože li se na nivou značajnosti α = 0.01 tvrditi da postoji statistički značajna razlikau prosječnoj brzini dostavljanja materijala između ta dva transportna poduzeća?Rješenje:Provedeni postupak testiranja ne daje dovoljno argumenata koji bi poduprli odluku oodbacivanju nulte hipoteze (H 0 : µ 1 = µ 2 ).Primjer 6.6 Američki ekonomisti odlučili su testirati hipotezu da su cijene japanskihautomobila u prosijeku veće u Japanu nego u Sjedinjenim Američkim Državama.Prikupljen je uzorak od 50 cijena u Sjedinjenim Američkim Državama i 30 u Japanu<strong>za</strong> isti vremenski period i isti model automobila. Dobivena je sljedeća deskriptivnastatistika nizova podataka:SAD:Japan:n 1 =50, ¯x 1 =16 545 USD, s 1 =1 989 USDn 2 =30, ¯x 2 =17 243 USD, s 2 =1 843 USDJe li na nivou značajnosti α = 0.05 razlika u prosječnim cijenama statistički značajna?Rješenje:Provedeni postupak testiranja ne daje dovoljno argumenata koji bi poduprli odluku oodbacivanju nulte hipoteze (H 0 : µ 1 = µ 2 ).Primjer 6.7 (student.sta)Studentrska služba jednog sveučilišta želi vidjeti postoji li razlika u prosječnoj dobiizmeđu studenata koji stanuju u gradu u kojemu je sveučilište i onih koji studirajuputem Interneta. Prikupljeni podaci o dobi nalaze se u bazi student.sta. Možemo lina nivou značajnosti α = 0.05 prihvatiti hipotezu o nepostojanju razlika?Rješenje:Provedeni postupak testiranja ne daje dovoljno argumenata koji bi poduprli odluku oodbacivanju nulte hipoteze (H 0 : µ 1 = µ 2 ).


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 114Primjer 6.8 (bur<strong>za</strong>.sta)Raspolažete cijenama nekih dionica na dvije burze: New York Stock Exchange i AmericanStock Exchange. U jednom financijskom časopisu ste pročitali da je očekivanacijena po dionici veća na burzi New York Stock Exchange u odnosu na očekivanu cijenuna burzi American Stock Exchange. Testirajte ovu hipotezu na temelju podatakau bazi bur<strong>za</strong>.sta. Neka je nivo značajnosti α = 0.05.Rješenje:Provedeni postupak testiranja ne daje dovoljno argumenata koji bi poduprli odluku oodbacivanju nulte hipoteze (H 0 : µ 1 = µ 2 ).Primjer 6.9 Management jednog velikog medicinskog centra želi provjeriti tvrdnjuda postoji razlika u procječnoj godišnjoj neto plaći između bolničarki i bolničara.Napravite testiranje na razini značajnosti α = 0.05 na temelju slijedećih informacijao uzorcima boliničarki i bolničara iz tog medicinskog centrabolničarke:bolničari:n 1 =20, ¯x 1 =23750 kn, s 1 =250knn 2 =16, ¯x 2 =23800 kn, s 2 =300knpod uvjetima da su <strong>za</strong>dovoljene pretpostavke o jednakosti varijanci i o normalnojdistribuiranosti plaća. Postoji li dovoljno doka<strong>za</strong> da se podupre tvrdnja da su bolničaribolje plaćeni od bolničarki?Rješenje:Provedeni postupak testiranja ne daje dovoljno argumenata koji bi poduprli odluku oodbacivanju nulte hipoteze (H 0 : µ 1 = µ 2 ).Primjer 6.10 (indeks.sta)Jedna grupa istraživača razvila je indeks koji mjeri uspjeh managera, pri čemu većiindeks sugerira veću uspješnost managera. Neki istraživač želi usporediti taj indeks<strong>za</strong> dvije grupe managera. Jedna grupa managera ima puno interakcija s ljudima izvansvog radnog okruženja (telefoniranja, razgovori, sastanci i sl.) dok druga grupa imavrlo rijetke kontakte izvan svog okruženja. Postoji li statistički značajna razlika uprosječnom indeksu uspješnosti između navedene dvije grupe managera? Podaci senalaze u bazi podataka indeks.sta. (Zadovoljene su pretpostavke o jednakosti varijancii o normalnoj distribuiranosti slučajnih varijabli.)Rješenje:Na nivou značajnosti α = 0.05 odbacujemo nultu hipotezu i prihvaćamo alternativnuhipotezu, tj. na nivou značajnosti α = 0.05 se prosječni indeksi uspješnosti manageraiz ovih dviju grupa statistički značajno razlikuju.Primjer 6.11 (consumer.sta)Marketinški stratezi bi željeli predvidjeti odgovor potrošača prema novom proizvodu i


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 115njegovoj promociji. Studija koju su izradili Shushman i Riesz (1975.) ispituje razlikeizmeđu kupaca i onih koji nisu kupci <strong>za</strong> određeni proizvod. Oni su poka<strong>za</strong>li da suprosječna veličina i prihod domaćinstva značajno veći kod kupaca. Mi imamo podatkeo dobi <strong>za</strong> 20 kupaca jedne paste <strong>za</strong> zube i <strong>za</strong> 20 ne-kupaca te iste paste u bazi podatakaconsumer.sta. Provjerimo postoji li značajna razlika u prosječnoj dobi kupaca i nekupacate paste ako je distribucija normalna? Neka je nivo značajnosti α = 0.1.Rješenje:Na nivou značajnosti α = 0.1 odbacujemo nultu hipotezu i prihvaćamo alternativnuhipotezu, tj. na nivou značajnosti α = 0.05 se prosječna kupaca i ne-kupaca ove paste<strong>za</strong> zube statistički značajno razlikuju.6.3 Usporedba očekivanja — uzorci u paruČesto u praksi imamo potrebu uspoređivanja varijabli u ve<strong>za</strong>nim tretmanima. Npr.ako želimo uspoređivati rezultate testa <strong>za</strong> iste bolesnike prije i nakon liječenja.Prethodni test ovdje nije adekvatan jer nemamo ne<strong>za</strong>visne pojave tj. mjerena vrijednostvarijable u svakom pojedinom slučaju u drugom tretmanu ovisi o tome kolika jebila vrijednost varijable istog tog slučaja u prvom tretmanu.U ovakvim primjerima slučajevi se moraju pratiti u paru, a <strong>za</strong>ključci o postojanjurazlika među tretmanima donose se na osnovu praćenja razlika varijabli u pojedinimslučajevima kao što je prika<strong>za</strong>no u sljedećoj strukturi podataka:par tretman 1 tretman 2 razlike1 x 1 y 1 d 1 = x 1 − y 12 x 2 y 2 d 2 = x 1 − y 2. . .. . .. . .n x n y n d n = x 1 − y nUz sumarne statistike <strong>za</strong> svaki pojedini tretman, ovdje su također bitne i sumarnestatistike <strong>za</strong> stupac razlika, tj.¯d = ¯x − ȳ s 2 d = 1n − 1n∑(d i − ¯d) 2 .Pretpostavka o ne<strong>za</strong>visnosti varijabli X i Y svakog tretmana nije ispunjena u ovakvimprimjerima. Dakle, slučajan uzorak koji se ovdje promatra sastoji se od n uređenihparova slučajnih varijabli (X 1 , Y 1 ), . . . , (X n , Y n ).Uočimo također da se očekivanje slučajne varijable razlika D = X 1 − X 2 može dobitikao razlika očekivanja varijabli pojedinih tretmana, tj.i=1µ d = µ 1 − µ 2 .


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 116Na osnovu toga, testiranje hipotezeH 0 : µ 1 − µ 2 = 0ovdje se provodi postupkom testiranja ekvivalentne hipotezeH 0 : µ d = 0koja se odnosi samo na jednu, novu, varijablu razlika D. Prikladni testovi <strong>za</strong> to danisu u Poglavlju 3.U programskom paketu Statistica, StatSoft imamo ugrađenu proceduru <strong>za</strong> testiranjeovakve hipoteze.Primjer :U jednoj je školi napravljeno istraživanje o tome što djeca misle i osjećaju prema sebi.Test se sastojao u tome da na početku testiranja djeca ocjenom od 1 (ne slažem se) do5 (slažem se) ocjene tvrdnju "Imam puno dobrih osobina". Nakon toga u razdobljuod 6 tjedana djeca su igrala četiri igrice koje potiču pozitivan stav prema samimasebi. Poslije tih igara ponovno im je postavljeno isto pitanje koje su oni ocijenili. Ubazi djeca.sta nalaze se ocjene. Da li su igre statistički značajno podigle prosječnuocjenu učenika o sebi? Napravite testiranje na razini α = 0, 05.Primjer :Pretpostavimo da želite usporediti očekivanu dnevnu prodaju dva restorana smještenau istome gradu. Imate podatke <strong>za</strong> 22 slučajno odabrana dana tijekom šesto mjesečnogperioda <strong>za</strong> oba restorana. Podaci se nalaze u datoteci rest1.sta. Da li podaci dajudovoljno doka<strong>za</strong> da razlika između očekivane dnevne prodaje dva restorana <strong>za</strong>istapostoji pod pretpostavkom da je dnevna prodaja normalno distribuirana slučajnavarijabla?Primjer :Jedan liječnik tvrdi da se uzimanjem specijalnog vitamina može povečati snaga di<strong>za</strong>čautega. Kako bi provjerili njegovu tvrdnju odabrano je 8 di<strong>za</strong>ča kojima je izmjerenasnaga. Nakon dva tjedna treninga podržanih upotrebom specijalnog vitamnina ti istidi<strong>za</strong>či utega su opet testirani. Upišite slijedeće podatke u tablicu i testirajte hipotezukojom možete provjeriti da li vitamin ima značajan učinak pod pretpostavkom da jedistribucija razlika normalna.Prije: 210,230,182,205,262,253,219,216Poslije: 219,236,179,204,270,250,222,216Što ste <strong>za</strong>ključili?Primjer :U sklopu studije organi<strong>za</strong>cije rada poduzeća ispituje se efikasnost <strong>za</strong>poslenih u proizvodnomprocesu. Ispitivanje se provodi mjerenjem produktivnosti rada na uzorku <strong>radni</strong>ka.


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 117Radi mogućeg povećanja produktivnosti, na <strong>radni</strong>m mjestima <strong>radni</strong>ka u uzorku izmijenjenje red <strong>radni</strong>h operacija i prostorni razmještaj sredstava rada. Imamo rezultatemjerenja produktivnosti rada prije i poslije izmjena:Prije: 45,34,42,28,35,39,50,41,27,29Poslije: 49,40,43,32,40,39,51,42,30,24Što se može <strong>za</strong>ključiti na temelju navednih mjerenja pod pretpostavkom da je produktivnostnormalno distribuirana?


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 1186.4 Usporedba proporcija u velikim uzorcimaAko želimo uspoređivati vjerojatnost pojavljivanja nekog događaja u dvije populacijetj. učestalost pojave tog događaja u dvije populacije poslužit ćemo se modeliranjemna osnovu Bernoullijeve slučajne varijable.Primjer :Na osnovu 1000 dimenzionalnog reprezentativnog uzorka u jednom gradu procijenjenje postotak pušača na ˆp 1 = 25%, a u nekom drugom gradu, na osnovu 2000 dimenzionalnoguzorka postotak pušača je procijenjen na ˆp 1 = 28%. Možemo li tvrditi daje u drugom gradu stopa pušača statistički značajno veća nego u prvom?Ovdje problem modeliramo s dvije slučajne varijable Bernoullijevog tipa, tj.( ) ( )0 10 1X 1 =X 2 =, p 1 , p 2 ∈ (0, 1), q i = 1 − p i , i = 1, 2.q 1 p 1 q 2 p 2p 1 je vjerojatnost pojave događaja u prvoj populaciji, a p 2 vjerojatnost pojave događajau drugoj populaciji.Prikupljeni uzorci iz ovih pokusa sastoje se od jedinica i nula koje označavaju da li seu pojedinom pokusu događaj dogodio ili ne.Primjer : U prethodnom primjeru pokusi se sastoje u anketiranju osoba i<strong>za</strong>branihu dane uzorke pitanjem da li su pušači ili ne.Označimo n 1 dimenziju uzorka iz prve populacije, a n 2 dimenziju uzorka iz drugepopulacije.Da bismo odgovorili na pitanje postavljeno u primjeru možemo se poslužiti sljedećimtestom:H 0 : p 1 − p 2 = 0Test statistika:z =ˆp 1 − ˆp√2ˆp(1 − ˆp)( 1 n 1+ 1 n 2)U uvjetima istinitosti navedene hipoteze i pri velikim dimenzijama uzoraka,ova statistika ima približno normalnu distribuciju s očekivanjem 0 ivarijancom 1.Primjer :U uzorku od 100 potrošača jedne trgovine, 43 potrošača kupuje Master karticom. Udrugom uzorku koji broji također 100 potrošača, 58 kupuje Visa karticom. Na raziniα = 0, 05 testirajte postoji li statistički značajna razlika u proporcijama potrošačakoji kupuju s različitim karticama.Primjer :Grupa potrošača želi odrediti postoji li razlika između proporcija automobila kojatrebaju popravke u godinu dana <strong>za</strong> dva tipa automobila. Za prvi model je uzorak


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 119iznosio 400 automobila od kojih je 53 trebalo popravak, a <strong>za</strong> drugi model je u uzorakodabrano 500 automobila od kojih je 78 trebalo popravak. Testirajte postoji listatistički značajna razlika u navedenim proporcijama. Neka je α = 0, 05.Primjer :Raspolažete sljedećim podacima:Manageri MBA studentiveličina uzorka 162 109postotak muškaraca 95 68,9postotak udanih/oženjenih 91,2 53,4Da li populacija managera iz kojih je uzorak i<strong>za</strong>bran sadrži statistički značajno višemuškaraca nego populacija MBA studenata? Da li populacija managera sadrži statističkiznačajno više ljudi koji su u braku od populacije MBA studenata? Testiranjanapravite na razini značajnosti α = 0, 01Primjer :Ispituje se proporcija tekućih računa s negativnim saldom većim od dozvoljenog uprosincu 1998 godine u dvije poslovnice jedne banke. Analitička služba pretpostavljada je proporcija takvih računa u poslovnici II manja od proporcije u poslovnici I.U uzorku 562 računa poslovnice I, 75 je s nedozvoljenim prekoračenjem, a u uzorkuveličine 462 poslovnice II, 44 je s nedozvoljenim prekoračenjem. Što se može <strong>za</strong>ključitio pretposavci analitičke službe? Testirajte na razini značajnosti 10%.6.5 Dvodimenzionalan slučajan vektor6.5.1 Tablica distribucijePrimjer 6.12 Tvornica bombona koristi dvije linije <strong>za</strong> pakovanje bombona u vrećice.Svaka od linija povremeno ne <strong>za</strong>vari vrećicu na odgovarajući način pa se pakovanjene može poslati u prodaju. Radi analize uzroka ovih problema analitičar želi saznatidistribuciju broja pogrešno <strong>za</strong>varenih pakovanja u jednom satu na svakoj liniji posebno,ali i njihovu <strong>za</strong>jedničku distribuciju. Naime, analitičar želi saznati da li se povećanbroj loše <strong>za</strong>varenih pakovanja događa istovremeno na obje linije pa možda uzroke trebatražiti npr. u povremenim smetnjama u električnom napajanju i sličnim mogućim<strong>za</strong>jedničkim uzrocima. U tu svrhu analitičar je brojao pogrešno <strong>za</strong>varena pakovanja sasvake linije tijekom 400 sati i dobio slijedeće podatke koje prikazuje u obliku tablicefrekvencija:


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 120Y0 1 2 3 4 zbroj0 22 12 13 12 7 661 20 24 14 30 10 98X 2 15 20 30 10 7 823 6 5 10 32 20 734 5 7 13 31 25 81zbroj 68 68 80 115 69 400Iz ovih podataka (tablice frekvencija), možemo izračunati empirijsku distribuciju brojapogrešno <strong>za</strong>varenih pakovanja po satu na prvoj liniji X i na drugoj liniji Y kojimaprocjenjujemo stvarne distribucije ovih varijabli:vrijednosti od Y 0 1 2 3 4pripadne vjerojatnosti 0.17 0.17 0.2 0.2875 0.1725vrijednosti od X 0 1 2 3 4pripadne vjerojatnosti 0.165 0.245 0.205 0.1825 0.2025Koliko procjenjujemo vjerojatnost da na drugoj liniji budu 4 loše <strong>za</strong>varena pakovanjapo satu, a koliko na prvoj liniji, po navedenim distribucijama?Ako želimo odgovoriti na pitanje koliko iznosi vjerojatnost da na prvoj liniji ne budepogrešno <strong>za</strong>varenih pakovanja, a istovremeno, na drugoj liniji 4, treba nam <strong>za</strong>jedničkadistribucija ovih slučajnih varijabli koju također možemo procijeniti iz podataka:Y0 1 2 3 40 0.0550 0.0300 0.0325 0.0300 0.01751 0.0500 0.0600 0.0350 0.0750 0.0250X 2 0.0375 0.0500 0.0750 0.0250 0.01753 0.0150 0.0125 0.0250 0.0800 0.05004 0.0125 0.0175 0.0325 0.0775 0.0625Uočimo da se procjene pojedinačne distribucije od X i Y mogu dobiti sumiranjemodgovarajućih redaka odnosno stupaca kao što je prika<strong>za</strong>no u slijedećoj tablici:Y0 1 2 3 4 zbroj0 0.0550 0.0300 0.0325 0.0300 0.0175 0.1651 0.0500 0.0600 0.0350 0.0750 0.0250 0.245X 2 0.0375 0.0500 0.0750 0.0250 0.0175 0.2053 0.0150 0.0125 0.0250 0.0800 0.0500 0.18254 0.0125 0.0175 0.0325 0.0775 0.0625 0.2025zbroj 0.17 0.17 0.2 0.2875 0.1725 1


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 121Općenito, distribucija dvodimenzionalnog slučajnog vektora (X, Y ), pri čemu su {x 1 , . . . , x m }vrijednosti koje može poprimiti slučajna varijabla X (prva komponenta ovog vektora),a {y 1 , . . . , y n } slučajna varijabla Y (druga komponenta ovog vektora), dana je tablicomdistribucije:Yy 1 y 2 . . . y nx 1 p(x 1 , y 1 ) p(x 1 , y 2 ) . . . p(x 1 , y n )X x 2 p(x 2 , y 1 ) p(x 2 , y 2 ) . . . p(x 2 , y n )...x m p(x m , y 1 ) p(x m , y 2 ) . . . p(x m , y n )Broj p(x i , y j ) daje vjerojatnost da slučajna varijabla X primi vrijednost x i ,a istovremeno, slučajna varijabla Y vrijednost y j .p(x i , y j ) = P ({X = x i } ⋂ {Y = y j }) = P {X = x i , Y = y j }Uočimo da se distribucije slučajnih varijabli koje čine ovaj slučajan vektor (tj. posebnodistribucija od X i distribucija od Y ) mogu također dobiti iz tablice distribucije slučajnogvektora zbrajanjem vjerojatnosti u dogovarajućim retcima odnosno stupcima. Tedistribucije zovemo marginalne distribucije sučajnog vektora (X, Y ).Yy 1 y 2 . . . y n sumax 1 p(x 1 , y 1 ) p(x 1 , y 2 ) . . . p(x 1 , y n ) p X (x 1 )X x 2 p(x 2 , y 1 ) p(x 2 , y 2 ) . . . p(x 2 , y n ) p X (x 2 )...x m p(x m , y 1 ) p(x m , y 2 ) . . . p(x m , y n ) p X (x m )suma p Y (y 1 ) p Y (y 2 ) . . . p Y (y n ) 1...Ovdje sup Y (y 1 ) = P {Y = y 1 }, . . . , p Y (y n ) = P {Y = y n }p X (x 1 ) = P {X = x 1 }, . . . , p X (x m ) = P {X = x m }.Primjer 6.13 U bazi podataka bebe.sta nalaze se varijabla Nova-UZVDEF (67) u kojojje dana jedna ocjena ultrazvučnog pregleda mozga beba, a i varijabla Konvulzije(59) u kojoj je naznačeno da li je beba imala konvulzije ili ne. Odredite distribucijuslučajnog vektora (X, Y ) gdje Y predstavlja vrijednost ultrazvučnog nala<strong>za</strong>, a X pojavukonvulzija.Koliko procjenjujemo da iznosi vjerojatnost da je ocjena ultrazvuka 1 a da su konvulzijebile prisutne?Koliko procjenjujemo da iznosi vjerojatnost da je ocjena ultrazvuka 4 a da su konvulzijebile prisutne?


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 122Koliko procjenjujemo da iznosi vjerojatnost da je ocjena ultrazvuka 4 a da konvulzijenisu bile prisutne?Koliko procjenjujemo da iznosi vjerojatnost pojave konvulzije u danoj populaciji djece?Koliko procjenjujemo da iznosi vjerojatnost pojave ultrazvučne ocjene 4 u danoj populacijidjece?Primjer 6.14 U bazi podataka bebe.sta nalaze se varijable broj 5 (Apgar 1) i 24 (Novakomp).Varijablom 5 dana je jedna ocjena bebe odmah nakon poroda dok je varijablom24 dana informacija o tome da li je tijekom trudnoće bilo komplikacija ili ne. Odreditedistribuciju slučajnog vektora (X, Y ) gdje Y predstavlja vrijednost varijable 5, a Xpojavu komplikacija tijekom trudnoće. Koliko procjenjujemo da iznosi vjerojatnost daje ocjena apgar 1 a da su komplikacije bile prisutne?Koliko procjenjujemo da iznosi vjerojatnost da je ocjena apgar 4 a da su komplikacijebile prisutne?Koliko procjenjujemo da iznosi vjerojatnost da je ocjena apgar 4 a da komplikacijenisu bile prisutne?Koliko procjenjujemo da iznosi vjerojatnost pojave komplikacija u danoj populacijidjece?Koliko procjenjujemo da iznosi vjerojatnost pojave ocjene apgara 4 u danoj populacijidjece?Primjer 6.15 U bazi podataka boje.sta nalaze se podaci o pogreškama ocjenjivača intenzitetasvjetline neke boje (varijabla IV) pri direktnom i indirektnom osvjetljenju(varijabla svjetlost). Odredite empirijsku distribuciju slučajnog vektora (X, Y ) gdje Ypredstavlja vrijednost varijable veličine pogreške (IV), a Y je indikator načina osvjetljenja(1 direktno, 0 indirektno). Kolika je procijenjena vjerojatnost da je pogreška2, a osvjetljenje direktno? Postavite sami pitanja analogna pitanjima iz prethodnihprimjera i pokušajte na njih odgovoriti.6.5.2 Uvjetne distribucije. Ne<strong>za</strong>visnostAko u primjeru 6.15 trebamo odgovoriti na pitanje: "Kolika je vjerojatnost da pogreškabude 2 uz uvjet da je osvjetljenje direktno?" moramo se po<strong>za</strong>bavti računanjem uvjetnihvjerojatnosti. Iz definicije uvjtnih vjerojatnosti znamo da jeP (X = 2 | Y = 1) =P {X = 2, Y = 1}.P {Y = 1})Pogledajmo u tablicu kako jednostavno močemo računati ove uvjetne vjerojatnosti ikako ih možemo dobiti korištenjem programskog paketa.


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 123Primjer 6.16 Korisimo primjer 6.12 Procijenite uvjetne vjerojatnosti da na drugojtraci budu 4 pogrešno <strong>za</strong>varena pakovanja uz uvjet da je na prvoj traci također 4.Procijenite i preostale uvjetne vjerojatnosti <strong>za</strong> događaje na drugoj traci uz uvjet da suna prvoj traci 4 pogrešno <strong>za</strong>varena pakovanja.Š to možete reći o ne<strong>za</strong>visnosti događaja {X = 4} i {Y = 4}, a što o ne<strong>za</strong>visnostidogađaja {X = 4} i svih mogućih reali<strong>za</strong>cija druge slučajne varijable.Općenito imamo, ako je dana tablica distribucije dvodimenzionalnog slučajnog vektora(X, Y )Yy 1 y 2 . . . y n sumax 1 p(x 1 , y 1 ) p(x 1 , y 2 ) . . . p(x 1 , y n ) p X (x 1 )X x 2 p(x 2 , y 1 ) p(x 2 , y 2 ) . . . p(x 2 , y n ) p X (x 2 )...x m p(x m , y 1 ) p(x m , y 2 ) . . . p(x m , y n ) p X (x m )suma p Y (y 1 ) p Y (y 2 ) . . . p Y (y n ) 1tada uvjetne distribucije slučajne varijable Y uz uvjet da se dogodio {X =x i } dobijemo kao niz brojeva:p {Y |X=xi }(y j ) = P {X = x i, Y = y j }P {X = x i }.= p(x i, y j )p X (x i ) , j = 1, . . . , ni analogno uvjetne distribucije od X uz uvjet da se dogodio dodađaj {Y = y j }.Primjer 6.17 U prethodnom primjeru procijenite svih 5 uvjetnih distribucija <strong>za</strong> Y uzuvjet da se dogodi {X = i}, i = 0, 1, 2, 3, 4. Da li se te distribucije mijenjaju promjenomdogađaja na koji uvjetujemo? Mozete ki to objasniti i pove<strong>za</strong>ti s pojmom <strong>za</strong>visnostii ne<strong>za</strong>visnosti slučajnih varijabli X i Y ?Za slučajne varijable X i Y , čija je <strong>za</strong>jednička distribucija dana tablicomYy 1 y 2 . . . y n sumax 1 p(x 1 , y 1 ) p(x 1 , y 2 ) . . . p(x 1 , y n ) p X (x 1 )X x 2 p(x 2 , y 1 ) p(x 2 , y 2 ) . . . p(x 2 , y n ) p X (x 2 )...x m p(x m , y 1 ) p(x m , y 2 ) . . . p(x m , y n ) p X (x m )suma p Y (y 1 ) p Y (y 2 ) . . . p Y (y n ) 1kažemo da su ne<strong>za</strong>visne ako <strong>za</strong> sve i = 1, . . . , m, j = 1, dots, n vrijedi da jep(x i , y j ) = p X (x i ) · p Y (y j ),tj. distribucija slučajnog vektora se može dobiti kao produkt marginalnihdistribucija.Primjer 6.18 Za primjere 6.14 i 6.15 procijenite uvjetne distribucije od X <strong>za</strong> svemoguće reali<strong>za</strong>cije od Y . Komentirajte ne<strong>za</strong>visnost....


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 1246.6 Anali<strong>za</strong> kategoriziranih podatakaIz tablica frekvencija slučajnog uzorka dvodimenzionalnog slučajnog vektora možemodobiti empirijsku distribuciju ovog slučajnog vektora kao što je poka<strong>za</strong>no u prethodnompoglavlju. Na osnovu empirijske distribucije, uz do sada opisane metode statističkog<strong>za</strong>ključivanja u poglavlju o jednoj slučajnoj varijabli, možemo donositi <strong>za</strong>ključkei o eventualnoj ne<strong>za</strong>visnosti slučajnih varijabli X i Y odnosno postojanju veze izmeđunjih.Neka je dana sljedeća tablica frekvencija dvodimenzionalnog slučajnog vektora (X, Y ):Yy 1 y 2 . . . y n sumax 1 n(x 1 , y 1 ) n(x 1 , y 2 ) . . . n(x 1 , y n ) n X (x 1 )X x 2 n(x 2 , y 1 ) n(x 2 , y 2 ) . . . n(x 2 , y n ) n X (x 2 ). . .. .x m n(x m , y 1 ) n(x m , y 2 ) . . . n(x m , y n ) n X (x m )suma n Y (y 1 ) n Y (y 2 ) . . . n Y (y n ) NIz navedene tablice izračunamo tablicu koja daje empirijsku distribuciju:Yy 1 y 2 . . . y n sumax 1 ˆp(x 1 , y 1 ) ˆp(x 1 , y 2 ) . . . ˆp(x 1 , y n ) ˆp X (x 1 )X x 2 ˆp(x 2 , y 1 ) ˆp(x 2 , y 2 ) . . . ˆp(x 2 , y n ) ˆp X (x 2 ). . .. .x m ˆp(x m , y 1 ) ˆp(x m , y 2 ) . . . ˆp(x m , y n ) ˆp X (x m )suma ˆp Y (y 1 ) ˆp Y (y 2 ) . . . ˆp Y (y n ) 1Pretpostavimo da je stvarna tablica distribucije od (X, Y ) dana na isti način samo supripadne vjerojatnosti označene s p bez "kapice".Kod dovoljno velikih dimenzija uzorka, <strong>za</strong> testiranje nulte hipoteze:H 0 :p(x i , x j ) = p X (x i ) · p Y (y j ), ∀i, jmožemo koristiti tzv. χ 2 test koji se temelji na usporedbi frekvencija koje očekujemou uvjetima nulte hipoteze <strong>za</strong> pojedinu čeliju:E ij = N ˆp X (x i )ˆp Y (y j ) = n X(x i )n Y (y j )Ni onih koje stvarno imamo u pojedinoj čeliji, tj. n ij = n(x i , y j ).Test statistika(n ij − E ij ) 2χ 2 = ∑ i,jE iju uvjetima nulte hipoteze ima tzv. χ 2 distribuciju s (n − 1)(m − 1) stupnjeva slobode.


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 125U uvjetima odbacivanja nulte hipoteze reći ćemo da podaci daju evidenciju o statističkojvezi između varijabli X i Y . Valje napomenuti da to još uvijek ne znači i uzročnuvezu. Naime, može se dogoditi da varijable nisu uzročno pove<strong>za</strong>ne ali imaju neku <strong>za</strong>jedničkuvarijablu koja je s objema u uzročnoj vezi. (Analizirajte u tom kontekstuprimjer 6.12.)Uzorak je dovoljno velik ukoliko su očekivane frekvencije svakog razreda veće od 5.Primjer 6.19 U primjerima 6.12, 6.14, 6.15 testirajte hipotezu o ne<strong>za</strong>visnosti.Primjer 6.20 Raspolažete podacima o jednom istraživanju koje je provedeno na područjugrada Osijeka. Radi se o ispitivanju čitalačkih navika stanovnika Osijeka. Natemelju podataka koji se nalaze u bazi citanje.sta odogovorite na pitanje da li čitalačkenavike ovise o spolu? Testiranje napravite na razini značajnosti 5%.Primjer 6.21 U bazi podataka live.sta nalaze se podaci o spolu, dobi, planovima <strong>za</strong>posao nakon diplomiranja, namjerama o mjestu stanovanja itd. <strong>za</strong> skupinu od 129studenata jednog sveučilišta u Pragu. Zanima nas da li postoji razlika u planovima <strong>za</strong>posao s obzirom na spol.Varijable koje trebate analizirati su:SEX: 1 - muškarci, 2 - ženeEDUWORK: 1 - raditi puno radno vrijeme, 2 - raditi pola radnog vremena, 3 - uopćene raditiTestiranje napravite na razni značajnosti 10%.


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 1266.7 Jednostavna linearna regresijaAko imamo parove podataka o dvije neprekidne slučajne varijable i želimo <strong>za</strong>ključivatio postojanju veze između njih, metoda iz prethodnog poglavlja nije prikladna.Naime, da bismo primijenili navedenu metodu trebali bismo varijable kategorizirati,a postupak kategori<strong>za</strong>cije nerijetko može značajno utjecati na statističke <strong>za</strong>ključkeobzirom da se u tom postupku uvijek gubi dio informacija.Primjer 6.22 Ako sa x označimo dob osobe, a sa Y krvni tlak osobe, <strong>za</strong>nimljivo je promatrativezu između dobi i krvnog tlaka. Krvni tlak <strong>za</strong> osobe iste dobi možemo modeliratikao slučajnu varijablu s pripadnom distribucijom (npr. normalnom). Budući sestarenjem povećava krvni tlak, prirodno je tražiti svojevrstan matematički opis statističke<strong>za</strong>konitosti koja obuhvaća vremensku promjenjivost krvnog tlaka. To <strong>za</strong>pravoznači da moramo promatrati familiju normalnih distribucija, tako da svakoj dobi xpripada odgovarajuća normalna razdioba N (µ(x), σ 2 (x)) krvnog tlaka Y x . Činjenicada se starenjem povećava krvni tlak odražava se na funkciju x ↦→ µ(x) koja dobipridružuje srednju vrijednost krvnog tlaka (upravo u toj dobi). Očito je da je ovafunkcija monotono rastuća.• Dakle, poanta svega je na temelju sparenih mjerenja (x 1 , y 1 ), . . . , (x n , y n ) ustanovitiprirodu ovisnosti slučajnih varijabli Y i o ne<strong>za</strong>visnoj varijabli x.• Ako matematički model definiramo relacijomY i = f(x i ) + ε i , i = 1, . . . , n,gdje je x ↦→ f(x) realna funkcija jedne realne varijable, a ε 1 , . . . , ε n ne<strong>za</strong>visneslučajne varijable t.d. je E[ε i ] = 0 i V ar(ε i ) = σ 2 , onda govorimo o jednodimenzionalnomregresijskom modelu.• Prvi korak u uspostavljanju ovakvih ve<strong>za</strong> između varijabli Y i x je prikazpodataka u dijagramu raspršenosti iz kojeg se lako vidi grupiraju li se točke(sparena mjerenja) oko pravca (linearna <strong>za</strong>visnost) ili neke krivulje (neka drugafunkcijska <strong>za</strong>visnost: polinomijalna (n ≥ 2), logaritamska, . . . ).Primjer 6.23 U bazi podataka krv.xls nalaze se podaci o mjerenim vrijednostima nekolikorazličitih anali<strong>za</strong> krvi u definiranoj populaciji bolesnih osoba. Analitičar želi istražitimože li se odrediti ve<strong>za</strong> između izmjerenih vrijednosti ovih anali<strong>za</strong>. Utvrđivanjeveze i jasno uspostavljanje <strong>za</strong>kona koji ih povezuje smanjio bi broj potrebnih pretragakrvi. Naime, trebalo bi napraviti samo one koje su međusobno ne<strong>za</strong>vise, dok bi seostale mogle na osnovu njih prognozirati. Za podatke iz baze prikažite svake dvijevarijable u dijagramu raspršenosti i kratko ga proanalizirajte.


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 127Deterministička ve<strong>za</strong> između dvije varijable:y = f(x)y je <strong>za</strong>visna varijabla, x je ne<strong>za</strong>visna varijabla, a f : R → R <strong>za</strong>dana funkcija. Npr:y = 2x + 3y = sin 3xOvakve veze omogućavaju točno izračunavanje vrijednosti <strong>za</strong>visne varijable iz vrijednostine<strong>za</strong>visne varijable.U statističkim anali<strong>za</strong>ma nije realno očekivati determinističke veze obzirom da supojave koje promatramo slučajnog karaktera.Statistički model s aditivnom greškom:Realno možemo očekivati da ćemo moći uspostaviti funkcijsku vezu do na dodanugrešku, tj.Y = f(x) + ε.Ovdje pretpostavljamo da je ε slučajna varijabla koja opisuje grešku u našem modeliranju.Koristeći se činjenicom da mnogo ne<strong>za</strong>visnih slučajnih smetnji i pravilu imanormalnu distribuciju, u primjenama se, u klasičnom, načinu modeliranja prihvaćada je model adekvatan ako modelom postignemo normalnu distribuciju grečaka ε uzostale <strong>za</strong>htjeve o kojima će biti riječi poslije.Prvi korak u uspostavljanju ovakvih ve<strong>za</strong> između dvije varijable je grafički prikazpodataka u dijagramu raspršenja.Primjer 6.24 Za podatke iz baze krv.xls prikažite svake dvije varijable u dijagramuraspršenja.6.7.1 Regresijski pravacPretpostavimo li da je graf funkcije f(x) u statističkom modelu, koja opisuje vezuizmeđu <strong>za</strong>visne i ne<strong>za</strong>visne varijable, pravac, znači da je funkciju možemo prika<strong>za</strong>tialgebarski u oblikuf(x) = α + βxPrimjer 6.25 Skicirajte grafove pravacaf(x) = 2x − 1, f(x) = 1 2 x + 3, f(x) = −2x 1i komentirajte značenje koeficijenata α i β. Koji koeficijent opisuje iznos povečanja<strong>za</strong>visne varijable u slučaju jediničnog povećanja ne<strong>za</strong>visne varijable?


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 128Statistički modelPretpostavljamo da su vrijednosti <strong>za</strong>visne varijable Y i pove<strong>za</strong>ni s vrijednostima ne<strong>za</strong>visnevarijable na način:Y i = α + βx i + ε i , i = 1, . . . , nOvdje su• x 1 , x 2 , . . . , x n vrijednosti ne<strong>za</strong>visne varijable x koje je analitičar i<strong>za</strong>brao <strong>za</strong> studiju• ε 1 , . . . , ε n predstavljaju nepoznate komponenete greške koja je dodana na linearnuvezu. Ovo su menjerljive slučajne varijable <strong>za</strong> koje pretpostavljamo dasu međusobno ne<strong>za</strong>visne i da sve imaju normalnu distribuciju s očekivanjem 0 iistom varijancom σ 2 .• α i β su nepoznati parametri pretpostavljene veze koje treba procijeniti tj.odrediti u postupku modeliranja.Metoda najmanjih kvadrata• Problem procjene nepoznatih parametara α i β možemo identificirati sa procjenomnepoznatog nam regresijskog pravca.• Pretpostavimo da je u sklopu dijagrama raspršenja nacrtan proizvoljan pravacy = α + βx. Iz slike je vidljivo da <strong>za</strong> vrijednost x i ne<strong>za</strong>visne varijable x, <strong>za</strong>visnavarijabla Y i poprima vrijednost (predicted value) α + βx i . Istovremeno uočimoda je stvarna Y i -vrijednost (observed value) jednaka y i .y_iy= + x+ x_ix_i• Nas će <strong>za</strong>nimati razlika između tih vrijednosti:d i = y i − (α + βx i ).• Pretpostavimo da su (x 1 , y 1 ), . . . , (x n , y n ) dani eksperimentalni podaci iz modelakoji je upravo opisan. Tada regresijske parametre α i β procjenjujemometodom najmanjih kvadrata.


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 129• Ideja metode je da se minimizira suma kvadratnih odstupanja teoretskih odeksperimentalnih vrijednosti, tj. procjene ˆα i ˆβ regresijskih parametara α i βtrebamo odrediti tako da vrijedi:D(ˆα, ˆβ) = ∑ (eksperimentalne vrijadnosti − teoretske vrijednosti) 2 ==n∑i=1[y i − (ˆα + ˆβx i )] 2 = min(α,β)∈R 2n∑i=1[y i − (α + βx i )] 2 = min D(α, β).(α,β)∈R 2• Dakle, α i β biramo tako da <strong>za</strong> i<strong>za</strong>brane vrijednosti ˆα i ˆβ D(ˆα, ˆβ) prima minimalnuvrijednost koju može postići po svim mogućim vrijednostima (α, β).Takve procjene ˆα i ˆβ nazivamo procjenama u smislu metode najmanjih kvadrataili least square estimates regresijskih parametara α i β. Jasno je da je tadanajbolja procjena nepoznatog regresijskog pravca y = α + βx upravo pravacŷ = ˆα + ˆβx.• Za analitičko rješenje procjena ˆα i ˆβ parametara α i β potrebno nam je sljedeće:Rješenje:¯x = 1 nS xy =n∑x i , ȳ = 1 ni=1Sx 2 =Sy 2 =n∑(x i − ¯x) 2i=1n∑(y i − ȳ) 2i=1n∑i=1y in∑(x i − ¯x)(y i − ȳ)i=1tj. regresijski pravac:ˆβ = S xx, ˆα = ȳ −S ˆβ¯xx2ŷ = ˆα + ˆβxUočimo da, koristeći formulu regresijskog pravca, <strong>za</strong> svaku pojedinu eksperimentalnuvrijednost x i možemo izračunati pripadnu teoretsku vrijednost ŷ i , pa možemo točnoizračunati koliko iznosi svako odstupanje teoretske od eksperimentalne vrijednosti:e i = y i − ŷ i = y i − (ˆα + ˆβx i ).Ovako dobiven niz vrijednosti (e i , . . . , e n ) zovemo reziduli. Nadalje, suma kvadratasvih reziduala je upravo minimalna postignuta vrijednost <strong>za</strong> D, tj. D(ˆα, ˆβ) i predstavljajednu mjeru kvalitete modela koju označavamo SSE:n∑SSE = e 2 i .i=1


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 130Primjer 6.26krv.staKoristeći bazu podataka krv.sta odredite regresijski pravac između varijabli CD4 i CD8.Odredite vrijednosti reziduala. Ponovite postupak <strong>za</strong> još nekoliko parova varijabli.Primjer 6.27regresija.staKoristeći bazu podataka regresija.sta odredite regresijski pravac između varijabli x1i x2. Odredite vrijednosti reziduala i prokomentirajte dobiveni rezultat.Primjer 6.28regresija.staKoristeći bazu podataka regresija.sta odredite regresijski pravac između varijabli x2i x2kv. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnostilinearnog modela <strong>za</strong> problem? Koji bi model bio prikladniji i <strong>za</strong>što?Statističko <strong>za</strong>ključivanjeNajvažnija praktična pitanje na koje treba odgovoriti pri ovakvom modeliranju su:1. Koliki dio promjena u mjerenim vrijednostima <strong>za</strong>visne varijable je objašnjendobivenim modelom? (test jakosti modela)• Odgovor na ovo pitanje daje koeficijent determinacije R 2 :R 2 = S2 xy.SxS 2 y2Odavde je očito da jeR = S xyS x S y.• Koeficijent determinacije R 2 nam <strong>za</strong>pravo daje informaciju o tome kolikorasipanja izlaznih podataka potječe od funkcijske ovisnosti x ↦→ α + βx, akoliko otpada na tzv. rezidualno ili neobjašnjeno rasipanje (tu informacijuočitavamo iz 1 − R 2 ).• Drugim riječima daje informaciju o tome koliko je jaka funkcijska ve<strong>za</strong>između x i Y . Što je vrijednost koeficijenta R 2 bliža 1, <strong>za</strong>visnost je jača.2. Je li ovaj model (Y i = α +βx i +ε i ) bolji od nul-modela (Y i = α +ε i ), tj. modelau kojemu je koeficijent regresije β = 0? (test adekvatnosti modela)• Osnova ovog dijela analize je utvrditi koji od gore navedenih modela boljeopisuje funkcijsku ovisnost slučajne varijable Y (čije reali<strong>za</strong>cije označavamosa y i ) i ne<strong>za</strong>visne (neslučajne) varijable x.• Ukoliko je β = 0 ne možemo govoriti o funkcijskoj ovisnosti između Y i x.• Taj problem svodimo na testiranje nulte hipoteze koju formuliramo najedan od sljedeća dva načina:H 0 : Funkcijska ve<strong>za</strong> između Y i x ne postoji.H 0 : β = 0.


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 131• Sada je jasno da alternativnu hipotezu postavljamo na sljedeći način:H 1 : Funkcijska ve<strong>za</strong> između Y i x postoji.H 1 : β ≠ 0.• Za testiranje ovih hipote<strong>za</strong> koristimo T-test, pri čemu je vrijednost teststatistike dana izrazomgdje jeS x = √ 1n − 1t = S x · ̂βs√n − 1 ∼ T (n − 2) ,n∑(x i − ¯x) 2 , s =i=1√SSEn − 2 = √ ∑ni=1 e2 in − 2 .3. Anali<strong>za</strong> reziduala: utvrđujemo jesu li ispunjene sve početne pretpostavkekoje reziduali trebaju ispunjavati, a te su:• Varijance grešaka (koje su, kako znamo, slučajnog karaktera) su jednake.Homogenost varijanci reziduala provjeravamo analizom grafičkog prika<strong>za</strong>ovisnosti reziduala e i o procjenjenim vrijednostima ŷ i = ˆα + ˆβx i (tzv.predicted and resids plot u programskom paketu Statistica). Jednostavnodonošenje <strong>za</strong>ključaka o varijanci dano je pomoću sljedećih sličica:Slika 6.2: Horizontalno raspoređene točke sugeriraju homogenost varijanci.Slika 6.3: Ovakav raspored točaka sugerira stalan rast varijance, dakle varijance nisu homogene.


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 132Slika 6.4: Ovakav raspored točaka sugerira neadekvatnost linearnog modela.• Reziduali su normalno distribuirani. Normalnost reziduala provjeravamoanalizom histograma reziduala i p-plota reziduala u programskom paketuStatistica.• Reziduali moraju biti međusobno ne<strong>za</strong>visni, tj. vrijednost reziduala kojise odnosi na reali<strong>za</strong>ciju y i slučajne varijable Y nema nikakvog utjecaja navrijednost reziduala koji se odnosi na reali<strong>za</strong>ciju y j iste slučajne varijable.Ovu pretpostavku provjeravamo analizom grafičkog prika<strong>za</strong> reziduala <strong>za</strong>svaki pojedini slučaj (Case numbers and resids plot u programskom paketuStatistica - promatramo položaj pravca i raspored reziduala u odnosu nanjega) i crtanjem dijagrama raspršenja uređenih parova reziduala (e i , e i−1 ),i = 2, . . . , n.• Ako reziduali e i <strong>za</strong>dovoljavaju prethodno navedene pretpostavke, smatramoih dobrim procjenama stvarnih normalnih grešaka ε i .Primjer 6.29 statistika.staMnogi studenti odlučili su ispit iz Matematičke statistike položiti putem kolokvija. Pritome se postignuti bodovi na svim kolokvijima zbrajaju i na temelju zbroja bodova procjenjujeima li student pravo i<strong>za</strong>ći na usmeni 1 dio ispita. U bazi podataka statistka.stanalazi se zbroj bodova sa prva dva kolokvija (varijabla kol-1-2) i ukupan broj bodovanakon svih provedenih kolokvija (varijabla Ukupno). Odredite regresijski pravac izmeđuvarijabli Kol-1-2 i Ukupno. Napravite potpunu regresijsku analizu (test jakosti, testadekvatnosti i analizu reziduala).Primjer 6.30 požar.staU bazi podataka požar.sta nalaze se podaci o udaljenosti lokacije na kojoj je izbiopožar od najbližeg vatrogasnog centra (varijabla Udaljenost-km) i podaci o iznosu štetenastale tim požarom (varijabla Steta-kn). Napravite potpunu regresijsku analizu (testjakosti, test adekvatnosti i analizu reziduala).


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 133Primjer 6.31 ptsp.staKoristeći bazu podataka ptsp.sta odredite regresijski pravac između varijabli ptspbi ptspb2 (ptspb2 sadrži rezultate testova nakon terapije nekim lijekom, a ptspbodražava stanje prije provedene terapije). Napravite potpunu regresijsku analizu modela(test jakosti, test adekvatnosti i analizu reziduala). Analogno napravite <strong>za</strong> parovevarijabli ptspc i ptspc2, te ptspd i ptspd2.6.8 Koeficijent korelacijeKoeficijent korelacije je jedna numerička karakteristika dvodimenzionalnog slučajnogvektora koja može poslužiti <strong>za</strong> analizu <strong>za</strong>visnosti među komponentama tog slučajnogvektora.Neka je (X, Y ) dvodimenzionalan slučajan vektor kojemu svaka komponentaima varijancu. Koeficijent korelacije je broj definiran izrazom:gdje suρ XY =E(X − µ)(Y − ν)σ X σ Y,µ = EX, ν = EY, σ X = √ V ar X, σ Y = √ V ar Y .O koeficijentu korelacije valja znati sljedeće činjenice:• ρ XY ∈ [−1, 1]• Ako su X i X ne<strong>za</strong>visne slučajne varijable tada je ρ XY = 0• Y = aX + b, gdje je a > 0 onda i samo onda ako je ρ XY = 1• Y = aX + b, gdje je a < 0 onda i samo onda ako je ρ XY = −1Procjena korelacije:Za procjenu korelacije kod neprekidnih slučajnih varijabli koristimo tzv. Pearsonovkorelacijski koeficijent definiran izrazom:n∑(X i − ¯X)(Y i − Ȳ )i=1r = √∑ n√(X i − ¯X)n.∑2 (Y i − Ȳ )2i=1Ovaj izraz u direktnoj je vezi s koeficijentom β u linearnom regresijskom modelu štoupućuje na činjenicu da ovaj procjenitelj daje informacije o linearnoj vezi između Xi Y .Statistički test koji testira hipotezui=1H 0 : ρ XY = 0na osnovu t-distribucije može se primijeniti pod pretpostavkom normalno distribuiranogslučajnog vektora (X, Y ).


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 134Primjer 6.32 Koristeći baze podataka krv.xls i regresija1.sta procijenite koeficijentkorelacije <strong>za</strong> sve parove varijabli. Usporedite s rezultatima regresijske analize <strong>za</strong> isteparove varijabli.6.9 Zadaci <strong>za</strong> vježbu - jedostavna linearna regresijaPrimjer 6.33 regresija-1.staKoristeći bazu podataka regresija-1.sta odredite regresijski pravac između varijabliX-1 i X-2. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnostilinearnog modela <strong>za</strong> problem? Koji bi model bio prikladniji i <strong>za</strong>što?Primjer 6.34 gorivo.staKoristeći bazu podataka gorivo.sta odredite regresijski pravac između varijabli Udaljenost-posaoi Troskovi-gorivo (Udaljenost-posao sadrži podatke o udaljenosti radnog mjesta odmjesta stanovanja <strong>za</strong> 100 <strong>za</strong>poslenih osoba, a Troskovi-gorivo iznos u kunama kojegispitanici troše na gorivo da bi se dovezli do posla). Napravite potpunu regresijskuanalizu modela (test jakosti, test adekvatnosti i analizu reziduala).Primjer 6.35 regresija-2.staKoristeći bazu podataka regresija-2.sta odredite regresijski pravac između varijabliY-1 i Y-2. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnostilinearnog modela <strong>za</strong> problem? Koji bi model bio prikladniji i <strong>za</strong>što?Primjer 6.36 gluko<strong>za</strong>.staKoristeći bazu podataka gluko<strong>za</strong>.sta odredite regresijski pravac između varijabli Dob-osobei Koncentracija-glukoze (Dob-osobe sadrži podatke o starosti <strong>za</strong> 100 ispitanih osoba,a Koncentracija-glukoze nivo glukoze u krvi pojedinog ispitanika). Napravitepotpunu regresijsku analizu modela (test jakosti, test adekvatnosti i analizu reziduala).Primjer 6.37 regresija-3.staKoristeći bazu podataka regresija-3.sta odredite regresijski pravac između varijabliZ-1 i Z-2. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnostilinearnog modela <strong>za</strong> problem? Koji bi model bio prikladniji i <strong>za</strong>što?Primjer 6.38 apartmani.staKoristeći bazu podataka apartmani.sta odredite regresijski pravac između varijabliUdaljenost-od-mora i Cijena-apartmana (Udaljenost-od-mora sadrži podatke oudaljenosti apartmana do najbliže plaže, a Cijena-apartmana cijenu apartmana podanu izraženu u kunama). Napravite potpunu regresijsku analizu modela (test jakosti,test adekvatnosti i analizu reziduala).Primjer 6.39 regresija-4.staKoristeći bazu podataka regresija-4.sta odredite regresijski pravac između varijabli


Statističko <strong>za</strong>ključivanje o dvije slučajne varijable 135W-1 i W-2. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnostilinearnog modela <strong>za</strong> problem? Koji bi model bio prikladniji i <strong>za</strong>što?Primjer 6.40 servis.staKoristeći bazu podataka servis.sta odredite regresijski pravac između varijabli Broj-kmi Servis-kn (Broj-km sadrži podatke o prijeđenom broju kilometara nekog tipa automobilaprije obavljenog prvog servisa, a Servis-kn cijenu servisa nakon tog brojakilometara). Napravite potpunu regresijsku analizu modela (test jakosti, test adekvatnostii analizu reziduala).

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!