19.04.2014 Views

SLO - naloge

SLO - naloge

SLO - naloge

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Statistika<br />

Gradivo za vaje<br />

1.8 Razvrščanje<br />

Na podlagi nekega kazalnika želimo ocenjevati kreditno sposobnost posameznika,<br />

želimo jih razvrstiti v dve skupini - tiste, ki bodo kredit odplačali, in<br />

tiste, ki ga ne bodo. Kot učni vzorec imamo na razpolago vrednosti tega<br />

kazalnika za posameznike, ki so lansko leto najeli enoletni kredit in podatke<br />

o tem, ali je letos kredit odplačan ali ne. Predpostavimo, da so vrednosti<br />

kazalnika porazdeljene pri obeh skupinah posameznikov približno normalno.<br />

Na podlagi letošnjih podatkov ocenimo povprečno vrednost kazalnika za posameznike,<br />

ki so kredit odplačali (¯x d ), in za posameznike, ki ga niso (¯x s ). Ti<br />

dve oceni sedaj uporabimo za razvrščanje strank: napovemo, da bo nek posameznik<br />

uspel odplačati kredit, če je trenutna vrednost njegovega kazalnika<br />

bližja ¯x d kot ¯x s .<br />

Raziskati želimo lastnosti takega razvrščanja. Recimo, da smo v učni vzorec<br />

zajeli n d = 750 posameznikov, ki so kredit odplačali in n s = 250, ki ga<br />

niso. Recimo, da je kazalnik povsem neuporaben za naš namen, torej da je<br />

njegova porazdelitev enaka pri “dobrih” kot pri “slabih” strankah (torej X s<br />

in X d enako porazdeljena, označimo kar z X: X ∼ N(50, 15 2 )). Ugotoviti<br />

želimo, kakšna bo verjetnost, da neko naključno stranko na podlagi današnje<br />

vrednosti njenega kazalnika razvrstimo med “dobre”.<br />

• Kakšna je porazdelitev ¯X s (v splošnem, torej za neko varianco σ 2 in<br />

neko število slabih n s v učnem vzorcu)?<br />

• Označimo Z = X − ¯X s in Y = X − ¯X d . Izračunajte kovarianco in<br />

korelacijo.<br />

Izračunajte korelacijo za n s = n d . Kako je odvisna od velikosti vzorcev?<br />

Izrazite formulo za gostoto f Z,Y (z, y) (uporabimo rezultat, da je skupna<br />

gostota v tem primeru normalna, kar pa v splošnem ni nujno vedno res).<br />

• Zanima nas verjetnost P (|X − ¯X s | < |X − ¯X d |). Kako bi jo izračunali<br />

(skicirajte območje, ki nas zanima, nastavite integral in meje)?<br />

Predlogi za vaje v R-u:<br />

• Generirajte vrednosti obeh slučajnih spremenljivk in narišite dobljene<br />

razlike. Pomagajte si s spodnjo kodo.<br />

> set.seed(1)<br />

> slabi dobri

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!