11.07.2015 Views

Diapozitiv 1 - Oddelek za psihologijo - Univerza v Ljubljani

Diapozitiv 1 - Oddelek za psihologijo - Univerza v Ljubljani

Diapozitiv 1 - Oddelek za psihologijo - Univerza v Ljubljani

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Statistično <strong>za</strong>ključevanje: Prevzorčenjein robustne metode24.11.2011Prevzorčenje in robustne metodeUniver<strong>za</strong> v <strong>Ljubljani</strong>, Filozofska fakulteta, <strong>Oddelek</strong> <strong>za</strong> <strong>psihologijo</strong>Študij prve stopnje Psihologija2. semester, predmet Statistično <strong>za</strong>ključevanjeIzr. prof. dr. Anja Podlesek1Zakaj prevzorčenje?• Parametrični poskusi temeljijo na teoretičnihporazdelitvah in s tem na mnogih predpostavkah.• V resnici je pogosto naslednje:– delamo z majhnimi vzorci– v podatkih najdemo osamelce (angl. outliers)– odstopanje od normalnosti– razlike v variabilnosti različnih vzorcev• Posledice:– neustrezno opredelimo p– zmanjšanje moči testa– Primer, kaj se dogaja z rezultatom t-testa v takih primerih:http://wfs.cgu.edu/bergerd/DBpapers/Resampling%20demos%20071029.xls 2Metode, ki so neodvisne odporazdelitve• Neparametrični testi• Prevzorčenje• Robustne metodeNeparametrični preizkusi• večinoma temeljijo na rangih• moč (v primerjavi s parametričnimi testi)odvisna od veljavnosti predpostavk• prednost: eliminacija vpliva osamelcev• omejitev:• premalo specifični• opustitev izvorne merske lestvice34Prevzorčenje• angl. resampling• Bistvo: vzorčno porazdelitev določimoempirično iz prevzorčenih vzorcev.ViriBerger, Dale, Introduction to Resampling Techniques,Claremont Graduate Universityhttp://www.google.si/url?sa=t&source=web&cd=1&sqi=2&ved=0CBUQFjAA&url=http%3A%2F%2Fwise.cgu.edu%2Fdownloads%2FIntroduction%2520to%2520Resampling%2520Techniques%2520060420.doc&rct=j&q=introduction%20to%20resampling&ei=4iZ5TcXEDsmFhQfT_9DeBg&usg=AFQjCNHg1vrruUFP8UdR9lANDvKbUFRc5A&sig2=6Q0AGweA6QcTouTEIW43mg&cad=rja5PrevzorčenjePotrebna je programska oprema.Npr. <strong>za</strong> bootstrap:• SPSS verzije 18+• R• SYSTAT/MYSTAT• dodatki <strong>za</strong> ExcelOmogoča nam vlečenje velikega števila vzorcev.61


Statistično <strong>za</strong>ključevanje: Prevzorčenjein robustne metode24.11.2011Prevzorčenje• Permutacijske metode:• tudi: randomi<strong>za</strong>cijske tehnike• vzorčenje brez vračanja• <strong>za</strong> testiranje hipotez, da ni učinka (razlik meddvema skupinama), velikokrat izvedemonaslednje: Premešamo vse podatke in jihnaključno razdelimo v skupini (= H 0 ).Pregledamo empirično vzorčno porazdelitevstatistike (ali testne statistike). Kam v tejporazdelitvi pade naša dejanska vrednost?7 Berger, D. (2006, April 27). Introduction to resampling techniques. Statistical Workshop presented at theWestern Psychological Association, Palm Springs, California.8• Bootstrap metode:Prevzorčenje– Predvidevamo, da je naš vzorec reprezentativen <strong>za</strong> populacijo da torej vzorčna empirična porazdelitev ustrezno odražaobliko populacijske porazdelitve.– Iz vzorca ponovno vzorčimo z vračanjem (enak N).– Izračunamo statistiko.– Z velikokratnim vzorčenjem dobimo empirično vzorčnoporazdelitev statistike.– Določimo interval <strong>za</strong>upanja:• SE• percentili• ( testiramo hipoteze)9 10Prevzorčenje• Bootstrap:– Neparametrični bootstrap• Vzorčimo iz dejanskih podatkov.– Parametrični bootstrap• Podatkom prilagodimo nek model (navadno z ML), natopa vzorčimo iz take teoretične porazdelitve (N).• Zaželeno pri majhnih vzorcih.11Prevzorčenje• Bootstrap:– Izdelava IZ:• Percentilni bootstrap• pristranskost (angl. bias) = koliko se sredina bootstrapporazdelitve odklanja od statistike originalnega vzorca• Če je bias = 0 in je bootstrap porazdelitev simetrična, jepercentilni IZ dobra ocena, sicer ne.– Izboljšave pri intervalih <strong>za</strong>upanja:• popravek <strong>za</strong> pristranskost (Bias Corrected - BC)• popravek <strong>za</strong> pristranskost in asimetričnost v bootstrapporazdelitvi (Bias Corrected and accelerated - BCa)122


Statistično <strong>za</strong>ključevanje: Prevzorčenjein robustne metode24.11.2011Omejitve bootstrapa• predpostavka o reprezentativnosti vzorčneporazdelitve (osamelci!)• nevarnost pretiranega upoštevanja šuma vpodatkih• če je parameter blizu meje, ocene nisokonsistentne• pomanjkljiva prisotnost v učbenikih inprogramski opremi1314Prednosti bootstrapa• Uporabljamo ga lahko pri ocenjevanju intestiranju hipotez o raznovrstnih kompleksnihstatistikah, kjer teoretične porazdelitve nisoznane.• Oblika porazdelitve (skoraj) ni pomembna.• Konceptualna preprostostPrevzorčenje• Jackknife:• iz vzorca izpustimo po eno osebo• št. vzorcev = N• Lahko ocenimo pristranskost in standardnonapako statistike.• Medtem ko bootstrap lahko vsakič da drugačnerezultate, jackknife vedno da enake.1516Prevzorčenje• Monte Carlo metode• Ponovljeno vzorčenje iz populacij z znanimiznačilnostmi (navadno jih generiramo sami), dabi ugotovili, kako občutljivi so statističnipostopki na te značilnosti.– Npr. kako občutljiv je t-test na kršenje predpostavke onormalnosti.Prevzorčenje• Navzkrižna validacija– Koliko variance pojasni model, izračunan napodvzorcu 1, v podvzorcu 2? napovednaveljavnost modela17183


Statistično <strong>za</strong>ključevanje: Prevzorčenjein robustne metode24.11.2011Robustne metode• Mere so robustne, če majhne spremembe v oblikiporazdelitve ne ali le malo vplivajo na njihovo vrednost.• Uporabne predvsem ob prisotnosti osamelcev oz.vplivnih točk.Alternativa aritmetični sredini• Mediana– dobra pri osamelcih, vendar lahko nizka moč testov• »Prire<strong>za</strong>na« aritmetična sredina (trimmed mean)– odrežemo določen % najvišjih in najnižjih vrednosti (5-20%)• Winsorizirane ocene– Winsoriziranje: ekstremne podatke (10-25 %) <strong>za</strong>menjamo ssosednjimi, manj ekstremnimi vrednostmi– Primer 80 % M w : (x 2+x 2 +x 3 +x 4 +x 5 +x 6 +x 7 +x 8 +x 9 +x 9 )10• M-cenilke1920Robustna regresijavplivna točka(»bivariatniosamelec«)bootstrap porazdelitve2122Robustna regresijaRešitve:• Brišemo outlierje.• L1 linearna regresija (min |e|) namesto OLS regresije (mine 2 )• LMS (Least median of squares): min Mdn(Y-(b 0 +b 1 X)) 2• Najmanjši prire<strong>za</strong>ni kvadrati (Least trimmed squares)• Parametrični pristop: Normalno porazdelitev rezidualov<strong>za</strong>menjamo s t-porazdelitvijo z nizkimi df (4-6)• regresija z rangi rezidualov• …Programska oprema:• »prire<strong>za</strong>na M« v Excelu in SPSS• R• SYSTAT/MYSTAT• …23244

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!