8 Väike p, tema sõbrad ja maakeelne teadus EPL-i Laualehtka enam kui kolmandiku võrraväikesem korrelatsioon - r = 0.20.Enamgi veel, korralikud uurijad eipiirdu nii väikeste valimitega, vaidkaasavad uuringusse palju enaminimesi, ütleme 500. Sellise valimikorral oleks statistiliselt oluline kaligi neli korda väikesemkorrelatsioon - r = 0.09. Seega onp-väärtus korrelatsiooni sisuliselahtimõtestamise seisukohalttegelikult suhteliselt vähetähtis vigurja nutikad tervishoiutöötajad saavadsellest kindlasti aru.Järgmine võimalus korrelatsioonir = 0.32 lahti mõtestamiseks onesitada see seosedeterminatsioonikordajana, r 2 = 0.10.See ei pruugi aga olla strateegiliseltväga kaval samm. Kui me näitame,et meie impulsiivsuseskaala seletab10% uuritavatevahelistesterinevustest tarbitava alkoholikoguses, võib kadudatervishoiutöötajate viimanegi huvimeie tulemuste vastu. Kuulge,kümme protsenti - see on junaeruväärne! Üheksakümmendprotsenti on ju täiesti seletamata!Nende tulemustega pole küll midagimõistlikku peale hakata. Võimemuidugi arukalt pareerida, ettegelikult on see lausa väike ime,kui hajuvus ühesainsas muutujassuudab ära seletada terveltkümnendiku hajuvusest teisesmuutujas – põhjuseid, miksinimesed alkoholi tarbivad, on jumustmiljon. Võibolla nad jäävadmeid uskuma, aga võibolla ka mitte.Kümme protsenti tundub ikka väheküll. Liiati võib sellestki numbristolla raske aru saada: mida seeikkagi tähendab, et „seletab 10%erinevustest alkoholi tarbimises“?Muide, nagu öeldud, on 500vaatluse korral statistiliselt olulineka korrelatsioon r = 0.09, ehkseletab 0.8 % hajuvusest. Sellisenumbriga mina külltervishoiutöötajate ette ei julgeksminna.Veel üks võimalus, kuidasmõtestada lahti seose tugevusr = 0.32, on asetada see vastavasuurimisvaldkonnas tavapäraseltsaadavate tulemuste konteksti.Näiteks võime öelda, et Richard,Bond ja Zoota vaatasid 2003. aastalläbi 322 sotsiaalpsühholoogia vallastehtud metaanalüüsi ja leidsid, etkeskmine korrelatsiooni suurus olipisut üle r = 0.20. See tähendab, etneis uuringutes suutsid uuritavadmuutujad üksteise variatiivsusestseletada keskmiselt üksnes 4%.Seega on meie leitud 10% ju vägakõva tulemus. Veel võime kasutadan-ö heuristilisi hinnanguid ningöelda, et korrelatsioone vahemikusr = 0.30 … 0.50 peetakse uurijateseas üldiselt keskmise tugevusegaseosteks. Meil pole seega häbenedamidagi. Selle kõige peale võivad agatervishoiutöötajad teatada, etjärelikult on kogu teaduslik psühholoogiaüks suur äpardus. See ei oleju normaalne, kui uurijad on endagaväga rahul, olles ise uuritavastnähtusest seletanud ära 10% ningjätnud ülejäänud 90% saatusehooleks. Samuti võivad nad arvata,et võibolla oleks neil mõistlik minnahoopis avalikkuse ees tihti harivatehumoorikate kirjutistega esinevapsühholoog Elmar Pulga jutule.Tema räägib asjadest inimese keeli,ei keeruta ja annab selgeidvastuseid. Kui see mõte meile eritiei meeldi, siis peaksime edasipingutama ning püüdma leida mõneparemini arusaadava ja veenvamaviisi oma tulemuste esitamiseks.Õnneks on olemas paar sellistmoodust, mis võimaldavad korrelatsioonikordajatka tavainimestelearusaadavasse keelde tõlkida ningselle sisu veenvalt esitada. Üheksneist on binominaalne mõju suuruseesitus (binominal effect sizedisplay; BESD [1]). Termin onkeeruline, aga sisu lihtne. BESDtähendab uuritavate tunnustedihhotomiseerimist ning neljaväljatabelinaesitamist. Üldiselt ei olepideva tunnuse dihhotoomseksteisendamine muidugi kõigeoptimaalsem viis tunnustevahelisiseoseid analüüsida, agalihtsustamise huvides tuleb tehamööndusi. Dihotomiseerimiseks onintuitiivselt loogiline kasutadamediaani ehk väärtust, millestväikesema ja suurema skoorisaajaid on võrdselt. Jagamemediaanist väiksema impulsiivsuseja alkoholi tarbimisega inimesedvastavalt väheimpulsiivseteks javähetarbivateks, üle mediaaniskoori ja tarbimisega inimesed agaimpulsiivseteks ja paljutarbijateks.Korrelatsioon r = 0.32 onneljaväljatabeli kujul toodud Tabelis1. Proportsioonide saamiseks onkorrelatsioonikordaja jagatudkahega ning saadud jagatis ühediagonaali jaoks lahutatud 0.50stning teise diagonaali jaoks liidetudväärtusele 0.50. Kui me tahameproportsioone väljendada protsentidena,siis korrutame kõik väärtused100ga. Kes tahab kontrollida, kasneljaväljatabel tõesti vastabkorrelatsioonile r = 0.32, võib Tabeli1 põhjal arvutada phi väärtuse ningveenduda, et see tuleb tõesti 0.32.Tabel 1. Impulsiivsus ja alkoholi tarbimine (hüpoteetilised tulemused, %).
EPL-i Laualeht Väike p, tema sõbrad ja maakeelne teadus 9Nii tulemusi esitades on needpalju veenvamad, kas pole? Kuitervishoiutöötajad meilt uuestiküsivad, mida see korrelatsioon r =0.32 sisuliselt tähendab, saamenüüd öelda järgnevat:„Testitulemuste järgi üle keskmiseimpulsiivsete inimeste hulgas onpaljutarbijaid 66%, alla keskmiseimpulsiivsete inimeste hulgas agaüksnes 34% ehk ligi poole vähem.Teisipidi öelduna on paljutarbijatehulgas kõrge impulsiivsusegainimesi ligi poole enam kuiväheimpulsiivseid.“ Seega polegikorrelatsioon r = 0.32 – mistähendab, et uuritavad tunnusedseletavad üksnes 10% teineteisevariatiivsusest – võibolla nii tühineseos. Muide, tõlkides selleneljavälja tabeli näiteksepidemioloogide poolt palavaltarmastatud shansside suhte keelde,saame vastavaks numbriks 3.77:keskmisestkõrgemaimpulsiivsusega inimeste puhul onkeskmisest suurema alkoholitarbimise shansid ligi neli kordasuuremad kui keskmisestmadalama impulsiivsusega inimestepuhul. Milline epidemioloog poleksselliste numbrite üle uhke?Lisaks BESDile (mille näide onKastis 1) on välja käidud ka teisimõju suuruse illustreerimisekssobivaid viise. Üks neist ontavakeelne mõju suuruse statistik(common language effect sizestatistic; CL[2]). CLi on võimalikkasutada erinevat tüüpi algandmetekorral. Üheks võimaluseks onarvutada CL välja siis, kui ükstunnus on esitatud pidevana ningteine diskreetsete gruppidena.Sellisel juhul näitab CL seda, kuisuure tõenäosusega ületab ühestgrupist juhuslikult valitud väärtusteisest grupist juhuslikult valitudväärtust. Näiteks meeste ja naistepikkuste erinevusi uurides võimeCLi väärtuseks saada CL = 0.92.Lahti seletatuna tähendab see, etpimekohtingute korral on mehed92% juhtudest pikemad kui naised.Selliste algandmete korral on CLiarvutamiseks kõigepealt tarvis ühegrupi keskmisest lahutada teisegrupi keskmine ning jagada saadudvahe läbi nende ühisestandardhälbega (ruutjuur kahevariatiivsuse summast). Nii saamegrupikeskmiste erinevusestandardskoorina (z).KAST 1. BESD kujul on tulemusi kasulik esitada näiteks siis, kui soovime näidata mingite hindamisvahenditekasutamise otstarbekust mingite otsuste tegemisel. Oletame, et tööandja soovib värvata uusi töölisi ningsealjuures on tema eesmärgiks leida üles just need kandidaadid, kelle sooritus ületab keskmist olemasolevatetöötajate sooritust. Ettevõttes viiakse läbi uuring ning leitakse, et hindamisvahendi SuperIQ tulemus korreleerubsõltumatult hinnatud töösooritusega r = 0.50. Jättes kõik muud eeldused (nt töötajate ja kandidaatide sarnasedkeskväärtused ja variatiivsus) tähelepanuta, tähendab selline seose tugevus, et hindamisvahendi SuperIQkasutamine kanditaatide selekteerimisel võimaldab tõsta „õigete valikute“ (üle keskmise sooritusega inimestevärbamine ning alla keskmise sooritusega inimeste kõrvale jätmine) tõenäosuse 75%ni (huupi valides lähekstäppi 50% valikutest). See ei tähenda, et SuperIQ oleks tingimata kõige parem ennustaja, aga igal juhul teebsee üpris head tööd, sest seda kasutades läheb 100st valikust ainult 25 aia taha.Nüüd tuleb vaadata, milline onsellestandardskooriabsoluutväärtuse esinemisetõenäosus - see ongi CL. NäiteksOpenOffice.org Calc-is ja MSExcel-is sobib selleks funktsioonnormsdist(z). Äärmiselt lihtne jaloogiline efekti suuruse esitamiseviis, kas pole? Erinevalt BESDist eipea CLi puhul gruppe tingimataolema kaks, suurema arvu gruppidekorral võib ühte gruppi võrreldakorraga mitme teise grupiga.Näiteks võrdleme alkoholi janarkootikumide kuritarvitajate ningkontrollgrupi skoore impulsiivsusesja leiame, et nii alkohoolikuid kuinarkomaanid saavad tunduvaltkõrgemaid skoore kui kontrollgrupiliikmed. Nii saame CLi kasutadaselleks, et näidata, kui suuretõenäosusega jääb juhuslikultkontrollgrupist valitud inimeseimpulsiivsuse skoor üheaegselt allanii juhuslikult narkomaanide ja kuijuhuslikult alkohoolikute grupistvalitud inimeste skooridele.Kõige parem on aga see, ettegelikult ei pea CLi arvutamiselpiirduma olukorraga, kus üks tunnuson loomuldasa diskreetne võiselliseks muudetud. Ka kahe pidevamuutuja vahel arvutatavakorrelatsiooni saame erilise vaevataarvutada ümber CLiks[3]. Sellekssobib järgmine valem: CL = sinh(r)/pii+0.5 (sinh on hüperboolne siinus).Tasub muidugi tähele panna, etkorrelatsioonikordaja põhjalarvutatud CL on mõnevõrraväikesem, kui (näiteksmediaanpoolituse alusel)diskreetseteks tehtud gruppideltarvutatud CL. Põhjus on selles, etkorrelatsioonikordajalt arvutatud CLpuhul võrreldakse omavahel kõikivõimalikke paare, mitte üksnes ühetunnuse osas erineval pool mediaanipaiknevaid ning seetõttu ka teisetunnuse osas keskmisesterinevamaid paare. See tähendabmuidugi ka seda, etkorrelatsioonikordajalt arvutatudCLi tähendust tuleb kirjeldatanatuke teisiti. Näiteks võimetetestiskoori ja sissetuleku vahelarvutatud korrelatsioonile r = 0.50vastab CL = 0.67. See tähendab,et valides juhuslikult kaks erinevavõimekuse tasemega inimest, ületabneist võimekama inimese sissetulek67% tõenäosusega vähemvõimekama inimese sissetuleku.