25.08.2015 Views

Test per il confronto di 2 proporzioni , Analisi di dati qualitativi ...

Test per il confronto di 2 proporzioni , Analisi di dati qualitativi ...

Test per il confronto di 2 proporzioni , Analisi di dati qualitativi ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Test</strong> <strong>per</strong> <strong>il</strong> <strong>confronto</strong> <strong>di</strong> 2 <strong>proporzioni</strong>Dati <strong>qualitativi</strong>:campioni in<strong>di</strong>pendenti e <strong>di</strong> adeguata numerositàGruppo Gruppo TOTALE"trattato" "controllo"A livello <strong>di</strong> popolazione:Probab<strong>il</strong>tà <strong>di</strong> successo π t π CπA livello <strong>di</strong> campione:numerosità campionaria n t n c n t +n cnumero <strong>di</strong> successi x t x c (x t +x c)proporzione successip t = x t .n tp c= x c .n cp = x t +x c .n t +n cIpotesi nulla H 0 : π t = π c= π H 1 : π t ≠ π cH 0 : π t - π c= 0 H 1 : π t - π c≠ 0test z = (p t - p c ) - (π t - π c)e.s.(p t - p c )e.s.(p t - p c ) = var(p t - p c )var(p t - p c ) = π (1-π) ( 1 + 1 )n t n cin cui π è stimata da pNe consegue, se n t e n c sono molto numerosi, chez = (p t - p c ) =p (1-p) ( 1+1 )n t n covvero, con la correzione <strong>per</strong> la continuità, <strong>per</strong> cui si sottrae ½ dal gruppo conlaproporzionemaggiore e si somma <strong>per</strong> <strong>il</strong> gruppo con la proporzione minore:es. p t = x t – ½ p c = x c + ½n tn cF 1


Esempio <strong>di</strong> <strong>confronto</strong> fra 2 <strong>proporzioni</strong>I semi <strong>di</strong> sedano sono stati trattati chimicamente nel tentativo <strong>di</strong> ridurre l’incidenza <strong>di</strong>ruggine (da fungo). Su 45 piante nate da semi trattati, 7 mostrano ruggine. Su 46 piantenate da semi non trattati 17 mostrano ruggine. E’ una <strong>di</strong>fferenza significativa?Si pone la ipotesi nulla che la probab<strong>il</strong>ità <strong>di</strong> sopravvivenza sia uguale nei due gruppiH 0 : π t - π c= 0 H 1 : π t - π c≠ 0p= 0.736q = 1-p= 0.264Trattati conPropanalolo Controlli TotaleSopravvissuti 38 29 67Non sopravvissuti 7 17 24Totale 45 46 91% sopravvivenza p t = 84.4% p c = 63% p= 73.6% <strong>proporzioni</strong> corrette p tc = 38– ½ p cc = 29 + ½45 46z c = {(38-0.5)/45-(29+0.5)/46}/{0.736*0.264(1/45+1/46)} = 2.08risultato statisticamente significativo in quantosu<strong>per</strong>iore al valore tabulato <strong>di</strong> riferimentoz α=5% = 1.96Limiti <strong>di</strong> confidenza dello scarto fra due <strong>proporzioni</strong>Nel caso <strong>di</strong> <strong>di</strong>fferenza statisticamente significativa può risultare <strong>di</strong> interesse la stimadell'entità dello scarto esistente, a livello <strong>di</strong> popolazioni, <strong>per</strong> cui si procederà:(p t - p c ) ± 1.96 {p t q t + p c q c }n t n c(0.844-0.630)± 1.96 {(0.844*0.156/45)+(0.63*0.37/46)}= 0.214±0.175L i = 0.039 L s = 0.389Il propanalolo è più efficace, con una maggiore efficacia stimab<strong>il</strong>e in un aumnodellasopravvivenza fra <strong>il</strong> 3.9% ed <strong>il</strong> 38.9% rispetto al trattamento standard, con una probab<strong>il</strong>ità<strong>di</strong> errore pari ad α=0.05.N.B. Nel calcolo dell’intervallo <strong>di</strong> confidenza delle <strong>proporzioni</strong> poiché si è già respinta H 0non si usa la stima comune p, come nel testF 2


<strong>Analisi</strong> <strong>di</strong> <strong>dati</strong> <strong>qualitativi</strong>Per effettuare <strong>il</strong> <strong>confronto</strong> fra le frequenze osservate e le frequenze attese, in baseall’ipotesi nulla H 0 , si ut<strong>il</strong>izza <strong>il</strong> test statistico del chi-quadratoχ 2 = Σ(O-A) 2ALa sommatoria include tutte le coppie <strong>di</strong> frequenze osservate-atteseEsempioIn una data popolazione le probab<strong>il</strong>ità <strong>di</strong> nascita <strong>per</strong> i due sessi sonoP(M) = π = 0.506 P(F) = (1- π ) =0.494E(x) = n π ; Var(x)= n π(1- π )Si consideri una serie <strong>di</strong> campioni <strong>di</strong> 100 nascite ciascunoFrequenze Attese <strong>per</strong> ogni campione <strong>di</strong> 100 nascite M= 50.6 F= 49.4Frequenze OsservateM F Σ (O-A) 2 /A χ 251 49 (51-50.6) 2 /50.6 + (49-49.4) 2 /49.4 0.00650 50 (50-50.6) 2 /50.6 + (50-49.4) 2 /49.4 0.01452 48 (52-50.6) 2 /50.6 + (48-49.4) 2 /49.4 0.07849 51 (49-50.6) 2 /50.6 + (51-49.4) 2 /49.4 0.10253 47 (53-50.6) 2 /50.6 + (47-49.4) 2 /49.4 0.23048 52 (48-50.6) 2 /50.6 + (52-49.4) 2 /49.4 0.27054 46 (54-50.6) 2 /50.6 + (46-49.4) 2 /49.4 0.46247 53 (47-50.6) 2 /50.6 + (53-49.4) 2 /49.4 0.51844 56 (44-50.6) 2 /50.6 + (56-49.4) 2 /49.4 1.74360 40 (60-50.6) 2 /50.6 + (40-49.4) 2 /49.4 3.535Supponendo che la serie includa ad es. 250 campioni <strong>di</strong> n=100, la <strong>di</strong>stribuzione <strong>di</strong>frequenza dei χ 2 calcolati nei 250 campioni puo’ essere:χ 2 0.0- 0.5- 1.0- 1.5- 2.0- 2.5- 3.0- 3.5- 4.0- 4.5- 5.+ totFreq 121 41 21 24 14 7 6 7 3 2 4 250Se si passa al continuo, <strong>per</strong> un numero infinito <strong>di</strong> campioni si arriva alla funzione f(χ 2 ) =funzione <strong>di</strong> densità <strong>di</strong> probab<strong>il</strong>ità della v.c. χ 2 1F 3


Distribuzione della variab<strong>il</strong>e chi-quadrato2χ 1 = z 2 = (x- µ) 2σ 2La <strong>di</strong>stribuzione dei quadrati <strong>di</strong> una normale standar<strong>di</strong>zzata e'detta <strong>di</strong>stribuzione chiquadrato ” χ 2 “ con 1 grado <strong>di</strong> liberta'χ 2 =Σ (O-A)2 = (x- n π) 2 + [(n-x) – n(1- π)] 2 = (x- n π) 2 + (-x+ n π) 2A nπ n(1-π) nπ n(1-π)Poiché (x - n π) 2 = (- x + n π)2= (1- π) (x - n π) 2 + π (x - n π) 2 = (x - n π) 2 ( π +1- π ) = (x - n π) 2 = (x - µ) 2 = z 2n π (1- π) n π (1- π) n π (1- π) σ 2χ 1 2 = z 2 µ χ2 = E(χ 1 2 ) = E(z 2 ) = 1 E[ (x-µ) 2 ] = σ 2 = 1σ 2 σ 2var (χ 1 2 ) = var(z 2 ) = 1χ ν 2 = Σ ν z 2µ χ2 = E(χ ν 2 ) = E(z 1 2 ) +…. + E(z ν 2 ) = νvar (χ ν 2 ) = 2νLa somma <strong>di</strong> ν normali standar<strong>di</strong>zzate in<strong>di</strong>pendenti segue la <strong>di</strong>stribuzione χ ν 2 con ν gra<strong>di</strong><strong>di</strong> libertà.NB. P(χ 2 1 3.84)= 0.05 <strong>per</strong> cui 3.84=valore soglia <strong>per</strong> α=0.05essendo 3.84=1.96 2Il χ 2 viene usato come test quando si vogliano confrontare frequenze Osservate eAttese.Quando <strong>per</strong>ò le frequenze attese sono piccole (1) è consigliab<strong>il</strong>e procedere allacorrezione <strong>di</strong> Yates o correzione <strong>per</strong> la continuità sottraendo mezza unità (0.5) al valoreassoluto degli scarti, ( in pratica 0.5 è sottratto se O>A e si aggiunge se O


ESEMPIO<strong>Test</strong> <strong>di</strong> adattamento delle <strong>di</strong>stribuzioniSi siano registrati 1623 incidenti su un totale <strong>di</strong> 708 soggetti;con una me<strong>di</strong>a quin<strong>di</strong> pari a µ=1623/708=2.29 <strong>per</strong> ciascun soggetto.Quale sarebbe la <strong>di</strong>stribuzione del numero <strong>di</strong> incidenti <strong>per</strong> soggetto in caso <strong>di</strong>completa casualità del fenomeno?P(x)= e -2.29 2.29 xx!P(0)= e -2.29 2.29 0 / 0! =e -2.29P(1)= e -2.29 2.29 1 / 1! =e -2.29 ∗ 2.29/1 = P(0) µ/xP(2)= e -2.29 2.29 2 / 2! =e -2.29 ∗ 2.29 ∗ 2.29/2 = P(1) µ/x…………………………………….Confrontiamo adesso la <strong>di</strong>stribuzione realmente osservata (frequenze osservate)con la <strong>di</strong>stribuzione teorica (frequenze attese) nel caso <strong>di</strong> completa casualità delfenomeno:x f Oss P(x) f Att f Att chiqx*fErrata0 117 0 0.10103 71.5 71.5 28.91 28.911 157 157 0.23159 164.0 164.0 0.30 0.302 158 316 0.26545 187.9 187.9 4.77 4.773 115 345 0.20283 143.6 143.6 5.70 5.704 78 312 0.11624 82.3 82.3 0.22 0.225 44 220 0.05329 37.7 37.7 1.04 1.046 21 126 0.02036 14.4 14.4 3.01 3.017 7 49 0.00667 4.7 1.108 6 48 0.00191 1.4 15.969 1 9 0.00049 0.3 6.6 19.69 1.2510 3 30 0.00011 0.1 108.0211+ 1 11 0.00003 0.0 47.36tot 708 1623 1.00000 708 708 63.64 217.64me<strong>di</strong>a 2.29e (-2.29) 0.101Le frequenze attese (essendo vera l'ipotesi <strong>di</strong> una <strong>di</strong>stribuzione <strong>di</strong> Poisson, cioe’<strong>di</strong> completa casualità, del fenomeno) sono confrontab<strong>il</strong>i con quelle realmenteosservate <strong>per</strong> mezzo del test statisticoχ 2 6= 63.64 χ 2 6, α=0.05 = 12.59 χ 2 6, α=0.001 = 22.46I gdl sono n-2 e non n-1 in quanto la me<strong>di</strong>a è stata ricavata dal campione e ciòrappresenta un vincolo aggiuntivo; n sono le componenti da cui si è ottenuta lasomma totale <strong>di</strong> chi-quadrato.F 5


Tabelle <strong>di</strong> contingenza 2x2campioni in<strong>di</strong>pendentiTrattamentoEsito SI -trattati NO - controlli Totale+ a b a+b- c d c+dTotale a+c b+d NTabella delle frequenze OsservateTrattamentoEsito Propanalolo Controlli TotaleSopravvissuti 38 29 67Nonsopravvissuti 7 17 24Totale 45 46 91Si pone una ipotesi nulla H 0 : π t = π c= π H 1 : π t ≠ π cIpotesi che la sopravvivenza sia uguale nei due trattamenti.La probab<strong>il</strong>ità incognita <strong>di</strong> sopravvivenza π si stima con p .Se fosse vera la H 0 quali sarebbero state le frequenze attese, tenendo ovviamente fissi itotali marginali?TrattamentoEsito Propanalolo Controlli TotaleSopravvissuti ? ? 67Nonsopravvissuti ? ? 24Totale 45 46 91P= 67/91 proporzione <strong>di</strong> sopravvissuti : stima <strong>di</strong> π67 * 45 = n° <strong>di</strong> sopravvissuti Attesi nel gruppo dei trattati, etc91TrattamentoEsito Propanalolo Controlli TotaleSopravvissuti 45*67 = 33.13 46*67= 33.87 679191Nonsopravvissuti 45*24= 11.87 46*24= 12.13 249191Totale 45 46 91Si verifica la H 0 con <strong>il</strong> test χ 2 che confronta frequenze Osservate e Attese, corretto <strong>per</strong> lacontinuitàχ 2 c = Σ (|O-A| -1/2)2 = 4.32Aχ 2 c = ( |38-33.13| -1/2)2 + ( |29-33.87| -1/2) 2 + ( |29-11.87| -1/2) 2 +( |29-12.13| -1/2) 2 =33.13 33.87 11.87 12.13= 0-576 + 0.563 + 1.608 +1.573 = 4.32Si giu<strong>di</strong>ca considerando i valori sulle tavole χ 2 1;0.05 = 3.84χ 2 1;0.01 = 6.63se fosse vera la H 0 la probab<strong>il</strong>ità <strong>di</strong> ottenere <strong>per</strong> solo effetto del caso una tabella sim<strong>il</strong>e aquella osservata è < 5% o più precisamente 0.01 < P < 0.05F 6


<strong>Test</strong> <strong>per</strong> <strong>il</strong> <strong>confronto</strong> <strong>di</strong> 2 <strong>proporzioni</strong>campioni appaiatiAnche nel caso <strong>di</strong> risposte qualitative si possono raccogliere dei <strong>dati</strong> nei due gruppi(s<strong>per</strong>imentali o osservazionali) i cui in<strong>di</strong>vidui siano stati accoppiati secondo i criteri giàesposti. In base ai <strong>dati</strong> raccolti si possono identificare coppie congiunte o <strong>di</strong>sgiunteCaso Controllocongiunta + +congiunta − −<strong>di</strong>sgiunta + −<strong>di</strong>sgiunta − +In questo caso l'attenzione si concentra sulle coppie <strong>di</strong>sgiunte cioè che presentanorisultati <strong>di</strong>versi (del tipo + − oppure − +)Caso+ -Controllo + r- sr = numero coppie <strong>di</strong>sgiunte <strong>di</strong> tipo + −s = numero coppie <strong>di</strong>sgiunte <strong>di</strong> tipo − +n = totale r+s delle coppie <strong>di</strong>sgiunteSi pone l’ipotesi nulla che ciascuno tipo <strong>di</strong> coppia <strong>di</strong>sgiunta si verifichi con ugualeprobab<strong>il</strong>itàH 0 : π r = π s= 0.50si verificacon un test statistico zoppure con un test statistico χ 12z = |r-nπ| . = |r-n/2| .nπ(1-π)½nz c = |r-nπ| -½ . = |r-n/2|-½ .nπ(1-π)½nχ 12= Σ (O-A)2 2χ 1c = Σ (|O-A| -1/2) 2AAA : numero atteso <strong>di</strong> ciascuna coppia <strong>di</strong>scordante = n/2oppure con un test statistico del tipo χ 1 2 <strong>di</strong> McNemar2χ 1 = (r-s) 2 2χ 1c=Σ(r+s)(|r-s| -1)2(r+s)χ 12= z 2 = (r- n /2)2 =(r-1/2(r+s)) 2 =(2r-r-s) 2 =(r-s) 2½n [½(r+s)] 2 (r+s) (r+s)F 7


F 8


EsempioE’ stata stu<strong>di</strong>ata l’associazione tra malattia tromboembolitica ed uso <strong>di</strong> contraccettivi orali.Sono stati in<strong>di</strong>viduati due gruppi <strong>di</strong> donne:1) casi: donne in età 15-44 anni, <strong>di</strong>messe con <strong>di</strong>agnosi <strong>di</strong> tromboembolia i<strong>di</strong>opatica;2) controlli: donne in età 15-44 anni <strong>di</strong>messe vive con altra <strong>di</strong>agnosi (interventichirurgicie me<strong>di</strong>ci acuti)Criteri <strong>di</strong> appaiamento: età (quinquennio), stato civ<strong>il</strong>e, residenza, razza, parità (0,1,2,3 o+gravidanze).Criteri <strong>di</strong> esclusione: analoghi <strong>per</strong> i due gruppi.Uso <strong>di</strong> contraccettiviN° <strong>di</strong> coppie1) Entrambe 102) Nessuna delle due 953) Solo la donna controllo 134) Solo la donna tromboembolitica 57Totale 175H 0 : π r = π s= 0.50n = 13+57 = 70In<strong>di</strong>viduate 175 coppieCasoUso Non usoControllo Uso 13Non uso 57Valore atteso (E) <strong>di</strong> coppie <strong>di</strong>sgiunte E=π*n=0.50*70= 35Var(E) = nπ (1-π) = 70*0.5*0.5 =17.5z = |r-n/2| . = |57-35| = 5.26 p


<strong>Test</strong> esatto <strong>di</strong> Fisher <strong>per</strong> tabelle 2x2Per campioni in<strong>di</strong>pendenti – ridotta numerositàSe <strong>il</strong> numero totale <strong>di</strong> osservazioni N della tabella 2x2 è minore <strong>di</strong> 30 e si riscontranofrequenze attese < 1, <strong>il</strong> test χ 2 è approssimato e quin<strong>di</strong> si ricorre ad un test esatto checalcola <strong>di</strong>rettamente la probab<strong>il</strong>ità.Esito+ -Gruppo 1 a b a+b= R 12 c d c+d= R 2a+c= C 1 b+d= C 2 a+b+c+d= NPosti come vincoli che si abbianoR 1 osservazioni nel gruppo 1R 2 osservazioni nel gruppo 2C 1 = a+c totale <strong>di</strong> positivi nell’insieme dei due gruppisi calcola la probab<strong>il</strong>ità <strong>di</strong> osservare proprio quella tabellacioè la probab<strong>il</strong>ità con<strong>di</strong>zionata <strong>di</strong> osservare a positivi nel gruppo R 1 e c positivi nelgruppo R 2 avendo avuto (a+c) positivi in generale su N osservazioniP(tabella) = P (a, R 1 ) P (c, R 2 )P (a+c,N)Sia π la probab<strong>il</strong>ità ignota <strong>di</strong> essere positivo nella popolazione generale se è vera laipotesi nulla. In base alla <strong>di</strong>stribuzione binomiale si ottiene :P (a, R 1 ) = a C R1 π a (1-π) R1-aP (c, R 2 ) = c C R2 π c (1-π) R2-cP (a+c,N) = (a+c) C N π a+c (1-π) N-(a+c)InfattiP(tabella) = R 1 ! R 2 ! C 1 ! C 2 !N! a! b! c! d!P = aC R1 π a (1-π) R1-a cC R2 π c (1-π) R2-c = aC R1 c C R2 π a+c (1-π) R1+R2-(a+c) =(a+c)C N π a+c (1-π) N-(a+c) (a+c)C N π a+c (1-π) N-(a+c)= R 1 ! R 2 ! (a+c)! (b+d)! = R 1 ! R 2 ! C 1 ! C 2 !a! (R 1 -a)! c! (R 2 -c)! N! a! b! c! d! N!Questa è la probab<strong>il</strong>ità <strong>di</strong> ottenere esattamente la tabella osservata (frequenze :a,b,c,d)fra tutte le possib<strong>il</strong>i tabelle costruib<strong>il</strong>i rispettando i totali marginali (r,s,n,m)Occorre calcolare anche la probab<strong>il</strong>ità <strong>di</strong> tutte le possib<strong>il</strong>i tabelle più estreme <strong>di</strong> questarispetto alla ipotesi nullaF 10


ESEMPIOValutare la virulenza <strong>di</strong> due ceppi batterici A e B misurata in base al numero <strong>di</strong> animalideceduti dopo la inoculazione.Tab.2EsitoVivi MortiCeppo A 2 18 20B 8 10 1810 28 38H 0 π a = π bla virulenza, o probab<strong>il</strong>ità <strong>di</strong> non sopravvivere, è uguale <strong>per</strong> i due ceppi.Altre tabelle più estreme nella <strong>di</strong>rezione <strong>di</strong> una maggiore virulenza del ceppo ATab.1 Esito Tab.0 EsitoVivi Morti Vivi MortiCeppo A 1 19 Ceppo A 0 20B 9 9 B 10 8Probab<strong>il</strong>ità <strong>di</strong> ciascuna tabellaP(tab.2)= 20! 18! 10! 28! =38! 2!18!8!10!P(tab.1) = 20! 18! 10! 28!=38! 1!19!9!9!P(tab.0) = 20! 18! 10! 28!=38! 0!20!10!8!0.01759P(t.2) 2 x 10 = 0.0020619 * 9P(t.1) 1 x 9 = 0.0000920 *10Probab<strong>il</strong>ità totale 0.01974Dati quei totali marginali,la probab<strong>il</strong>ità <strong>di</strong> ottenere <strong>per</strong> solo effetto del caso un risultato come quello della tabellaosservata e’ dell’ 1.76%la probab<strong>il</strong>ità <strong>di</strong> ottenere <strong>per</strong> solo effetto del caso un risultato come quello della tabellaosservata o uno più estremo rispetto alla H 0 e’ dell’ 1.97%Nell’altra <strong>di</strong>rezioneVivi Morti PCeppo A 10 10 0.00039 Si consideraB 0 18Ceppo A 9 11 0.00640 Si consideraB 1 17Ceppo A 8 12 0.04077 Non si consideraB 2 16Nell’altra <strong>di</strong>rezione si sommano le probab<strong>il</strong>ità a partire dalla tabella che ha un probab<strong>il</strong>ità<strong>di</strong> verificarsi uguale o minore a quella osservata.Nelle due <strong>di</strong>rezioniLa probab<strong>il</strong>ità % è esattamente 1.97+ 0.64+ 0.039 = 2.653%F 11


<strong>Test</strong> χ 2 <strong>per</strong> la omogeneitàEs. Si stu<strong>di</strong>a la segregazione <strong>di</strong> un gene responsab<strong>il</strong>e <strong>per</strong> la pigmentazione della testadel topo; si riportano i risultati del reincrocio: Tt x tt.I maschi eterozigoti M 1 ,M 2 e M 3 sono stati accoppiati a femmine omozigoti recessive. Siipotizza una segregazione in base al rapporto 1 a 1MaschioProgenieTt tt totaliM 1 68 60 128M 2 73 49 122M 3 70 64 134211 173 384Si pone l’ H 0 : la segregazione è <strong>di</strong> tipo 1:1Maschio Attesi Scarto⏐O-A ⏐χ 2M 1 64 4 0.500M 2 61 13 4.721M 3 67 3 0.2695.490Si separa la interazione segregazione x famiglie con un test <strong>di</strong> omogeneità della segregazioneosservata nelle famiglieConsiderando solo la segregazione totale : Attesi= 384/2 = 192χ 2 = (211-192) 2 + (173-192) 2 = 3.760192 192Fonte <strong>di</strong> variazione gdl χ 2 ProbTra famiglie 3 5.490Deviazione dalla segregazione 1 3.760 >0.05Eterogeneità 2 1.730 n.s.Non si rifiuta la ipotesi <strong>di</strong> segregazione 1:1 nella progenieE le famiglie si comportano in modo omogeneoF 12

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!