intervalli di confidenza e test di ipotesi

ispo.toscana.it
  • No tags were found...

intervalli di confidenza e test di ipotesi

CORSO TEORICO-PRATICOSTATISTICA MEDICA APPLICATA ALLA RICERCA CLINICA8 OTTOBREApplicazione pratica: Intervalli di confidenza e test d’ipotesi per medie e proporzioniDolores CatelanEsempio 1Si è interessati a stimare il livello medio µ di un enzima in una data popolazione umana, sullabase delle misure effettuate su un campione casuale di 10 individui.X= 30.4, 34.2, 26.5, 25.3, 27.7, 16.4, 27.6, 20.0, 24.6, 24.3Si supponga che la variabile X “livello di Enzima” si distribuisca nella popolazione come unaNormale con varianza pari a 45.Si sottoponga a test l’ipotesi nulla che il livello medio di enzima nella popolazione sia pari a 25(α=0.05).summ XVariable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------X | 10 25.7 4.998889 16.4 34.2Il valore stimato della media è pari a 25.7. Questo deve essere confrontato con il valore specificatodall’ipotesi nulla attraverso un test z:disp (25.7-25)/(sqrt(45)/sqrt(10)).32998316Il valore assunto dalla statistica test è circa 0.33 che è minore di 1.96 (valore critico per il test z seα=0.05), quindi l’ipotesi nulla non viene rifiutata.Il p-value rappresenta la probabilità di osservare valori della statistica test più estremi in valoreassoluto di quello calcolato; può essere calcolato nel modo seguente:disp (1-normal(0.32998316))*2.74141269Il p-value elevato (74%) indica che l’evidenza contro l’ipotesi nulla è molto debole.Si costruisca “ a mano” un intervallo di confidenza al 95% per il livello medio di enzima.L’intervallo include il valore del parametro specificato dall’ipotesi nulla?disp 25.7-1.96*sqrt(45)/sqrt(10)21.542212disp 25.7+1.96*sqrt(45)/sqrt(10)29.857788L’intervallo di confidenza al 95% è compreso tra 21.5 e 29.9. L’intervallo di confidenza rappresentaun insieme di valori plausibili per il parametro di interesse, in questo caso la media. Il valore


specificato dall’ipotesi nulla è incluso nell’intervallo, a conferma del risultato del test al livello disignificatività del 5%.Si ripeta l’esercizio assumendo che la varianza non sia nota a priori. Per la verificadell’ipotesi che la media sia pari a 25 si utilizzi il comando ttest e per il calcolodell’intervallo di confidenza il comando ci.summ XVariable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------X | 10 25.7 4.998889 16.4 34.2Oltre che per il calcolo delle media campionaria, il campione viene adesso utilizzato anche perottenere una stima della deviazione standard nella popolazione, che in questo caso è pari a 4.999(i=1ˆσ =n∑( xi− x)n −12). Questa stima servirà nel calcolo del test e dell’intervallo di confidenza basati sultest t.Il valore critico per costruire la regione di rifiuto per il test a due code al livello di significatività del5% (t 1-α\2 ) può essere ottenuto utilizzando la funzione invttail. Il numero di gradi di libertà daspecificare è pari al numero delle osservazioni meno uno (9).disp invttail(9,0.025)2.2621572La statistica test è calcolata nel modo seguente:disp (25.7-25)/(4.998889/sqrt(10)).44281727disp ttail(9,0.44281727)*2.6683497Il valore della statistica test è pari a 0.44 (p=0.67) ed è minore del valore critico 2.26, quindil’ipotesi nulla non viene rifiutata.Utilizzando il comando ttest si ritrovano tutti i risultati ottenuti “a mano”.ttest X=25One-sample t test------------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]---------+--------------------------------------------------------------------X | 10 25.7 1.580788 4.998889 22.12401 29.27599------------------------------------------------------------------------------Degrees of freedom: 9Ho: mean(X) = 25Ha: mean < 25 Ha: mean != 25 Ha: mean > 25t = 0.4428 t = 0.4428 t = 0.4428P < t = 0.6658 P > |t| = 0.6683 P > t = 0.3342Il calcolo dell’intervallo di confidenza al 95% utilizza il valore critico 2.26 ottenuto in precedenzaanziché quello derivato dalla normale standard (1.96) utilizzato nel caso in cui la varianza è nota:


disp 25.7-2.2621572*4.998889/sqrt(10)22.12401disp 25.7+2.2621572*4.998889/sqrt(10)29.27599L’intervallo comprende il valore specificato dall’ipotesi nulla.Il comando ci produce in modo automatico l’intervallo di confidenza basato sulla distribuzione tper la variabile specificata:ci XVariable | Obs Mean Std. Err. [95% Conf. Interval]-------------+---------------------------------------------------------------X | 10 25.7 1.580788 22.12401 29.27599Esempio 2La media e la deviazione standard della pressione sanguigna sistolica e diastolica rilevate inun campione di 566 maschi di età compresa tra i 18 e i 40 anni sono le seguenti:media varianzaPressione sistolica (mmHg) 128.8 13.05Pressione diastolica (mmHg) 79.7 9.39Si costruiscano “a mano” e utilizzando il comando cii gli intervalli di confidenza al 90%per il valore medio delle due variabili.Dato che la varianza non è nota, sarebbe appropriato calcolare l’intervallo di confidenza sulla basedella distribuzione t con n-1 gradi di libertà. Tuttavia, dato che n è elevato (n=566), la distribuzionet è approssimabile con una normale standard e quindi il calcolo dell’intervallo può essere effettuatoanche utilizzando l’approssimazione normale. Si noti a questo proposito la sostanziale coincidenzadel quinto percentile (quello da utilizzare per il calcolo dell’IC 90%) sotto le due distribuzioni:disp invttail(565,0.05)1.647555disp invnorm(0.05)-1.6448536(la differenza di segno è dovuta la fatto che in generale la funzione invttail(k,p) restituisce ilvalore t* tale che P(t (k) >t*)=p, mentre la funzione invnorm(p) restituisce il valore z* tale cheP(z


disp 79.7-1.65*sqrt(9.39)/sqrt(566)79.487476disp 79.7+1.65*sqrt(9.39)/sqrt(566)79.912524cii 566 79.7 sqrt(9.39), level(90)Variable | Obs Mean Std. Err. [90% Conf. Interval]-------------+---------------------------------------------------------------| 566 79.7 .1288026 79.48779 79.91221Gli intervalli di confidenza al 90% per la pressione sistolica media e la pressione diastolica mediasono rispettivamente (128.5 - 129.0) e (79.5 – 79.9). Qui sono stati ottenuti “a mano” e usando ilcomando cii (diversamente da ci, cii non richiede di specificare l’intero vettore dei valoricampionari, ma solo la numerosità del campione, la media campionaria e la stima della deviazionestandard).Esempio 3100 pazienti di un ambulatorio di medicina generale sono stati sottoposti ad una intervistapsichiatrica. 30 di loro sono risultati “affetti da depressione”. Si stimi la proporzione didepressi nella popolazione di cui i 100 pazienti fanno parte e si calcoli l’intervallo diconfidenza al 95% per tale proporzione sia utilizzando l’approssimazione normale, siautilizzando il metodo esatto.La proporzione di depressi nella popolazione viene stimata dalla proporzione di depressi nelcampione, pˆ , che è pari a 0.3. Una stima della varianza dello stimatore “proporzione” è data dallaformula pˆ (1- pˆ )/n.disp 30/100.3disp 0.3*(1-0.3)/100.0021Come conseguenza del teorema del limite centrale, è possibile utilizzare un’approssimazionenormale e calcolare l’intervallo di confidenza al 95% per la proporzione di depressi nellapopolazione nel modo seguente:disp 0.3-1.96* sqrt(0.0021).21018152disp 0.3+1.96* sqrt(0.0021).38981848Se invece si vuole ottenere l’intervallo di confidenza esatto (basato sulla distribuzione binomiale) sipuò usare il commando cii (se nel comando cii si specificano solo due numeri, automaticamentecii assume che il primo sia il numero di prove e il secondo il numero di successi di una binomiale).cii 100 30, level(95)


-- Binomial Exact --Variable | Obs Mean Std. Err. [95% Conf. Interval]-------------+---------------------------------------------------------------| 100 .3 .0458258 .2124064 .3998147Si può notare che in questo caso i due metodi forniscono intervalli di confidenza molto simili.E se, a parità di proporzione di depressi (0.3), i pazienti esaminati fossero stati 10?disp 0.3*(1-0.3)/10.021disp 0.3-1.96* sqrt(0.021).01596902disp 0.3+1.96* sqrt(0.021).58403098L’intervallo di confidenza per la proporzione calcolato con l’approssimazione normale è 0.016-0.584.cii 10 3, level(95)-- Binomial Exact --Variable | Obs Mean Std. Err. [95% Conf. Interval]-------------+---------------------------------------------------------------| 10 .3 .1449138 .0667395 .6524529Se la numerosità campionaria è bassa, si registra una discrepanza maggiore tra l’IC 95% calcolatocon l’approssimazione normale e quello binomiale esatto. L’utilizzo dell’intervallo di confidenzaesatto è comunque talvolta criticato, perché, per come viene costruito, potrebbe avere una coperturadiversa da quella nominale (Clayton and Hills, 1998).Esempio 4 (test t per dati appaiati)Si apra il file “addict.dta”. I dati si riferiscono ad un esperimento su 7 ratti su cui è statomisurata la quantità di etanolo ingerita prima e dopo somministrazione di propanololo (sitratta di un modello animale di tossicodipendenza da alcool). Woolson pag. 158.Si valuti se il trattamento ha avuto un effetto nel diminuire la quantità di etanolo ingerita.use C:ADDICT.DTA, clearPer verificare se il trattamento farmacologico ha avuto un effetto, si può analizzare la variabilecostruita, per ciascun soggetto, come differenza tra i valori di concentrazione prima e dopo iltrattamento.gene diff=prop1-prop2sum diffVariable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------diff | 7 .3942857 .3120287 -.11 .76


La differenza media nella popolazione può essere stimata dalla media campionaria, 0.39. La stimadella deviazione standard della variabile diff nella popolazione è pari a 0.31.L’ipotesi nulla è che la differenza media sia pari a 0; dato che la varianza della variabile diff non ènota e che i soggetti arruolati sono 7, la statistica test da utilizzare è una t con 6 gradi di libertà.disp 0.3942857/(0.3120287/sqrt(7))3.3432242disp ttail(6, 3.3432242).00777471Il p-value ad una coda (l’ipotesi alternativa suggerita dal testo dell’esercizio è che la differenzamedia sia maggiore di 0, ovvero che prop1>prop2) è pari a circa 0.0078. Questo valore del p-valuesuggerisce che l’ipotesi nulla è poco supportata dai dati, a favore dell’ipotesi alternativa.Lo stesso risultato calcolato “a mano” può essere ottenuto utilizzando la funzione ttest in duediversi modi:ttest diff=0One-sample t test------------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]---------+--------------------------------------------------------------------diff | 7 .3942857 .1179358 .3120287 .1057073 .6828641------------------------------------------------------------------------------Degrees of freedom: 6Ho: mean(diff) = 0Ha: mean < 0 Ha: mean != 0 Ha: mean > 0t = 3.3432 t = 3.3432 t = 3.3432P < t = 0.9922 P > |t| = 0.0155 P > t = 0.0078ttest prop1=prop2Paired t test------------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]---------+--------------------------------------------------------------------prop1 | 7 .8128571 .1108778 .293355 .541549 1.084165prop2 | 7 .4185714 .0743361 .1966747 .2366776 .6004652---------+--------------------------------------------------------------------diff | 7 .3942857 .1179358 .3120287 .1057073 .6828641------------------------------------------------------------------------------Ho: mean(prop1 - prop2) = mean(diff) = 0Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0t = 3.3432 t = 3.3432 t = 3.3432P < t = 0.9922 P > |t| = 0.0155 P > t = 0.0078


Riferimenti BibliograficiBland M. (2009) Statistica Medica. Apogeo , Milano.Clayton D., Hills M. (1993) Statistical Models in Epidemiology. Oxford University Press, Oxford.Woolson RF., Clarke WR. (2002) Statistical Methods for the Analysis of Biomedical Data. SecondEdition. Wiley, Ney York.

More magazines by this user
Similar magazines