intervalli di confidenza e test di ipotesi
intervalli di confidenza e test di ipotesi
intervalli di confidenza e test di ipotesi
- No tags were found...
Trasformi i suoi PDF in rivista online e aumenti il suo fatturato!
Ottimizzi le sue riviste online per SEO, utilizza backlink potenti e contenuti multimediali per aumentare la sua visibilità e il suo fatturato.
CORSO TEORICO-PRATICOSTATISTICA MEDICA APPLICATA ALLA RICERCA CLINICA8 OTTOBREApplicazione pratica: Intervalli <strong>di</strong> <strong>confidenza</strong> e <strong>test</strong> d’<strong>ipotesi</strong> per me<strong>di</strong>e e proporzioniDolores CatelanEsempio 1Si è interessati a stimare il livello me<strong>di</strong>o µ <strong>di</strong> un enzima in una data popolazione umana, sullabase delle misure effettuate su un campione casuale <strong>di</strong> 10 in<strong>di</strong>vidui.X= 30.4, 34.2, 26.5, 25.3, 27.7, 16.4, 27.6, 20.0, 24.6, 24.3Si supponga che la variabile X “livello <strong>di</strong> Enzima” si <strong>di</strong>stribuisca nella popolazione come unaNormale con varianza pari a 45.Si sottoponga a <strong>test</strong> l’<strong>ipotesi</strong> nulla che il livello me<strong>di</strong>o <strong>di</strong> enzima nella popolazione sia pari a 25(α=0.05).summ XVariable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------X | 10 25.7 4.998889 16.4 34.2Il valore stimato della me<strong>di</strong>a è pari a 25.7. Questo deve essere confrontato con il valore specificatodall’<strong>ipotesi</strong> nulla attraverso un <strong>test</strong> z:<strong>di</strong>sp (25.7-25)/(sqrt(45)/sqrt(10)).32998316Il valore assunto dalla statistica <strong>test</strong> è circa 0.33 che è minore <strong>di</strong> 1.96 (valore critico per il <strong>test</strong> z seα=0.05), quin<strong>di</strong> l’<strong>ipotesi</strong> nulla non viene rifiutata.Il p-value rappresenta la probabilità <strong>di</strong> osservare valori della statistica <strong>test</strong> più estremi in valoreassoluto <strong>di</strong> quello calcolato; può essere calcolato nel modo seguente:<strong>di</strong>sp (1-normal(0.32998316))*2.74141269Il p-value elevato (74%) in<strong>di</strong>ca che l’evidenza contro l’<strong>ipotesi</strong> nulla è molto debole.Si costruisca “ a mano” un intervallo <strong>di</strong> <strong>confidenza</strong> al 95% per il livello me<strong>di</strong>o <strong>di</strong> enzima.L’intervallo include il valore del parametro specificato dall’<strong>ipotesi</strong> nulla?<strong>di</strong>sp 25.7-1.96*sqrt(45)/sqrt(10)21.542212<strong>di</strong>sp 25.7+1.96*sqrt(45)/sqrt(10)29.857788L’intervallo <strong>di</strong> <strong>confidenza</strong> al 95% è compreso tra 21.5 e 29.9. L’intervallo <strong>di</strong> <strong>confidenza</strong> rappresentaun insieme <strong>di</strong> valori plausibili per il parametro <strong>di</strong> interesse, in questo caso la me<strong>di</strong>a. Il valore
specificato dall’<strong>ipotesi</strong> nulla è incluso nell’intervallo, a conferma del risultato del <strong>test</strong> al livello <strong>di</strong>significatività del 5%.Si ripeta l’esercizio assumendo che la varianza non sia nota a priori. Per la verificadell’<strong>ipotesi</strong> che la me<strong>di</strong>a sia pari a 25 si utilizzi il comando t<strong>test</strong> e per il calcolodell’intervallo <strong>di</strong> <strong>confidenza</strong> il comando ci.summ XVariable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------X | 10 25.7 4.998889 16.4 34.2Oltre che per il calcolo delle me<strong>di</strong>a campionaria, il campione viene adesso utilizzato anche perottenere una stima della deviazione standard nella popolazione, che in questo caso è pari a 4.999(i=1ˆσ =n∑( xi− x)n −12). Questa stima servirà nel calcolo del <strong>test</strong> e dell’intervallo <strong>di</strong> <strong>confidenza</strong> basati sul<strong>test</strong> t.Il valore critico per costruire la regione <strong>di</strong> rifiuto per il <strong>test</strong> a due code al livello <strong>di</strong> significatività del5% (t 1-α\2 ) può essere ottenuto utilizzando la funzione invttail. Il numero <strong>di</strong> gra<strong>di</strong> <strong>di</strong> libertà daspecificare è pari al numero delle osservazioni meno uno (9).<strong>di</strong>sp invttail(9,0.025)2.2621572La statistica <strong>test</strong> è calcolata nel modo seguente:<strong>di</strong>sp (25.7-25)/(4.998889/sqrt(10)).44281727<strong>di</strong>sp ttail(9,0.44281727)*2.6683497Il valore della statistica <strong>test</strong> è pari a 0.44 (p=0.67) ed è minore del valore critico 2.26, quin<strong>di</strong>l’<strong>ipotesi</strong> nulla non viene rifiutata.Utilizzando il comando t<strong>test</strong> si ritrovano tutti i risultati ottenuti “a mano”.t<strong>test</strong> X=25One-sample t <strong>test</strong>------------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]---------+--------------------------------------------------------------------X | 10 25.7 1.580788 4.998889 22.12401 29.27599------------------------------------------------------------------------------Degrees of freedom: 9Ho: mean(X) = 25Ha: mean < 25 Ha: mean != 25 Ha: mean > 25t = 0.4428 t = 0.4428 t = 0.4428P < t = 0.6658 P > |t| = 0.6683 P > t = 0.3342Il calcolo dell’intervallo <strong>di</strong> <strong>confidenza</strong> al 95% utilizza il valore critico 2.26 ottenuto in precedenzaanziché quello derivato dalla normale standard (1.96) utilizzato nel caso in cui la varianza è nota:
<strong>di</strong>sp 25.7-2.2621572*4.998889/sqrt(10)22.12401<strong>di</strong>sp 25.7+2.2621572*4.998889/sqrt(10)29.27599L’intervallo comprende il valore specificato dall’<strong>ipotesi</strong> nulla.Il comando ci produce in modo automatico l’intervallo <strong>di</strong> <strong>confidenza</strong> basato sulla <strong>di</strong>stribuzione tper la variabile specificata:ci XVariable | Obs Mean Std. Err. [95% Conf. Interval]-------------+---------------------------------------------------------------X | 10 25.7 1.580788 22.12401 29.27599Esempio 2La me<strong>di</strong>a e la deviazione standard della pressione sanguigna sistolica e <strong>di</strong>astolica rilevate inun campione <strong>di</strong> 566 maschi <strong>di</strong> età compresa tra i 18 e i 40 anni sono le seguenti:me<strong>di</strong>a varianzaPressione sistolica (mmHg) 128.8 13.05Pressione <strong>di</strong>astolica (mmHg) 79.7 9.39Si costruiscano “a mano” e utilizzando il comando cii gli <strong>intervalli</strong> <strong>di</strong> <strong>confidenza</strong> al 90%per il valore me<strong>di</strong>o delle due variabili.Dato che la varianza non è nota, sarebbe appropriato calcolare l’intervallo <strong>di</strong> <strong>confidenza</strong> sulla basedella <strong>di</strong>stribuzione t con n-1 gra<strong>di</strong> <strong>di</strong> libertà. Tuttavia, dato che n è elevato (n=566), la <strong>di</strong>stribuzionet è approssimabile con una normale standard e quin<strong>di</strong> il calcolo dell’intervallo può essere effettuatoanche utilizzando l’approssimazione normale. Si noti a questo proposito la sostanziale coincidenzadel quinto percentile (quello da utilizzare per il calcolo dell’IC 90%) sotto le due <strong>di</strong>stribuzioni:<strong>di</strong>sp invttail(565,0.05)1.647555<strong>di</strong>sp invnorm(0.05)-1.6448536(la <strong>di</strong>fferenza <strong>di</strong> segno è dovuta la fatto che in generale la funzione invttail(k,p) restituisce ilvalore t* tale che P(t (k) >t*)=p, mentre la funzione invnorm(p) restituisce il valore z* tale cheP(z
<strong>di</strong>sp 79.7-1.65*sqrt(9.39)/sqrt(566)79.487476<strong>di</strong>sp 79.7+1.65*sqrt(9.39)/sqrt(566)79.912524cii 566 79.7 sqrt(9.39), level(90)Variable | Obs Mean Std. Err. [90% Conf. Interval]-------------+---------------------------------------------------------------| 566 79.7 .1288026 79.48779 79.91221Gli <strong>intervalli</strong> <strong>di</strong> <strong>confidenza</strong> al 90% per la pressione sistolica me<strong>di</strong>a e la pressione <strong>di</strong>astolica me<strong>di</strong>asono rispettivamente (128.5 - 129.0) e (79.5 – 79.9). Qui sono stati ottenuti “a mano” e usando ilcomando cii (<strong>di</strong>versamente da ci, cii non richiede <strong>di</strong> specificare l’intero vettore dei valoricampionari, ma solo la numerosità del campione, la me<strong>di</strong>a campionaria e la stima della deviazionestandard).Esempio 3100 pazienti <strong>di</strong> un ambulatorio <strong>di</strong> me<strong>di</strong>cina generale sono stati sottoposti ad una intervistapsichiatrica. 30 <strong>di</strong> loro sono risultati “affetti da depressione”. Si stimi la proporzione <strong>di</strong>depressi nella popolazione <strong>di</strong> cui i 100 pazienti fanno parte e si calcoli l’intervallo <strong>di</strong><strong>confidenza</strong> al 95% per tale proporzione sia utilizzando l’approssimazione normale, siautilizzando il metodo esatto.La proporzione <strong>di</strong> depressi nella popolazione viene stimata dalla proporzione <strong>di</strong> depressi nelcampione, pˆ , che è pari a 0.3. Una stima della varianza dello stimatore “proporzione” è data dallaformula pˆ (1- pˆ )/n.<strong>di</strong>sp 30/100.3<strong>di</strong>sp 0.3*(1-0.3)/100.0021Come conseguenza del teorema del limite centrale, è possibile utilizzare un’approssimazionenormale e calcolare l’intervallo <strong>di</strong> <strong>confidenza</strong> al 95% per la proporzione <strong>di</strong> depressi nellapopolazione nel modo seguente:<strong>di</strong>sp 0.3-1.96* sqrt(0.0021).21018152<strong>di</strong>sp 0.3+1.96* sqrt(0.0021).38981848Se invece si vuole ottenere l’intervallo <strong>di</strong> <strong>confidenza</strong> esatto (basato sulla <strong>di</strong>stribuzione binomiale) sipuò usare il commando cii (se nel comando cii si specificano solo due numeri, automaticamentecii assume che il primo sia il numero <strong>di</strong> prove e il secondo il numero <strong>di</strong> successi <strong>di</strong> una binomiale).cii 100 30, level(95)
-- Binomial Exact --Variable | Obs Mean Std. Err. [95% Conf. Interval]-------------+---------------------------------------------------------------| 100 .3 .0458258 .2124064 .3998147Si può notare che in questo caso i due meto<strong>di</strong> forniscono <strong>intervalli</strong> <strong>di</strong> <strong>confidenza</strong> molto simili.E se, a parità <strong>di</strong> proporzione <strong>di</strong> depressi (0.3), i pazienti esaminati fossero stati 10?<strong>di</strong>sp 0.3*(1-0.3)/10.021<strong>di</strong>sp 0.3-1.96* sqrt(0.021).01596902<strong>di</strong>sp 0.3+1.96* sqrt(0.021).58403098L’intervallo <strong>di</strong> <strong>confidenza</strong> per la proporzione calcolato con l’approssimazione normale è 0.016-0.584.cii 10 3, level(95)-- Binomial Exact --Variable | Obs Mean Std. Err. [95% Conf. Interval]-------------+---------------------------------------------------------------| 10 .3 .1449138 .0667395 .6524529Se la numerosità campionaria è bassa, si registra una <strong>di</strong>screpanza maggiore tra l’IC 95% calcolatocon l’approssimazione normale e quello binomiale esatto. L’utilizzo dell’intervallo <strong>di</strong> <strong>confidenza</strong>esatto è comunque talvolta criticato, perché, per come viene costruito, potrebbe avere una copertura<strong>di</strong>versa da quella nominale (Clayton and Hills, 1998).Esempio 4 (<strong>test</strong> t per dati appaiati)Si apra il file “ad<strong>di</strong>ct.dta”. I dati si riferiscono ad un esperimento su 7 ratti su cui è statomisurata la quantità <strong>di</strong> etanolo ingerita prima e dopo somministrazione <strong>di</strong> propanololo (sitratta <strong>di</strong> un modello animale <strong>di</strong> tossico<strong>di</strong>pendenza da alcool). Woolson pag. 158.Si valuti se il trattamento ha avuto un effetto nel <strong>di</strong>minuire la quantità <strong>di</strong> etanolo ingerita.use C:ADDICT.DTA, clearPer verificare se il trattamento farmacologico ha avuto un effetto, si può analizzare la variabilecostruita, per ciascun soggetto, come <strong>di</strong>fferenza tra i valori <strong>di</strong> concentrazione prima e dopo iltrattamento.gene <strong>di</strong>ff=prop1-prop2sum <strong>di</strong>ffVariable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------<strong>di</strong>ff | 7 .3942857 .3120287 -.11 .76
La <strong>di</strong>fferenza me<strong>di</strong>a nella popolazione può essere stimata dalla me<strong>di</strong>a campionaria, 0.39. La stimadella deviazione standard della variabile <strong>di</strong>ff nella popolazione è pari a 0.31.L’<strong>ipotesi</strong> nulla è che la <strong>di</strong>fferenza me<strong>di</strong>a sia pari a 0; dato che la varianza della variabile <strong>di</strong>ff non ènota e che i soggetti arruolati sono 7, la statistica <strong>test</strong> da utilizzare è una t con 6 gra<strong>di</strong> <strong>di</strong> libertà.<strong>di</strong>sp 0.3942857/(0.3120287/sqrt(7))3.3432242<strong>di</strong>sp ttail(6, 3.3432242).00777471Il p-value ad una coda (l’<strong>ipotesi</strong> alternativa suggerita dal <strong>test</strong>o dell’esercizio è che la <strong>di</strong>fferenzame<strong>di</strong>a sia maggiore <strong>di</strong> 0, ovvero che prop1>prop2) è pari a circa 0.0078. Questo valore del p-valuesuggerisce che l’<strong>ipotesi</strong> nulla è poco supportata dai dati, a favore dell’<strong>ipotesi</strong> alternativa.Lo stesso risultato calcolato “a mano” può essere ottenuto utilizzando la funzione t<strong>test</strong> in due<strong>di</strong>versi mo<strong>di</strong>:t<strong>test</strong> <strong>di</strong>ff=0One-sample t <strong>test</strong>------------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]---------+--------------------------------------------------------------------<strong>di</strong>ff | 7 .3942857 .1179358 .3120287 .1057073 .6828641------------------------------------------------------------------------------Degrees of freedom: 6Ho: mean(<strong>di</strong>ff) = 0Ha: mean < 0 Ha: mean != 0 Ha: mean > 0t = 3.3432 t = 3.3432 t = 3.3432P < t = 0.9922 P > |t| = 0.0155 P > t = 0.0078t<strong>test</strong> prop1=prop2Paired t <strong>test</strong>------------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]---------+--------------------------------------------------------------------prop1 | 7 .8128571 .1108778 .293355 .541549 1.084165prop2 | 7 .4185714 .0743361 .1966747 .2366776 .6004652---------+--------------------------------------------------------------------<strong>di</strong>ff | 7 .3942857 .1179358 .3120287 .1057073 .6828641------------------------------------------------------------------------------Ho: mean(prop1 - prop2) = mean(<strong>di</strong>ff) = 0Ha: mean(<strong>di</strong>ff) < 0 Ha: mean(<strong>di</strong>ff) != 0 Ha: mean(<strong>di</strong>ff) > 0t = 3.3432 t = 3.3432 t = 3.3432P < t = 0.9922 P > |t| = 0.0155 P > t = 0.0078
Riferimenti BibliograficiBland M. (2009) Statistica Me<strong>di</strong>ca. Apogeo , Milano.Clayton D., Hills M. (1993) Statistical Models in Epidemiology. Oxford University Press, Oxford.Woolson RF., Clarke WR. (2002) Statistical Methods for the Analysis of Biome<strong>di</strong>cal Data. SecondE<strong>di</strong>tion. Wiley, Ney York.