13.07.2015 Views

L'errore Casuale

L'errore Casuale

L'errore Casuale

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

L’errore casualeLeonardo VenturaGiulia Carreras


Alcuni termini• Parametri: quantità, in genere non note, che caratterizzano unapopolazione o un fenomeno (es: media)• Fare inferenza: utilizzare dei dati campionari per trarre conclusionisull’intera popolazione• Stime: dei parametri non noti, calcolate su un determinato insieme di dati.


PopolazioneΘParametro non noto(es. media)Inferenzat è la stima del parametro Θcalcolato su questo insiemedi dati(campione)x 1x 2Datix 3x 7x 4x 5 x 6


Campionamento• Campione: raccolta finita di elementi estratti da una popolazione. Ilcampione deve essere rappresentativo della popolazione• Campionamento probabilistico: l’inclusione o meno di ogni membro dellapopolazione nel campione è decisa sulla base di una legge probabilistica:– Ciascun elemento della popolazione ha una probabilità nota e non zerodi essere inclusa nel campione• I principali piani di campionamento sono:– <strong>Casuale</strong> semplice– Sistematico– Stratificato– A cluster


Randomizzazione• La randomizzazione è il processo di assegnazione delle unitàstatistiche in gruppi in base ad una sequenza casuale,imprevedibile, non sistematica, ignota sia al paziente che al medicoe riproducibile• Questa tecnica garantisce che i gruppi di trattamento differiscanosolamente per effetto del caso.


Esempio: Studio RIBES(Rischi e Benefici della Ecografia di Screening)• Obiettivo dello studio è la definizione dei vantaggi e degli svantaggi, nellapopolazione di donne a più elevata densità mammaria, prodottidall’aggiunta dell’ecografia mammaria e della visita clinica senologica allaprocedura convenzionale di screening basata sul solo esamemammografico• Il disegno di RiBES è quello di un trial randomizzato• Alle donne con elevata densità mammaria viene chiesto il consenso apartecipare, in caso affermativo vengono reclutate nello studio e quindirandomizzate nei due diversi bracci:1. Braccio di controllo (solo mx di screening)2. Braccio di studio (mx + visita + eco)• La randomizzazione avviene attraverso l’utilizzo di un algoritmo per lagenerazione di numeri casuali


Esempio: Altezza media dei fiorentini• Si vuole stimare l’altezza media dei residenti nel Comune di Firenze• Dalle liste comunali si estrae un campione di n residenti– Campionamento casuale semplice con probabilità di inclusione costante– Campionamento stratificato con probabilità di inclusione strato-specifica– …• Si calcola la media sui dati del campione• Questa rappresenta una stima dell’altezza media della popolazione diresidenti nel Comune di Firenze


La variabilità campionaria• Il valore di una stima varia a seconda dei datisui quali la si calcola (varia al variare delcampione)


Distribuzione campionaria(media)• La media calcolata sul campione è una stima della media della popolazione.• Medie calcolate su campioni diversi hanno valori diversi (stime diverse).• L’insieme di questi valori definisce una distribuzione (distribuzionecampionaria)


Errore standard• La deviazione standard della distribuzione campionaria (ladistribuzione delle stime (es. medie) di tutti i possibili campioni) èchiamata errore standard della stima• L’errore standard ci fornisce una misura di quanto “distante” dalvalore reale può essere la stima.• Varianza come misura di quanto i dati si discostano dalla media(misura di variabilità)2σn _∑(xi− x)2=i=n


Esempio: Altezza media dei fiorentiniSesso n Media Varianza Dev.Std. Errore Std.Maschi 30 175,00 62,21 7,89 1,44Femmine 30 165,63 84,79 9,21 1,68• n = numerosità del campione• Media = media campionariaσσ• Varianza 2= varianza campionaria• Dev. Std. = Deviazione standard (radice quadrata della varianza)• Errore Std. = Errore standard della media campionaria =σ /n


Stima puntuale e stima di intervallo• Una stima puntuale fornisce un unico valore per il parametro incognito diinteresse senza quantificare la sua variabilità campionaria (random error)– Per un campione sufficientemente numeroso l’errore casuale checommettiamo nella stima sarà abbastanza piccolo. Uno studio basatosu un campione di piccole dimensioni sarà soggetto ad un errorecasuale maggiore• Per avere un’idea dell’incertezza attorno alla stima puntuale (dovuta allavariabilità campionaria) si calcola di solito un intervallo di confidenza– Anziché un valore puntuale si fornisce un intervallo di valori “plausibili”per il parametro e si associa a questo intervallo una misura dellaconfidenza che riponiamo su tali valori.


Intervallo di confidenza al 95%• La probabilità che l’intervallo che andiamo a calcolare contenga il“vero” valore del parametro incognito è il 95%• Supponiamo di estrarre 100 campioni e di calcolare su ciascuno di essil’intervallo di confidenza al 95%. 95 degli intervalli calcolati conterranno il“vero” valore del parametro.• 95% è la misura della confidenza che riponiamo sulla procedura per ilcalcolo dell’intervallo.• 100% - 95% = 5% è la probabilità di errore.


Se ripetessimo infinite volte lo studio, il95% degli intervalli di confidenza checostruiremo conterrebbe il “vero” valore dalparametro della popolazione


IC 95% per la media(varianza nota)• Se la variabile di interesse X è distribuita normalmente e la varianza di X ènota, l’intervallo di confidenza al 95% per la media è calcolato come:_x −1.96σn,x_+Deviazione standard della1.96σnValore z di una NormaleStandard tale cheP(|z| > 1.96) = 0.05media campionaria (ErroreStandard)


Esempio: Altezza media dei fiorentiniSesso n Media Varianza Dev.Std. Errore Std. 95% IC inf 95% IC supMaschi 30 175,00 62,21 7,89 1,44 172,18 177,82Femmine 30 165,63 84,79 9,21 1,68 162,34 168,93• L’altezza media dei maschi è 175 centimetri con un intervallo di confidenzaal 95% dato da (172,18 ; 177,82)• Se ripetessi infinite volte questo esperimento sarei confidente che il 95%degli intervalli che costruirei conterrebbero la “vera” altezza media deifiorentini


Test delle ipotesi


Test di ipotesi• Il test consiste nel formulare una ipotesi (ipotesi nulla) circa il valoredi un parametro e nel definire una regola che permetta di deciderese rifiutare o meno l’ipotesi sulla base dei dati.• L’ipotesi che viene formulata è l’ipotesi nulla (Ho) e rappresenta disolito l’assenza di effetto• Se il campione fornisce risultati fortemente in contrasto con Ho,questa viene rifiutata a favore dell’ipotesi alternativa (H1).


Test di ipotesi• La strategia fondamentale nel test d’ipotesi consiste nel misurarequanto è distante la stima di un parametro dal valore ipotizzato conHo• Se la distanza è grande concluderemo che il valore ipotizzato èincompatibile con i dati osservati e saremo portati a rifiutare l’ipotesi.• In generale se la statistica campionaria osservata è a più di dueerrori standard dal valore ipotizzato siamo portati a rifiutarel’ipotesi.


Errori di I e di II tipo• Si possono commettere due tipi di errore utilizzando un test diipotesi:Errore di I tipo: rifiuto H0 quando H0 è veraErrore di II tipo: non rifiuto H0 quando Ho è falsa• Probabilità di errore di I tipo: α = P(rifiutare H0|è vera H0)• Probabilità di errore di II tipo: β = P(non rifiuto H0|è falsa H0)• La “regola” di accettazione/rifiuto deve essere costruita in modo taleche α e β siano piccole.• Dato che la minimizzazione contemporanea di α e β non è possibile,si fissa un α accettabile e si minimizza β.


Livello di significatività e potenzadel testTest di ipotesiHo è veraDecisioneNon rifiuto Ho Rifiuto HoDecisione corretta Errore di I tipoHo è falsa Errore di II tipo Decisione corretta


Livello di significatività e potenzadel test• Il livello di significatività di un test corrisponde alla probabilità dierrore di primo tipo, α.• La potenza di un test è la probabilità di rifiutare l’ipotesi nullaquando essa è falsa, 1- β (quindi di prendere la decisione giusta)• Si fissa il livello di significatività e si cerca il test ( la regola dirifiuto/accettazione) che massimizza la potenza


p-value• E’ la probabilità di osservare, sotto l’ipotesi nulla, un valore dellastatistica test uguale o più estremo del valore ottenuto dalcampione.• E’ una quantità che misura l’evidenza fornita dai dati control’ipotesi nulla: minore è il valore del p-value, più è fortel’evidenza contro l’ipotesi nulla.• Un alto valore del p-value indica che i dati sono molto congruenticon l’ipotesi nulla, mentre un basso valore del p-value indica che idati sono invece tali da allontanarsi dall’ipotesi nulla


Esempio: Altezza media dei fiorentini• Formulazione delle ipotesi:– Ho: altezza media dei maschi uguale altezza media delle femmine– H1: altezza media dei maschi diversa altezza media delle femmine• Test statistico:– t di Student• Valore della statistica test = 4.23• p-value associato alla statistica test = 0.0002• P-value molto basso < 0.05 quindi i dati sono tali da poter rifiutare l’ipotesinulla e quindi che l’altezza media dei maschi e delle femmine sia uguale


“Condom Use and the Risk of Genital HumanPapillomavirus Infection in Young Women”June 22, 2006Rachel L. Winer, Ph.D., James P. Hughes, Ph.D., Qinghua Feng,Ph.D., Sandra O'Reilly, B.S., Nancy B. Kiviat, M.D., King K. Holmes,M.D., Ph.D., and Laura A. Koutsky, Ph.D.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!