affronta (lampade sarebbero

cli.di.unipi.it

Appunti di Inferenza Statistica

Breve introduzione all’inferenza statisticaMaurizio PratelliCPS corso A, a.a. 2010-111 Prime nozioni.Si parla di statistica descrittiva quando si affronta l’esame diretto diuna popolazione, si parla invece di inferenza statistica quando si partedall’esame di un campione per avere informazioni sull’intera popolazione.A differenza di quanto accade nella statistica descrittiva, quando si affrontaun problema di inferenza statistica occorre fare riferimento ad unmodello, che richiede la teoria della Probabilità.Le tre tecniche principali utilizzate nell’ inferenza sono la teoria dellastima, l’ uso degli intervalli di fiducia e la teoria dei test.Partiamo da unEsempio 1.1 (Controllo di qualità).Abbiamo una scatola contenente 500 lampadine da flash al magnesio (lampadedi vecchio tipo, monouso): non possiamo evidentemente provare tuttele lampadine, per mancanza di tempo ma soprattutto perchè alla fine sarebberotutte inutilizzabili. Preleviamo allora un campione di 15 lampadine e leproviamo: il numero di lampadine che risultano guaste è rappresentato conuna variabile aleatoria X , binomiale di parametri 15 e p , con p sconosciuto(qui il parametro p, 0 < p < 1, rappresenta evidentemente la probabilità cheuna generica lampadina sia guasta).Abbiamo cioè un modello di probabilità parzialmente specificato, dove lafunzione di probabilità della variabile X in esame dipende da un parametrop sconosciuto: dall’ esame del campione vogliamo ricavare informazioni suquesto parametro (più precisamente sul modello di probabilità che megliorappresenta il fenomeno esaminato).Anziché rappresentare il numero totale di lampadine guaste X , convieneintrodurre in questo caso 15 variabili aleatorie X 1 , . . . , X 15 dove la generica1


variabile X i assume il valore 1 se la i−ma lampadina è guasta, altrimenti assumeil valore 0 : queste variabili aleatorie sono indipendenti, equidistribuite,di Bernoulli di parametro p .Nell’inferenza statistica ci si trova spesso (ma non sempre) in una situazionecome la precedente: abbiamo cioè la ripetizione n volte, in condizionidi indipendenza, di un certo esperimento. Una tale situazione è formalizzatadalla definizione seguente.Definizione 1.2 (Campione statistico). Si chiama campione statisticouna famiglia X 1 , . . . , X n di variabili aleatorie indipendenti, equidistribuite,con funzione di ripartizione dipendente da un parametro θ ∈ Θ. Ilnumero n si chiama la taglia del campione.Più avanti ci riferiremo all’esempio del controllo di qualità per indicare uncampione statistico X 1 , . . . , X n formato da n variabili aleatorie indipendenti,con distribuzione di Bernoulli di parametro p , 0 < p < 1 .2 Teoria della stima.Stimare il parametro significa valutare il parametro alla luce dell’ osservazionedel campione: nell’ esempio sopra descritto X 1+···+X 15è una ragionevolevalutazione del parametro p . Notiamo che dipende dal caso, dipende15cioè da come casualmente è stato scelto il campione: si tratta cioè di unavariabile aleatoria.Definizione 2.1 (Stima statistica). Assegnato un campione statisticoX 1 , . . . , X n ed una funzione a valori reali t(θ), si chiama stima una variabilealeatoria della forma f(X 1 , . . . , X n ) il cui scopo è valutare t(θ).Naturalmente occorre introdurre dei criteri per stabilire la bontà di unastima: questi criteri saranno introdotti dalle seguenti definizioni.Definizione 2.2 (Stime corrette). Una stima f(X 1 , . . . , X n ) di t(θ) si dicecorretta (o anche non distorta) se, per ogni θ, f(X 1 , . . . , X n ) ammettevalore atteso rispetto alla probabilità P θ e vale l’eguaglianzaE θ[ f(X 1 , . . . , X n ) ] = t(θ)Nella definizione precedente, P θ è la probabilità rispetto alla quale levariabili indipendenti X 1 , X 2 , . . . hanno funzione di ripartizione F θ , e E θindica il valore atteso calcolato rispetto a questa probabilità.2


Proposizione 2.3 (Stime corrette di media e varianza). Se X 1 , . . . , X nsono indipendenti, equidistribuite, con valore atteso m e varianza σ 2 , le stimecorrette di media e varianza sono rispettivamenteX = X 1 + · · · + X nn;∑ ni=1(Xi − X ) 2n − 1Ricordiamo che la variabile X è detta media empirica del campione.Dimostrazione. La prima affermazione è immediata. Per quanto riguarda laseconda, partiamo dall’eguaglianza (che si verifica facilmente)n∑i=1( ) 2 ( n∑X i − X =i=1X 2 i)− nX 2Sappiamo che E [ ]Xi2 [ = σ 2 + m 2 , inoltre, poichè X ha valore atteso m evarianza σ2 , si ha E X 2] = ( σ 2+ m2) .n nSi ottiene di conseguenza[ n∑ ( 2 ]E Xi − X)= (n − 1)σ 2i=1Vogliamo ora affrontare un nuovo criterio di “bontà” delle stime, il criteriodella massima verosimiglianza: questo criterio si può applicare quandol’insieme dei parametri Θ è un sottinsieme di IR (usualmente un intervallo).Cominciamo a considerare il caso di un campione di variabili aleatoriediscrete: le variabili X 1 , . . . , X n sono indipendenti, equidistribuite, confunzione di probabilità p(θ, x) dipendente da un parametro θ ∈ Θ.Poichè le variabili sono indipendenti, la probabilità che il campione prendai valori (x 1 , . . . , x n ) è data daP θ (X 1 = x 1 , . . . , X n = x n ) = p(θ, x 1 ). . . . .p(θ, x n )In statistica è noto il “risultato” , cioè si conoscono i valori (x 1 , . . . , x n )assunti dal campione, e si vuole “ricostruire” la probabilità che regge ilfenomeno. Sembra allora ragionevole considerare come stima di θ il valoredel parametro che rende più probabile il risultato ottenuto, cioè il punto dimassimo (se esiste) della funzione che a θ associa p(θ, x 1 ). . . . .p(θ, x n ) . Unatale stima di θ , se esiste, è chiamata stima di massima verosimiglianza,ed è indicata usualmente ̂θ.3


Definizione 2.4 (Stime di massima verosimiglianza). Si chiama stimadi massima verosimiglianza (se esiste) la stima ̂θ = g(X 1 , . . . , X n ) , doveg(x 1 , . . . , x n ) è il punto di massimo della funzioneθ → p(θ, x 1 ). . . . .p(θ, x n ) .Esempio 2.5. Calcoliamo la stima di massima verosimiglianza di un campioneX 1 , . . . , X n di variabili di Poisson di parametro λ , (λ > 0).Si verifica facilmente che, se k 1 , . . . , k n sono interi positivi,p(λ, k 1 ) . . . p(λ, k n ) =( e −λ λ k 1k 1 !). . .( ) e −λ λ knk n != e −nλ λ(k 1+...+k n)k 1 ! . . . k n !Chiamiamo per semplicità s = (k 1 + · · · + k n ) e cerchiamo il punto dimassimo della funzione f(λ) = e −nλ .λ s , osservando che s è un intero positivo.Si ha che lim λ→0 f(λ) = lim λ→∞ f(λ) = 0 , quindi la funzione f(λ),che( è continua a valori positivi, ha un punto di massimo. La derivataddλ e −nλ .λ s) = e −nλ λ s−1 (−nλ + s) si annulla solo nel punto λ = s/n cheè pertanto il punto di massimo.La funzione g risulta essere g(k 1 , . . . , k n ) = k 1+···+k ne la stima di massimanverosimiglianza è̂λ = g (X 1 , . . . , X n ) = X 1 + · · · + X nnDefiniamo ora le stime di massima verosimiglianza in un campione din variabili aleatorie con densità. Supponiamo di avere n variabili aleatorieindipendenti, equidistribuite, ciascuna con densità f(θ, x) , θ ∈ Θ.La densità congiunta della variabile vettoriale (X 1 , . . . , X n ) è data daL (θ; x 1 , . . . , x n ) =n∏f(θ, x i )In modo analogo a quanto fatto per le variabili discrete, la stima di massimaverosimiglianza (se esiste) si ottiene in questo modo:a) si cerca (se esiste) la funzione g(x 1 , . . . , x n ) che indica il punto dimassimo di θ → L (θ; x 1 , . . . , x n ) ;b) si usa la stima ̂θ = g (X 1 , . . . , X n ) .Esempio 2.6. Cerchiamo la stima di massima verosimiglianza in un campionedi taglia n di variabili con densità esponenziale di parametro λ , λ >0.4i=1


Assegnato un campione X 1 , . . . , X n con densità esponenziale di parametroλ , λ sconosciuto, la densità congiunta del campione è data daL(λ; x 1 , . . . , x n ) =n∏f(λ, x i ) =i=1{λ n e −λ(x 1+···+x n )se x i ≥ 0 ∀i0 altrimentiSia s il numero positivo s = x 1 + · · · + x n e sia f(λ) = λ n e −λs . È facileverificare che si ha lim λ→0 f(λ) = lim λ→∞ f(λ) = 0 .Annullando la derivata, si ottiene 0 = nλ n−1 e −λs − sλ n e −λs = λ n−1 e −λs (n − sλ),e quindi λ = n/s è il punto di massimo.La stima di massima verosimiglianza è pertanto()n̂λ =.X 1 + · · · + X nEsempio 2.7 (Stima di massima verosimiglianza di media e varianzaper un campione gaussiano).Consideriamo un campione X 1 , . . . , X n con densità gaussiana N(m, σ 2 ) ,m ∈ IR , σ > 0 .Cominciamo ad osservare che quando tutte le densità sono sempre positive(come in questo caso) , anzichè L(θ; x 1 , . . . , x n ) conviene considerare illogaritmologL(θ; x 1 , . . . , x n ) =n∑log f(θ, x i ) .Infatti, essendo il logaritmo una funzione strettamente crescente, il punto dimassimo rispetto a θ è lo stesso e questo di solito semplifica decisamente iconti.Si verifica facilmente che si ha( ) 1logf(m, σ 2 ; x) = log √ − log(σ) − 1 ( ) 2 x − m2π 2 σIl primo termine può essere trascurato poichè è costante, e quindi (a menodi una costante)i=1logL(m, σ 2 ; x 1 , . . . , x n ) = −nlog(σ) − 1 2n∑i=1(x i − m) 2σ 2 .Per cercare i punti di massimo, si annullano le derivate parziali rispetto a med a σ ottenendo le equazioni5


0 =n∑ (x i − m); 0 = − n σ 2 σ + 1 n∑(xσ 3 i − m) 2 .i=1Risolvendo queste equazioni, con facili calcoli si ottengono le seguenti stimedi massima verosimiglianza della media e della varianza:i=1̂m =∑ ni=1 X in= X ; ̂σ 2 =∑ ni=1 (X 1 − X) 2.n3 Intervalli di fiducia.Sia assegnato un campione statistico X 1 , . . . , X n la cui funzione di ripartizionedipende da un parametro θ ∈ Θ, e supponiamo che Θ sia un sottinsiemedi IR. Supponiamo che ad ogni osservazione (x 1 , . . . , x n ) sia assegnatoun intervallo I.Definizione 3.1 (Intervallo di fiducia). Assegnato un numero 0 < α < 1 ,si dice che I è un intervallo di fiducia per il parametro θ al livello (1 − α) se,qualunque sia il parametro θ , si haP θ{ θ ∈ I } ≥ (1 − α) cioè P θ{ θ /∈ I } ≤ α .I valori tipici per α sono 0,1 , 0,05 , 0,01 : l’obiettivo è ottenere un intervallodi fiducia più piccolo possibile (mantenendo il requisito del livello).Vediamo con degli esempi concreti come si può costruire un intervallo difiducia.Esempio 3.2 (Intervallo di fiducia per il controllo di qualità).Se X 1 , . . . , X n sono indipendenti, Bernoulli con parametro [ p , 0 ≤]p ≤ 1 ,ci aspettiamo un intervallo di fiducia della forma X − a, X + a , con anumero positivo da determinare.Osservando che p /∈ I se e solo se ∣ ∣ X −p > a , volendo trovare l’intervallodi fiducia più piccolo possibile cerchiamo il minimo a tale cheP p { ∣∣X− p∣ ∣ > a}≤ αPer la disuguaglianza di Chebichef, poichè la varianza di X è p(1−p)n{ ∣∣X ∣ }P p − p p(1 − p)> a ≤ ≤ 1n a 2 4n a 2, si ha6


(nell’ultima disuguaglianza, poichè p non è noto, abbiamo maggiorato colmassimo valore possibile). Si ottime il risultato voluto ponendo a = √ 14nαesi ha pertanto l’intervallo di fiducia[X − 1 √4nα, X + 1 √4nα]Prima di affrontare l’esempio successivo, ricordiamo che, dato 0 < α < 1,si chiama α-quantile della variabile N(0, 1) il numero q α tale che Φ ( q α)= α ,essendo Φ la funzione di ripartizione della variabile N(0, 1) .Esempio 3.3 (Intervallo di fiducia per un campione gaussiano, convarianza nota).Siano assegnate X 1 , . . . , X n indipendenti equidistribuite, con densità gaussianaN ( m, σ 2) , dove la media m è sconosciuta ma la varianza σ 2 è suppostaessere nota (il caso, molto più realistico, nel quale anche la varianza èsconosciuta verrà trattato nel successivo paragrafo 5).Si parte dall’osservazione del fatto che la variabile√ X − m nσè una variabile gaussiana standard (cioè con densità N(0, 1)). A questopunto svolgiamo dei passaggi simili all’esempio precedente, cerchiamo cioèun numero a (più piccolo possibile) tale che si abbia{ ∣∣X ∣ } {∣P m − m > a = P m ∣∣ √ X − mn ∣ > a√ n}= ασ σSi ottiene l’eguaglianza voluta (col valore di a più piccolo possibile) imponendoa√ n= qσ 1−α , e si ha così l’intervallo di fiducia2[X − √ σ q 1−α , X + σ ]√ q n2 1−αn2Ad esempio, per α = 0,05 , si ricava dalle tavole q 0,975 = 1,96 .4 Test Statistici.Effettuare un test statistico significa per prima cosa formulare una ipotesi(relativa ad un campione statistico) e quindi pianificare un esperimentoper decidere se l’ipotesi può essere accettata o deve essere rifiutata.7


L’ipotesi si formalizza effettuando una partizione dell’insieme Θ dei parametriin due sottoinsiemi Θ 0 (l’insieme dei parametri che corrispondono all’ipotesi)ed il suo complementare Θ 1 (che si identifica con l’insieme dei parametri checorrispondono alla negazione dell’ipotesi, detta alternativa ).Torniamo all’esempio iniziale del controllo di qualità : in questo caso ilparametro è la probabilità p (sconosciuta), che il generico pezzo sia difettoso.Supponiamo che la ditta che fornisce i pezzi affermi che la percentuale dipezzi difettosi è inferiore al 2 % : questa frase si formalizza meglio dicendoche l’ipotesi (usualmente indicata H 0 ) èH 0 ) p ≤ 0,02e che l’alternativa (indicata H 1 ) èH 1 ) p > 0,02 .In questo caso Θ = ] 0, 1 [ , Θ 0 = ] 0 , 0,02 ] e Θ 1 = ] 0,02 , 1 [ .La regola di accettazione (o meglio di rifiuto) corrisponde ad un sottoinsiemeC dello spazio campionario Ω , detto regione critica o regione dirifiuto (non dimentichiamo che lo spazio fondamentale Ω corrisponde a tuttii possibili esiti dell’esperimento: C corrisponde dunque ai tutti gli esiti cheportano a rifiutare l’ipotesi).Tornando all’esempio del controllo di qualità, se si dispone di un campionedi 100 pezzi che vengono verificati, il numero di pezzi risultati difettosi è unavariabile aleatoria X binomiale di parametri n e p , dove n = 100 e p è laprobabilità sconosciuta che il generico pezzo sia difettoso.È intuitivo immaginare di rifiutare l’ipotesi se il numero di pezzi difettosiè troppo altro: si arriva allora ad una regione critica della forma C = { ω ∈Ω ∣ } { } X(ω) ≥ k = X ≥ k , dove il numero k è da fissare secondo regole cheprecisiamo adesso.Si chiama errore di prima specie rifiutare l’ipotesi quando è vera ederrore di seconda specie accettare l’ipotesi quando è falsa.Per θ ∈ Θ 0 , chiamiamo probabilità dell’errore di prima specie il numeroP θ (C) : assegnato un test di regione critica C, si chiama livello deltest un limite superiore per le probabilità degli errori di prima specie, piùprecisamente si dice che il test ha livello α se vale la disuguaglianzasup θ∈Θ0 P θ (C) ≤ αIn pratica, si fissa per prima cosa un numero piccolo α (il valore tipico èα = 0,05 ) e si cerca una regione critica C che verifichi la disuguaglianzasopra scritta e che sia più grande possibile (in modo di aumentare laprobabilità di rifiutare l’ipotesi quando è falsa). Allo scopo di rendere piùgrande la regione critica, quando è possibile la disuguaglianza sopra scrittaviene cambiata in eguaglianza.8


Esempio 4.1. Nella cittadina di Huntsville (Canada) si registrano in media8 matrimoni al mese; tuttavia, dopo che è tornato a sposarsi in quella città unfamoso cantante rock che era nato lì, nel mese successivo vengono registrati14 matrimoni. Si può considerare questo un fatto dovuto al caso, o c’è statoun fenomeno di imitazione?Formalizziamo questo come un problema di statistica: si può ragionevolmentesupporre che il numero di matrimoni che avvengono in un mese siauna v.a. X che segue una distribuzione di Poisson. (Infatti vi è un numeron grande di abitanti, e per ciascuno una probabilità p piccola di sposarsi inun particolare mese: si è visto che una variabile Binomiale di parametri ne p con n grande e p piccolo è approssimata da una variabile di Poisson diparametro λ = n.p ; sappiamo inoltre che per una variabile X di Poisson diparametro λ si ha E[X] = λ .)Come parametri possibili del modello prendiamo λ ≥ 8 ( infatti o non visono stati cambiamenti, ed in tal caso λ = 8 , oppure c’è stato un fenomenodi imitazione ed in tal caso λ > 8 ) : siamo cioè portati a pianificare un testdell’ipotesiH 0)λ = 8 contro l’alternativa H 1)λ > 8 .Fissiamo come livello del test il numero 0,05 : è ragionevole imporre unaregione critica della forma { X ≥ k } , k da determinare (si rifiuta l’ipotesiche non ci siano cambiamenti se il numero di matrimoni è troppo alto).Il numero k deve essere tale che P { X ≥ k } ≤ 0,05 quando X è unavariabile di Poisson di parametro 8, e k più piccolo possibile (in modo daavere una regione critica più grande possibile).Il problema si è trasformato nel trovare il minimo intero k tale cheP { X ≥ k } = 1 − P { X < k } = 1 −∑k−1h=0e −8 8 hPassando ai calcoli, si trova che, approssimativamente:h!≤ 0,05P { X ≥ 14 } = 0,135 , P { X ≥ 15 } = 0,083 , P { X ≥ 16 } = 0,048Di conseguenza, solo se i matrimoni fossero almeno 16 si potrebbe affermare(al livello 0,05 ) che c’è stato un significativo aumento; fino a 15 si puòritenere che si sia trattato di una fluttuazione casuale.Imponendo come livello il numero 0,1 , l’ipotesi è rifiutata se il numero dimatrimoni supera 15.9


Esempio 4.2 (Test sul controllo di qualità).Sviluppiamo l’esempio descritto all’inizio di questo paragrafo: la variabilealeatoria X (numero totale di pezzi difettosi riscontrati) è binomiale diparametri 100 e p e vogliamo verificare l’ipotesiH 0 ) p ≤ 0,02 contro l’alternativa H 1)p > 0,02 .al livello α = 0,05 . Come si era detto sopra, è naturale imporre una regionecritica della forma { X ≥ k } , ed è anche intuitivo (ma si può provare rigorosamente)che la probabilità P p{ X ≥ k } cresca al crescere del parametro p .Siamo dunque ricondotto a trovare il minimo k tale che, se X è binomiale diparametri 100 e 0,02 , si abbia , quando p = 0,02 , P { X ≥ k} ≤ 0,05 .I conti diretti sono impraticabili: conviene allora usare l’approssimazionenormale. Ricordiamo che, per il teorema limite centrale , se X è binomialeX − npdi parametri n e p , la variabile √ √ è approssimativamente unan p(1 − p)variabile gaussiana N(0, 1) .P { X ≥ k } = P { X − 21,4≥ k − 2 }1,4Il risultato viene approssimato sostituendo a X−2 una variabile Y con densità1,4N(0, 1) : ora P { Y > t } ≤ 0,05 equivale a P { Y ≤ t } ≥ 0,95. Prendiamoil minimo numero t che verifica l’ultima disuguaglianza (per avere la regionecritica più grande possibile): tale numero è il quantile q 0,95 e dalle tavole dellaf.r. gaussiana si ricava per t il valore 1,64 . Si ha quindi k−2 ≥ 1,64 , cioè1,4k ≥ 4,29 , e poichè k deve essere intero, si ottiene k = 5.Concludendo, si rifiuta l’ipotesi al livello 0,05 se il numero di pezzi difettosiè superiore o eguale a 5.Esempio 4.3 (Test sulla media di un campione gaussiano, con varianzanota).Il modo di procedere ricalca i passaggi che sono stati fatti nell’esempio3.3 : più precisamente si parte dal fatto che, se X 1 , . . . , X n sono indipendenticon densità N(m, σ 2 ) ( m ∈ IR , σ noto), la variabile√ nX − mσha densità N(0, 1) (quando sullo spazio Ω si considera la probabilità P m ).Esaminiamo il test dell’ipotesi10


H 0)m ≤ m0 contro l’alternativa H 1)m > m0(sempre al livello α ). Siamo ricondotti a rifiutare l’ipotesi se la stima dellamedia X è troppo alta rispetto ad m 0 , a considerare cioè una regione criticadella forma {( X − m 0)> d}. Nasce un problema per quanto riguarda ilcalcolo del livello, che è in questo caso eguale asup P m{( ) }X − m 0 > dm≤m 0Tuttavia l’intuizione ci suggerisce che la probabilità P m{( X − m 0)> d}cresca al crescere di m (questo fatto in realtà può essere dimostrato rigorosamente,ma con una certa fatica): il calcolo del livello diventa quindi piùsemplicementeP {( ) } { m 0X − m 0 > d = Pm 0√n X − m 0> √ n d }σ σSi sceglie allora √ n d = q σ 1−α , cioè d = √ σnq 1−α .Cioè, per essere più chiari, in funzione del livello α la regione critica èdata da{ √n X − m 0σSe invece si considera il test simmetrico> q 1−α}H 0)m ≥ m0 contro l’alternativa H 1)m < m0(sempre al livello α), la regione critica è data da{ √n X − m}0< q ασ(ricordiamo la relazione tra i quantili, che sarà meglio illustrata nell’ultimoparagrafo, q α = −q 1−α ).Vogliamo ora considerare il test dell’ipotesiH 0)m = m0 contro l’alternativa H 1)m ≠ m0al livello α . È ragionevole rifiutare l’ipotesi se la variabile aleatoria X (cherappresenta la stima della media) si discosta troppo da m 0 , porre cioè unaregione critica della forma {∣ ∣X − m 0∣ ∣ > d } , dove il numero d è scelto inmodo tale che si abbia11


di trovare (in funzione del numero 0 < α < 1 e dei gradi di libertà n ), loα–quantile di tale variabile, indicato t (α , n) .A questo punto le regole per la determinazione degli intervalli di fiduciae dei test per la media m sono quasi identici a quello che succede nel casodella varianza nota, sostituendo però ai quantili della variabile N(0, 1) quellidella variabile T (n−1) .Esempio 5.1 (Intervallo di fiducia per la media di un campionegaussiano, con varianza sconosciuta).Se X 1 , . . . , X n è un campione con densità N(m, σ 2 ) , un intervallo difiducia per m al livello (1 − α) è dato da[X − S √ nt (1−α2 , n−1) , X + S √ nt (1−α2 , n−1) ]Esempio 5.2 (Test sulla media di un campione gaussiano, con varianzasconosciuta, o test di Student).Nella situazione precedente, il test, al livello α , dell’ipotesiH 0)m = m0 , σ qualsiasi contro l’alternativa H 1)m ≠ m0 , σ qualsiasiha una regione critica della forma{ √n∣ ∣ X − m 0∣ ∣S> t (1−α2 , n−1) }Invece il test dell’ipotesi (sempre al livello α )H 0)m ≤ m0 , σ qualsiasi contro l’alternativa H 1)m > m0 , σ qualsiasiha regione critica{( )√n X − m0SIl test simmetrico dell’ipotesi> t (1−α , n−1)}H 0)m ≥ m0 , σ qualsiasi contro l’alternativa H 1)m < m0 , σ qualsiasiha regione critica{ √n(X − m0)S< t (α , n−1)}14


Esempio 5.3 (Un esempio di utilizzo del test di Student).Ci troviamo in una regione nella quale l’altezza media della popolazioneadulta è m. 1,72 : si effettuano 17 misurazioni di altezze all’interno di unpaese trovando i seguenti valori1,68 , 1,73 , 1,84 , 1,59 , 1,92 , 1,77 , 1,91 , 1,89 , 1,69 , 1,71 , 1,86 , 1,81 ,1,73 , 1,71 , 1,68 , 1,84 , 1,79 .Vogliamo pianificare un test per verificare, al livello 0,1 , l’ipotesi chel’altezza media tra gli abitanti di quel paese coincida con l’altezza medianella regione.Supponiamo che le altezze delle 17 persone che sono state misurate forminoun campione X 1 , . . . , X 17 di variabili gaussiane N(m, σ 2 ) , con m e σsconosciuti. Siamo ricondotti ad un test dell’ipotesiH 0)m = 1,72 , σ qualsiasi contro l’alternativa H1)m ≠ 1,72 , σ qualsiasiIndichiamo le misurazioni sopra scritte con i numeri x 1 , . . . , x 17 : se sicalcola la media aritmetica x = x 1+···+x 17si ottiene il valore 1,77 .17La variabile T assume con questi dati il valoreT (x 1 , . . . , x 17 ) = √ 17(x − 1,72)√ ∑17i=1 (x i−¯x) 216≈ 2,04Dalla tavola dei quantili della variabile di Student ricaviamo il valore t (0,95 ; 16) =1,74 : ne segue che l’ipotesi deve essere rifiutata, cioè l’altezza media tragli abitanti di quel paese non coincide con l’altezza media all’interno dellaregione (in particolare è superiore).Se avessimo imposto invece come livello il numero 0,05 , saremmo arrivatia una conclusione diversa: si ha infatti t (0,975 ; 16) = 2,12 , e questo valore ciporta ad accettare l’ipotesi.6 Test sulla varianza di un campione gaussiano.Supponiamo assegnato un campione gaussiano X 1 , . . . , X n : a differenza degliintervalli di fiducia o dei test sulla media (che sono profondamente diversi nelcaso in cui la varianza sia sconosciuta rispetto al caso in cui la varianza sianota), i test sulla varianza sono sostanzialmente eguali nel caso media notae nel caso media sconosciuta e si basano su questa proprietà:15


• ∑ ni=1• ∑ ni=1(Xi − m ) 2σ 2 ha densità χ 2 (n)(Xi − X ) 2σ 2 ha densità χ 2 (n − 1)La prima affermazione è praticamente la definizione di densità χ 2 (n) e laseconda segue da quanto si è detto nel paragrafo precedente.Naturalmente quando la media m è nota si usa la prima affermazione,quando è sconosciuta si usa la seconda; le formule che si ottengo sono sostanzialmenteidentiche, a parte il fatto che nel caso in cui la varianza è sconosciutadiminuiscono di 1 i gradi di libertà. Concentriamoci sul caso più frequentein cui la varianza è sconosciuta.Esempio 6.1 (Test sulla varianza di un campione gaussiano, conmedia sconosciuta).Vogliamo pianificare un test per verificare, al livello α, l’ipotesiH 0)σ 2 ≤ σ 2 0 , m qualsiasi contro l’alternativa H 1)σ 2 > σ 2 0 , m qualsiasiL’intuizione ci porta a considerare una regione critica della forma{ ∑ni=1(Xi − X ) 2≥ c}, e ci aspettiamo che la probabilità di questa regionecritica, che non dipende da m, cresca al variare di σ : infatti questa proprietàè verificata (tralasciamo il calcolo un po’ noioso), e per rispettare il vincolo dellivello e nello stesso tempo ottenere una regione critica più grande possibile,come già abbiamo fatto diverse volte, imponiamo{ n∑ (P Xi − X ) }2≥ ci=1{ ∑ n(i=1 Xi − X ) 2= Pσ02≥ c }= ασ02(probabilità calcolata quando la varianza è eguale a σ0 2 ; notiamo ancora chenella regione critica imporre il ≥ oppure il > sostanzialmente non cambia,poichè si tratta di variabili con densità). Per calcolare il valore di c , chiamiamoχ 2 α, n lo α–quantile della variabile con densità χ 2 (n) (questo quantilepuò essere ricavato dalle tavole della variabile chi-quadro): poniamo cosìcσ 2 0= χ 2 (1−α, n−1) , ossia c = σ2 0 χ 2 (1−α, n−1) .Se invece il test fosse dell’ipotesiH 0)σ 2 ≥ σ 2 0 , m qualsiasi contro l’alternativa H 1)σ 2 < σ 2 0 , m qualsiasi16


la regione critica sarà della formaσ 2 0 χ 2 (α, n−1) .{ ∑ni=1(Xi − X ) 2≤ c}, dove c =Esempio 6.2. Come è noto, la precisione di uno strumento di misura puòessere calcolata attraverso la varianza dei risultati forniti da questo strumentoeffettuando diverse misurazioni della stessa quantità : più piccola è lavarianza, più preciso è lo strumento.Supponiamo che, per un dato termometro, la ditta produttrice dichiariuna varianza non superiore a σ02 = 10 −4 ; poichè si ha invece il sospettoche tale varianza superi il valore dichiarato, si decide di effettuare il testdell’ipotesiH 0)σ 2 ≤ σ 2 0 contro l’alternativa H 1)σ 2 > σ 2 0A tale scopo, vengono effettuate 10 misurazioni della temperatura di unacerta quantità di acqua, in condizioni di indipendenza.Si ottengono i valori x 1 , . . . , x 10 per i quali risulta ∑ 10i=1 (x i − ¯x) 2 =18,09 × 10 −4 , essendo ¯x la media campionaria.Poichè dalle tavole si ricava il valore χ 2 (0,95 ; 9)= 16,91 siamo portati arifiutare l’ipotesi. Se invece lo stesso valore (18,09×10 −4 ) fosse stato ottenutocon 20 misurazioni, poichè χ 2 (0,95 ; 19)= 30,14 l’esito del test sarebbe stato diaccettare l’ipotesi.Osserviamo ancora che la determinazione della regione critica di un testdell’ipotesiH 0)σ 2 = σ 2 0 contro l’alternativa H 1)σ2 ≠ σ 2 0è molto meno agevole; tuttavia questo test risulta molto meno importantenelle applicazioni pratiche.7 Confronto tra due medie di due campioni.Bisogna distinguere tra due situazione molto diverse, quella dei campioniaccoppiati e quella dei campioni indipendenti.Si parla di dati accoppiati quando si hanno due misurazioni U 1 , . . . , U ne V 1 , . . . , V n relative alle stesse persone (o comunque agli stessi fenomeni)effettuate in due momenti diversi, con medie rispettivamente m 1 e m 2 esi desidera confrontare queste medie: in tal caso si prendono le differenzeX i = U 1 −V i che vengono considerate gaussiane, con media m 1 −m 2 e varianzasconosciuta, e si effettua un test di Student su questo campione. L’esempioche segue chiarirà meglio la situazione.17


Esempio 7.1. Una ditta farmaceutica afferma che un nuovo farmaco percontrollare la colesterolemia, se somministrato per almeno un mese a personeche soffrono di colesterolo alto, diminuisce la quantità di colesterolo in mediadi almeno 50 mg/l: un ospedale ci chiede di verificare questa affermazionecon rigorosi metodi statistici.Viene scelto un gruppo di 17 volontari che soffrono di colesterolo alto, aiquali viene misurato il tasso di colesterolo ottenendo i risultati u 1 , . . . , u 17e quindi viene somministrato loro il nuovo farmaco: dopo un mese vieneeffettuata una nuova misurazione ottenendo i risultati v 1 , . . . , v 17 . Se chiamiamox i = u i − v i , queste risultato essere le osservazioni delle variabiliX 1 , . . . , X 17 che supponiamo essere gaussiane con media m 1 − m 2 (dove m 1 èil valore medio di colesterolo prima della cura e m 2 dopo la cura) e varianzasconosciuta. Supponiamo che con i dati numerici osservati si ottenga x = 47,5e ∑ (i≤17 xi − x ) 2= 483 .L’affermazione della ditta si traduce nell’ipotesiH 0)m1 − m 2 ≥ 50 contro l’alternativa H 1)m1 − m 2 < 50che vogliamo verificare al livello 0,05 .La teoria del test di Student che abbiamo esaminato ci porta a considerarela variabile T = √ 17 X−50 ed a rifiutare l’ipotesi se T risulta inferiore aSt (0,05 ; 16) = −t (0,95 ; 16) = −1,74 . Un facile calcolo assegna a T il valore −1,82e di conseguenza l’ipotesi viene rifiutata.Esaminiamo ora la seconda situazione e supponiamo di avere duecampioni indipendenti X 1 , . . . , X n e Y 1 , . . . , Y k : si suppone cioè che entrambisiano due campioni di variabili Gaussiane con media rispettivamentem 1 e m 2 . Vogliamo formulare dei test per confrontare le due medie, adesempio verificare l’ipotesi dell’eguaglianza tra le due medie.Il procedimento che segue è valido facendo l’ulteriore ipotesi che si abbiaσ1 2 = σ2 2 (cioè che le due varianze siano eguali anche se sconosciute). In questocaso vale la seguente proprietà (di dimostrazione piuttosto complicata): sem 1 = m 2 , allora la variabile aleatoria√n + k − 2X − YZ = √ . √1 ∑ + 1n ki (X i − X) 2 + ∑ j (Y j − Y ) 2ha legge di Student T (n + k − 2) a (n+k−2) gradi di libertà.A questo punto, ci si riconduce nuovamente a quanto è stato fatto per iltest di Student. Ad esempio un test al livello α dell’ipotesiH 0)m1 = m 2 contro l’alternativa H 1)m1 ≠ m 218


{ ∣∣Z ∣ }ha come regione critica l’insieme> dInvece ad esempio il test dell’ipotesidove d = t (1−α2 , n+k−2) .) )H 0 m1 ≤ m 2 contro l’alternativa H 1 m1 > m 2{ }ha come regione critica l’insieme Z > d dove d = t (1−α , n+k−2) .Tutto questo sarà chiarito meglio dall’esempio seguente:Esempio 7.2. Le misurazioni delle tibie da scheletri provenienti dalle tombeEtrusche di Cerveteri danno i seguenti risultati:∑ (xi − x) 213 misurazioni x = 47, 2= 7, 92 ,12mentre analoghe misurazioni dalle tombe di Ladispoli portano a∑ (yj − y) 28 misurazioni y = 44, 9= 9, 27 .7Il risultato è casuale o si può affermare (al livello 0,05) che gli abitanti diCerveteri erano effettivamente più alti?Consideriamo i dati come risultati ottenuti su due campioni gaussianiindipendenti, supponendo che i due campioni abbiano la stessa varianza.Vogliamo effettuare (ad esempio al livello 0,05 ) il test dell’ipotesiH 0)m1 = m 2 contro H 1)m1 > m 2Formuliamo questo test perché sulla base dei dati osservati non ci poniamoil problema che la media m 1 possa essere inferiore a m 2 : o il risultato è casuale(cioè m 1 = m 2 ), oppure gli abitanti di Cerveteri erano veramente più alti(cioè m 1 > m 2 ).I valori osservati danno per la variabile Z il numero 1,761. Poichè t (0,95 ; 19) =1,729 , si rifiuta l’ipotesi e si conclude (al livello 0,05) che gli abitanti diCerveteri erano effettivamente più alti.8 Come si usano le tavole statistiche.Nella pagina web sono inserite tre tavole statistiche: descriviamo brevementecome si usano.La Tavola 1 è la tavola della funzione di ripartizione della variabileN(0,1): essa fornisce, per numeri x con 0 ≤ x ≤ 4,49 , il valore della funzioneΦ(x) = 1 √2π∫ x19−∞e − t2 2 dt .


Ad esempio, Φ(1,43) = 0,92364 . Per valori di x superiori a 4,49 , si poneΦ(x) = 1 ; invece per valori di x negativi si utilizza l’eguaglianzaΦ(−x) = 1 − Φ(x)L’eguaglianza sopra scritta è dovuta al fatto che, poichè la densità N(0, 1)è una funzione pari, se la variabile aleatoria X ha densità N(0, 1) , si haP { X ≤ −x } = P { X ≥ x } .Per ottenere il quantile q α della variabile N(0, 1) (cioè il numero q α taleche si abbia P { X ≤ q α}= Φ(qα ) = α) si usa la tavola della funzione diripartizione al rovescio, cioè cercando per quale valore di x si ha Φ(x) = α :ad esempio q 0,95 = 1,65 . In questo modo però si possono ottenere solo i valoridi q α per α ≥ 1/2 ; per valori inferiori a 1/2 si usa l’eguaglianzaq α = −q 1−αche è una immediata conseguenza dell’eguaglianza Φ(−x) = 1 − Φ(x) .La Tavola 2 è la tavola dei quantili della variabile di StudentT(n) : questa tavola permette di trovare direttamente, in funzione dei gradidi libertà n e del numero α con 0 < α < 1 , il valore del quantile t (α , n) . Perla variabile di Student è stata progettata questa tavole poichè sono i quantiliche vengono utilizzati nella ricerca degli intervalli di fiducia o della regionecritica del test di Student, mentre il valore della funzione di ripartizione èmolto meno importante per le applicazioni pratiche. Notiamo tuttavia chequesta tavola contiene i quantili per valori di α vicini a 1 (mentre in alcunitest servono per valori piccoli di α , vicini a 0): vale tuttavia quanto è statodetto per la variabile N(0,1), cioè poichè anche la densità di Student è unafunzione pari, vale l’eguaglianzat (α ,n) = −t (1−α , n)Infine la Tavola 3 contiene i quantili della variabile chi-quadro (infunzione del numero α con 0 < α < 1 e dei gradi di libertà n ): il suo usoappare pertanto simile a quello della Tavola dei quantili per la variabile diStudent.C’è però una differenza sostanziale: la densità χ 2 (n) non è una funzionepari, anzi addirittura è nulla per valori negativi di x . Di conseguenza non sipossono ricavare i quantili con α ≤ 1/2 da quelli con α ≥ 1/2 : per questomotivo tale tavola riporta i quantili χ 2 (α , n)per α vicino a 1 e vicino a 0.20

More magazines by this user
Similar magazines