Verifica di Ipotesi - DMI

dmi.unisa.it

Verifica di Ipotesi - DMI

Verifica di Ipotesi/4P-valueÈ il minimo livello di significatività per il quale H 0 sarebbe rigettata quandoviene adoperata una specifica procedura di verifica su un campione di dati.Determinato P ,• se P ≤ α ⇒ rigettare H 0 al livello α• se P > α ⇒ non rigettare H 0 al livello αDefinizione alternativa: P è la probabilità, calcolata assumendo che H 0 siavera, di ottenere un valore dello statistico di verifica almeno così estremo comequello sperimentalmente osservato.Il P-value permette di misurare quanto si è distanti dal confine della zona direiezione al variare del livello di significatività α.Esempio di proceduraSe la verifica è upper-tailed, ricavato dai dati sperimentali il valore x dellostatistico di verifica X (di cui si suppone nota la distribuzione f(X)), si calcolala funzione cumulativa F (x), da cui P = 1 − F (x).Se la verifica è lower-tailed ⇒ P = F (x).Se la verifica è two-tailed ⇒ P = 2[1 − F (|x|)].G. Costabile


Inferenze basate su due campioni/1z Test e CI per la differenza tra le medie di 2 popolazioni1. X 1 , X 2 , . . . , X m campione casuale da popolazione (µ 1 , σ 2 1 )2. Y 1 , Y 2 , . . . , Y n campione casuale da popolazione (µ 2 , σ 2 2 )3. X e Y sono indipendentiE[ ¯X − Ȳ ] = µ 1 − µ 2 ⇒ ¯X − Ȳ (≡ ˆθ) è un estimatore corretto di µ 1 − µ 2 (≡ θ)eσ θ ≡ σ ¯X− Ȳ = √σ21m + σ2 2n .Lo statistico di verifica avrà la forma (ˆθ−valore nullo)/σ θ .Se le σ 2 i sono incognite, devono essere stimate dal campione.G. Costabile


Inferenze basate su due campioni/2Procedura di verifica per popolazioni normali con varianze noteDall’assunto segue che ¯X − Ȳ ha distribuzione normale con E[ˆθ] e V dati nellaslide precedente. La variabile normale standard saràZ = ¯X − Ȳ − (µ 1 − µ 2 )√σ12m + σ2 2nNella verifica di ipotesi si supporrà che µ 1 − µ 2 = ∆ 0 . Quindi,H 0 : µ 1 − µ 2 = ∆ 0Ipotesi nullaz = ¯x − ȳ − ∆ 0√σ12m + σ2 2nValore dello statistico di verificaL’ipotesi alternativa H a : µ 1 − µ 2 > ∆ 0 (oppure H a : µ 1 − µ 2 < ∆ 0 , oppureH a : µ 1 − µ 2 ≠ ∆ 0 ) determina come regione di reiezione per un livello αl’intervallo z ≥ z α (oppure z ≤ z α , oppure z ≥ z α/2 e z ≤ −z α/2 ,rispettivamente).L’ipotesi di normalità delle distribuzioni delle popolazioni è superflua sele dimensioni dei campioni sono grandi, in virtù del CLT.G. Costabile


Inferenze basate su due campioni/3Intervalli di Confidenza per µ 1 − µ 2Se le distribuzioni delle popolazioni sono normali, la standardizzazione di ¯X − Ȳproduce una rv Z che ha distribuzione normale standard. Fissato α,⎛⎞P ⎝−z α/2


Inferenze basate su due campioni/4z Test e CI per la differenza tra le medie di 2 popolazioniIn molti casi reali, almeno uno dei due campioni è piccolo e le σi 2 sono incogniteAssumendo popolazioni normali aventi la stessa varianza σ 2 (incognita),l’estimatore di µ 1 − µ 2 è ancora ¯X − Ȳ , che ha distribuzione normale, mentre lavarianza è V ( ¯X − Ȳ ) = σ2 (1/m + 1/n). Indicando con S1 2 ed S2 2 le varianzedei campioni, la stima di σ 2 si ottiene come:e si dimostra che lo statisticoS 2 p = (m − 1)S2 1 + (n − 1)S2 2m + n − 2T = ¯X − Ȳ − (µ 1 − µ 2 )√1S pm + 1 nha una distribuzione t con m + n − 2 gradi di libertà.Se l’ipotesi da verificare è H 0 : µ 1 − µ 2 = ∆ 0 , il valore dello statistico di verificasaràt = ¯x − ȳ − ∆ 0√1s pm + 1 nG. Costabile


Analisi di dati categorici/1• Categoria: criterio per il raggruppamento delle osservazioni• Ogni dato del campione appartiene ad una tra un numero finito di categorie.• p i : probabilità che una particolare osservazione appartenga alla categoria i(o che la proporzione della popolazione appartenga alla categoria i)• H 0 : p i hanno tutte un valore specificato• Le p i possono dipendere da un numero di parametri k < i, che devonoessere stimati prima del testProblema: Costruire uno statistico di verifica che misuri la discrepanzatra il numero di dati osservati nelle categorie ed il numero atteso se H 0 èveraG. Costabile


Analisi di dati categorici/2Esperimento Multinomiale: Fissato il numero di prove n, l’esito di una provapuò essere uno tra k valori (k > 2). Il numero delle osservazioni che cadrannonella categoria i è, prima dell’esperimento, una rv N i che assume valori n i(⇒ ∑ i N i = n, ∑ i n i = n)Verifica dell’ipotesi:• H 0 : p 1 = p 10 , p 2 = p 20 , . . . , p k = p k0• H a : almeno una delle p i ≠ p i0Il numero di osservazioni attese nella i−esima categoria, se H 0 è vera, èE[N i ] = np i0 , il numero sperimentalmente rilevato è n i .Una misura della discrepanza tra aspettazione ed osservazione si ottienesommando i valori relativi dei quadrati delle loro differenze.Il test del χ 2Teorema: Se np i ≥ 5 ∀i, la rvχ 2 =k∑i=1(N i − np i ) 2ha approssix una pdf “chi-quadro” con ν = k − 1 gradi di libertà,µ = ν, σ 2 = 2ν.np iG. Costabile


Analisi di dati categorici/3La verifica di ipotesi diventa:• H 0 : p 1 = p 10 , p 2 = p 20 , . . . , p k = p k0• H a : almeno una delle p i ≠ p i0• Valore dello statistico di verifica:k∑χ 2 =i=1(n i − np i0 ) 2np i0• Regione di reiezione: χ 2 ≥ χ 2 α,k−1Il test può essere applicato all’ipotesi che un campione provenga da unapopolazione con una specificata pdf f 0 (x) di una rv X. Suddivisa X in kintervalli [a 0 , a 1 [, . . . , [a k−1 , a k [ seguep i0 = P (a i−1 ≤ X < a i ) =∫ aia i−1f 0 (x) dxGli intervalli dovrebbero essere scelti sicché np i0 ≥ 5 ∀i. Spesso sono sceltirendendo uguali le np i0 .G. Costabile


Analisi di dati categorici/4Vantaggi del test del χ 2 :• Il test può essere applicato per distribuzioni discrete (binomiale,Poisson,...), mentre altri (Kolmogorov-Smirnov, Anderson-Darling) possonoessere applicati solo per distribuzioni continue• In generale, può essere applicato a qualunque distribuzione univariata di cuisi possa calcolare la funzione cumulativaSvantaggi:• La scelta degli intervalli (categorie) è arbitraria; scelte diverse produconorisultati simili ma non identici• Richiede che la dimensione del campione sia sufficientemente grande perchésia soddisfacente l’approssimazione che la distribuzione dello statistico diverifica sia la “chi-quadro”.G. Costabile


Analisi di dati categorici/4Il test di Kolmogorov-SmirnovÈ usato per decidere se un campione proviene da una popolazione con unaspecifica pdf continua ed è basato sulla funzione di distribuzione empirica(ECDF).Assegnati N dati ordinati Y 1 , Y 2 , . . . , Y N , la ECDF è definita comeE N = n(i)/Ndove n(i) è il numero di punti che hanno valore minore di Y i e le Y i sono inordine crescente.Questa è una funzione a gradini che cresce di 1/N al valore di ogni datosuccessivo.Il test misura la massima distanza tra la ECDF e la funzione cumulativa delladistribuzione ipotizzata.G. Costabile


Analisi di dati categorici/5La verifica di ipotesi diventa:• H 0 : i dati seguono una distribuzione specificata• H a : i dati non seguono la distribuzione specificata• Valore dello statistico di verifica:(D = max1≤i≤NF (Y i ) − i − 1N, iN − F (Y i)dove F è la funzione cumulativa teorica della pdf da verificare• Regione di reiezione: Fissato α, si ricava da tavole numericheVantaggi: Il valore critico di reiezione non dipende dalla specifica distribuzioneda verificarePrincipali limitazioni:• È molto più sensibile nella zona centrale che nelle code• I parametri della distribuzione da verificare non devono essere stimati daidati adoperati per il testCi sono in letteratura definizioni diverse di D. Attenzione alle tavole!)G. Costabile


Analisi di dati categorici/6Il test di Anderson-DarlingÈ usato per decidere se un campione proviene da una popolazione con unaspecifica pdf continua ed è una modifica del test di Kolmogorov-Smirnov perattribuire maggior peso alle code.La verifica di ipotesi diventa:• H 0 : i dati seguono una distribuzione specificata• H a : i dati non seguono la distribuzione specificata• Valore dello statistico di verifica: A 2 = −N − S, doveS =N∑i=1(2i − 1)N [ln F (Y i) − ln (1 − F (Y N+1−i ))]dove F è la funzione cumulativa teorica della pdf da verificare• Regione di reiezione: Fissato α, si ricava da tavole numeriche, ciascunarelativa ad una specifica distribuzioneLimitazione: Le tavole esistono solo per alcune distribuzioni.G. Costabile


G. CostabileAnalisi di dati categorici/3

More magazines by this user
Similar magazines