12.07.2015 Views

Inferenza e test statistici - Dipartimento di Economia e Statistica

Inferenza e test statistici - Dipartimento di Economia e Statistica

Inferenza e test statistici - Dipartimento di Economia e Statistica

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Esperimento deterministicoEsperimento casualeOvunque si attivi un processo <strong>di</strong> osservazione e/o misurazione <strong>di</strong> un fenomenosoggetto a variazione c’è un esperimentoL’esito <strong>di</strong> un esperimento deterministico è preve<strong>di</strong>bile con certezzaESEMPIO: area del quadrato:Y = X 2X=Latonoto il lato, l’area del quadrato è univocamentedeterminata: x=5-->y=25Negli esperimenti <strong>di</strong> laboratorio relativi a molte leggifisiche le relazioni sono “quasi-deterministiche” in cuigli errori sono imputabili a problemi <strong>di</strong> misurazione.Un esperimento casuale è una prova che può essere riproposta -fisicamente o virtualmente- una, due, infinite volte nelle medesimecon<strong>di</strong>zioni senza che si possa stabilire quale sarà l’esito dellaprossima manifestazione.EsempioCi sono situazioni in cui l’incertezza è non è trascurabile ed altre in cui èdominanteEsperimento e variabili casualiL’esperimento casuale è una prova il cui esito è soggetto alla sorteIn genere non siamo interessati a tutto l’esperimento, ma a suoi aspettiparticolari: le variabili casuali.EsperimentoScelta casuale <strong>di</strong> una persona abbonata ad una pay-TVL’ora, il luogo e le modalità con cui si verifica un incidente automobilistico<strong>di</strong>pendono da innumerevoli fattori ed una mo<strong>di</strong>fica in qualcuno potrebbeevitare il sinistro.Non è possibile stabilire, tra tutti coloro che si metteranno in macchinadomani, chi subirà un incidente, ma è praticamente certo che aqualcuno capiterà (si spera con solo lievi danni al mezzo).Variabili casualiCanale su cui è sintonizzata la TV al momento del contatto (nominale)Numero <strong>di</strong> cambi <strong>di</strong> canale ogni 15 minuti (<strong>di</strong>screta)Tempo <strong>di</strong> accensione domenicale nella fascia oraria 14-18 (continua)Casuale è l’esperimento, casuali saranno i valori osservati.Le variabili casuali sono figlie dell’esperimento casuale.


Esperimento e variabili casualiL’esperimento casuale è una prova il cui esito è soggetto alla sorteIn genere non siamo interessati a tutto l’esperimento, ma a suoi aspettiparticolari: le variabili casuali.EsperimentoScelta casuale <strong>di</strong> una persona abbonata ad una pay-TVVariabili casualiCanale su cui è sintonizzata la TV al momento del contatto (nominale)Numero <strong>di</strong> cambi <strong>di</strong> canale ogni 15 minuti(<strong>di</strong>screta)Tempo <strong>di</strong> accensione domenicale nella fascia oraria 14-18 (continua)Casuale è l’esperimento, casuali saranno i valori osservati.Le variabili casuali sono figlie dell’esperimento casualeVariabili casuali e probabilitàAd ogni modalità della variabile nominale o <strong>di</strong>screta, l’esperimento casualefornisce in dote una probabilità: in forma tabellare o con una formulaEsperimentoScelta casuale <strong>di</strong> una persona iscritta nelle liste elettoralidel comune <strong>di</strong> SerranoVariabili casualiCoalizione per cui ha intenzione <strong>di</strong> votareCoalizione TendenzaDestra 0.3Centro 0.1Sinistra 0.2Altre 0.41.0Numero <strong>di</strong> votazioni a cui ha partecipato#%( 2i "1) 3p i= $ per i =1,2,…,20319600&% 0 altroveVOTEDEMOCRATVariabili casuali continuePer le variabili continue l’assegnazione può avvenire solo per classi <strong>di</strong>modalità ovvero con una funzione <strong>di</strong> densitàEsperimentoCorso <strong>di</strong> chiusura <strong>di</strong> un titolo alla borsa valoriVariabile casualeTasso <strong>di</strong> ren<strong>di</strong>mento in base al valore <strong>di</strong> chiusuraClassi <strong>di</strong> probabilitàTasso Probabilitàda -5.0 a -2.5 0.1da -2.5 a 0.0 0.1da 0.0 a +2.5 0.2da +2.5 a +5.0 0.5da +5.0 a +9.9 0.11.0!Modelli <strong>di</strong> variabili casualiLe probabilità (come tabella o come formula) derivano:Dalle con<strong>di</strong>zioni sperimentaliDall’aspetto descritto dalla variabile casualeDa informazioni aggiuntiveLa statistica ha elaborato molti modelli sia per le variabili nominali e <strong>di</strong>screteche per le variabili continue.Molti possono essere stu<strong>di</strong>ati e approfon<strong>di</strong>ti nel libro <strong>di</strong> <strong>test</strong>o(appren<strong>di</strong>mento libero)Funzione <strong>di</strong> densità( ) =h x2( x + 5)$&% 75& 2 10 " x'( )75" 5 < x # 00 < x #10-5 010Nel prosieguo analizzeremo un solo tipo <strong>di</strong> esperimento: estrazione <strong>di</strong> uncampione da una popolazione <strong>di</strong> unità.Attenzione! Le variabili casuali sono delle popolazioni.!


La funzione <strong>di</strong> ripartizioneCalcolo delle aree sottese alla curvaLe probabilità cumulate sono espresse daè sono calcolate con meto<strong>di</strong> <strong>di</strong> approssimazione numerica=DISTRIB.NORM.ST()Esprime la probabilità <strong>di</strong> osservare unvalore della normale tra “a” e “b”Importanza della normaleRisiede nel fatto che moltissimi fenomeni possono esservi rappresentati.La t <strong>di</strong> StudentQuesto modello è molto simile a quello gaussiano, maha code più ”pesanti” (or<strong>di</strong>nate estreme più alte)Infatti, la normale serve da efficace approssimazione <strong>di</strong> molte altrevariabili casuali continue e <strong>di</strong>screte.!"< t n < ", n > 2E( t n ) = 0, Var( t n ) =nn ! 2La varianza è superiore all'unità, masi avvicina ad uno all'aumentare <strong>di</strong> "n"L'elemento caratterizzante della t <strong>di</strong> Student sono "i gra<strong>di</strong> <strong>di</strong> libertà" nche è il parametro della t <strong>di</strong> Student.Già nel 17° secolo, Galileo <strong>di</strong>scusse il comportamentodelle misurazioni delle <strong>di</strong>stanze astronomiche avendoin mente il modello normale della compensazione traerrori <strong>di</strong> segno opposto.Per ogni grado <strong>di</strong> libertà esiste una t <strong>di</strong> Student, sebbene queste <strong>di</strong>ventino poco<strong>di</strong>stinguibili per n!60.Questa v.c. è stata analizzata da W.S. Gosset, nel 1906, che firmò l'articolocon lo pseudonimo "STUDENT" ed è da allora nota come "La t <strong>di</strong> Student"


" 2 (chi-quadrato)Questo modello è definito per i soli non negativi e presenta una marcata asimmetriapositivaAnche in questo caso l'elementocaratterizzante sono "i gra<strong>di</strong> <strong>di</strong>libertà" cioè “g”E (! 2 ) = g, Var (! 2 ) = 2gParametri delle <strong>di</strong>stribuzioni1. Posizione: specificano la tendenza centrale dei valori nelmodello od anche il punto <strong>di</strong> massimo addensamentoPDF for NormalX ~ N(20, 5) X ~ N(50, f(x) 5)Per “g” superiore a 30 la <strong>di</strong>stribuzione del " 2 si avvicina a quella normaleRANGE10. CM 6La <strong>di</strong>stribuzione del " 2 si incontra nellostu<strong>di</strong>o dell’adattamento e della variabilitàIND EXQuesta è importante nelle analisi clinichee nel controllo della qualitàA RTE RYADULT SIZE0 10 20 30 40 50 60 70xParametri delle <strong>di</strong>stribuzioni/2Parametri delle <strong>di</strong>stribuzioni/32. Scala: determinano l’unità <strong>di</strong> misura della variabile (espansione ocontrazione della scala delle ascisse)3. Forma: Controllo la forma che assume il modello <strong>di</strong> probabilità. Inparticolare, l’asimmetria, l’appuntimento al centro, la pesantezzadelle codePDF for NormalX ~ N(20, 3)f(x)f(x)PDF for BetaX ~ N(20, 5)X ~ Beta(3, 2) X ~ Beta(2, 3)0 5 10 15 20 25 30 35 40x0.0 0.2 0.4 0.6 0.8 1.0 1.2x


inferenza statisticaSe non si hanno dati atten<strong>di</strong>bili su tutta la popolazione allora si devetrattare con un campione.Logica della <strong>Inferenza</strong>"statisticaLe situazioni in cui la statistica si è più affermata sono gliesperimenti replicabili.Il campione non interessa <strong>di</strong> per sé, ma in quanto consente <strong>di</strong> arrivare allapopolazione da cui è stto estratto.Il processo induttivo dal NOTO (campione) all’iNCOGNITO (popolazione)prende il nome <strong>di</strong> INFERENZA STATISTICA.Le esigenze conoscitive si limitano spesso a pochecaratteristiche dell’esperimento: valore atteso evarianza <strong>di</strong> una o più variabili.E S P E R I M E N T OM O D E L L OPer proseguire dobbiamo però ipotizzare che il meccanismo <strong>di</strong> selezionedelle unità sia soggetto alla sorteAd ogni campione deve essere possibile associare la probabilità <strong>di</strong>estrarlo (VEROSIMIGLIANZA)Tali caratteristiche sono spesso i parametri del modelloche descrive il comportamento delle variabili casuali.P A R A M E T R IC a m p i o n eCome sfruttare al meglio le informazioni del campione perdeterminare il valore dei parametri nella popolazione?Le procedure inferenzialiLa stima puntualeCiò che interessa questo corso è riconducibile ai seguenti casi:E' la procedura più semplice: in base alle osservazioni campionarie si ottieneil valore <strong>di</strong> una statistica da sostituire al parametro o alla caratteristica da stimareLA STIMA PUNTUALE DEI PARAMETRIquando propone un singolo valore come stima <strong>di</strong> un parametro o <strong>di</strong> unacaratteristica della v.c.C'è da aspettarsi un certo scarto trala stima puntuale ed il parametroincognito, ma noi non conosceremomai né l'entità né il segno.LA VERIFICA DI IPOTESIEssa <strong>di</strong>pende da molti fattori, alcunidei quali saranno stu<strong>di</strong>ati nelprosieguo del corso.Da esperienze precedenti o dalla logica delle indagini si può supporre che i parametriabbiano determinati valori.La stima puntuale nulla ci <strong>di</strong>ce sulla sua atten<strong>di</strong>bilità che deriva solo dallavali<strong>di</strong>tà generale della procedura <strong>di</strong> stima


Gli stimatoriLo stimatore è una funzione NOTA dei valori inclusiin un campione casuale. Il suo valore è la STIMAE’ caratteristica quantitativa della popolazione dallaquale il campione è stato estratto.Esempi <strong>di</strong> stimatori:ESEMPIO:Stimatore e stimaQuale stipen<strong>di</strong>o si può aspettare la manager <strong>di</strong> una USL?Si sceglie un campione casuale <strong>di</strong>ciamo <strong>di</strong> n=3 manager già in servizio e sicalcola il valore atteso della loro retribuzione. Supponiamo che µ x =65il valore "65 mila euro" è una STIMA del salario ipotetico, la me<strong>di</strong>a campionaria èuno STIMATORE del salario.La stima è il valore assunto dallo stimatoreper un campione cioè in uno specifico puntodell’universo dei campioni=!^il valore può variare dacampione a campioneUno stimatore è detto naturale se ciò che si calcola nel campione è instretta analogia con ciò che si deve stimare nella popolazioneValori possibilidel parametro !StimaEsempioL'estrazione del campione produce la n-tuplasono le osservazioni campionarieOgni n-tupla, a sua volta, produce un valore dello stimatoreSi esamina un campione casuale <strong>di</strong> 10imprese e si rileva X il numero <strong>di</strong> <strong>di</strong>pendentiregolari.Il valore della X è casuale perché non ècerta quale azienda finirà nel campioneOsservazionicampionariei cui elementiLa <strong>di</strong>stribuzione degli stimatoriLo stimatore è una variabile casuale connessa all’esperimento: estrazionecasuale <strong>di</strong> un campione.Conoscere la sua <strong>di</strong>stribuzione ci serve per descrivere l’andamento deirisultati che si possono osservare replicando il campione.Dobbiamo ricordare che…Stimare significa dare un valore a qualcosaCalcoliamo alcuni stimatoriLa stima ottenuta da un campione può essere <strong>di</strong>versa da quellaottenuta con un altro campioneLa stima tende <strong>di</strong>fferire dal parametro da stimare, ma se conosciamola <strong>di</strong>stribuzione campionaria dello stimatore possiamo quantificareprobabilisticamente l’errore


Degli stimatori ci interessa:Valore attesoUn altrfo aspetto essenziale èLa varianzakE( T ) = ! T i Pr T = T ii=1( )il valore atteso è il valore della me<strong>di</strong>a aritmetica <strong>di</strong> "T" calcolata su tutti ipossibili campioni <strong>di</strong> ampiezza “n”.k! 2 ( T ) = # T i " E( T)i=1[ ] 2 Pr( T = T i )k 2T= # ik " E( T)i =1[ ] 2Se la me<strong>di</strong>a E(T)=# cioè il parametro da stimare, allora T è uno stimatoreNON DISTORTOLo scarto E(T) - # è detto Bias (pron. baias)La varianza dello stimatore dà una in<strong>di</strong>cazione delle fluttuazioni campionariecioè quantifica le <strong>di</strong>fferenze tra i suoi valori potenziali nei <strong>di</strong>versi campioni.illustrazioneCaratteristica importanteUno stimatore valido dovrebbe avere una varianza che tende a zeroBias elevato, moderata variabilitàBias moderato, elevatata variabilitàBias elevato, elevata variabilitàBias moderato, moderata variabilitàSe la varianza dello stimatore tende a zero all’aumentare dell’ampiezza delcampione, allora lo stimatore è considerato CONSISTENTE (COERENTE)


Legge dei gran<strong>di</strong> numeriDi solito si ignora la variabile casuale che può descrivere un dato aspettodella popolazione.Di conseguenza non è possibile costruire la <strong>di</strong>stribuzione degli stimatori.Inoltre, uno stesso stimatore ha una <strong>di</strong>stribuzione campionaria <strong>di</strong>versa in<strong>di</strong>pendenza del tipo <strong>di</strong> variabile casuale che descrive la popolazione.C’è una via d’uscita? La legge dei gran<strong>di</strong> numeri!Quincux1) Le biglie entrano nell’imbuto dai vari fori2) Le biglie escono dall’imbuto una alla volta3) Le biglie rimbalzano a caso tra i vari pioli4) Ogni biglia imbocca una sola scanalaturaRisultato finaleSe la <strong>di</strong>stribuzione non è nota, ma il campionecasuale è abbastanza numeroso e le estrazionisono in<strong>di</strong>pendenti è possibile approssimare la<strong>di</strong>stribuzione degli stimatori con il MODELLONORMALESchema dell’inferenza statisticaTest delle ipotesiSi deve stabilire il grado <strong>di</strong> atten<strong>di</strong>bilità <strong>di</strong> una ipotesi statisticaSe la decisione si potesse basare sullaconoscenza totale si avrebbe una conclusionedefinitiva: l'ipotesi è VERA o FALSA.Come in molte scienze sperimentali non potremo<strong>di</strong>mostrare vera o falsa una affermazione.Potremo solo affermare: è più coerente o menocoerente con i nostri dati campionari.


Formalismo dei TestL'IPOTESI STATISTICA H 0è una asserzione verificabile su <strong>di</strong> una variabilecasuale. In genere riguarda i suoi parametri.Formalismo dei Test/2il valore # 0è scelto in base a varie considerazioni:Supponiamo <strong>di</strong> conoscere la funzione <strong>di</strong> densità della v.c.: f(X;#) <strong>di</strong> cuiperò ignoriamo il valore del parametro #.In genere, la H 0ipotizza un certo valore del parametro e ne valuta la suaconformità con i dati campionariH 0: " # " 0= 0Dalla logica dell'esperimentoDa esperienze precedenti o indagini pilotaE' un livello critico (baseline) da cui allontanarsiÈ detta “nulla” perché, <strong>di</strong> solito, niente cambia se è accettataE' un livello desiderato!Formalismo del Test/3Consideriamo L'UNIVERSO DEI CAMPIONI <strong>di</strong> ampiezza “n” cioè l'insieme<strong>di</strong> tutte le possibili realizzazioni della n-tupla …Formalismo del <strong>test</strong>/4Le fluttuazioni campionarie fanno ritenere che ci siano <strong>di</strong>fferenze più o menogran<strong>di</strong> tra campione e popolazione da cui è estratto.n=3Dobbiamo dotarci <strong>di</strong> uno strumento che ci aiuti a giu<strong>di</strong>care se le <strong>di</strong>fferenzesono significative (rifiutiamo H 0) o poco significative (non rifiutiamo H 0)In tale spazio, il campione estratto èsolo un punto.Le <strong>di</strong>fferenze sono da considerarsi significative se è bassa la probabilità chesiano ascrivibili solo a mere variazioni campionarie.L'idea del <strong>test</strong> è <strong>di</strong> assegnare ad ogni campione una probabilità dettaLIVELLO OSSERVATO DI SIGNIFICATIVITA’ (p-Value)Quanto bassa?E’ soggettivo!e in base a questo decidere sull’ipotesi H 0.


La statistica <strong>test</strong>E’ l’anello <strong>di</strong> congiunzione tra universo dei campioni e valori del parametroLa <strong>di</strong>stribuzione della statistica <strong>test</strong> T(X;#) è funzione:Del campione casuale ( X 1, X 2,…, X n )Del parametro da stimare: #Le statistiche <strong>test</strong> più in uso sono del tipo:( ) = T #"$ ( T)T X;"Applicazione/1Una docente sa che -storicamente- i risultati dei suoi esami scritti hannoµ=25, !=3.Però, nell’ultima prova, i risultati dei primi 10 compiti sono molto scadenti.Che si tratti un corso ad alta densità <strong>di</strong> ciucci?Come statistica <strong>test</strong> sembra ovvio scegliere la me<strong>di</strong>a campionaria.!Ipotesi nulla H 0: (µ " 25) = 0Ipotesi alternativa H 1: µ < 25La docente rifiuterà H 0se il voto me<strong>di</strong>o osservato nel campione sarà moltopiù piccolo <strong>di</strong> 25.Il fatto che si rifiuti H 0non implica necessariamente che accetti H 1.Potrebbe anche decidere <strong>di</strong> rinviare la decisione in attesa <strong>di</strong> avere più dati.L’ipotesi alternativa è inserita soprattutto per stabilire la <strong>di</strong>rezione del <strong>test</strong>!Applicazione/2N.B. si è sostituito l’evento puntoµ=23 con l’evento intervallo µ!23Applicazione/3Dopo aver corretto altri 25 compiti risulta che, su questi, si haA questo punto sorge un altro dubbio: che l’assistentedel corso, imbranato come una foca, abbia mischiato icompiti con quelli della classe “advanced” !ˆ µ = 27Ipotesi nulla H 0: (µ " 25) = 0Ipotesi alternativa H 1: µ > 25La <strong>di</strong>rezione del <strong>test</strong> è ora verso i valorialti poiché i valori inferiori a 25 nonfanno sorgere questo tipo <strong>di</strong> dubbio!( ) " P&ˆP µ ˆ ! 27µ = 25$ µ # 25 27# 25'! ) = P( Z ! 1.2) =1 # 0.8849= 0.1151% 1.6667 1.6667(Lo scarto 25-27 è poco compatibile con l’ipotesiUn valore superiore maggiore o uguale <strong>di</strong> 27 lo si può trovare nell’11% deicampioni da popolazioni aventi me<strong>di</strong>a 25. L’assistente si salva.


P-Value/2Dipende sia dalla <strong>di</strong>stribuzione della statistica <strong>test</strong> che dal tipo <strong>di</strong> alternativa.Se P -value # 1%.GuidaAl<strong>di</strong>là <strong>di</strong> ogni ragionevole dubbio si puòrifiutare H 0Nel caso della normale si ha:Se 1% # P -value # 5%. Ci sono buone ragioni per rifiutare H 0Se 5% # P -value # 10%.Ci sono ragioni per rifiutare H 0 , ma non sonodel tutto convincentiSe P -value > 10%. E’ consigliabile non rifiutare H 0I valori sono solo apparentemente bassi.Formule analoghe possono essere determinate per la t-Student e per le altre<strong>di</strong>stribuzioni coinvolte nella verifica <strong>di</strong> ipotesi (chi-quadrato, F-Fisher, etc.)Le con<strong>di</strong>zioni <strong>di</strong> applicabilità dei <strong>test</strong> (adesempio la <strong>di</strong>stribuzione normale) sonovalide solo in parte).Di conseguenza, solo una forte evidenzapuò convincere a rifiutare l’ipotesi nulla(angolatura conservativa)EsempioUna compagnia controlla la situazione <strong>di</strong> magazzino in base alle ven<strong>di</strong>te dell'annoprecedente. Si supponga che gli or<strong>di</strong>ni dell'anno precedente abbiano dato luogoµ=36 miliar<strong>di</strong> e !=2 miliar<strong>di</strong>Nel primo quadrimestre (n=225) si è riscontrato µ x=35.82. Ci sono cambiamenti?H 0 : µ = 36H 1 : µ ! 36" 35.82 ! 36%Z c = 225$' = !1.35# 2 &Poiché n è grande possiamo utilizzare la normale cioè la statistica <strong>test</strong>Ampiezza del campione e p-valueLa statistica <strong>test</strong> è uno stimatoreconsistente del parametro sottoipotesi.Quin<strong>di</strong>, all’aumentaredell’ampiezza del campione, lasua variabilità si riduce.Questo implica che le code della<strong>di</strong>stribuzione della statistica <strong>test</strong><strong>di</strong>ventano più sottili.n!più!grandeA parità <strong>di</strong> p-value, la corrispondente statistica <strong>test</strong> è inferiore.n!più!piccoloT 1(X;!) T(X;!)Ovvero, la stessa statistica <strong>test</strong> può avere un p-value più piccolo perché ilcampione è più grande.Cioè circa 18 volte su 100, il campione <strong>di</strong> n=225 estratto dalla popolazione N(36;2)<strong>di</strong>sterà più <strong>di</strong> 1.35 dalla me<strong>di</strong>a ipotizzata. Il valore 35.82 non è allora troppo strano.Non ci sono ragioni sufficienti per pensare ad un cambiamentoATTENZIONE!Campioni molto gran<strong>di</strong> possono rendere significative dei valori della statistica<strong>test</strong> poco rilevanti dal punto <strong>di</strong> vista pratico.


EsercizioLa produzione me<strong>di</strong>a per ettaro è stata <strong>di</strong> 18Kg con !=7.12. L’uso <strong>di</strong> un nuovo fertilizzantesu n=30 ettari sperimentali, ha dato luogo aµ ˆ = 19.5Ipotesi nulla H 0 : (µ !18) = 0P( µ ˆ ! 19.5 µ = 18)" P$&&%µ ˆ # 187.12! 19.5#187.1230 30')) =(P( Z !1.15) = 1 # P( Z < 1.15) = 0.1251Il p-value è relativamente elevato. Non sembra ci sia sufficiente evidenza cheil nuovo fertilizzante incida significativamente sulla produttività.Importo42.62 Ampiezza 34 =Conta.Numeri(A2:A35)46.68 Campionaria51.7362.48 Me<strong>di</strong>a 48.84 =Me<strong>di</strong>a(A2:A35)50.28 Campionaria43.8652.47 Varianza nota 2540.99 Popolazione37.9746.00 H 0: != 5045.14 H 1: ! 018.7419.42 <strong>Statistica</strong> 2.28487638 =(D5-D11)/radq(D8/D2)16.15 Test11.0221.27 p-Value (coda superiore) 0.01116001 =1-Distr.Norm.St(D14)21.1128.1429.43 Si può rifiutare l'ipotesi che l'in<strong>di</strong>ce aziendale sia in equilibrio16.42 Affermando che è sbilanciato verso l'alto si sbaglia l'1%13.54 delle volte10.0316.4223.17Scarto-2.31-0.36-2.24-4.56-3.35-1.97-0.84-1.37-1.681.17-0.751.171.360.25-3.72-0.47-1.88-0.161.31-2.510.37-1.22-1.15-1.221.32-0.83-1.700.541.110.31-1.29-1.711.36-1.43-1.810.76-1.67-1.470.640.28-1.05-0.49AmpiezzaCampionariaMe<strong>di</strong>aCampionariaVarianza nota 2.25PopolazioneH 0 : != 0.0H 1 : ! " 0<strong>Statistica</strong>Test42 =Conta(A2:A43)-0.79 =Me<strong>di</strong>a(A2:A43)-3.41908683 =(D5-D11)/radq(D8/D2)p-Value (coda inferiore) 0.00031421 =Distr.Norm.St(D14)P-value (coda superiore) 0.99968579P-value (totale) 0.00062842 =2*Min(D17,D18)Si può senzaltro rifiutare l'ipotesi che il corso azionariosi stia stabilizzando intorno allo zero


Se ! è incognito...Il calcolo del p-value ha finora ipotizzato che ! fosse noto e questo è moltoirrealistico.In genere “!” è stimato cons =n"( X i ! µ ˆ ) 2i =1n ! 1EsempioUna società che produce mobili ha sempre saputo che percostruire un arredo completo sono necessarie µ=20 ore/lavoro.Di recente, si è anche assunta manodopera con contratto <strong>di</strong>formazione e si teme che questo faccia aumentare i tempi.Dalla rilevazione dei tempi su <strong>di</strong> un campione casuale <strong>di</strong> n=9arre<strong>di</strong> risulta:La statistica <strong>test</strong> in questo caso è basata sulla t-Studentt c= x "µsn#= n µ ˆ "µ &% ($ s 'P( t c" 4.748) =1# P( t c$ 4.748) = 0.0007TDIST(4.748;8;1)I tempi sono realmente aumentati, chi affermasse il contrario <strong>di</strong>rebbe la veritàsolo 7 volte su 10’000.!!!EsempioL'Antitrust ha <strong>di</strong>sposto un controllosulla compagnia aerea "Facta" chepropone un volo AZ tra due noti scali a110 minuti.In un campione <strong>di</strong> n=49 si trova:µ ˆ = 108, ! ˆ = 7Ipotesi nulla H 0: (µ "110) = 0Ipotesi alternativa H 1: µ #110$ 108 "110't c= 49&) = "2,% 7 (( ) =1" P( t c+ 2) =1" [ 1" P( t c* 2)] = P( t c* 2) = 0.0256( ) = 0.0512P t c* "2p " value = 2 0.0256La <strong>di</strong>chiarazione della compagnia non sembra infondata, almeno allaluce del campione analizzatoEsercizioLa biologia <strong>di</strong> molti laghi cambia in peggioa causa delle piogge acide. Un lago èconsiderato NON Acido se Ph!6Ecco il livello <strong>di</strong> Ph rilevati da due stu<strong>di</strong>osiitaliani in n=15 laghi alpini5.5 5.7 5.8 6.1 6.36.3 6.5 6.6 6.7 6.96.9 7.2 7.3 7.3 7.9Cosa si può <strong>di</strong>re sui laghi della zona esaminata?Ipotesi nulla H 0 : (µ ! 6)= 0Ipotesi alternativa H 1 : (µ > 6)"t c = 15 6.6! 6 %$ ' = 3.4586# 0.6719&( ) = 1 ! P( t c ) !3.4586) = 1 ! 1 ! P( t c ) 3.4586)P t c ( 3.4586!ˆ µ = 6.6s = 0.6719L’ipotesi può tranquillamenteessere rifiutata con un erroreprobabile del 2 per mille[ ]= P t c ) 3.4586( ) = 0.0019


Test sulla <strong>di</strong>fferenza tra me<strong>di</strong>e(Z-<strong>test</strong> cioè varianze note)In<strong>di</strong>chiamo con D la <strong>di</strong>fferenza ipotizzata tra le due me<strong>di</strong>e (spesso èzero) abbiamoEsempioLa proprietà <strong>di</strong> un ristorante vuole sapere se lanuova campagna pubblicitaria ha aumentato gliincassi. Ecco i risultati per il periodo precedentela campagna e per il periodo seguentePrima Dopon 50 30µ ˆ 12.55 13.30! ˆ 215 238( µZ c =ˆ 1 ! µ ˆ 2 ) ! µ 1 ! µ 22" 1+ " 2 2n 1 n 2( )La stessa procedura si applica se le ampiezze dei campioni sonoentrambe molto gran<strong>di</strong> ed i campioni sono in<strong>di</strong>pendentiBasterà sostituire alle varianze incognite le loro stime campionariePer verificare l'ipotesi che la campagna sia stata efficace si pone" H 0 : µ 1 = µ#2$ H 1 : µ 1 ! µ 2Z c =12.55 !13.30215 250 + 238230= ! 0.7553.03 = !1.41Poiché il p-value del <strong>test</strong> è del 7.9% non possiamo rifiutare l'ipotesi H 0datoche un errore dell’8% è troppo alto statisticamente.A questo punto non c'è evidenza della efficacia della campagnaEsercizioUn’indagine sulla spesame<strong>di</strong>a <strong>di</strong> trasporti tra operatied impiegati ha dato luogo aiseguenti risultatiLa <strong>di</strong>fferenza nelle spese èsignificativa all’uno per milleA B C D E F1TEST SULA DIFFERENZA TRA MEDIE - VARIANZE NOTE2 Operai Impiegati SRUMENTI-ANALISI DEI DATI-3 11.14 13.02 Test z: due campioni per me<strong>di</strong>e4 16.51 19.775 15.07 17.96 Test z: due campioni per me<strong>di</strong>e6 18.41 22.157 10.49 12.20 Variabile 1 Variabile 28 19.70 13.77 Me<strong>di</strong>a 15.9503 17.80729 14.56 17.32 Varianza nota 3.5 4.110 16.12 19.28 Osservazioni 35 1911 17.52 21.03 Differenza ipotizzata per le me<strong>di</strong>e 012 21.60 22.67 z -3.304413 16.11 19.27 P(Z


!EsempioUna <strong>di</strong>tta produttrice <strong>di</strong> batterie vanta una duratame<strong>di</strong>a µ 1=75 ore con SQM <strong>di</strong> 7 ore (valori ricavatida un campione casuale semplice <strong>di</strong> n 1=20batterie)Un campione <strong>di</strong> n 2=15 batterie <strong>di</strong> una <strong>di</strong>ttaconcorrente ha dato luogo ad una me<strong>di</strong>a <strong>di</strong> µ 2=70ore con SQM <strong>di</strong> 5 ore." H 0 : µ 1 = µ#2$ H 1 : µ 1 ! µ 2p " value =1" T 33(2.35) =1.25%La <strong>di</strong>tta potrebbe avere qualche ragione a sostenere che le sue batterie duranopiù a lungo rispetto a quelle dei concorrenti1234567891011121314151617181920212223EsercizioTempi me<strong>di</strong> <strong>di</strong> completamento <strong>di</strong> un compito <strong>di</strong>stinti per sessoA B C D E F GTEST SULLA DIFFERENZA TRA MEDIE - PICCOLI CAMPIONI - VARIANZE INCOGNITE MA UGUALIMaschi Femmine118.38 118.38 Test t: due campioni assumendo uguale varianza118.38 105.74105.74 109.35 Variabile 1 Variabile 2109.35 117.19 Me<strong>di</strong>a 119.3386 120.3630117.19 113.26 Varianza 66.8361 65.5155113.26 126.59 Osservazioni 15 19126.59 125.65 Varianza complessiva 66.0933125.65 107.41 Differenza ipotizzata per le me<strong>di</strong>e 0.0000107.41 121.63 gdl 32.0000121.63 124.45 Stat t -0.3648124.45 123.42 P(T


EsercizioConfronto dei guadagni iniziali traLaureati non laureati.Lo scarto <strong>di</strong> 300 euro non risultasignificativo123456789101112131415161718192021222324252627282930313233343536373839A B C D E FTEST T- DUE CAMPIONI ASSUMENDO VARIANZE DIVERSELaureati Non laureati2123.77 1885.65 Test t: due campioni assumendo varianze <strong>di</strong>verse1720.96 1281.441924.34 1586.50 Variabile 1 Variabile 21670.92 1206.38 Me<strong>di</strong>a 1783.5170 1356.08151559.65 1039.48 Varianza 55948.8161 140122.46051386.49 779.73 Osservazioni 36 251598.77 1098.16 Differenza ipotizzata per le me<strong>di</strong>e 3001969.72 1654.58 gdl 371616.39 1124.58 Stat t 1.506131516.71 975.07 P(T


Test della <strong>di</strong>fferenza tra proporzioni(H0: $ 1 -$ 2 %0)e la verifica <strong>di</strong> potesi si basa sulla statistica:EsempioLa dott.ssa Velia Zupo sostiene che l'inserimento <strong>di</strong> specifiche immagini sullahome page dell'azienda aumenterà <strong>di</strong> almeno il 10% i contatti operativi con ilsito compensando i maggiori costi. Detto fatto.Nei tre mesi precedenti i contatti operativi furono 188 su 376 (0.50), nei tremesi successivi 260 su 400. Verifichiamo l'ipotesi della Zupo.Z c =(! ˆ 1 " ! ˆ 2 ) " ! 0! ˆ 1 ( 1 " ! ˆ 1 )+ ! ˆ 2 1" ˆn 1( )n 2! 2con#! ˆ 1 = x 1% n1$%! ˆ 2 = x 2& n2( ) = 0.1( ) > 0.1#%H 0: ! 1" ! 2$&%H 1: ! 1" ! 2Z c=( 0.65 ! 0.50) ! 0.10.65 * 0.35 0.50 * 0.50+400 376= 1.42P-value=1-NORMSDIST(1.42)=0.07780389Ed il p-value si ricava dalla normale standar<strong>di</strong>zzataNon ci sono sufficienti evidenze che la Zupo abbia ragione.Trasferita in portineria!Test della <strong>di</strong>fferenza tra proporzioni(H0: $ 1 -$ 2 =0)E' la situazione più <strong>di</strong>ffusa. Se è vera l'ipotesi non ci sono DUE popolazioni, masolo UNA e la stima della probabilità <strong>di</strong> successo è:! ˆ = x + x 1 2=n 1+ n 2n 1! ˆ 1+n 1+ n 2La verifica <strong>di</strong> ipotesi si basa sulla statistica:Z c =che tende alla normalità.(! ˆ 1 " ! ˆ 2 )# 1! ˆ ( 1 " ! ˆ ) + 1 &%$ n 1 n(2 'n 2n 1+ n 2ˆ ! 2EsempioUna delle applicazioni più eclatanti della statistica avvenne nel 1954 con ilvaccino <strong>di</strong> Salk per la poliomelite.Il vaccino fu somministrato ad un campione <strong>di</strong> n 2=200745 bambini trovandox 2=33 casi <strong>di</strong> polio e ad un altro campione <strong>di</strong> n 1=201229 bambini venne datoun placebo nella versione DOUBLE BLIND con X 1=110 casi." H 0: ! 1= ! 2#$ H 1: ! 1> ! 2Z c=0.00038226= 6.425! 10.00035574 *201229 + 1 $#&" 200745%P-value=1-NORMSDIST(6.425)=6.62455E-11La somministrazione del vaccino ha <strong>di</strong>mezzato i casi <strong>di</strong> poliomelite. Per casoquesto sarebbe potuto succedere solo una volta su 50 miliar<strong>di</strong>


P-Value per la correlazioneUna volta calcolato r(x,y) su <strong>di</strong> un campione <strong>di</strong> osservazioni cosa si può <strong>di</strong>resul coefficiente <strong>di</strong> correlazione che lega le due variabili nell’interapopolazione?H 0 : ! = 0 (assenza <strong>di</strong> un legame lineare)H 1 : ! " 0 (presenza <strong>di</strong> un legame lineare)p-Value per il rho <strong>di</strong> SpearmanUna volta calcolato rho su <strong>di</strong> un campione, cosa si può <strong>di</strong>re sul rho <strong>di</strong>Spearman che lega le variabili nell’intera popolazione?H 0: " = 0 (NON esiste una relazione monotona)H 1: " # 0 (Esiste una relazione monotona)La statistica <strong>test</strong> che si usa è"$t c = n ! 2$#r( y, x)1 ! r( y, x)[ ] 2%''&!La statistica <strong>test</strong> che si puo’ usare è la stessa del coefficiente <strong>di</strong> correlazione#t c = n ! 2%%$&" (1 ! " 2 ('Per n


Test del rapporto <strong>di</strong> verosimiglianzaQuesto tipo <strong>di</strong> <strong>test</strong> poggia su un risultato valido per gran<strong>di</strong> campioni eper un numero elevato <strong>di</strong> categorie <strong>di</strong> righe e <strong>di</strong> colonne.Il p-value è ottenuto dalla <strong>di</strong>stribuzione del chi-quadrato con (r-1)(c-1)gra<strong>di</strong> <strong>di</strong> libertà.Test del " 2 (chi quadrato)Questa metodologia è richiamata in tre <strong>di</strong>stinte occasioniAdattamento delle frequenze osservate ad un modelloAd esempioCHIDIST(37.5617;4)=0,00000014Omogeneità <strong>di</strong> due o più campioniChe induce a rifiutare l’ipotesi <strong>di</strong> assenza <strong>di</strong> legame. Il legame esiste ed èabbastanza dal puto <strong>di</strong> vista statistico:Con questa asserzione si rischia <strong>di</strong> sbagliare 7 volte su 5 milioniIn<strong>di</strong>pendenza in una <strong>di</strong>stribuzione doppiaL'analisi <strong>di</strong> dati categorialiOgni osservazione <strong>di</strong> un campione <strong>di</strong> ampiezza “n” è classificata in una eduna sola <strong>di</strong> “k” categorie fisse ed invariabili.Categ. fr.ass. fr.rel.X 1 n 1 f 1X 2 n 2 f 2M M MX k n k f kn 1Siamo convinti che <strong>di</strong>etro queste frequenze ci sia un meccanismoche determina il verificarsi <strong>di</strong> una modalità piuttosto che un’altraL'analisi <strong>di</strong> dati categoriali/2Supponiamo che l’acquisizione dei dati avvenga in forma <strong>di</strong> provein<strong>di</strong>pendenti svolte nelle stesse con<strong>di</strong>zioni.Ricorrono allora le con<strong>di</strong>zioni del modello multinomiale e la probabilitàdella configurazione ottenuta èCateg.P( X = X i )X 1 ! 1X 2 ! 2M MX k! k1P( n 1 , n 2 ,…, n k ) =n!n 1 !n 2 !…n k ! ! n 1 n1 ! 2 n2 …! kkNote le $ isarà possibile calcolare la probabilità <strong>di</strong> qualsiasi allocazione delcampione tra le varie categorie e poi decidere sull’entità della <strong>di</strong>fferenza


Classificazione <strong>di</strong> un gruppo <strong>di</strong> n=20persone per gruppo sanguigno:Categ. fr.ass. fr.rel.0 7 0.35A 4 0. 20B 3 0.15AB 6 0. 3020 1.00EsempioSupponiamo che i gruppisiano equiprobabili.# H 0 :! i = 0.25 per ogni i$% H 1 : ! i " 0.25 per almeno un iAlla luce della classificazione prodottasinel campione, c’è sufficiente evidenza <strong>di</strong>tale meccanismo?Sotto H 0la probabilità <strong>di</strong>20!osservare la configurazione è P( 7,4,3,6 ) =7! 4!3!6! 0. 2520 = 0. 0042il <strong>test</strong> del " 2il grande pregio della multinomiale è che la statistica( ) 2! 2 % k fc = n i " #$ i'& i=1# i( ) 2( n n* = i " n# i% n$ = $) i=1 n#'i &ha una <strong>di</strong>stribuzione che, per “n” abbastanza grande, è ben approssimatadalla " 2 (k-1) ( è richiesto che n*$ i! 5 per ogni “i”)2Poiché ! c è la somma ponderata <strong>di</strong> scarti al quadrato sarà nullo se e solo selo sono tutti gli addenti (perfetto adattamento).Ogni <strong>di</strong>screpanza tra teoriche ed osservate aumenta ilp-value) allontanandoci da H 0"""per avvicinarci ad H 1n i2i=1 n# i(* " n)2! c ( e quin<strong>di</strong> riduce ilAl momento non riusciamo a <strong>di</strong>re se è bassa o è alta dato che le possibilialternative sono moltissime.2 ( 7 " 5)! c =52Esempio (continua)+ ( 4 " 5)25+ ( 3 " 5)25+ ( 6 " 5)25Per i gra<strong>di</strong> <strong>di</strong> libertà si tiene conto che frequenze teoriche ed osservatecoincidono e che la somma la loro somma deve essere pari ad uno(quin<strong>di</strong>solo (k-1) sono libere <strong>di</strong> variare)Poiché la decisione verrà presa in base all'adattamento delle frequenze amodelli precostituiti si parla <strong>di</strong> <strong>test</strong> <strong>di</strong> adattamento (Goodness-of-fit Test ).= 10 5 = 2; gdl = (4 "1) = 3 Test sull'adattamentoSi vuole confermare o sconfermare l'ipotesi che le frequenze nel campionescaturiscano da una particolare <strong>di</strong>stribuzione:#%H 0 : ! i = ! 0 i , i = 1,2,…, k$&%H 1 : ! i " ! 0 i , per almeno un iP-ValueDISTRIB.CHI(2;3)=57.2%Si adopera la seguente statistica <strong>test</strong>:Non c’è quin<strong>di</strong> evidenza <strong>di</strong> una <strong>di</strong>stribuzioneNON uniforme dei pazienti per gruppo sanguigno( ) 2% 02 ' k f i " # i! c = n ' $0' i =1 #& i(*** = % n 2n (' $ i *0&'i=1n#) i )* " n


L’esperimento <strong>di</strong> MendelLa teoria <strong>di</strong> Mendel nacque dall’incrocio <strong>di</strong> piselli gialli lisci e piselli ver<strong>di</strong>corrugati: gli ibri<strong>di</strong> presenteranno i due caratteri in proporzioni determinate.EsercizioUn cliente può scegliere una particolare marca <strong>di</strong> caffé fra le tre in ven<strong>di</strong>ta suuno scaffale sotto osservazione. I risultati su 300 acquisti sono i seguentiH 0 :G. L.= 9 16 ; V.L.= 3 16 ; G.C.= 3 16 ; V .C.= 1 16i dati su cui si basò Mendel furonoCategoria frequenzeGialli lisci 315Ver<strong>di</strong> lisci 108Gialli corrugati 101Ver<strong>di</strong> corrugati 32556! 2 ( 315" 312.75) 2= + ( 108 "106.25 )2c 312.75 106.25= 0. 47+ ( 101"104.25)2312.7532 " 34.75+ ( )234.75il P-value del <strong>test</strong> è circa del 95% per cui non possiamo rifiutare H 0nemmeno a questi livelli “assur<strong>di</strong>” <strong>di</strong> significativitàC’è il sospetto che i dati siano troppo buoni per essere veriP-value:0.01849971Frequenze teoricheSe il modello è completamente specificato (ipotesi semplice) si ottengono dallefunzioni <strong>di</strong> <strong>di</strong>stribuzioni o <strong>di</strong> densitàEsempioGli studenti <strong>di</strong> informatica affrontano questioni relative ai linguaggi: 1) BASIC,2)FORTRAN, 3)C++, 4)PASCAL.Il tutoraggio è organizzato nel presupposto che B=40%, F=25%, C=25%, P=10%I dati raccolti hanno fatto riscontrare:Si accetta o si rifiuta l'ipotesi che l'assistenza sia ben organizzata?Da notare che occorre si abbia sempre:P-value= 0.116Non c’è evidenza sufficiente per ritenereche ci sia cattiva organizzazione


Presenza <strong>di</strong> parametri incognitiSpesso è noto solo il tipo <strong>di</strong> modello,ma si ignora uno o più parametriEsempioil numero <strong>di</strong> clienti in arrivo ogni ora in un ufficio postale, rilevato sulla base <strong>di</strong>un campione casuale <strong>di</strong> 100 ore, è stato il seguente:I parametri debbono essere stimati dal campioneCi sono però conseguenze sul <strong>test</strong> " 2 dato che l’uso duplice del campione“trucca” l’adattamento facendolo sembrare migliore <strong>di</strong> quanto non sia.Ne consegue che il p-value debba essere operare con meno gra<strong>di</strong> <strong>di</strong> libertàInfatti, si <strong>di</strong>mostra che, se “n” è abbastanza grande, se si stimano “m” parametriil p-value adatto deriva dalla <strong>di</strong>stribuzione chi-quadro con (k-1-m)gra<strong>di</strong> <strong>di</strong> libertàP-value=68.9%. Non si può rifiutareEsercizioUna lampada è venduta con accluse 4 batterie. Si esamina un campione <strong>di</strong>n=150 item riscontrando il numero <strong>di</strong> batterie <strong>di</strong>fettose.Test dell’omogeneità dei campioniil <strong>test</strong> del " 2 può essere utilizzato anche nella seguente situazione:Si osservano due (o più) classificazioni campionarie.Si sottoponga a verifica l'ipotesi seguente:Le ampiezze possono essere <strong>di</strong>verse, ma le categoriesono identiche.Ci si chiede se i campioni provengono dalla stessapopolazione.Ad esempio per due campioni abbiamoPossiamo stimare "p" come numero <strong>di</strong> <strong>di</strong>fettose sul totale <strong>di</strong> batterie c:H 0 : ! 1i = ! 2i per ogni "i"H 1 :! 1i " ! 2i per almeno un " i"P-value=0.00130174. L’ipotesi è da rifiutareLa statistica <strong>test</strong> assume ora la forma" c 2 =k%i=1( ) 2# i1$ # i2# i2!


EsempioDue campioni <strong>di</strong> misurazioni del tempo precedente la prima<strong>di</strong>sfunzione in due <strong>di</strong>versi macchinari hanno dato luogo alla tabellaTempi C_1 C_2 C_2/risc (f1i-f'2i) 2 /f'2i0 - 20 29 56 32.78 0.43620 - 40 27 41 24.00 0.37540 - 60 14 32 18.73 1.19560 - 70 11 19 11.12 0.00170 - 80 8 13 7.61 0.020>80 7 3 1.76 15.65996 164 96.00 17.686'Le “teoriche” sono ottenute come: n 2i= n 1 f 2iLa statistica <strong>test</strong> è " 2 =17.686 con 6-1=5 gra<strong>di</strong> <strong>di</strong> libertàEsercizioNumero <strong>di</strong> incidenti automobilistici lungo una strada a scorrimentoveloce. Frequenza per lato <strong>di</strong> percorrenzaVerso Sud Settimane Verso Nord Settimane0 39 0 821 28 1 602 19 2 403 13 3 274 8 4 185 4 5 8>5 2 >5 4113 239DISTRIB.CHI(17.686;5)=0.00336 (p-Value)Determinate il p-value dell’ipotesi <strong>di</strong> omogeneità dei due campioniL’ipotesi si deve rifiutare al<strong>di</strong>là <strong>di</strong> ogni ragionevole dubbioTest sull'in<strong>di</strong>pendenzaUn problema ricorrente in statistica riguarda l'in<strong>di</strong>pendenza o meno <strong>di</strong> duecategorie <strong>di</strong> classificazioneEsempioUno stu<strong>di</strong>o su <strong>di</strong> un campione <strong>di</strong> mariti ha prodotto i seguenti risultatiL’ipotesi da sottoporre a verifica èH 0: " ij= " i." . jper ogni "i e j"H 1: " ij# " i." . jper almeno un "i e j"La moglie lavoraLa moglie lavoraFull-time Part-Time Casalinga Totale Full-time Part-Time Casalinga TotaleAccetto che lavori 148 51 49 248 Accetto che lavori 95.5055 68.3867 84.1078 248Non mi importa 34 16 7 57 Non mi importa 21.9509 15.7179 19.3312 57Non so/Non risponde 36 26 32 94 Non so/Non risponde 36.1997 25.9208 31.8796 94Non voglio che lavori 25 81 126 232 Non voglio che lavori 89.3439 63.9746 78.6815 232243 174 214 631 243 174 214 631Si adopera la seguente statistica <strong>test</strong>:&" 2 c= n(('!f ij# $ ijk( ) 2%i=1$ ij) n+ (+ = n ij# n$ ij ) 2&% = (n$* i=1 ij 'n%n ij2i=1n$ ij)+ # n*La moglie lavoraFull-time Part-Time Casalinga p-value= 1.2E-29Accetto che lavori 28.8535 4.4204 14.6545Non mi importa 6.6139 0.0051 7.8660Non so/Non risponde 0.0011 0.0002 0.0005Non voglio che lavori 46.3393 4.5309 28.457181.8079 8.9566 50.9780 141.7C’è fortissima evidenza CONTRO l’ipotesi <strong>di</strong> in<strong>di</strong>pendenza come del resto erafacile da immaginare quardando la tabella!


Considerazioni sul "2Il <strong>test</strong> del "2 è del tipo DISTRIBUTION FREE cioè la sua impostazione non<strong>di</strong>pende da una particolare <strong>di</strong>stribuzione.In questo senso è anche detto NON PARAMETRICO.E' un <strong>test</strong> <strong>di</strong> grande generalità e può essere applicato in una gamma moltogrande <strong>di</strong> situazioni.Modello lineare stocasticoLa variabile casuale Y ha <strong>di</strong>stribuzione gaussiana con me<strong>di</strong>a che <strong>di</strong>pendelinearmente dal livello dell’esogena XM( Y X = x i ) = ! 0 + ! 1 x i = y i i = 1,2,…, nLa X può sia essere una variabile casuale che un blocco <strong>di</strong> costanti fisso e<strong>di</strong>nvariabileSi eseguono “n” osservazioni in<strong>di</strong>pendenti <strong>di</strong> coppe <strong>di</strong> valori (y,x)Ma proprio questa è la sua debolezza: perchè sia veramente informativo, ilrifiuto dell'ipotesi nulla deve avvenire a livelli moltoelevati <strong>di</strong> significatività(ovvero valori molto bassi del p-value)Il modello lineare stocastico parte day i = ! 0 + ! 1 x i + e ii =1,2,…, nTest nel modello <strong>di</strong> regressionePer espletare l'inferenza nel modello <strong>di</strong> regressione è necessaria una delle dueipotesi seguentiL’ipotesi <strong>di</strong> normalità implicaNormalitày i ~ N (! 0 + ! 1 x i ;" 2 ); i = 1,2,…, n"n" è abbastanza grande da attivare il teorema limite centralee i˜ N( 0,! 2 ), i = 1,2,…, ngli errori sono normali ( e quin<strong>di</strong> in<strong>di</strong>pendentioltreché incorrelati)Ed anche)! ˆ 0 ~ N ! 0 , " 2 #n 1 + nx 2 &,)+ % (.; ˆ ! 1 ~ N ! 1 , "2 ,+ .* $ S xx '-* S xx -Queste con<strong>di</strong>zioni permettono <strong>di</strong> stabilire quale sia la <strong>di</strong>stribuzione deglistimatori in quanto funzioni <strong>di</strong> variabili casuali.Inoltre,2( n ! 2)s e" 2 ~ # 2 ( n ! 2)In particolare, si <strong>di</strong>mostra che ! ˆ 0 , ! ˆ 1 sono stimatori <strong>di</strong> massimaverosimiglianza con annesse proprietà e <strong>di</strong>fetti.L’ipotesi <strong>di</strong> normalità (<strong>di</strong>retta delle y oppure ottenuta grazie ad “n” grande edal conseguente limite centrale) è in<strong>di</strong>spensabile per la vali<strong>di</strong>tà delleprocedure inferenziali relativamente ai parametri del modello <strong>di</strong> regressione.


Test sul coefficiente angolareLa statistica <strong>test</strong> necessaria per la verifica si ottiene come per i <strong>test</strong> sullame<strong>di</strong>a. In particolare si coinvolge la me<strong>di</strong>a e la varianza dello stimatoreContinua <strong>test</strong> su $ 1ESISTE O NON ESISTE UNA RELAZIONE TRA ENDOGENA ED ESOGENA?A questa domanda rispon<strong>di</strong>amo solo PARZIALMENTE: la "Y" varia o non variaLINEARMENTE con la "X"?E( ˆ ! 1 ) = ! 1 , Var( ˆ ! 1 ) = s e 2S xx# HQuesto si traduce nella verifica <strong>di</strong> ipotesi 0 : ! 1 = 0$% H 1 : ! 1 " 0% n' $ˆ # ' i=1Yt n"2 (# 1 ) = 1dove &s e=s e ' nSe H 0non potesse essere rifiutata laretta <strong>di</strong> regressione si presenterebbeycome parallela all'asse delle X e non= µ S xx' S xx= $x( i=1in grado <strong>di</strong> spiegare nulla della "Y"retta sotto H 0( ) 2y i" ˆ y in " 2( ) 2x i"µ xXIl p-value del <strong>test</strong> si ottiene applicando la <strong>di</strong>stribuzione t-Student con (n-2)gra<strong>di</strong> <strong>di</strong> libertà!EsempioSi ritiene che il consumo <strong>di</strong> energia elettrica sia determinato da unmodello lineare nella temperatura me<strong>di</strong>a del giorno(in gra<strong>di</strong> F)SUMMARY OUTPUTRegression StatisticsMultiple R 0.95084638R Square 0.9041Adjusted R Square 0.8921Standard Error 15.1954Observations 10ANOVAdf SS MS F Significance FRegression 1 17'416.3911 17'416.3911 75.4279 0.0000Residual 8 1'847.2089 230.9011Total 9 19'263.6000Coefficients Standard Error t Stat P-value!0 -395.5861 68.1479 -5.8048 0.000403Temp.Med. 6.4735 0.7454 8.6849 0.000024Giorno T.M. C.E.1 95 2142 82 1523 90 1564 81 1295 99 2546 100 2667 93 2108 95 2049 93 21310 84 150La relazione è molto significativa. Si può ancora accettare l’ipotesi <strong>di</strong> $ 1=0,ma rischiando <strong>di</strong> sbagliare, nelle con<strong>di</strong>zioni poste, 999’986 volte su <strong>di</strong> unmilione.Adattamento e <strong>test</strong>Se l'ipotesi H 0: $ 1=0, è respinta significa che la "Y" è, almeno in parte, spiegatada una relazione lineare nella "X". Quanta parte?Nel caso della regressione semplice è possibile stabilire un legame <strong>di</strong>retto tra lastatistica <strong>test</strong> <strong>di</strong> $ 1ed il coefficiente <strong>di</strong> determinazione R 2 .[ t( ˆ ! )] 2R 2 1=t ! ˆ[ ( )] 2 1 + n " 2( )Esiste perciò una relazione biunivoca traR 2 e la statistica <strong>test</strong> (al quadrato) per cuivalori significativi <strong>di</strong> questa danno luogoa valori elevati <strong>di</strong> quello e viceversa.Questo non è più vero nella regressionemultipla


Test sull'intercettaLa verifica dell'intercetta è poco interessante dato che non ha incidenza sullabontà<strong>di</strong> adattamento.E ˆ ! 0# H 0 : ! 0 = 0$% H 1 : ! 0 " 0( ) = ! 0 , Var( ˆ ! 0 ) = s e 2 n 1 + nµ x 2$Se si accetta l’ipotesi si <strong>di</strong>cechela retta teorica ha equazioney i = ! 1 x icioè passa per l’origineIl p-value del <strong>test</strong> si ottiene dalla t-Student (n-2) per il valore dato dat cˆ(! 0 ) =s en"#! ˆ 0"1 + nµ x 2 %$# S' xx &S xx%'&EsempioSi ritiene che la frequenza dei trilli del grillo sia legata alla temperatura e chequesta si possa indovinare dall’intensità del canto.37353331292725232119Grillo Frequenza Temperatura1 20 352 16 213 20 384 18 315 17 296 16 247 15 208 17 309 15 1910 16 23Indovinala grillo1714 15 16 17 18 19 20La relazione non è contraddetta dai (pochi) daticonsiderati.L’intercetta comunque c’è. Chi <strong>di</strong>ce ilcontrarioafferma il vero 6 volte su <strong>di</strong>ecimilaRegression StatisticsMultiple R 0.9640R Square 0.9292Adjusted R Square 0.9204Standard Error 1.8529Observations 10ANOVAdf SS MS F p-valueRegression 1 360.5333 360.5333 105.0097 0.0000Residual 8 27.4667 3.4333Total 9 388CoefficientsStandard Error t Stat P-valueIntercept -31.9333 5.7808 -5.5240 0.0006X Variable 1 3.4667 0.3383 10.2474 0.0000

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!