02.11.2015 Views

CAP 3 – STIMA

Cap. 3 - Dipartimento di Statistica, Informatica, Applicazioni ...

Cap. 3 - Dipartimento di Statistica, Informatica, Applicazioni ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

<strong>CAP</strong>. 3 <strong>–</strong> <strong>STIMA</strong><br />

Introduzione<br />

Nel capitolo precedente sono state esaminate le distribuzioni di alcune funzioni<br />

T(X 1 ,X 2 ,…,X n ) degli elementi campionari soffermando l’attenzione, in particolare, su<br />

media e varianza facendo specifico riferimento al campionamento da popolazioni<br />

normali. Come sottolineato, considerazioni analoghe possono essere svolte nei confronti<br />

di funzioni diverse da quelle analizzate; la logica del procedimento da seguire resta<br />

<br />

T <br />

sostanzialmente immutata anche se, ovviamente, lo svolgimento analitico dipenderà dalle<br />

specificità considerate. Rimane altresì immutata anche la natura della funzione che,<br />

nella generalità dei casi, è quella di compattare l’informazione campionaria in modo da<br />

consentire un’estensione delle conclusioni cui si perviene attraverso l’elaborazione dei<br />

dati campionari all’intera popolazione dalla quale il campione stesso è stato estratto.<br />

Il nucleo centrale dell’inferenza statistica o statistica induttiva risiede, appunto, nella<br />

fissazione di “criteri di ottimalità” e nell’individuazione di regole che consentano il loro<br />

soddisfacimento affinché il processo di induzione (dal campione alla popolazione) sia il<br />

“migliore possibile”.<br />

I criteri di ottimalità dipendono, ovviamente, dai problemi di induzione che si<br />

vogliono risolvere e che, come già sottolineato nella premessa, possono essere distinti e<br />

raggruppati in problemi statistici di:<br />

1. stima (puntuale e per intervallo)<br />

2. verifica o test d’ipotesi.<br />

Nel primo caso, i dati campionari vengono utilizzati per ottenere una misura (stima)<br />

di un’entità incognita relativa alla popolazione (indici caratteristici e/o parametri<br />

caratteristici e/o forma analitica del modello rappresentativo del fenomeno che s’intende<br />

analizzare).<br />

Nel secondo caso, i dati campionari vengono utilizzati per procedere al rifiuto o<br />

all’accettazione di una particolare ipotesi (congettura) formulata in merito ad entità incognite<br />

relative alla popolazione di origine del campione.<br />

La stima e il test delle ipotesi possono riguardare sia la forma funzionale del modello<br />

rappresentativo della popolazione di interesse sia i parametri che lo caratterizzano sia,<br />

più semplicemente, gli indici caratteristici; in questo caso si parla, come già più volte<br />

sottolineato, di inferenza statistica non parametrica o inferenza libera da distribuzione<br />

(distribution free) in quanto non si presuppone nota la forma analitica del modello<br />

rappresentativo della popolazione. Se invece la stima o il test delle ipotesi riguardano i<br />

soli parametri caratteristici, in quanto si assume nota la forma analitica del modello, si<br />

<br />

T <br />

175


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

parla di inferenza statistica parametrica.<br />

In questo capitolo si tratterà, in modo quasi esclusivo, di stima parametrica<br />

limitatamente alla così detta impostazione classica dell’inferenza statistica, cioè,<br />

dell’inferenza statistica che tratta di procedure di induzione basate sulla sola evidenza<br />

campionaria (informazione oggettiva) a differenza dell’impostazione bayesiana che<br />

prevede, invece, l’utilizzo simultaneo di informazioni campionarie e di informazioni a<br />

priori che, nella generalità dei casi, hanno natura soggettiva.<br />

3.1 - Stima puntuale<br />

Se X è una variabile casuale discreta o continua, con funzione di massa o di densità di<br />

probabilità f(x;dove Θ rappresenta il parametro caratteristico non noto, la stima<br />

puntuale di si risolve nella ricerca di una funzione degli elementi campionari<br />

<br />

x1, x2,..., xn<br />

<br />

in modo tale da ottenere un valore<br />

ˆ 1, 2,..., n <br />

T x x x<br />

vicino possibile’ al vero valore dell’entità incognita <br />

Come già sottolineato più volte, attraverso l’introduzione della statistica<br />

che sia ‘il più<br />

T <br />

effettua una compattazione delle informazioni passando, usualmente, dagli n valori<br />

numerici x 1 ,x 2 ,…,x n ad un solo valore numerico, ad es.<br />

x <br />

1<br />

<br />

n xi<br />

n i 1<br />

si<br />

. Risulta evidente<br />

che tale operazione comporta una notevolissima perdita di informazioni; aspetto questo<br />

che non deve assolutamente preoccupare, anzi, in molte situazioni risulta vantaggioso,<br />

soprattutto quando le informazioni che si perdono sono del tutto irrilevanti ai fini degli<br />

obiettivi che s’intendono perseguire.<br />

L’ultima considerazione suggerisce una prima possibilità di qualificazione della<br />

generica affermazione deve essere “il più vicino possibile” a od anche, ˆ deve<br />

ˆ<br />

essere “la migliore stima” di . Ad esempio, se si ha ragione di ritenere che una certa<br />

variabile casuale X sia distribuita normalmente, ma non si conosce il valore numerico dei<br />

due parametri che la caratterizzano, µ e 2 , si può decidere di estrarre un campione di n<br />

elementi dalla distribuzione stessa e cercare poi di individuare due funzioni che applicate<br />

ai valori campionari diano una misura, la “migliore”, dei due parametri incogniti.<br />

Analogo ragionamento può essere fatto nei confronti del parametro che caratterizza la<br />

distribuzione di Poisson, del parametro p che caratterizza la distribuzione bernoulliana,<br />

ecc.<br />

Più in generale, data una variabile casuale, discreta o continua, X con funzione di<br />

massa o di densità di probabilità f(x;), la stima puntuale del un parametro incognito <br />

si ottiene applicando una specifica funzione<br />

T ai valori campionari; essa varierà<br />

quindi al variare del campione, secondo la legge di distribuzione della popolazione cui il<br />

campione si riferisce, ed è necessario fare riferimento a tale distribuzione per riuscire a<br />

176


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

giudicare la “bontà” di una qualunque stima<br />

ˆ = T(x 1 , x 2 ,...,x n ). Infatti, non è possibile<br />

affermare se un singolo valore numerico, cioè se una particolare stima<br />

ˆ<br />

è “buona” o<br />

“cattiva” poiché è tanto più “buona” quanto più si approssima al vero valore del<br />

parametro , ma, essendo tale valore incognito, il confronto non è possibile; risulta,<br />

cioè, impossibile valutare la “bontà” di una singola stima.<br />

Pertanto, è improprio parlare di stima “buona” o “cattiva”, si deve parlare invece di<br />

stimatore “buono” o “cattivo”, intendendo, con ciò, fare riferimento al metodo di stima<br />

impiegato le cui proprietà non sono valutabili facendo riferimento ad un singolo<br />

campione ma all’intero universo di tutti i campioni possibili. Il confronto fra stimatori<br />

dovrà, quindi, essere basato sul confronto tra le corrispondenti distribuzioni campionarie;<br />

cosa questa ovviamente poco pratica, si preferisce allora effettuare il confronto facendo<br />

riferimento a particolari indici caratteristici delle variabili casuali stima.<br />

3.1.1 Proprietà degli stimatori<br />

ˆ<br />

Se con X si indica una variabile casuale, discreta o continua, con funzione di massa o di<br />

densità di probabilità f(x;) , caratterizzata dal parametro incognito , il problema della<br />

ricerca dello stimatore ”migliore” del parametro stesso si sostanzia nella individuazione<br />

della “migliore” funzione<br />

campionari di cui si dispone:<br />

<br />

T X , X ,...., X T<br />

1 2<br />

n<br />

X<br />

da applicare agli elementi<br />

Definizione 1 (Stimatore). Se con X si indica una variabile casuale, discreta o continua,<br />

con funzione di massa o di densità di probabilità f(x;), caratterizzata dal<br />

parametro incognito , e si indica con X 1 ,X 2 ,…,X n un campione casuale<br />

semplice riferito alla variabile stessa, si dice stimatore qualunque statistica<br />

<br />

T X , X ,...., X T<br />

1 2<br />

n<br />

X<br />

, cioè qualunque variabile casuale, funzione<br />

degli elementi campionari, le cui determinazioni vengono utilizzate per<br />

ottenere una stima del parametro incognito .<br />

<br />

<br />

<br />

<br />

<br />

Le proprietà “ottimali” che verranno considerate in queste note sono la:<br />

sufficienza;<br />

concentrazione;<br />

prossimità;<br />

efficienza;<br />

consistenza.<br />

3.1.2 Sufficienza<br />

Relativamente alle “proprietà ottimali” di uno stimatore si deve, innanzi tutto, tenere<br />

177


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

presente che la funzione<br />

T <br />

pertanto, più che ragionevole richiedere ad uno stimatore<br />

opera una compattazione delle informazioni; risulta,<br />

<br />

ˆ<br />

1, 2,....., n<br />

T X X X<br />

contenere il massimo delle informazioni che il campione fornisce in merito al valore del<br />

parametro incognito .<br />

Nel caso in cui si riesce ad individuare uno stimatore<br />

ˆ<br />

<br />

di<br />

che contiene tutte le<br />

informazioni su possedute dal campione di dati a disposizione, si dice che è uno<br />

stimatore sufficiente di . Appare subito evidente che nei casi in cui esistono più<br />

stimatori sufficienti, si dovrà restringere la ricerca del miglior stimatore entro tale classe<br />

poiché, al di fuori di essa, ogni altro stimatore avrebbe come conseguenza una mancata<br />

utilizzazione di informazioni utili contenute nel campione. Ovviamente, è sufficiente lo<br />

stimatore basato su una statistica sufficiente (cfr. paragrafo 2.2).<br />

3.1.3 Concentrazione e prossimità<br />

Oltre alla sufficienza, risulta conveniente che le singole stime non si discostino troppo<br />

dal valore incognito da stimare, che presentino, cioè, il minimo di variabilità intorno a<br />

tale valore, variabilità che può essere misurata sia attraverso specifici indici sintetici,<br />

come si avrà modo di verificare nelle righe successive, sia considerando direttamente la<br />

distribuzione di probabilità.<br />

ˆ<br />

1, 2,..., n<br />

* *<br />

Definizione 2 (Concentrazione). Lo stimatore Θ T X X X <br />

relazione:<br />

*<br />

ˆ ˆ <br />

P Θ P Θ<br />

0<br />

è detto più concentrato dello stimatore<br />

ˆ<br />

che soddisfa la<br />

<br />

per qualsiasi valore di<br />

ˆ , ,....., 1 2 n<br />

Θ T X X X<br />

Quella specificata è una proprietà relativa, si effettua, cioè, il confronto tra<br />

due particolari stimatori<br />

ˆ * Θ<br />

qualunque stimatore alternativo a<br />

più concentrato in assoluto.<br />

ˆΘ<br />

e<br />

ˆΘ<br />

. Se la disuguaglianza vale per<br />

ˆ * Θ<br />

si dirà che<br />

ˆ<br />

1, 2,..., n<br />

* *<br />

Definizione 3 (Prossimità). Lo stimatore Θ T X X X <br />

relazione:<br />

<br />

P Θ<br />

<br />

ˆ *<br />

Θ ˆ 0,5<br />

ˆ * Θ<br />

<br />

.<br />

è lo stimatore<br />

che soddisfa la<br />

<br />

<br />

per qualsiasi valore di <br />

è detto più prossimo (secondo Pitman) dello stimatore<br />

Θˆ T X1, X<br />

2,....., X<br />

n .<br />

178


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

Quella specificata è una proprietà relativa, si effettua, cioè, il confronto tra due<br />

particolari stimatori Θ ˆ * e ˆΘ . Se la disuguaglianza vale per qualunque stimatore ˆΘ<br />

Θ ˆ *<br />

alternativo a si dirà che<br />

approssimazione in assoluto.<br />

3.1.4 Efficienza<br />

ˆ * Θ<br />

è lo stimatore che presenta una migliore<br />

Le proprietà di concentrazione e di prossimità sono certamente del tutto auspicabili<br />

purtroppo, però, sono veramente rare le situazioni nelle quali esistono stimatori che<br />

godono di tali proprietà oltre alle difficoltà analitiche connesse alla loro derivazione. Si<br />

dovrà, pertanto, fare riferimento non all’intera distribuzione di probabilità ma a specifici<br />

indici sintetici di variabilità, procedendo, cioè, al computo di scostamenti appropriati tra i<br />

valori assumibili dallo stimatore e il vero valore del parametro incognito (qualunque<br />

esso sia) per poi addivenire ad una loro adeguata sintesi. L’entità aleatoria che si sta<br />

trattando è la variabile casuale stimatore Θˆ T X1, X<br />

2,....., X<br />

n e la costante di<br />

riferimento è il parametro incognito . Gli scostamenti tra tutti i valori che la variabile<br />

casuale stima ˆΘ assume, nell’universo dei campioni, e il valore incognito , possono<br />

essere espressi dalla differenza in valore assoluto<br />

<br />

ˆΘ 2<br />

| Θˆ<br />

<br />

|<br />

od anche al quadrato<br />

o qualunque altra misura di scostamento ritenuta adeguata al caso in esame.<br />

Definizione 4 (Efficienza nell’ESM). Lo stimatore<br />

soddisfa la relazione:<br />

<br />

ˆ * *<br />

, ,..., 1 2 n<br />

Θ T X X X<br />

*<br />

| ˆ <br />

| | ˆ <br />

| <br />

E Θ E Θ<br />

<br />

che<br />

per qualunque<br />

e per qualunque stimatore ˆ alternativo allo stimatore Θ ˆ *, dove,<br />

al solito,<br />

E sta ad indicare il valore atteso (valore medio) dell’entità<br />

all’interno della parentesi, è detto il più efficiente nell’errore semplice<br />

medio.<br />

ESM(<br />

ˆΘ<br />

) =<br />

<br />

E | Θ ˆ |<br />

Definizione 5 (Efficienza nell’EQM). Lo stimatore<br />

soddisfa la relazione:<br />

<br />

<br />

.<br />

<br />

ˆ * *<br />

, ,..., 1 2 n<br />

Θ T X X X<br />

( ˆ*<br />

) 2 ( ˆ )<br />

2<br />

<br />

E Θ E Θ<br />

<br />

, che<br />

per qualunque<br />

e per qualunque stimatore ˆ , alternativo allo stimatore ˆ *,<br />

è detto il più efficiente nell’errore quadratico medio<br />

<br />

EQM<br />

ˆΘ E <br />

ˆ <br />

2<br />

<br />

.<br />

179


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

Quello sopra introdotto è un concetto assoluto di efficienza che risulta<br />

operativamente poco utile in quanto sono molto infrequenti le situazioni di ricerca in cui<br />

si riesce ad individuare per via analitica lo stimatore più efficiente (nell’errore semplice<br />

medio o nell’errore quadratico medio), sempre nell’ipotesi di esistenza di tale stimatore.<br />

Analogamente a quanto detto a proposito delle proprietà di concentrazione e di<br />

prossimità, oltre a considerare la proprietà di efficienza in senso assoluto si può<br />

introdurre il concetto di efficienza in senso relativo confrontando due diversi stimatori<br />

ˆΘ 1<br />

e<br />

ˆΘ 2<br />

di uno stesso parametro incognito .<br />

Lo stimatore<br />

<br />

<br />

ˆΘ 1<br />

si dice più efficiente dello stimatore<br />

nell’errore semplice medio se ESM(<br />

nell’errore quadratico medio se EQM(<br />

ˆΘ 1) < ESM(<br />

ˆΘ 2<br />

ˆΘ 1) < EQM(<br />

:<br />

ˆΘ 2<br />

) , per qualunque<br />

<br />

ˆΘ 2<br />

), per qualunque <br />

.<br />

;<br />

L’efficienza relativa dello stimatore<br />

rapporti:<br />

e<br />

ESM<br />

<br />

<br />

ESM Θˆ<br />

1<br />

<br />

ESM Θˆ<br />

2<br />

<br />

<br />

ˆΘ 1<br />

rispetto allo stimatore<br />

e<br />

EQM<br />

<br />

<br />

EQM Θˆ<br />

1<br />

<br />

EQM Θˆ<br />

2<br />

<br />

<br />

ˆΘ 2<br />

è definita dai<br />

Comunque, il problema più rilevante nella ricerca dello stimatore più efficiente non<br />

risiede tanto nelle difficoltà analitiche di computo quanto nell’inesistenza di un tale<br />

stimatore ottimale; infatti, non sono affatto rare le situazioni nelle quali non esiste uno<br />

stimatore che minimizza l’ESM o l’EQM per qualunque valore di . In tali situazioni si<br />

dovrà abbandonare l’obiettivo della ricerca dell’ottimo assoluto, non esistendo un tale<br />

ottimo, per procedere, eventualmente, alla ricerca di un sub-ottimo.<br />

Si può, ad esempio, procedere alla ricerca di uno stimatore puntuale capace di<br />

minimizzare l’ESM o l’EQM in una classe ristretta di stimatori (minimo vincolato)<br />

essendo ragionevole ipotizzare l’esistenza di un ottimo in una classe ristretta; il vincolo<br />

usualmente imposto è quello della correttezza o non distorsione dello stimatore.<br />

Definizione 6 (Correttezza o non distorsione). Uno stimatore Θ ˆ ( , ,..., )<br />

n<br />

Tn X1 X<br />

2<br />

X<br />

n<br />

(di ) si dice corretto o non distorto se<br />

E( ˆΘ ) = .<br />

per qualunque .<br />

Θ<br />

Si consideri ora la relazione<br />

<br />

2<br />

2 2<br />

<br />

<br />

<br />

ˆ<br />

EQM ( Θˆ ) E Θˆ E Θˆ E( Θˆ ) E( Θˆ ) E Θˆ E( Θˆ<br />

) E - <br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

0 <br />

<br />

<br />

<br />

Var( Θˆ) E Θˆ<br />

- d<br />

<br />

<br />

2<br />

2 2<br />

ˆ <br />

2<br />

180


dove<br />

Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

d E Θ ˆ<br />

<br />

viene detta distorsione. Se Θ ˆ ( , ,..., )<br />

n<br />

Tn X1 X<br />

2<br />

X<br />

n<br />

è uno<br />

stimatore non distorto di si ha d 2 = 0 e quindi:<br />

2<br />

<br />

2<br />

EQM ( Θˆ ) E Θ ˆ E Θˆ E Θ ˆ Var( ˆ )<br />

<br />

<br />

<br />

cioè, se uno stimatore è corretto il suo errore quadratico medio e la sua varianza<br />

coincidono. Pertanto, nella classe ristretta degli stimatori corretti si può affermare che lo<br />

stimatore più efficiente nell’EQM è lo stimatore di minima varianza. Quest’ultima<br />

conclusione provoca spesso confusione inducendo a concludere che lo stimatore più<br />

efficiente è lo stimatore di minima varianza; si tratta, ovviamente, di una conclusione<br />

errata perché l’affermazione vale solo nell’ambito degli stimatori corretti.<br />

Il vincolo di correttezza in molti testi non viene introdotto con una tale connotazione,<br />

cioè come restrizione della classe degli stimatori, ma come proprietà dello stimatore<br />

stesso. Nella logica espositiva qui seguita, dove la “bontà” di uno stimatore è misurata<br />

facendo riferimento alla sua variabilità campionaria, una tale interpretazione della<br />

correttezza non può essere accolta; in altre parole la correttezza rappresenta un vincolo e<br />

non una proprietà. Ovviamente, a parità di tutte le altre condizioni, uno stimatore<br />

corretto è preferibile ad uno stimatore distorto.<br />

È stato più volte sottolineata la possibilità di non esistenza dello stimatore più<br />

efficiente, sia nell’EQM che nell’ESM, possibilità questa molto meno frequente invece<br />

nella classe ristretta degli stimatori corretti; infatti, come si avrà modo di chiarire nelle<br />

righe che seguono, per alcuni modelli è possibile dimostrare che, in una classe ristretta,<br />

esiste lo stimatore più efficiente nell’EQM. In tale ottica un ruolo fondamentale è svolto<br />

dalla disuguaglianza di Cramèr-Rao; si tratta di una disuguaglianza che individua il<br />

valore minimo assumibile dalla varianza di uno stimatore corretto.<br />

Teorema 3 (Limite di Cramèr-Rao); Sia X una v.c. con funzione di massa o di densità<br />

<br />

<br />

<br />

f(x; ), dove Θ è un parametro incognito, e<br />

<br />

<br />

<br />

X<br />

1, X<br />

2,..., X<br />

n<br />

uno stimatore corretto di , se sono soddisfatte le condizioni di regolarità:<br />

d<br />

log f x ; <br />

esiste per qualunque x e per qualunque Θ<br />

d<br />

d<br />

d<br />

;<br />

d<br />

d<br />

n<br />

n<br />

d<br />

f x dx dx dx f x dx dx dx<br />

<br />

<br />

; ; <br />

i 1 2 n i 1 2 n<br />

i1 d<br />

i1<br />

, , ; <br />

1 2 n i 1 2 n<br />

i1<br />

<br />

n<br />

t x x x f x dx dx dx<br />

<br />

<br />

n<br />

d<br />

t x , x , x f x ; dx dx dx<br />

;<br />

<br />

<br />

<br />

<br />

<br />

<br />

1 2 n i 1 2 n<br />

d<br />

i1<br />

;<br />

<br />

è<br />

181


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

<br />

d<br />

<br />

0 E <br />

log f x<br />

; <br />

per qualunque <br />

.<br />

d<br />

<br />

Θ<br />

<br />

<br />

vale la relazione di disuguaglianza<br />

Var<br />

Dimostrazione<br />

<br />

<br />

1 1<br />

ˆ<br />

<br />

<br />

2 2<br />

n<br />

d<br />

<br />

d<br />

<br />

E log f X nE log f<br />

i;θ<br />

X; <br />

d<br />

<br />

i1<br />

d<br />

<br />

<br />

<br />

n<br />

d d<br />

1 t x , x , x <br />

f x ; <br />

dx dx dx<br />

<br />

d<br />

d<br />

<br />

1 2 n i 1 2 n<br />

i1<br />

n<br />

d<br />

t x x x f x dx dx dx<br />

<br />

<br />

<br />

, , ; <br />

1 2 n i 1 2 n<br />

d<br />

i1<br />

n<br />

d<br />

<br />

f xi;<br />

<br />

dx1dx2dxn<br />

<br />

d<br />

<br />

<br />

i1<br />

<br />

n<br />

t x1, x2, xn <br />

f xi;<br />

<br />

d<br />

<br />

i1<br />

<br />

n<br />

<br />

d<br />

E t x1 x2<br />

xn<br />

f xi<br />

<br />

d<br />

i1<br />

per la disuguaglianza Cauchy - Schwarz<br />

<br />

ma<br />

, , <br />

; <br />

<br />

E t x1, x2,<br />

x<br />

<br />

n<br />

<br />

<br />

<br />

d<br />

<br />

<br />

<br />

dx dx<br />

1 2<br />

dx<br />

n<br />

n<br />

d<br />

<br />

<br />

t x1, x2, x<br />

n <br />

log f xi; f xi;<br />

dx1dx2<br />

dxn<br />

<br />

d<br />

<br />

<br />

i1 i1<br />

<br />

<br />

d<br />

<br />

dθ<br />

log<br />

<br />

<br />

<br />

<br />

<br />

2<br />

2 <br />

n<br />

d<br />

<br />

E t x1, x2, xn<br />

<br />

E log f xi;<br />

<br />

d<br />

<br />

<br />

<br />

i1<br />

<br />

da cui<br />

<br />

<br />

1 2 n<br />

n<br />

2<br />

n<br />

i1<br />

f x ;θ<br />

i<br />

<br />

<br />

<br />

<br />

2<br />

1<br />

E <br />

ˆ<br />

t x , x , x <br />

Var <br />

<br />

d<br />

<br />

E log<br />

f x<br />

i<br />

;θ <br />

dθ<br />

<br />

<br />

<br />

i1<br />

<br />

<br />

2<br />

<br />

n<br />

<br />

<br />

<br />

<br />

182


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

n<br />

2<br />

n<br />

2<br />

<br />

d<br />

d<br />

<br />

E log f xi; E log f xi;<br />

<br />

d<br />

<br />

<br />

<br />

d<br />

i1<br />

<br />

i1<br />

<br />

<br />

<br />

<br />

2<br />

d d d<br />

<br />

E log f xi; log f x<br />

j; E log f xi;<br />

<br />

d d <br />

<br />

<br />

d<br />

<br />

<br />

<br />

<br />

n n n<br />

i1 j( i) 1 i1<br />

per l'indipendenza delle v.c. X<br />

2<br />

<br />

d<br />

<br />

n E <br />

log f x;<br />

<br />

d<br />

<br />

<br />

<br />

i<br />

<br />

n n<br />

2<br />

d d d<br />

<br />

E f xi; E f xi; n E log f x;<br />

<br />

d <br />

d <br />

d<br />

<br />

i1 j( i) 1<br />

<br />

La quantità<br />

I<br />

<br />

d<br />

d<br />

n<br />

<br />

d<br />

<br />

<br />

d<br />

<br />

E log f X<br />

;θ n E log f x;<br />

<br />

<br />

i1<br />

i<br />

usualmente detta informazione di Fisher, si indica con I() e fornisce una misura<br />

dell’informazione contenuta nel campione. Da sottolineare che l’informazione I() è la<br />

varianza della variabile casuale che si ottiene derivando il logaritmo della funzione di<br />

verosimiglianza; tale derivata è detta funzione score ed è espressa da:<br />

infatti<br />

poiché<br />

ma<br />

S<br />

<br />

<br />

<br />

<br />

2<br />

<br />

<br />

<br />

<br />

<br />

'<br />

'<br />

d<br />

L f x1, x2,..., xn;<br />

<br />

log L <br />

d L f x , x ,..., x ; <br />

<br />

<br />

<br />

1 2<br />

2<br />

<br />

Var S θ E S θ <br />

I θ<br />

<br />

<br />

'<br />

1 2 n<br />

E S θ<br />

<br />

f x<br />

1,x 2,...,x n;θ<br />

f x<br />

1,x 2<br />

,...,x<br />

n;θ dx1 dx2<br />

dxn<br />

<br />

<br />

f x ,x ,...,x ;θ<br />

<br />

d d d<br />

f x 1,x 2<br />

,...,x<br />

n;θ dx1 dx2 dxn<br />

f ; d 1 0<br />

dθ<br />

<br />

dθ<br />

x x<br />

x<br />

dθ<br />

L’informazione di Fisher può essere quindi espressa dall’uguaglianza:<br />

<br />

<br />

I E<br />

<br />

S<br />

<br />

2<br />

<br />

n<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

2<br />

183


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

d d<br />

<br />

0 log f , f , d <br />

d<br />

d<br />

x x x<br />

x <br />

<br />

<br />

<br />

<br />

<br />

2<br />

2<br />

d<br />

d<br />

<br />

<br />

log f , f , d x log f , f , d<br />

2<br />

d<br />

x x <br />

<br />

x<br />

d<br />

<br />

x x <br />

x<br />

<br />

x <br />

<br />

d <br />

2<br />

E<br />

<br />

S E S<br />

<br />

d<br />

<br />

<br />

da cui<br />

<br />

<br />

<br />

2 d <br />

E S E <br />

S I <br />

d<br />

<br />

<br />

<br />

Si noti che per definire la funzione score S() e l’informazione di Fisher I() si è<br />

fatto riferimento all’universo dei campioni, cioè, nella funzione di verosimiglianza al<br />

singolo punto campionario x 1 ,x 2 ,…,x n si è di nuovo sostituita la variabile casuale ad n<br />

dimensioni X = (X 1 ,X 2 ,…,X n ).<br />

La conclusione cui si perviene è che la varianza di uno stimatore corretto non può<br />

scendere sotto il reciproco dell’informazione di Fisher, quindi, se Var (<br />

stimatore<br />

ˆ<br />

<br />

ˆ<br />

) = 1/I() lo<br />

è il “migliore”, cioè, il più efficiente nell’ambito degli stimatori corretti. Se<br />

risulta, invece, Var ( ) > 1/I(), non è possibile pervenire ad alcuna conclusione nel<br />

senso che potrebbe esistere o non esistere un altro stimatore corretto più efficiente.<br />

Comunque, si dimostra che il limite minimo della disuguaglianza viene raggiunto, se<br />

sono soddisfatte alcune condizioni di regolarità, se e solo se il modello probabilistico<br />

(v.c. rappresentativa della popolazione di riferimento) dal quale il campione è stato<br />

estratto appartiene alla famiglia esponenziale caratterizzata da un solo parametro.<br />

L’inserimento del vincolo di correttezza riduce, in pratica, lo spazio in cui ricercare<br />

l’ottimo la cui esistenza è garantita per le v.c. che appartengono alla famiglia<br />

esponenziale. Lo stimatore che minimizza l’errore quadratico medio nell’ambito ristretto<br />

delle stime corrette, rappresenta, pertanto, la strategia dominante nella classe ristretta<br />

degli stimatori corretti.<br />

In molte situazioni operative non esiste un’alternativa dominante, neppure nella classe<br />

ristretta degli stimatori corretti, ed anche quando una tale possibilità sussiste a livello<br />

teorico può risultare molto difficile o addirittura impossibile procedere alla sua<br />

derivazione analitica. Una possibile via da seguire per la ricerca dell’ottimo è<br />

rappresentata dall’inserimento di ulteriori vincoli: il più semplice ed immediato, che<br />

risolve anche le difficoltà di ordine analitico, è il vincolo di linearità.<br />

Sulle conseguenze dell’introduzione del vincolo di linearità si avrà modo di soffermare<br />

l’attenzione nelle pagine successive<br />

ˆ<br />

3.1.5 Proprietà asintotiche<br />

Al crescere della dimensione del campione cresce anche l’ammontare del patrimonio<br />

184


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

informativo a disposizione, è quindi ragionevole presumere che al crescere della<br />

dimensione campionaria debba anche crescere la “bontà” dello stimatore.<br />

Per ciò che concerne il comportamento di un qualunque stimatore puntuale al crescere<br />

della dimensione del campione si riportano le due definizioni seguenti che introducono<br />

un’ulteriore augurabile proprietà degli stimatori: la consistenza.<br />

Definizione 7 (Consistenza in senso debole). Uno stimatore<br />

(di ) si dice consistente in senso debole se<br />

per qualunque<br />

<br />

Lim P | ˆ<br />

<br />

| 1<br />

n<br />

n<br />

<br />

ˆ T ( X , X ,..., X )<br />

n n 1 2 n<br />

e per qualunque positivo piccolo a piacere.<br />

Definizione 8 (Consistenza in senso forte). Uno stimatore<br />

) si dice consistente in senso forte se<br />

lim EQM ˆ<br />

0<br />

per qualunque<br />

<br />

n<br />

o anche<br />

<br />

<br />

lim ESM ˆ<br />

0<br />

n<br />

n<br />

n<br />

<br />

<br />

ˆ T ( X , X ,..., X )<br />

n n 1 2 n<br />

(di<br />

Ovviamente, la consistenza forte implica la consistenza debole; infatti, per la<br />

disuguaglianza di Cebicev si ha<br />

<br />

E ˆ<br />

n<br />

<br />

P | ˆ<br />

<br />

<br />

| 1<br />

<br />

ma<br />

n<br />

<br />

<br />

Lim E ˆ<br />

n<br />

<br />

n<br />

<br />

<br />

2<br />

<br />

0, quindi<br />

<br />

2<br />

<br />

2<br />

<br />

E ˆ<br />

n<br />

<br />

<br />

| ˆ<br />

<br />

Lim P n<br />

<br />

| Lim 1<br />

<br />

1<br />

n<br />

n<br />

2 <br />

<br />

<br />

<br />

3.2 - Metodi di stima puntuale<br />

Una volta elencate le proprietà che si ritiene debbano essere soddisfatte da uno stimatore<br />

puntuale, si dovranno valutare i metodi di stima proposti in letteratura verificando se, ed<br />

in quali condizioni operative, producono stimatori che soddisfano tali proprietà.<br />

In queste note verranno considerati, anche se in alcuni casi molto sommariamente, i<br />

metodi di stima:<br />

della minimizzazione dell'errore quadratico medio;<br />

<br />

<br />

2<br />

<br />

<br />

<br />

185


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

della massima verosimiglianza;<br />

dei momenti;<br />

del minimo chi-quadro ( 2 );<br />

della minima distanza.<br />

3.2.1 Minimizzazione dell’errore quadratico medio<br />

Un metodo di stima particolarmente rilevante e direttamente collegato alle proprietà delle<br />

stime sopra elencate è quello basato sulla minimizzazione dell'errore quadratico medio;<br />

si tratta, quindi, di un metodo che ha come obiettivo l’individuazione dello stimatore più<br />

efficiente in assoluto.<br />

Un inconveniente di questo metodo è rappresentato dal fatto che, come già<br />

sottolineato più volte, per molte distribuzioni non esiste uno stimatore capace di<br />

minimizzare l'errore quadratico medio rispetto a tutti i possibili valori di , succede cioè<br />

che per alcuni valori di l'errore quadratico medio risulta minimizzato dallo stimatore<br />

ˆ<br />

1<br />

ˆ<br />

2<br />

, mentre per altri valori di , al minimo si perviene attraverso una diverso stimatore<br />

. In tali situazioni, essendo una quantità incognita, il problema non ammette<br />

soluzione, o meglio, è il metodo della minimizzazione dell'errore quadratico medio che<br />

non fornisce la soluzione. Comunque, nelle situazioni in cui si riesce ad individuare lo<br />

stimatore più efficiente in senso assoluto si parla di strategia dominante ed uno degli<br />

acronimi di più largo impiego per caratterizzare tale stimatore è B(E) (Best Estimator).<br />

Poiché, come già sottolineato, le stime che minimizzano l'errore quadratico medio non<br />

sempre esistono, si preferisce sovente restringere la classe delle funzioni di stima a quelle<br />

che rispettano certe condizioni; ad es. si può, come già sottolineato, restringere la classe<br />

alle sole stime non distorte e ricercare tra queste la stima che minimizza l'errore<br />

quadratico medio. In questo caso, il metodo della minimizzazione dell'errore quadratico<br />

medio si riduce al metodo della minimizzazione della varianza; ma, in tali condizioni si<br />

deve tenere presente che l’ottimo cui si può, eventualmente, pervenire è un ottimo<br />

vincolato (un ottimo relativo e non un ottimo assoluto).<br />

Si consideri ora la Fig. 3.1 dove sono stati riportati i grafici relativi alle distribuzioni<br />

campionarie di tre diversi stimatori di , due di questi, ˆ<br />

1<br />

e ˆ<br />

2<br />

, danno luogo a delle<br />

stime di corrette, mentre il terzo, ˆ<br />

3<br />

, dà luogo ad una stima distorta di .<br />

ˆ<br />

186


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

f ( 3 )<br />

f ( 1 )<br />

f ( 2 )<br />

Fig. 3.1 - Grafico relativo alla distribuzione di tre diversi stimatori<br />

Dei tre stimatori considerati<br />

ˆ<br />

1<br />

,<br />

ˆ<br />

2<br />

e<br />

ˆ<br />

3<br />

il secondo<br />

ˆ<br />

2<br />

è senz'altro da scartare,<br />

infatti tale stimatore pur essendo corretto presenta una variabilità nettamente superiore a<br />

quella dell'altro stimatore corretto<br />

stimatori<br />

ˆ<br />

1<br />

e<br />

ˆ<br />

3<br />

ˆ<br />

1<br />

. La scelta tra le funzioni che danno luogo agli<br />

, presenta invece qualche difficoltà; infatti, in questo caso si tratta di<br />

confrontare due stimatori, dei quali, quello che possiede la “proprietà” della correttezza<br />

ˆ<br />

1<br />

mostra una maggiore variabilità rispetto a . Risulta ragionevole, nella situazione<br />

prospettata, scegliere lo stimatore<br />

la disuguaglianza<br />

ˆ<br />

3<br />

<br />

EQM ˆ EQM ˆ<br />

3 1<br />

risulta più elevata per lo stimatore<br />

; infatti, come si può evincere dalla figura, valendo<br />

ˆ<br />

3<br />

la probabilità di ottenere valori prossimi a<br />

rispetto allo stimatore<br />

L’inserimento del vincolo di correttezza riduce, in pratica, lo spazio in cui ricercare<br />

l’ottimo; se si riuscisse ad individuare tale ottimo, lo stimatore che minimizza l’errore<br />

quadratico medio nell’ambito ristretto delle stime corrette, si sarebbe individuata la<br />

strategia dominante nella classe ristretta degli stimatori corretti. Un tale stimatore viene<br />

usualmente indicato con l’acronimo BU(E) (Best Unbiased Estimator). Nel situazione<br />

prospettata nella Fig. 3.1 il miglior stimatore nella classe ristretta è<br />

In molte situazioni operative non esiste un’alternativa dominante, cioè un minimo per<br />

qualunque valore di , neppure nella classe ristretta degli stimatori corretti, ed anche<br />

quando una tale possibilità sussiste a livello teorico può risultare molto difficile o<br />

addirittura impossibile procedere alla sua derivazione analitica, come già sottolineato, in<br />

tali situazioni si può procedere all’inserimento di un ulteriore vincolo, il vincolo di<br />

linearità<br />

T<br />

X<br />

1,X<br />

2<br />

,...,X n<br />

<br />

0<br />

i<br />

X<br />

i<br />

n<br />

<br />

.<br />

i1<br />

ˆ<br />

1<br />

.<br />

ˆ<br />

1<br />

.<br />

<br />

187


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

Nella classe ristretta degli stimatori lineari e corretti si riesce ad individuare gli<br />

stimatori ottimali (cioè gli stimatori più efficienti) in molte situazioni rilevanti di ricerca,<br />

tra queste, la più significativa è quella che riguarda i modelli statistici lineari, in<br />

particolare il così detto modello classico di regressione lineare. In tale contesto, come<br />

si avrà modo di chiarire successivamente, il metodo di stima statistica puntuale che ne<br />

risulta viene, usualmente, detto metodo di stima dei minimi quadrati. Per indicare lo<br />

stimatore che minimizza l’EQM nell’ambito degli stimatori lineari e corretti si utilizza<br />

usualmente l’acronimo BLU(E) (Best Linear Unbiased Estimator)<br />

Il metodo di stima puntuale basato sulla minimizzazione dell’errore quadratico medio<br />

può essere interpretato facilmente in termini decisionali. In un contesto decisionale<br />

l’errore quadratico medio assume la veste di funzione di perdita e l’impossibilità di<br />

individuazione dello stimatore più efficiente si risolve nella constatazione della non<br />

esistenza di un’alternativa decisionale (azione) che risulti dominante rispetto a tutte le<br />

altre: la migliore azione per qualunque stato di natura che, nella specifica circostanza, è<br />

rappresentato dal valore assunto dal parametro incognito .<br />

3.2.2 Massima verosimiglianza<br />

Un secondo metodo di stima puntuale particolarmente rilevante è il metodo della<br />

massima verosimiglianza.<br />

Si ricorda che: data una variabile casuale, discreta o continua X, con funzione di<br />

massa, o di densità di probabilità f(x;) e un campione casuale semplice di n osservazioni<br />

su X , si è definita di verosimiglianza la funzione<br />

x <br />

n<br />

1 2 n<br />

<br />

i1<br />

L( ) L( / ) f ( ; x , x ,..., x ) f ( ; x )<br />

Come già sottolineato, la funzione di verosimiglianza coincide, in termini formali, con<br />

la funzione di massa o di densità di probabilità del campione: si tratta, infatti, di una<br />

stessa espressione interpretata come funzione:<br />

degli elementi campionari x 1 , x 2 ,...,x n che variano nell'universo dei campioni<br />

(funzione di densità o di massa di probabilità);<br />

del parametro per un campione prefissato (funzione di verosimiglianza).<br />

Nella prima interpretazione (a priori), si fa riferimento all’universo dei campioni e le<br />

variabili che interessano sono, appunto, le variabili casuali campionarie X 1 ,X 2 ,…,X n .<br />

Nella seconda interpretazione (a posteriori), le variabili campionarie hanno assunto<br />

particolari determinazioni x 1 ,x 2 ,…,x n e sono, pertanto, quantità costanti note; risulta,<br />

allora, ragionevole interpretare l’espressione come funzione del parametro (o dei<br />

parametri) che, pur essendo una costante, assume la veste di variabile essendo<br />

incognito il suo valore.<br />

Il metodo di stima della massima verosimiglianza consiste nello scegliere il valore ~ <br />

che massimizza la funzione L(). Se L() è una funzione differenziabile, condizione<br />

i<br />

188


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

necessaria affinché essa abbia un massimo è che dL()/d = 0 . Nella generalità dei casi<br />

non occorre procedere ad ulteriori elaborazioni (computo delle derivate di ordine<br />

superiore) essendo il punto di stazionarietà individuato un punto di massimo.<br />

La derivazione della funzione di verosimiglianza L() comporta il computo del<br />

n<br />

prodotto <br />

i1<br />

f(x i ; ), operazione non immediata, per tale motivo, in genere si preferisce<br />

massimizzare non la verosimiglianza L() ma il suo logaritmo naturale<br />

l () = log L() = <br />

n<br />

i1<br />

log f (x i ; )<br />

detto log-verosimiglianza. Essendo il logaritmo naturale una funzione monotona, il<br />

valore ~ che massimizza la log-verosimiglianza l() è identico a quello che massimizza<br />

la verosimiglianza L().<br />

Si ricorda che la derivata prima della log-verosimiglianza è stata definita come<br />

funzione score; di conseguenza, se la log-verosimiglianza è differenziabile allora<br />

condizione necessaria affinché la funzione abbia un massimo è che il suo score sia<br />

nullo:<br />

Il valore ~<br />

S() =<br />

d<br />

<br />

<br />

d l<br />

= 0.<br />

che massimizza la verosimiglianza o la log-verosimiglianza è detto stima<br />

di massima verosimiglianza del parametro incognito . Se nella soluzione si<br />

sostituiscono alle determinazioni (x 1 , ..., x n ) le corrispondenti variabili casuali (X 1 , ..., X n )<br />

si ottengono gli stimatori di massima verosimiglianza.<br />

Ovviamente se la distribuzione della variabile casuale X è caratterizzata da più<br />

parametri 1 , ..., k , per trovare il massimo occorrerà uguagliare a 0 ciascuna delle<br />

derivate parziali rispetto ad ogni singolo parametro (lo score è quindi un vettore a k<br />

componenti, una per ogni parametro incognito) e poi ricavare la stima dei parametri<br />

risolvendo il sistema delle equazioni definito dalle derivate parziali uguagliate a zero.<br />

Anche in questo caso, come per quello di un solo parametro, nella generalità dei casi al<br />

punto di stazionarietà corrisponde il massimo della funzione.<br />

Si riporta nelle righe seguenti la derivazione delle stime di massima verosimiglianza,<br />

elencandone proprietà e legge di distribuzione, per campioni relativi ad alcune v.c. tra<br />

quelle esaminate nel Cap. 1; si tratta sempre di distribuzioni che appartengono alla<br />

famiglia esponenziale per le quali è, quindi sempre possibile individuare stimatori<br />

sufficienti e, a ragione della disuguaglianza di Cramèr-Rao, ottimali nell’ambito degli<br />

stimatori corretti.<br />

V.C. di Bernoulli<br />

La log-verosimiglianza della v.c. di Bernoulli è data da<br />

189


n<br />

l(p) = <br />

i1<br />

Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

log f(x i ; p) = <br />

n<br />

i1<br />

log ( p x i<br />

q<br />

1 xi<br />

n<br />

) = log p<br />

i1<br />

x i + log (1-p) (n <strong>–</strong><br />

derivando l(p) rispetto a p per ottenere lo score ed uguagliando a 0 si ha<br />

S(p) =<br />

n<br />

1 <br />

p<br />

i1<br />

x i <strong>–</strong><br />

1<br />

q<br />

n<br />

(n <strong>–</strong><br />

i1<br />

x i ) = 0.<br />

risolvendo l’equazione rispetto a p si ricava la stima di massima verosimiglianza di p<br />

p~<br />

=<br />

n<br />

1 <br />

n<br />

i1<br />

x i = x .<br />

Lo stimatore di massima verosimiglianza di p è quindi la media campionaria<br />

P<br />

= X<br />

=<br />

n<br />

1 <br />

n<br />

Poiché ciascuna X i è una v.c. di Bernoulli ne consegue che <br />

1, nel campione (somma dei successi nelle n prove), e X =<br />

i1<br />

X i ,<br />

n<br />

i1<br />

n<br />

1 <br />

n<br />

i1<br />

n<br />

i1<br />

x i ).<br />

X i è la somma degli<br />

X i è la proporzione<br />

dei successi. L’immediata conclusione cui si perviene, ricordando quanto esposto nel<br />

Cap.1, è che lo stimatore<br />

n<br />

X i<br />

i1<br />

X<br />

ha distribuzione binomiale con parametri n e p, mentre<br />

la media campionaria è una binomiale relativa; questa distribuzione per n<br />

sufficientemente grande può essere approssimata con la distribuzione Normale avente la<br />

stessa media (p) e la stessa varianza (p q/n).<br />

La statistica <br />

n<br />

i1<br />

X i , e qualsiasi altra trasformazione biunivoca della stessa, è una<br />

statistica sufficiente per p, quindi P = X è uno stimatore sufficiente, essendo funzione<br />

di tale statistica sufficiente, e corretto di p, inoltre, il suo EQM coincide con la varianza e<br />

raggiunge il limite di Cramér-Rao; infatti:<br />

da cui<br />

n<br />

n<br />

d <br />

d 1 1 <br />

I p E S p<br />

E X<br />

i<br />

n X<br />

i<br />

dp<br />

<br />

dp p i1 1 p<br />

<br />

<br />

i1<br />

<br />

n<br />

n<br />

1 1 np 1 nq np n<br />

E <br />

2X i<br />

n X<br />

2 i 2<br />

2<br />

p<br />

<br />

<br />

i1 1<br />

p<br />

i1<br />

<br />

p 1<br />

p pq pq<br />

<br />

<br />

1 p q<br />

<br />

I p n<br />

<br />

che è pari alla varianza di X ; pertanto, lo stimatore di massima verosimiglianza P X è<br />

in assoluto lo stimatore migliore di p nella classe degli stimatori corretti.<br />

<br />

n<br />

<br />

p<br />

<br />

190


Infine, P X<br />

Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

<br />

è consistente in senso forte, dato che:<br />

p q<br />

Lim EQM X<br />

n<br />

Lim Var X<br />

n<br />

Lim <br />

n n n<br />

n<br />

0<br />

Poiché la consistenza forte implica quella debole,<br />

debole.<br />

V.C. di Poisson<br />

La log-verosimiglianza della v.c. di Poisson è data da<br />

n<br />

l() = <br />

i1<br />

log f(x i ; ) = <br />

n<br />

i1<br />

log<br />

x<br />

<br />

i<br />

e<br />

xi!<br />

<br />

X<br />

n<br />

= log <br />

i1<br />

è anche consistente in senso<br />

n<br />

x i <strong>–</strong> n <strong>–</strong> <br />

derivando rispetto a per ottenere lo score ed uguagliando a 0 si ha<br />

S() =<br />

1<br />

<br />

n<br />

<br />

i1<br />

x i <strong>–</strong> n = 0 ~ =<br />

n<br />

X i<br />

i1<br />

La distribuzione campionaria della v.c. <br />

1<br />

n<br />

n<br />

<br />

i1<br />

x i = x .<br />

i1<br />

log x i !<br />

, per la proprietà additiva della v.c. di<br />

Poisson, è ancora una v.c. di Poisson con parametro n che coincide con la media e la<br />

varianza della v.c. stessa; mentre la distribuzione campionaria di = X 1 è una v.c. di<br />

Poisson relativa di media e varianza /n. Tale distribuzione per n sufficientemente<br />

grande può essere approssimata con la distribuzione normale avente la stessa media () e<br />

la stessa varianza (/n) della Poisson relativa.<br />

La statistica <br />

n<br />

i1<br />

statistica sufficiente per p, quindi<br />

X i (e qualsiasi altra trasformazione biunivoca della stessa) è una<br />

= X<br />

è uno stimatore sufficiente, essendo funzione<br />

di tale statistica sufficiente, e corretto di , quindi, il suo EQM coincide con la varianza e<br />

raggiunge il limite di Cramér-Rao; infatti:<br />

da cui<br />

I<br />

<br />

<br />

<br />

E<br />

<br />

E <br />

<br />

n<br />

<br />

i1<br />

d<br />

d<br />

S<br />

<br />

X<br />

i<br />

<br />

<br />

d 1<br />

<br />

E <br />

d<br />

<br />

2 n<br />

/ <br />

<br />

n<br />

<br />

i1<br />

X<br />

i<br />

<br />

n <br />

1 Si segnala che l’utilizzo della simbologia che prevede le maiuscole per indicare le variabili casuali e le minuscole<br />

per indicare le determinazioni assunte dalle stesse non viene sempre rispettato quando manca il corrispondente<br />

simbolo maiuscolo per specifici caratteri minuscoli, ad esempio si utilizza lo stesso simbolo per indicare sia la<br />

2<br />

stima che lo stimatore di , per indicare sia la stima che lo stimatore di , per indicare sia la stima che<br />

lo stimatore di<br />

2<br />

.<br />

191


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

1<br />

I<br />

p<br />

<br />

<br />

n<br />

che è uguale alla varianza di X ; pertanto, lo stimatore di massima verosimiglianza<br />

X<br />

Inoltre,<br />

è in assoluto lo stimatore migliore di nella classe degli stimatori corretti.<br />

X<br />

è consistente in senso forte, dato che:<br />

n n 0<br />

<br />

Lim EQM X Lim Var X Lim . n<br />

n n n<br />

Poiché la consistenza forte implica quella debole,<br />

debole per .<br />

V.C. Normale<br />

La log-verosimiglianza della v.c. Normale è data da:<br />

l<br />

n<br />

2<br />

2<br />

,<br />

log<br />

f xi<br />

; ,<br />

<br />

n<br />

log<br />

2<br />

i1<br />

n<br />

2<br />

<br />

i1<br />

2<br />

2<br />

<br />

log x<br />

<br />

<br />

1<br />

2<br />

n<br />

n<br />

<br />

2<br />

i1<br />

log<br />

i<br />

X<br />

1<br />

2<br />

2<br />

2<br />

è anche consistente in senso<br />

Poiché la log-verosimiglianza dipende da 2 parametri è possibile distinguere quattro<br />

diverse situazioni di stima:<br />

di ;<br />

di<br />

di<br />

2<br />

<br />

2<br />

<br />

con noto<br />

simultanea di<br />

con incognito<br />

;<br />

2<br />

e <br />

.<br />

;<br />

e<br />

1<br />

<br />

2<br />

<br />

2<br />

<br />

xi<br />

<br />

<br />

2<br />

<br />

Stima di <br />

Per quanto concerne la stima di<br />

<br />

non è stata specificata l’eventuale conoscenza del<br />

2<br />

parametro in quanto non influente; infatti, se si considera la funzione score, che si<br />

ottiene come più volte specificato derivando ed eguagliando a 0 la log-verosimiglianza<br />

rispetto al parametro d’interesse si ha:<br />

1<br />

S() = <strong>–</strong><br />

2<br />

2<br />

n<br />

i1<br />

2(x i <strong>–</strong> )(<strong>–</strong>1) =<br />

1<br />

2<br />

<br />

n<br />

(<br />

i1<br />

x i <strong>–</strong> n) = 0 ~<br />

n<br />

= n 1 <br />

pertanto lo stimatore di massima verosimiglianza di è la media campionaria<br />

<br />

= X<br />

=<br />

1<br />

n<br />

n<br />

X i.<br />

i1<br />

i1<br />

x i = x .<br />

192


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

Come si è già avuto modo di verificare<br />

e varianza 2 /n.<br />

sufficiente <br />

n<br />

X i<br />

i1<br />

X<br />

X<br />

, si distribuisce normalmente con media<br />

, è uno stimatore sufficiente, perché basato sulla statistica<br />

, corretto ed il più efficiente nella classe degli stimatori corretti di<br />

infatti se si considera il limite della disuguaglianza di .Cramér-Rao<br />

si ha<br />

che è uguale alla varianza di<br />

Inoltre<br />

X<br />

quella debole, X<br />

Stima di 2 con nota<br />

La funzione score è data da<br />

S( 2 ) = <strong>–</strong><br />

I() = <strong>–</strong>E<br />

X<br />

<br />

dS<br />

<br />

d<br />

.<br />

<br />

<br />

<br />

= <strong>–</strong>E(<br />

1<br />

2<br />

<br />

1/I() = 2 /n<br />

(<strong>–</strong> n)) = n/ 2 ,<br />

è consistente in senso forte per ; poiché la consistenza forte implica<br />

è anche consistente in senso debole per .<br />

n<br />

2<br />

2<br />

+<br />

1<br />

2<br />

4<br />

n<br />

i1<br />

~ <br />

(x i <strong>–</strong> ) 2 = 0 2<br />

=<br />

n<br />

1 <br />

n<br />

Questo significa che lo stimatore di massima verosimiglianza di<br />

2 ~ =<br />

2<br />

* S *<br />

=<br />

n<br />

1 <br />

n<br />

i1<br />

(X i <strong>–</strong> ) 2 ,<br />

detta varianza campionaria con nota.<br />

Come già visto nel Cap. 2 la distribuzione campionaria di<br />

~ 2<br />

n<br />

2<br />

<br />

2<br />

nS**<br />

<br />

2<br />

<br />

<br />

n<br />

<br />

i1<br />

è di tipo Chi-quadrato con n gradi di libertà<br />

rispettivamente pari ad n e a 2n, cioè<br />

da cui deriva:<br />

E<br />

<br />

~ 2<br />

<br />

<br />

E <br />

nS<br />

<br />

2<br />

**<br />

2<br />

<br />

<br />

<br />

X i<br />

<br />

n<br />

<br />

<br />

<br />

2<br />

<br />

<br />

= n Var<br />

nS<br />

<br />

2<br />

**<br />

2<br />

2<br />

i1<br />

(x i <strong>–</strong> ) 2 =<br />

2<br />

<br />

è<br />

2<br />

* s *<br />

la cui media e varianza sono<br />

<br />

= 2n,<br />

<br />

=E( S ) = 2 2<br />

Var( ~ ) =Var( S<br />

2<br />

* *<br />

Pertanto la varianza campionaria<br />

~ 2<br />

=<br />

2<br />

* S *<br />

di 2 perché basato sulla statistica sufficiente <br />

2<br />

* *<br />

) = 2 4 /n.<br />

è uno stimatore corretto e sufficiente<br />

n<br />

<br />

i1<br />

X i<br />

2<br />

ed il più efficiente<br />

nell’ambito degli stimatori corretti come si verifica facilmente attraverso il computo del<br />

limite fissato dalla disuguaglianza Cramér-Rao.<br />

.<br />

193


da cui<br />

Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

I( 2 ) = <strong>–</strong>E<br />

<br />

2<br />

dS <br />

<br />

2<br />

d<br />

che è uguale alla varianza di<br />

Inoltre,<br />

~ 2 =<br />

2<br />

S **<br />

<br />

<br />

<br />

<br />

= <strong>–</strong>E(<br />

~ 2<br />

.<br />

n<br />

4<br />

2<br />

<strong>–</strong><br />

1<br />

2<br />

6<br />

n<br />

i1<br />

1/I( 2 ) = 2 4 /n<br />

(x i <strong>–</strong> ) 2 ) = <strong>–</strong><br />

è consistente in senso forte per 2 , dato che<br />

<br />

2 2 2<br />

n<br />

n<br />

n n n<br />

n<br />

4<br />

2<br />

4<br />

<br />

Lim EQM LimVar Lim 0 n<br />

.<br />

+<br />

n<br />

4<br />

<br />

=<br />

n<br />

4<br />

2<br />

Poiché la consistenza forte implica quella debole,<br />

senso debole per 2 .<br />

2 ~ =<br />

2<br />

S **<br />

è anche consistente in<br />

Stima congiunta di e 2<br />

Nel caso in cui si voglia stimare la varianza, ma non è noto il valore assunto da , non si<br />

può procedere come indicato al punto precedente poiché nell’espressione<br />

n<br />

1 <br />

n<br />

i1<br />

(X i <strong>–</strong> ) 2 è presente che non è noto e che non interessa ai fini della stima di 2 .<br />

Il parametro incognito e non di interesse ai fini della stima viene detto parametro di<br />

disturbo; disturbo che può essere facilmente eliminato procedendo ad una sua stima che<br />

pur non interessando direttamente è strumentale all’obiettivo che si vuol perseguire che<br />

è, appunto, quello della stima di . Piuttosto che trattare questo problema, facilmente<br />

risolvibile se si considera quanto detto ai due punti precedenti, si procede alla risoluzione<br />

2<br />

<br />

del problema della stima congiunta di entrambi i parametri e<br />

Se entrambi i parametri e 2 sono incogniti, le funzioni score eguagliate a zero per i<br />

due parametri sono quelle considerate in precedenza:<br />

s() =<br />

s( 2 ) = <strong>–</strong><br />

1<br />

2<br />

<br />

n<br />

2<br />

2<br />

+<br />

n<br />

(<br />

i1<br />

1<br />

2<br />

4<br />

x i <strong>–</strong> n) = 0,<br />

<br />

n<br />

i1<br />

(x i <strong>–</strong> ) 2 = 0.<br />

risolvendo il sistema rispetto ai due parametri incogniti si ottengono le stime:<br />

n<br />

~ = x = n 1 <br />

i1<br />

x i<br />

n<br />

2 ~ = 1 n<br />

<br />

i1<br />

2<br />

<br />

.<br />

(x i <strong>–</strong> x ) 2 =<br />

Gli stimatori di massima verosimiglianza di è di 2 sono quindi<br />

~<br />

n<br />

= X = 1 n<br />

<br />

i1<br />

X i<br />

2 ~ =<br />

cioè, la media campionaria e la varianza campionaria.<br />

2<br />

S * = 1 n<br />

n<br />

<br />

i1<br />

2<br />

s *<br />

.<br />

(X i <strong>–</strong> X ) 2 ,<br />

~ 2<br />

=<br />

2<br />

* S *<br />

=<br />

194


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

Le statistiche <br />

n<br />

i1<br />

X i e<br />

n<br />

<br />

i1<br />

2<br />

X i<br />

(e qualsiasi altra trasformazione biunivoca di tale<br />

coppia) sono congiuntamente sufficienti per e 2 (per verificare tale risultato basta<br />

svolgere il quadrato nel termine<br />

conseguenza<br />

~<br />

=<br />

X<br />

e<br />

~ 2<br />

=<br />

2<br />

S *<br />

n<br />

<br />

i1<br />

funzione di statistiche congiuntamente sufficienti.<br />

Per quanto detto nel Cap. 2, risulta che: a) le due v.c. X<br />

indipendenti; b) X<br />

inoltre, la v.c.<br />

è una stima corretta di mentre<br />

nS<br />

<br />

2<br />

*<br />

2<br />

(x i <strong>–</strong> ) 2 e operare le relative somme). Di<br />

sono stimatori congiuntamente sufficienti, essendo<br />

n<br />

= <br />

i1<br />

<br />

<br />

<br />

X i<br />

2<br />

S *<br />

X <br />

<br />

<br />

<br />

ha distribuzione del tipo chi-quadro con n-1 gradi di libertà <br />

Per le proprietà della v.c. Chi-quadrato<br />

da cui<br />

E(<br />

E<br />

2<br />

S *<br />

nS<br />

<br />

<br />

) =<br />

2<br />

*<br />

2<br />

<br />

<br />

<br />

= n <strong>–</strong> 1 Var<br />

n 1<br />

<br />

2<br />

n<br />

Var (<br />

2<br />

nS<br />

<br />

<br />

2<br />

S *<br />

e<br />

2<br />

S *<br />

sono fra loro<br />

è una stima distorta di<br />

2<br />

*<br />

2<br />

<br />

<br />

<br />

2<br />

n1<br />

.<br />

= 2(n <strong>–</strong> 1)<br />

) = 2 4 n 1<br />

2 .<br />

n<br />

2<br />

Essendo S * uno stimatore distorto di 2 , il teorema di Cramér-Rao non si applica<br />

perché viene a cadere una delle ipotesi fondamentali dello stesso. Comunque, poiché<br />

2<br />

*<br />

EQM( S ) = 4 (2n <strong>–</strong> 1)/n 2 tende a 0 per n → ∞,<br />

2<br />

<br />

2<br />

S * è uno stimatore consistente in<br />

senso forte. Dato poi che la consistenza forte implica quella debole,<br />

2<br />

S *<br />

;<br />

è anche<br />

consistente in senso debole per 2 . Inoltre, per quanto esposto nel capitolo precedente,<br />

è invece stimatore corretto di<br />

Poiché la v.c.<br />

2<br />

<br />

S 2 =<br />

2<br />

n1<br />

S<br />

2<br />

<br />

la varianza campionaria corretta<br />

1<br />

n 1<br />

n S<br />

2<br />

*<br />

=<br />

2<br />

<br />

n<br />

<br />

i1<br />

(X i <strong>–</strong> X ).<br />

n<br />

= <br />

i1<br />

<br />

<br />

<br />

X i<br />

X <br />

<br />

<br />

<br />

ha distribuzione di tipo chi-quadro con n-1 gradi di libertà con media e varianza<br />

ne risulta<br />

<br />

<br />

n 1<br />

S<br />

2<br />

<br />

E <br />

= n <strong>–</strong> 1 Var 2<br />

<br />

<br />

2<br />

<br />

<br />

<br />

<br />

n 1<br />

S<br />

2<br />

<br />

2<br />

= 2 (n <strong>–</strong> 1),<br />

195


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

E(S 2 ) = 2 Var (S 2 ) = 2 4 /(n <strong>–</strong> 1).<br />

Lo stimatore (non di massima verosimiglianza) S 2 è, quindi, uno stimatore corretto e<br />

sufficiente di 2 ma non raggiunge il limite di Cramér-Rao sopra individuato 1/I( 2 ) =<br />

2 4 /n che è inferiore alla varianza dello stimatore S 2 che è pari a 2 4 /(n-1). La<br />

differenza rispetto al limite di Cramér-Rao è, comunque, esigua e diminuisce rapidamente<br />

al crescere di n. Infine, risulta facile verificare che S 2 è uno stimatore consistente in<br />

senso forte, e, quindi, anche in senso debole, di 2 .<br />

V.C. Gamma<br />

La log-verosimiglianza della v.c. Gamma con parametri e è data da<br />

n<br />

l(, ) = <br />

i1<br />

log f(x i ; , ) = <br />

che dopo alcune semplificazioni diviene<br />

n<br />

i1<br />

log<br />

<br />

<br />

1<br />

<br />

<br />

<br />

<br />

x i<br />

<br />

<br />

x 1<br />

i<br />

e<br />

n<br />

n<br />

1<br />

l , n log nlog 1 log x x<br />

<br />

<br />

i<br />

i1 i1<br />

Per ricavare le stime di massima verosimiglianza di e occorre derivare rispetto ad<br />

entrambe le variabili, ottenendo le due componenti del vettore score, ed uguagliarle a 0.<br />

<br />

<br />

' <br />

s() = <strong>–</strong> n log <strong>–</strong> n<br />

<br />

s() = <strong>–</strong><br />

n<br />

<br />

+<br />

1<br />

2<br />

<br />

n<br />

+ <br />

n<br />

<br />

i1<br />

i1<br />

x i = 0.<br />

log x i = 0,<br />

Dalla seconda relazione si ricava in funzione di , tuttavia, sostituendo tale risultato<br />

nella prima equazione, la funzione gamma ivi coinvolta non consente la derivazione<br />

analitica di , il che significa che non si possono derivare analiticamente le stime di<br />

massima verosimiglianza<br />

anche se, osservando la formula della logverosimiglianza<br />

si conclude che le statistiche <br />

~<br />

e<br />

~<br />

n<br />

i1<br />

n<br />

log x i e <br />

i1<br />

<br />

<br />

i<br />

x i (e qualsiasi altra<br />

trasformazione biunivoca di tale coppia) sono congiuntamente sufficienti per e . Di<br />

conseguenza, anche se non si riesce a ricavare l’espressione analitica di ~ e ~ , tali<br />

stimatori esistono e sono stimatori congiuntamente sufficienti.<br />

Questa situazione, apparentemente anomala, si incontra in realtà nella generalità dei<br />

casi; infatti, solo pochi modelli statistici, fra i quali quelli visti in precedenza, consentono<br />

di esplicitare analiticamente la formula degli stimatori, di ricavarne l’esatta distribuzione<br />

campionaria e di derivare il valore degli indici caratteristici quali media, varianza e EQM.<br />

Quando non è possibile derivare l’espressione analitica degli stimatori di massima<br />

196


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

verosimiglianza si procede, usualmente, alla massimizzazione della verosimiglianza<br />

tramite algoritmi iterativi, implementati su calcolatore, che trovano valore in<br />

corrispondenza del massimo per approssimazioni successive iniziando da un punto di<br />

partenza (starting point).<br />

3.2.3 Proprietà degli stimatori di massima verosimiglianza<br />

Da quanto visto ai punti precedenti, gli stimatori di massima verosimiglianza cui si è<br />

pervenuti godono di buone proprietà. Ci si deve ora domandare se in tutte le situazioni<br />

(per tutti i modelli) è possibile pervenire agli stessi risultati, la risposta non è affermativa:<br />

le proprietà degli stimatori di massima verosimiglianza, per campioni di dimensione<br />

finita, vanno valutate caso per caso, anche se, generalmente, tali stimatori godono di<br />

buone proprietà che vengono di seguito richiamate.<br />

Invarianza - Si dimostra che se<br />

<br />

è lo stimatore di massima<br />

verosimiglianza di allora g( ) è lo stimatore di massima verosimiglianza<br />

di g(). In altri termini per stimare tramite massima verosimiglianza una<br />

qualche trasformazione di un parametro già stimato basta prendere la stima<br />

precedente e trasformare questa allo stesso modo. Ad esempio: nel modello<br />

normale la stima di massima verosimiglianza di è la radice quadrata di<br />

~ 2<br />

; oppure nel modello di Poisson la stima di massima verosimiglianza di<br />

1/ è 1/ ~ .<br />

Sufficienza - Se esistono delle statistiche sufficienti allora gli stimatori di<br />

massima verosimiglianza sono funzione di questi e pertanto sono stimatori<br />

sufficienti. Questa proprietà è una conseguenza del criterio di<br />

fattorizzazione; infatti se esistono stimatori sufficienti allora la logverosimiglianza<br />

è la somma di due componenti, una dipende solo dal<br />

parametro e dalle statistiche sufficienti, l’altra solo dal campione<br />

Efficienza “per campioni finiti” - Si dimostra che se esiste uno stimatore<br />

corretto la cui varianza è pari al limite di Cramér-Rao, allora il metodo della<br />

massima verosimiglianza individua “automaticamente” tale stimatore.<br />

Efficienza asintotica - Si dimostra che sotto condizioni molto generali di<br />

regolarità, lo stimatore di massima verosimiglianza è asintoticamente<br />

(cioè per n → ∞) efficiente, cioè:<br />

- è asintoticamente corretto lim E( ) = ;<br />

n<br />

- la sua varianza tende al limite di Cramér-Rao che a sua volta tende a 0<br />

lim<br />

n<br />

Var ( ) = dove <br />

n<br />

<br />

I <br />

n<br />

; indica l’informazione di Fisher;<br />

- poiché di norma tende a 0 per n → ∞ ne deriva come conseguenza<br />

la consistenza in senso forte e quindi anche in senso debole.<br />

197


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

Normalità asintotica - Si dimostra che<br />

<br />

N <br />

lim n I<br />

0,1<br />

n<br />

pertanto, per n sufficientemente elevato<br />

n<br />

n<br />

ha distribuzione<br />

approssimativamente normale con media il vero valore di e varianza pari<br />

al limite inferiore di Cramér-Rao, in simboli<br />

n<br />

≈ N[, 1/I()].<br />

Per caratterizzare le ultime due proprietà asintotiche è stato introdotto l’acronimo<br />

BAN(E) (Best Asymptotically Normal Estimator) o anche CAN(E) (Consistent<br />

Asymptotically Normal Estimator).<br />

3.2.4 Altri metodi di stima<br />

Oltre al metodo di stima della minimizzazione dell’EQM e della massima verosimiglianza,<br />

molti altri metodi di stima sono stati proposti in letteratura: il metodo dei momenti, il<br />

metodo della minima distanza, il metodo del minimo 2 ecc. In seguito si parlerà<br />

diffusamente del solo metodo dei minimi quadrati (minimizzazione dell’EQM nella<br />

classe ristretta degli stimatori lineari e corretti), nei punti seguenti si procederà, invece,<br />

ad una sintetica illustrazione degli altri metodi richiamati.<br />

Metodo dei momenti<br />

r<br />

Se con E[<br />

X ] si indica il momento r-esimo di una v.c. X, la cui funzione di densità o<br />

r<br />

di massa di probabilità<br />

f<br />

<br />

x;<br />

<br />

è funzione nota dei k parametri<br />

<br />

e<br />

<br />

momento campionario risulta essere<br />

<br />

<br />

1, 2,...., k<br />

<br />

, nella generalità dei casi<br />

E[<br />

X<br />

,...,<br />

r<br />

r 1 k<br />

. Dato che il corrispondente<br />

M r <br />

1<br />

n<br />

uguaglianza (momenti empirici = momenti teorici)<br />

M<br />

r<br />

r<br />

<br />

,..., <br />

1<br />

k<br />

<br />

<br />

X<br />

r<br />

, si impongono le k relazioni di<br />

con r = 1,…, k<br />

ne risulta, quindi, un sistema di k equazioni in k incognite che risolto (quando<br />

possibile) fornisce la stima dei momenti dei k parametri incogniti<br />

<br />

<br />

1, 2,...., k<br />

Esempio 3.1<br />

Sia<br />

X 1,...,X n<br />

2<br />

, <br />

<br />

1 2<br />

,<br />

'<br />

<br />

.<br />

ˆ1,..., ˆ<br />

un campione casuale da una distribuzione con media μ e varianza σ 2 . Siano<br />

. Stimando i parametri con il metodo dei momenti le equazioni cui si perviene<br />

sono:<br />

M <br />

M<br />

1<br />

2<br />

1<br />

<br />

2<br />

,<br />

<br />

2 2 2<br />

,<br />

<br />

2<br />

k<br />

r<br />

r<br />

]<br />

198


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

e la soluzione è:<br />

ˆ x<br />

2 1<br />

ˆ <br />

n<br />

n<br />

<br />

i1<br />

2<br />

x x<br />

i<br />

Esempio 3.2<br />

Sia<br />

X 1,...,X n<br />

un campione casuale da una distribuzione di Poisson con parametro λ. Poiché un<br />

solo parametro caratterizza la distribuzione, allora il metodo dei momenti suggerisce<br />

banalmente la seguente soluzione:<br />

ˆ x<br />

Il metodo dei momenti, seppur ragionevole, non è in generale un buon metodo per la<br />

derivazione degli stimatori; infatti, nei casi in cui applicando il metodo dei momenti si ottengono<br />

stimatori con buone proprietà, allo stesso risultato si può usualmente pervenire attraverso<br />

l’impiego di un diverso metodo di stima. Al riguardo, si deve comunque segnalare che, in talune<br />

situazioni, è l’unico metodo applicabile.<br />

Metodo del minimo chi-quadro<br />

Sia un campione casuale estratto da una densità<br />

X<br />

1,...,<br />

X n<br />

del campo di variazione di X. La probabilità<br />

S della partizione è data da<br />

j<br />

nell’intervallo<br />

S j<br />

(ovviamente con n <br />

( ) p j<br />

p<br />

j<br />

( ) f ( x; )<br />

dx<br />

S j<br />

k<br />

N j<br />

j1<br />

<br />

2<br />

<br />

k<br />

<br />

j1<br />

f( x; )<br />

, e sia<br />

S<br />

1,...,<br />

S k<br />

una partizione<br />

che un’osservazione appartenga all’intervallo<br />

. Si indichino con N j il numero di X i che cadono<br />

), e si costruisca la sommatoria<br />

[ n<br />

j<br />

n p<br />

n p<br />

j<br />

j<br />

( )]<br />

dove n j è il valore osservato di N j . Il numeratore dei termini della sommatoria altro non è che il<br />

quadrato dello scarto tra il numero osservato e quello atteso di determinazioni che cadono<br />

( )<br />

nell’intervallo S j . La stima del minimo chi-quadro di θ è il valore ˆ che minimizza<br />

quel valore di che, mediamente, rende il numero atteso di osservazioni nell’intervallo<br />

vicino possibile ” al numero realmente osservato.<br />

Il metodo risente, ovviamente, dell’arbitrarietà della partizione<br />

2<br />

S<br />

1,...,<br />

S k<br />

adottata.<br />

2<br />

<br />

. È, cioè,<br />

S j<br />

“più<br />

Esempio 3.3<br />

Sia X 1 ,...,X n un campione casuale da una distribuzione di Bernoulli di parametro p.<br />

Poiché il campo di variazione di X consiste unicamente nei due valori 0 e 1 allora,<br />

1 [ n<br />

2<br />

<br />

j0<br />

j<br />

n p<br />

n p<br />

j<br />

p<br />

p<br />

2<br />

[ n n1<br />

n(1<br />

p)]<br />

<br />

n(1<br />

p)<br />

j<br />

]<br />

2<br />

[ n<br />

<br />

[ n<br />

<br />

1<br />

0<br />

n(1<br />

p)]<br />

n(1<br />

p)<br />

n p]<br />

np<br />

2<br />

2<br />

[ n<br />

<br />

1<br />

[ n<br />

<br />

n<br />

1<br />

np]<br />

np<br />

2<br />

n p]<br />

2<br />

1<br />

<br />

p (1 p)<br />

199


Dato che<br />

Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

2 0, in questo caso si può individuare il minimo in modo diretto osservando che<br />

2 0 se ˆ n n . Si osservi che in questo esempio la partizione<br />

p<br />

1<br />

S<br />

1,...,<br />

S k<br />

poteva essere scelta<br />

in un unico modo, e che lo stimatore trovato è lo stesso di quello che si sarebbe ottenuto col<br />

metodo dei momenti o con quello della massima verosimiglianza.<br />

Poiché può risultare difficile individuare il punto di minimo di<br />

il denominatore<br />

n p<br />

j<br />

p<br />

2<br />

<br />

direttamente con il valore osservato<br />

, ottenendo il cosiddetto chiquadro<br />

modificato. La stima del minimo chi-quadro modificato è allora quel<br />

2<br />

<br />

modificato.<br />

, si preferisce talvolta sostituire<br />

n j<br />

ˆ<br />

che minimizza il<br />

Metodo della minima distanza<br />

Sia<br />

X<br />

1, X<br />

2,..., X<br />

n<br />

un campione casuale estratto dalla distribuzione<br />

Fx ( ; )<br />

, e sia d(F,G) una<br />

funzione che misura la distanza che intercorre tra due funzioni di ripartizione F e G (ad esempio,<br />

d( F, G) sup F( x) G( x)<br />

misura la massima distanza verticale tra F e G).<br />

x<br />

La stima di minima distanza di θ è quel valore tra tutti i possibili in<br />

dove<br />

d( F(<br />

x),<br />

F ( x))<br />

n<br />

<br />

che minimizza<br />

F n<br />

(x) è la funzione di ripartizione campionaria o empirica. Lo stimatore di<br />

minima distanza è intuitivamente attraente ma è spesso di difficile derivazione essendo<br />

problematico minimizzare<br />

.<br />

d( F, F ) sup F( x) F ( x)<br />

n<br />

x<br />

n<br />

Esempio 3.4<br />

Sia<br />

X 1,...,X n<br />

un campione casuale da una distribuzione di Bernoulli di parametro p. Allora,<br />

F( x;<br />

p)<br />

(1 p)<br />

I<br />

0,1)<br />

( x)<br />

I[1,<br />

)<br />

(<br />

[<br />

x<br />

Sia n j = numero di osservazioni uguali a j (j = 0,1). Allora<br />

n0<br />

F n<br />

x;<br />

p)<br />

I<br />

[0,1)<br />

( x)<br />

I[1,<br />

n<br />

Se si usa la funzione di misura della distanza<br />

d ( F( x), Fn<br />

( x))<br />

( )<br />

n0<br />

risulta minimizzata per 1<br />

pˆ<br />

, cioè<br />

n<br />

( x)<br />

d( F, G) sup F( x) G( x)<br />

x<br />

pˆ <br />

)<br />

n<br />

1<br />

n<br />

.<br />

3.3 - Stima statistica di intervallo (intervalli di confidenza)<br />

Nelle pagine precedenti è stato considerato il problema della scelta del “migliore”<br />

stimatore puntuale di uno o più parametri incogniti , sulla scorta di un campione di<br />

osservazioni. E' stato detto che se il metodo di stima adottato possiede, nell'universo dei<br />

campioni, determinate proprietà, si può presumere che il valore effettivo ottenuto sia<br />

“abbastanza prossimo” al valore incognito che si vuol stimare. Comunque un singolo<br />

numero non dà nessuna indicazione sulle probabilità che la stima ottenuta assuma un<br />

200


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

valore prossimo al vero valore del parametro incognito. Con il metodo di stima di<br />

intervallo si supera questo inconveniente, infatti, la sua applicazione fornisce<br />

informazioni sia sul valore numerico del parametro incognito che sul grado di<br />

attendibilità (intesa in senso probabilistico) della stima stessa.<br />

La procedura della stima mediante intervalli (di confidenza) consiste nella<br />

determinazione, sulla scorta delle informazioni campionarie, di due statistiche L 1 (limite<br />

inferiore) e L 2 (limite superiore) in modo da soddisfare la relazione<br />

P (L 1 L 2 ) = 1 - per 0 < < 1<br />

dove L 1 = T 1 (X 1 ,X 2 ,…,X n ) e L 2 = T 2 (X 1 ,X 2 ,…,X n ) (L 1 < L 2 ) sono, nell'universo dei<br />

campioni, variabili casuali in quanto funzioni degli n elementi campionari, e (1-)<br />

(usualmente pari a 0,95, 0,99 e 0,999) è il così detto livello di confidenza. Un livello di<br />

confidenza ad es. pari a 0,95 sta ad indicare che su 100 campioni 95 generano intervalli<br />

che includono il vero valore del parametro incognito. Evidentemente nelle situazioni reali<br />

si disporrà di un solo campione, e quindi di una sola determinazione ,<br />

dell'intervallo casuale di confidenza<br />

<br />

L1 , L 2<br />

<br />

<br />

l<br />

1<br />

, l 2<br />

, che potrà essere uno dei 95 sui 100<br />

includenti o uno dei 5 su 100 che non lo includono. Pertanto, relativamente<br />

non si potrà dire che lo stesso ha probabilità 1- di contenere al suo<br />

all’intervallo <br />

l<br />

,<br />

1<br />

l 2<br />

interno il vero valore del parametro incognito , o lo contiene, allora la probabilità è pari<br />

ad 1, o non lo contiene, allora la probabilità è 0; da tale constatazione deriva anche la<br />

dizione, per 1- , di livello di confidenza e non di livello di probabilità.<br />

Ogni intervallo di stima risulta, quindi, caratterizzato da due elementi essenziali:<br />

1. l’affidabilità o attendibilità, misurata dal livello di confidenza;<br />

2. l’informatività, misurata dall’ampiezza dell’intervallo.<br />

Ovviamente, l’obiettivo da perseguire è quello dell’individuazione di intervalli molto<br />

affidabili ma di ampiezza modesta. Purtroppo, livello di confidenza e ampiezza<br />

dell'intervallo sono in relazione diretta; cioè, all'aumentare dell'attendibilità della stima (di<br />

intervallo) aumenta anche la sua ampiezza e, quindi, diminuisce la sua capacità<br />

informativa. Non sarà quindi possibile, nella determinazione di un intervallo di stima,<br />

perseguire il duplice obiettivo di massimizzazione del livello di confidenza e di<br />

minimizzazione dell’ampiezza dell’intervallo. Un modo per ridurre l'ampiezza degli<br />

intervalli, a parità di livello di confidenza (o aumentare il livello di confidenza a parità di<br />

ampiezza degli intervalli) è naturalmente quello di aumentare la dimensione del<br />

campione.<br />

L’ultima considerazione svolta suggerisce una possibile via operativa per il<br />

perseguimento simultaneo del duplice obiettivo: si fissano a priori, sia il livello di<br />

confidenza sia l’ampiezza massima dell’intervallo, per poi procedere alla determinazione<br />

della dimensione campionaria necessaria e che consente il perseguimento del duplice<br />

obiettivo. Comunque, la procedura usualmente seguita è quella basata sulla fissazione del<br />

livello di confidenza 1- con la conseguente individuazione dell’intervallo di ampiezza<br />

<br />

201


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

minima (intervallo ottimale).<br />

Verranno considerati ora alcuni problemi specifici di determinazione degli intervalli di<br />

confidenza. Si segnala in proposito che la procedura seguita è quella basata<br />

sull’elemento pivotale, dove per elemento pivotale s’intende una qualunque funzione<br />

degli elementi campionari e del parametro incognito di interesse la cui distribuzione<br />

campionaria è completamente nota, ed essendo completamente nota non può dipendere<br />

da il cui valore è incognito; in altre parole, l’elemento pivotale dipende da ma non<br />

dipende da la sua distribuzione. Quanto affermato può essere espresso dalla<br />

definizione che segue.<br />

Definizione 9 (Elemento pivotale): Sia X una v.c. con funzione di massa o di densità<br />

f(x; ), dove , e sia X = (X 1 , …, X n ) un campione casuale semplice<br />

bernoulliano estratto da X. Allora un pivot (o cardine) è una quantità<br />

Q( X ; ) che possiede le seguenti caratteristiche:<br />

1. è funzione del campione X = (X 1 , …, X n );<br />

2. è funzione di (il parametro di cui si vuol trovare l’intervallo di confidenza);<br />

3. non contiene altri parametri incogniti oltre a ;<br />

4. la sua distribuzione è completamente nota;<br />

5. è invertibile rispetto a .<br />

Θ<br />

La procedura per la determinazione di un intervallo di confidenza attraverso il metodo<br />

dell’elemento pivotale si articola nei passi sotto riportati:<br />

1. si individua un pivot Q( X ; ) per il problema in analisi; nella generalità dei casi,<br />

la via più facile per individuare l’elemento pivotale è quella che prende avvio da<br />

uno stimatore puntuale , se possibile ottimale, del parametro incognito <br />

rispetto al quale si vuol determinare l’intervallo di confidenza;<br />

2. si fissa il livello di confidenza 1<strong>–</strong>;<br />

3. si determina l’intervallo di ampiezza minima (il più informativo) [c 1 , c 2 ] all’interno<br />

del quale il pivot è compreso con probabilità pari al livello di confidenza scelto,<br />

cioè P[c 1 Q ( X ; ) c 2 ] = 1<strong>–</strong>;<br />

4. si inverte la relazione c 1 Q( X ; ) c 2 rispetto a in modo da ricavare<br />

l’intervallo di confidenza cercato per , che quindi soddisferà<br />

P[L 1 ( X ) L 2 ( X )] = 1<strong>–</strong>.<br />

ˆ<br />

3.3.1 Intervallo di confidenza per la media di una variabile casuale normale con<br />

varianza nota.<br />

Sia x 1 , x 2 ,...,x n , una specifica determinazione di un campione casuale<br />

<br />

'<br />

<br />

X X<br />

1, X<br />

2, ... , X<br />

n<br />

estratto da una popolazione distribuita normalmente con media µ<br />

202


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

2<br />

incognita e varianza σ nota; si voglia determinare un intervallo di confidenza per la<br />

media µ.<br />

La variabile media campionaria<br />

1<br />

X <br />

n<br />

n<br />

X i<br />

i1<br />

ha, nell'universo dei campioni, distribuzione normale con media µ e varianza<br />

variabile standardizzata della X<br />

X - <br />

Z ~ N0,1<br />

/ n<br />

<br />

σ 2 /n<br />

è elemento pivotale in quanto funzione degli elementi campionari, del parametro<br />

incognito ed ha una distribuzione normale , completamente nota, di media 0 e varianza<br />

pari ad 1; si potranno, allora, sulla scorta delle tavole della distribuzione normale<br />

standardizzata, determinare due valori c 1 e c 2 tali che<br />

P (c 1 Z c 2 ) = 1- <br />

si scelgono per c 1 e c 2 valori simmetrici, cioè c 2 = - c 1 = c = , comportando questi<br />

valori l’individuazione dell’intervallo di ampiezza minima a ragione della simmetria e<br />

dell’accentramento dei valori intorno alla media della distribuzione normale. Per tali<br />

motivi, l’intervallo ottenuto è quello più informativo.<br />

In tal caso, per quanto detto in precedenza, se si scegliesse ad esempio, = 0,05 si<br />

avrebbe c 1 = -<br />

z 2<br />

= -1,96 e c 2 =<br />

perfettamente equivalente alla relazione<br />

z 2<br />

z α 2<br />

. La<br />

= 1,96. L'uguaglianza sopra scritta è<br />

<br />

P X - z / n X z / n 1-<br />

2 2<br />

Per = 0,05 si avrebbe quindi l'intervallo di confidenza<br />

<br />

P X -1,96 / n X 1,96 / n 0,95<br />

Esempio 3.5<br />

Il peso medio alla nascita relativo ad un campione di 200 animali è risultato pari a 0,824<br />

grammi. Sapendo che lo scostamento quadratico medio della variabile (approssimativamente<br />

normale) peso alla nascita è gr. 0,042, si vogliono determinare gli intervalli di confidenza (ai<br />

livelli del 95% e del 99%) per l'indice caratteristico µ (peso medio).<br />

Applicando la formula sopra riportata si ha<br />

<br />

P X 1,96 0,042 / 200 X 1,96 0,042 / 200 0,95<br />

<br />

<br />

203


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

e quindi l'intervallo<br />

0,8182 μ <br />

0,8298<br />

Per = 0,01 si ha<br />

<br />

P X - 2,58 0,042 / 200 X 2,58 0,042 / 200 0,99<br />

<br />

<br />

e quindi l'intervallo<br />

0,8153 µ 0,8317<br />

Si noti come all'aumentare del livello di confidenza sia cresciuta, di conseguenza, l'ampiezza<br />

dell'intervallo, e come questa diminuirebbe (a parità di livello di confidenza) se si aumentasse<br />

la numerosità del campione.<br />

3.3.2 Intervallo di confidenza per la media di una variabile casuale normale con<br />

varianza incognita.<br />

Se ci si trova nella situazione espressa nel punto precedente, supponendo però incognita<br />

la varianza, l'intervallo di confidenza sopra individuato non potrà più essere utilizzato;<br />

infatti, nei due limiti, inferiore e superiore, dell'intervallo compare lo scostamento<br />

quadratico medio incognito della popolazione (parametro di disturbo). Il problema della<br />

determinazione dell'intervallo di confidenza può essere risolto sostituendo, allo<br />

scostamento quadratico medio incognito una sua stima campionaria.<br />

Se si stima mediante la formula<br />

la variabile casuale<br />

n<br />

1<br />

S X X<br />

n 1<br />

i1<br />

X -<br />

V <br />

S /<br />

2<br />

i<br />

<br />

μ<br />

~ t<br />

n<br />

ha una distribuzione del tipo t di Student con n - 1 gradi di libertà. Infatti, per quanto<br />

detto nelle pagine precedenti, tale variabile resta definita dal rapporto tra la variabile<br />

casuale normale standardizzata<br />

per i rispettivi gradi di libertà<br />

n1<br />

<br />

X - μ<br />

Z e la radice della variabile casuale 2 divisa<br />

σ / n<br />

n<br />

2<br />

Xi<br />

X 1<br />

n S S<br />

σ σ σ<br />

2 2<br />

i1<br />

Y / (n1) / (n1)<br />

<br />

2 2 2<br />

La variabile V sopra definita è elemento pivotale in quanto funzione degli elementi<br />

campionari, del parametro incognito ed ha distribuzione campionaria completamente<br />

nota.<br />

.<br />

204


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

Mediante l'uso delle tavole si potranno allora determinare due valori c 1 e c 2 tali che<br />

P (c 1 V c 2 ) = 1 - <br />

Se si sceglie un intervallo simmetrico, cioè c 2 = - c 1 = c = , comportando questi<br />

valori l’individuazione dell’intervallo di ampiezza minima a ragione della simmetria e<br />

dell’accentramento dei valori intorno alla media della distribuzione t di Student,<br />

seguendo lo schema di ragionamento adottato sopra, si ha<br />

t α 2<br />

<br />

P X - t S / n μ X t S / n 1-<br />

2 2<br />

<br />

dove, naturalmente, il valore numerico di c dovrà essere individuato sulle tavole della<br />

distribuzione t in corrispondenza del prefissato livello di confidenza 1- e degli n -1<br />

gradi di libertà.<br />

Esempio 3.6<br />

Avendo somministrato ad un campione casuale di cavie una particolare dieta, dalla nascita<br />

fino all'età di tre mesi, ed avendo riscontrato i seguenti incrementi nel peso: 55, 62, 54, 57, 65,<br />

64, 60, 63, 58, 67, 63 e 61 grammi; si vuol determinare un intervallo di confidenza, al livello<br />

del 95%, relativamente all'incremento medio di peso.<br />

Attribuendo al caso le differenze riscontrate negli aumenti di peso, si potrà presumere normale<br />

la popolazione teorica di tutte le cavie sottoponibili a quella particolare dieta. In questo caso<br />

l'intervallo simmetrico di confidenza può essere derivato dall'uguaglianza.<br />

X t S n X t S n <br />

P - / / 1-<br />

/2 /2<br />

dove, rispetto alla formula sopra definita, è stato sostituito al simbolo c il simbolo<br />

indicare che si sta trattando di un intervallo simmetrico il cui livello di confidenza è pari a 1 -<br />

e che la distribuzione campionaria di riferimento è la t di Student.<br />

Sulle tavole della distribuzione t , in corrispondenza di 12 - 1 = 11 gradi di libertà e per =<br />

0,05 si trova t /2<br />

t0,025<br />

2,20 ( dove 2,20 è il valore che soddisfa la relazione P(t 2,20) =<br />

F (2,20) = 0,975) si avrà allora<br />

X t S X t S <br />

P - / 12 / 12 1-<br />

/2 /2<br />

Poiché la stima della media e della varianza corretta dell'incremento medio di peso riscontrato<br />

nelle dodici cavie sono rispettivamente pari a 60,75 e 16,38 risulta l'intervallo di confidenza<br />

cioè<br />

60,75 - 2,20 16,38 12 60,75 2,20 16,38 12 <br />

58,17 µ 63,32.<br />

3.3.3 Intervallo di confidenza per la varianza di una variabile casuale normale con<br />

media incognita<br />

Se si vuol procedere alla determinazione di un intervallo di confidenza per la varianza di<br />

t α/ 2<br />

per<br />

205


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

una variabile casuale normale con media incognita si consideri la variabile casuale<br />

2 n<br />

(n 1)S<br />

X<br />

i<br />

X <br />

V <br />

~<br />

2 <br />

<br />

σ<br />

i1<br />

σ <br />

che ha nell’universo dei campioni distribuzione del tipo 2 con n-1 gradi di libertà. Si<br />

tratta, quindi, di elemento pivotale essendo completamente nota la sua distribuzione e<br />

dipendendo solo dai valori campionari e dal parametro incognito di interesse 2 .<br />

Pertanto, utilizzando i valori riportati nelle tavole della distribuzione 2 si potranno<br />

determinare due valori c 1 e c 2 per i quali è soddisfatta la relazione<br />

.<br />

c<br />

V c 1 α<br />

P<br />

1 2<br />

<br />

Anche se l’intervallo che ne risulta non è di lunghezza minima, essendo la<br />

distribuzione 2 non simmetrica, c 1 e c 2 vengono scelti usualmente in modo simmetrico<br />

dove i simboli<br />

χ α<br />

e χ<br />

1<br />

/ 2<br />

α<br />

/ 2<br />

c<br />

<br />

c<br />

<br />

2<br />

2<br />

1 1 / 2<br />

,<br />

2 / 2<br />

2<br />

2<br />

n1<br />

stanno ad indicare i valori della variabile casuale 2 che<br />

hanno, rispettivamente, l’/2% dei casi a sinistra e l’/2% dei casi a destra.<br />

L’intervallo sopra scritto diventa<br />

<br />

P<br />

χ<br />

<br />

(n<br />

1)S<br />

<br />

2<br />

σ<br />

che è perfettamente equivalente all’intervallo<br />

(n<br />

1)S<br />

P 2<br />

χ<br />

<br />

<br />

1<br />

<br />

2<br />

2<br />

2<br />

1α/<br />

2<br />

χ<br />

α/ 2<br />

<br />

α/ 2<br />

2<br />

<br />

σ<br />

2<br />

(n 1)S<br />

<br />

2<br />

χ<br />

1α/<br />

2<br />

2<br />

α<br />

<br />

1<br />

α<br />

<br />

3.3.4 Intervallo di confidenza per la media di una variabile casuale con legge di<br />

distribuzione arbitraria.<br />

I metodi per la derivazione degli intervalli di confidenza illustrati, si riferiscono a<br />

campioni estratti da popolazioni aventi distribuzione normale; ragionamento analogo può<br />

essere fatto nel caso della distribuzione bernoulliana, della distribuzione di Poisson, ecc.<br />

Sembra naturale però chiedersi come determinare gli intervalli di confidenza relativi a<br />

parametri caratteristici di interesse quando non è nota la forma della distribuzione della<br />

popolazione cui si riferisce il campione di osservazioni disponibile. Se esistono le<br />

condizioni richieste dal teorema del limite centrale, nel caso in cui il parametro d'interesse<br />

è la media, la risposta è immediata; infatti, in tale situazione, la media campionaria avrà<br />

una distribuzione approssimativamente normale, potrà allora essere applicata la<br />

metodologia esposta nelle pagine precedenti.<br />

Ad esempio, se con X si indica il numero di successi osservabili in corrispondenza di un<br />

esperimento casuale replicato n volte, la variabile casuale X ha distribuzione binomiale, si<br />

potrebbe, pertanto, procedere alla determinazione degli intervalli di confidenza facendo,<br />

eventualmente, ricorso alle tavole della distribuzione binomiale. Ma, come già segnalato nelle<br />

206


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

pagine precedenti, la variabile<br />

Z <br />

X np<br />

N<br />

npq<br />

per n abbastanza grande, dove naturalmente p è la misura delle probabilità di successo,<br />

ha una distribuzione approssimativamente normale con media 0 e varianza 1; quindi, per<br />

n abbastanza grande, la variabile X ha distribuzione approssimativamente normale con<br />

media n p e varianza n p q . Si ricorda in proposito che l'approssimazione è tanto<br />

migliore quanto più p è prossimo al valore 0,5.<br />

Per quanto sopra detto, utilizzando le tavole della distribuzione normale, risulta facile<br />

determinare il valore che soddisfa la relazione<br />

P ( - c Z c) = 1 - <br />

dove è un prefissato livello di confidenza. Infatti:<br />

<br />

P ( - c Z c) = P (Z 2 c 2 ) =<br />

P <br />

<br />

<br />

0,1)<br />

<br />

<br />

2<br />

<br />

<br />

X np<br />

P <br />

<br />

np 1<br />

p<br />

<br />

2<br />

c<br />

<br />

<br />

<br />

<br />

2 2 2 2<br />

( n c ) p ( 2X c ) p X / n 0 1<br />

Essendo positivo il coefficiente n + c 2 della disuguaglianza<br />

(n + c 2 ) p 2 - (2X + c 2 ) p + X 2 /n < 0<br />

p , p<br />

ne deriva che essa risulterà soddisfatta per valori di p interni all'intervallo <br />

p 1<br />

e p 2<br />

indicano le soluzioni dell'equazione di secondo grado<br />

(n + c 2 ) p 2 - (2X + c 2 ) p + X 2 /n = 0<br />

L’uguaglianza sopra scritta risulta pertanto equivalente alla relazione<br />

P (p 1<br />

p p 2<br />

) = 1- <br />

1 2<br />

; dove<br />

Se oltre ad n anche X ed (n - X) assumono valori sufficientemente elevati, le quantità<br />

p 1<br />

e p 2<br />

potranno essere derivate più semplicemente, ma in modo approssimato dalle<br />

uguaglianze<br />

X<br />

<br />

X X n n - X n X n n - X n<br />

p<br />

1<br />

z<br />

α 2<br />

; p<br />

2<br />

z<br />

α 2<br />

n n n n<br />

Esempio 3.7<br />

In una certa stazione sperimentale sono stati osservati 550 germogli di pisello, 420 dei quali<br />

presentavano colorazione verde (carattere dominante) mentre i rimanenti 130, colorazione<br />

gialla (carattere recessivo). Si vuol determinare un intervallo di confidenza, al livello del 95%,<br />

per la percentuale p di piselli verdi.<br />

Essendo n = 550 piuttosto elevato si potrà ricorrere all'approssimazione normale; dalle tavole<br />

di tale distribuzione risulta, come noto, che c = 1,96 è il valore che soddisfa l'uguaglianza<br />

P ( - c Z c) = 0,95<br />

quindi<br />

207


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

<br />

<br />

2<br />

2 2<br />

2 2<br />

2 420 1,96 2 420 1,96 4 550 1,96 420 / 550<br />

p1 <br />

<br />

2<br />

2 550 1,96<br />

<br />

<br />

2<br />

2 2<br />

2 2<br />

2 420 1,96 2 420 1,96 4 550 1,96 420 / 550<br />

p2 <br />

<br />

2<br />

2 550 1,96<br />

pertanto l'intervallo di confidenza sarà<br />

0,73 p 0,80<br />

Qualora fossero state applicate le formule approssimate si sarebbe ottenuto<br />

p 1 = 0,7263 , p 2 = 0,7976.<br />

0,72637<br />

0,79724<br />

3.3.5 Intervalli simultanei di confidenza per la media e la varianza di una variabile<br />

casuale normale<br />

Sia x 1 , x 2 ,...,x n , una specifica determinazione di un campione estratto da una popolazione<br />

distribuita normalmente con media µ e varianza entrambe incognite; si vogliano<br />

determinare intervalli simultanei (regione) di confidenza per la media µ e per la<br />

σ<br />

varianza .<br />

Una prima possibilità di soluzione del problema è quella di utilizzare gli intervalli già<br />

determinati in precedenza: per la media µ in presenza del parametro di disturbo incognito<br />

σ<br />

2<br />

2<br />

e per la varianza<br />

σ<br />

2<br />

in presenza del parametro di disturbo incognito µ:<br />

<br />

P X - t S / n μ X t S / n - α<br />

α1 2<br />

<br />

α1<br />

2<br />

1<br />

1<br />

2 2<br />

1 2 1<br />

<br />

1<br />

2 2 <br />

2<br />

χα 2/ 2<br />

χ1 α 2/<br />

2 <br />

(n )S (n )S<br />

P <br />

σ α<br />

<br />

<br />

Questa via deve essere esclusa per due ragioni fondamentali:<br />

1. la regione (intervalli simultanei) di confidenza che si ottiene combinando i<br />

due intervalli non è ottimale (non è di minima dimensione);<br />

2. i due intervalli casuali non sono indipendenti (presenza in entrambi gli<br />

intervalli della v.c. varianza campionaria), quindi, il livello di confidenza<br />

congiunto non è uguale al prodotto dei due livelli<br />

<br />

σ<br />

2<br />

1 <br />

e 1<br />

.<br />

Se si tiene presente che, nella derivazione dell’intervallo di confidenza per la media,<br />

alla mancata conoscenza del parametro di disturbo<br />

stima puntuale corretta<br />

S<br />

2<br />

1<br />

<br />

n 1<br />

<br />

<br />

X<br />

i<br />

1 2<br />

2<br />

σ si è sopperito attraverso una sua<br />

X<br />

<br />

2<br />

208


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

nella situazione in esame è forse più ragionevole pensare ad un diverso modo di<br />

eliminazione del “disturbo”, ad esempio, facendo ricorso non alla stima puntuale di<br />

ma ad una stima per intervallo. I due intervalli causali, che risultano anche indipendenti,<br />

da prendere in considerazione sono:<br />

<br />

P X - z σ / n μ X z σ / n 1- α<br />

α1 2<br />

<br />

α1<br />

2<br />

<br />

1<br />

2 2<br />

1 2 1<br />

<br />

1<br />

2 2 <br />

2<br />

χα 2/ 2<br />

χ1 α 2/<br />

2 <br />

(n )S (n )S<br />

P <br />

σ α<br />

<br />

<br />

Se ora si considera che:<br />

<br />

P<br />

z<br />

<br />

X-μ<br />

<br />

σ / n<br />

z<br />

<br />

<br />

<br />

α<br />

<br />

P<br />

<br />

2 X-μ <br />

2<br />

<br />

z z<br />

<br />

<br />

α1 2 α 2<br />

1<br />

1<br />

1<br />

α1<br />

2<br />

α1<br />

2<br />

si ottiene la relazione funzionale (parabola):<br />

<br />

σ /<br />

2<br />

2 2 2<br />

2<br />

2<br />

X-μ z σ / n σ n X - μ / z<br />

α1 2 α1<br />

2<br />

che consente di tracciare i confini della regione di confidenza per µ e<br />

Nella Fig. 3.2 sono riportati gli intervalli simultanei di confidenza per µ e : il<br />

rettangolo in grassetto rappresenta la regione di confidenza ottenuta combinando i due<br />

intervalli cui si è pervenuti attraverso elaborazioni separate e per la quale non si è in<br />

grado di calcolare il livello<br />

essendo i due intervalli casuali non<br />

1 1<br />

<br />

<br />

<br />

1<br />

1<br />

indipendenti, mentre la determinazione simultanea, non solo consente di calcolare il<br />

1 1<br />

<br />

ma individua anche una regione di<br />

livello di confidenza <br />

1<br />

1<br />

confidenza di minore dimensione (quella racchiusa tra i due rami della parabola e le due<br />

linee che definiscono l’intervallo di confidenza per la varianza<br />

ottimale.<br />

2<br />

2<br />

σ<br />

2<br />

n <br />

2<br />

σ<br />

2<br />

.<br />

<br />

<br />

σ<br />

2<br />

σ<br />

) anche se non è quella<br />

2<br />

209


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

2<br />

<br />

/n<br />

X-μ<br />

2<br />

z<br />

2<br />

α1<br />

2<br />

σ<br />

2<br />

(n <br />

<br />

2 2<br />

1 )s χ1<br />

α2/<br />

2<br />

2<br />

s<br />

(n <br />

2 2<br />

1)s<br />

χα/<br />

2<br />

x t / n x x t / n<br />

1 2<br />

s<br />

1 2<br />

s<br />

<br />

Fig. 3.2 <strong>–</strong> Intervalli simultanei di confidenza per la media e la varianza di una distribuzione<br />

normale<br />

3.3.6 Intervallo di confidenza per la differenza fra medie e tra proporzioni<br />

Partendo da considerazioni analoghe a quelle fatte nelle pagine precedenti, risulta facile<br />

verificare che l’intervallo di confidenza simmetrico per la differenza fra le medie e<br />

y<br />

di due distribuzioni normali con varianze note<br />

2<br />

x<br />

e<br />

2<br />

y<br />

, risulta dall’uguaglianza<br />

x<br />

<br />

2 2 2 2<br />

P X Y c <br />

x<br />

/ m y<br />

/ n x y X Y c <br />

x<br />

/ m y<br />

/ n 1<br />

<br />

<br />

dove<br />

X<br />

e<br />

Y<br />

sono le medie campionarie, m e n le numerosità dei due campioni casuali<br />

supposti indipendenti. La costante c dovrà essere determinata sulla scorta delle tavole<br />

della distribuzione normale, in corrispondenza del prefissato livello di confidenza 1- .<br />

L’elemento pivotale che ha consentito la derivazione dell’intervallo è:<br />

X Y<br />

<br />

<br />

m<br />

<br />

X<br />

<br />

<br />

n<br />

2 2<br />

x n<br />

Y<br />

<br />

<br />

<br />

~ N 0,1<br />

Nel caso in cui i due campioni casuali si riferissero a popolazioni normali aventi la<br />

stessa varianza incognita 2 , la formula per l’intervallo simmetrico di confidenza, per la<br />

differenza fra le medie è<br />

<br />

x<br />

e <br />

y<br />

210


dove<br />

X<br />

e<br />

Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

<br />

2 2<br />

( m 1) Sx<br />

( n 1) S<br />

y 1 1<br />

<br />

P <br />

X Y c<br />

<br />

x<br />

y<br />

<br />

m n 2<br />

m n<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

2 2<br />

( m 1) Sx<br />

( n 1) S<br />

y 1 1<br />

<br />

<br />

X Y c<br />

<br />

1<br />

<br />

m n 2<br />

m n<br />

<br />

<br />

<br />

Y<br />

sono le due medie campionarie;<br />

S<br />

e<br />

2 2<br />

x<br />

S y<br />

le due varianze campionarie<br />

(stime corrette di 2 ); m , n le numerosità dei due campioni. La costante c dovrà<br />

essere determinata in corrispondenza di m + n - 2 gradi di libertà, sulla scorta delle<br />

tavole della distribuzione t di Student, al prefissato livello di confidenza 1- .<br />

L’elemento pivotale che ha consentito la derivazione dell’intervallo è:<br />

dove S <br />

2<br />

<br />

1 n1<br />

<br />

X Y m S<br />

X Y x<br />

2 2<br />

2 2<br />

<br />

<br />

m n<br />

X Y<br />

X<br />

Y<br />

<br />

1 1<br />

S <br />

m<br />

n<br />

<br />

~ t<br />

mn-2<br />

<br />

1 x<br />

1<br />

<br />

mn2<br />

m S n S<br />

<br />

2 2<br />

y<br />

2<br />

Sy<br />

<br />

m n 2<br />

<br />

<br />

Analogamente a quanto detto sopra, l’intervallo di confidenza per la differenza fra<br />

proporzioni, qualora i campioni siano numerosi e p x , p y siano vicini a 0,5, è espresso<br />

dalla formula<br />

<br />

ˆ (1 ˆ ) ˆ (1 ˆ )<br />

<br />

ˆ ˆ Px<br />

P P<br />

x y<br />

P <br />

y<br />

P Px Py c <br />

px py<br />

<br />

<br />

m n <br />

<br />

<br />

<br />

ˆ (1 ˆ ) ˆ (1 ˆ )<br />

<br />

ˆ ˆ<br />

Py<br />

P<br />

<br />

Px<br />

P <br />

x<br />

y <br />

Px<br />

Py<br />

c<br />

<br />

1<br />

<br />

m n <br />

<br />

<br />

dove, al solito P ˆ e P ˆ sono le due proporzioni campionarie; p x e p y le proporzioni<br />

x<br />

y<br />

incognite delle popolazioni; m e n le numerosità dei due campioni. La costante c dovrà<br />

essere determinata, sulla scorta della distribuzione normale, in corrispondenza del<br />

prefissato livello di confidenza 1- .<br />

Gli intervalli di confidenza per la somma di medie e di proporzioni, relativamente a<br />

situazioni analoghe a quelle sopra esposte, saranno identici a quelli già considerati, a<br />

meno del segno ( x + y e p x + p y anziché x - y e p x - p y ).<br />

211


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

3.3.7 Intervallo di confidenza per la differenza fra medie per dati appaiati<br />

Se X ~ N( x ,<br />

2<br />

x<br />

) e Y ~ N( y ,<br />

2<br />

y<br />

) sono due v.c. con varianze<br />

2<br />

x<br />

<br />

2<br />

y<br />

incognite e si<br />

vuole costruire un intervallo di confidenza per x y sulla base dell’evidenza<br />

campionaria, l’elemento definito nella sezione precedente non è più pivotale poiché le<br />

due varianze<br />

2<br />

x<br />

e<br />

2<br />

y<br />

(parametri di disturbo) non sono note. Si può allora pensare di<br />

sostituire alle quantità incognite una loro stima ed ottenere la v.c..<br />

dove<br />

2<br />

S<br />

x<br />

e<br />

2<br />

S y<br />

utilizzate come stimatori di<br />

X Y <br />

S<br />

2<br />

x<br />

<br />

x<br />

/ m S<br />

2<br />

y<br />

y<br />

/ n<br />

sono, rispettivamente, le varianze campionarie corrette di X e di Y<br />

2<br />

x<br />

e<br />

2<br />

y<br />

<br />

,<br />

. Purtroppo, questa v.c., pur non dipendendo da<br />

parametri incogniti, non è elemento pivotale non essendo nota la sua distribuzione.<br />

Infatti, la v.c. di cui si conosce la distribuzione (t di Student con n+m-2 gradi di<br />

libertà) è quella definita dal rapporto tra la v.c. la normale standardizzata relativa alla<br />

differenza tra medie e la radice di un<br />

combinazione delle varianze:<br />

2<br />

<br />

<br />

divisa per i propri gradi di liberta relativa alla<br />

2<br />

2<br />

X Y x y m1<br />

S n1<br />

S <br />

x<br />

y<br />

<br />

2 2 m n<br />

2<br />

2 2<br />

x<br />

/ m<br />

y<br />

/ n <br />

x<br />

<br />

y <br />

Ma in questa espressione le due varianze incognite<br />

2<br />

x<br />

e<br />

2<br />

y<br />

<br />

, che compaiono al<br />

numeratore e al denominatore, non si semplificano.<br />

Per campioni di dimensioni modeste il problema della determinazione dell’intervallo di<br />

confidenza per<br />

<br />

x<br />

y<br />

in presenza di due varianze<br />

2<br />

x<br />

e<br />

2<br />

y<br />

diverse ed incognite trova<br />

la sua soluzione ottimale nel caso in cui le due v.c. X e Y non sono indipendenti, anzi,<br />

si presume che la rilevazione dei due caratteri sia stata effettuata sulle stesse unità<br />

statistiche (dati appaiati). In tale situazione si avranno a disposizione n coppie di<br />

osservazioni x i<br />

, y i<br />

e si può, pertanto considerare la v.c. V = X <strong>–</strong> Y che è ancora una<br />

v.c. normale (essendo combinazione lineare di v.c. normali) con media<br />

<br />

E V E X E Y <br />

v x y<br />

e varianza<br />

Var<br />

2<br />

v<br />

2 2<br />

V<br />

Var X<br />

Var<br />

Y<br />

<br />

Cov X,<br />

Y <br />

x<br />

<br />

y<br />

<br />

xy<br />

Per la determinazione dell’intervallo di interesse basterà applicare la procedura<br />

illustrata in precedenza quando si è trattato della stima di intervallo per la media di una<br />

v.c. normale con varianza incognita. Da rilevare che per risolvere il problema non<br />

2 2<br />

occorre procedere alla stima delle varianze <br />

x<br />

e <br />

y<br />

e della covarianza xy<br />

bastando la<br />

stima della varianza della v.c. differenza V = X <strong>–</strong> Y. L’elemento pivotale è<br />

.<br />

212


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

X Y <br />

S<br />

v<br />

<br />

x<br />

n<br />

y<br />

<br />

~ tn<br />

1<br />

n<br />

n<br />

1 1<br />

S V X Y<br />

.<br />

2<br />

dove 2<br />

v i i i i<br />

n1 i1 n1<br />

i1<br />

Si segnala che trattare con dati appaiati riduce drasticamente il numero dei gradi di<br />

libertà che sono pari a n-1 rispetto ai gradi di libertà che si sarebbero avuti (2n-2) nel<br />

caso di campioni indipendenti.<br />

3.3.8 Intervallo di confidenza per il rapporto di varianze<br />

Se si vuole determinare l’intervallo di confidenza per il rapporto di due varianze<br />

2<br />

e 2<br />

x y<br />

, di popolazioni normali indipendenti con medie x e y incognite, disponendo<br />

di m informazioni campionarie su X ed n su Y, basterà fare riferimento all’elemento<br />

pivotale rappresentato dalla variabile casuale<br />

( m1)<br />

S<br />

W <br />

( n1)<br />

S S<br />

<br />

<br />

2<br />

m<br />

x<br />

2<br />

/( m 1) 2 2 2 X<br />

i<br />

X /( m 1) 2<br />

x<br />

S <br />

y<br />

<br />

x i1<br />

y<br />

2 2 2 n<br />

2<br />

2<br />

y y<br />

x x<br />

/( n 1)<br />

Y /( 1)<br />

2<br />

i<br />

Y n <br />

y<br />

i1<br />

~ F<br />

m1, n1<br />

che ha, nell’universo dei campioni, distribuzione del tipo F di Fisher-Snedecor con m-1 e<br />

n-1 gradi di libertà.<br />

Si può, pertanto, determinare l’intervallo<br />

c W c 1<br />

α<br />

P<br />

1 2<br />

<br />

Anche in questo caso se si scelgono valori di c 1 e c 2 simmetrici<br />

c<br />

F<br />

c<br />

1 1 α/2 2<br />

Fα/2<br />

cioè valori della variabile casuale non simmetrica F che hanno, rispettivamente, l’/2%<br />

dei casi a sinistra e l’/2 % dei casi a destra, si otterrà un intervallo non ottimale.<br />

Sotto le ipotesi introdotte si ha l’intervallo<br />

,<br />

<br />

2<br />

<br />

2<br />

S σ<br />

y<br />

P<br />

x<br />

F<br />

α/<br />

2<br />

F<br />

2 2 α/ 2<br />

S<br />

y<br />

σ<br />

x<br />

che è perfettamente equivalente all’intervallo<br />

ed anche<br />

<br />

1<br />

<br />

1<br />

<br />

2<br />

2 2<br />

S<br />

y<br />

σ<br />

y<br />

S<br />

y<br />

P<br />

F<br />

F<br />

2 1<br />

α/ 2<br />

<br />

2 2 α/ 2<br />

S<br />

x<br />

σ<br />

x<br />

S<br />

x<br />

α<br />

<br />

1 α<br />

<br />

<br />

2 2 2<br />

Sx 1 σx Sx<br />

1 <br />

P 1<br />

α.<br />

2 2 2<br />

Sy Fα/2 σy Sy F <br />

<br />

1 α/2 <br />

213


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

3.4 - Determinazione della numerosità campionaria<br />

La teoria degli intervalli di confidenza consente anche di affrontare in modo razionale la<br />

problematica della scelta della dimensione campionaria.<br />

Nelle pagine precedenti è stato sottolineato che un intervallo di confidenza è<br />

caratterizzato da due elementi fondamentali: il livello di confidenza, che ne misura<br />

l’affidabilità, e l’ampiezza, che ne misura l’informatività. L’obiettivo che si vuol<br />

perseguire è quello della determinazione di un intervallo per il quale siano massime sia<br />

l’affidabilità che l’informatività; purtroppo, come già detto, fra questi due elementi esiste<br />

un legame diretto, nel senso che all’aumentare del livello di confidenza aumenta anche<br />

l’ampiezza dell’intervallo, e che quindi non è possibile, contemporaneamente,<br />

massimizzare il livello di confidenza e minimizzare l’ampiezza.<br />

Pertanto, in presenza di una dimensione campionaria predeterminata, se si vuole<br />

incrementare l’informatività si dovrà rinunciare a qualcosa in termini di affidabilità e<br />

viceversa. Nelle situazioni in cui la dimensione non è prefissata si può, una volta fissato il<br />

livello di confidenza, procedere alla determinazione della dimensione campionaria in<br />

modo da ottenere un intervallo di confidenza per il parametro d’interesse di ampiezza<br />

prefissata.<br />

La procedura da seguire è quella illustrata nelle due esemplificazioni che seguono.<br />

Sia X ~ N(, ) e si supponga, in prima istanza, che sia nota. Si vuol<br />

determinare la dimensione del campione affinché l’ampiezza dell’intervallo di confidenza<br />

per , al livello di confidenza (1 <strong>–</strong> ), sia pari ad A.<br />

Si supponga di voler procedere alla determinazione di un intervallo di confidenza per<br />

la media di una popolazione normale la cui varianza è nota prefissando sia il livello di<br />

confidenza sia l’ampiezza indicata con A.<br />

L’espressione dell’intervallo di confidenza per il caso in esame è già stata individuata<br />

ed è<br />

1<br />

2<br />

<br />

2<br />

<br />

<br />

P X - z / n X z / n 1-<br />

2 2<br />

Avendo prefissato sia il livello di confidenza che l’ampiezza dell’intervallo deve valere<br />

la relazione:<br />

2 2<br />

2<br />

2<br />

2 2<br />

<br />

A X z / n X z / n 2 z / n n 4 z / A<br />

si ricava n come incognita<br />

n = (2 z/A) 2 ,<br />

che, dovendo sempre essere un intero, va arrotondato per eccesso.<br />

La formula fornisce la dimensione campionaria cercata, nel rispetto dei vincoli<br />

prefissati, ma è basata sull’assunto della conoscenza del parametro<br />

2<br />

, circostanza<br />

214


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

questa che si riscontra molto raramente nei contesti operativi; nella generalità dei casi, la<br />

2<br />

varianza è incognita. In tale contesto, per stabilire la dimensione del campione si<br />

dovrà ricorrere ad una sua stima, che potrà derivare da conoscenze pregresse o da<br />

un’indagine campionaria “pilota”, che sarà, ovviamente, di dimensione ridotta ed il cui<br />

unico scopo è quello di pervenire ad una stima della varianza incognita.<br />

Come seconda esemplificazione si ipotizzi di voler determinare la dimensione<br />

campionaria per un intervallo di confidenza del parametro p relativo ad una v.c. di<br />

Bernoulli, , nel rispetto dei vincoli di confidenza ed informatività prefissati.<br />

Come già visto, se risulta ragionevole l’approssimazione con la distribuzione normale,<br />

l’intervallo di confidenza per il parametro p è:<br />

1 X 1<br />

<br />

X<br />

p p p p <br />

P z<br />

α 2<br />

p z<br />

α 2 1<br />

<br />

n n n n <br />

dove X rappresenta il numero delle volte in cui l’evento d’interesse si è verificato in n<br />

prove indipendenti.<br />

Avendo prefissato il livello di confidenza ( ) e l’ampiezza A dell’intervallo, deve<br />

essere soddisfatta l’uguaglianza<br />

A <br />

X<br />

n<br />

da cui deriva<br />

<br />

z<br />

α 2<br />

p <br />

1<br />

1<br />

p X p 1<br />

p p 1<br />

p<br />

n<br />

<br />

n<br />

n 4 z<br />

2 2<br />

<br />

z<br />

α 2<br />

<br />

p 1<br />

p<br />

n A<br />

<br />

.<br />

n<br />

2z<br />

Relazione che non può essere utilizzata essendo p l’incognita del problema;<br />

problema che può, comunque, essere risolto o seguendo le indicazioni fornite nella<br />

esemplificazione precedente (informazioni pregresse o indagine pilota), oppure, ed è la<br />

procedura usualmente impiegata, ponendo p = (1-p) = 0,5 , valore questo che<br />

massimizza l’espressione, cioè il valore di n. Si tratta di un atteggiamento prudenziale<br />

che comporta, nella generalità dei casi un sovradimensionamento della numerosità<br />

campionaria.<br />

α 2<br />

n<br />

Esempio 3.8<br />

Nell’esempio la numerosità del campione, anziché essere fissata a priori, viene determinata in<br />

funzione del livello di confidenza e dell'ampiezza dell'intervallo (errore ammesso).<br />

Uno sperimentatore, sapendo che lo scostamento quadratico medio del tempo di reazione delle<br />

cavie ad un certo stimolo è pari a 0,05 secondi, vuole determinare il numero minimo di cavie<br />

da sottoporre ad esperimento affinché, nella stima del tempo medio di reazione, l'eventuale<br />

errore non superi 0,01 secondi ai livelli di confidenza del 95% e del 99%.<br />

Al livello del 95% i limiti di confidenza sono<br />

0,05<br />

0,05<br />

L 1<br />

X 1,96 , L 2<br />

X 1,96 <br />

n<br />

n<br />

215


Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie<br />

INFERENZA STATISTICA (Note didattiche)<br />

Bruno Chiandotto Versione 2015<br />

3. Stima<br />

dovendo essere soddisfatto il vincolo sull'errore<br />

1,96 0,05 / n <br />

si avrà<br />

n 96,04<br />

0,01<br />

Al livello di confidenza del 99% la disuguaglianza relativa all'errore risulta essere<br />

da cui<br />

2,58 0,05 / n <br />

n 166,4<br />

0,01<br />

Si può quindi concludere che se lo sperimentatore vuole contenere l'errore, nella stima del<br />

tempo medio di reazione, nel limite di 0,01 secondi, dovrà fissare la dimensione del campione<br />

a 97, nel caso in cui sia interessato ad un livello di confidenza del 95%; dovrà invece estendere<br />

l'esperimento a 167 cavie nel caso in cui porti il livello di confidenza al 99%.<br />

216

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!