lezioni 19 e 20 - Università degli Studi della Basilicata
lezioni 19 e 20 - Università degli Studi della Basilicata
lezioni 19 e 20 - Università degli Studi della Basilicata
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Università</strong> <strong>degli</strong> <strong>Studi</strong> di <strong>Basilicata</strong> – Facoltà di Economia<br />
Corso di Laurea in Economia Aziendale - a.a. <strong>20</strong>12/<strong>20</strong>13<br />
<strong>lezioni</strong> di statistica del 3 e 6 giugno <strong>20</strong>13<br />
- di Massimo Cristallo -<br />
1. Distribuzioni campionarie<br />
Nei problemi di inferenza statistica si traggono conclusioni su una o più<br />
caratteristiche dell’intera popolazione osservando le medesime caratteristiche in un<br />
campione di numerosità n.<br />
In realtà, pur rilevando un solo campione è importante conoscere le proprietà <strong>della</strong><br />
caratteristica in esame al variare dei possibili campioni di ampiezza n estraibili dalla<br />
popolazione (di numerosità N) data una tecnica prescelta.<br />
Definiamo statistica una funzione dei dati di un campione casuale. Una statistica è<br />
quindi una variabile casuale, e come tale è possibile considerare la sua distribuzione di<br />
probabilità, detta distribuzione campionaria <strong>della</strong> statistica.<br />
1A. Distribuzione campionaria <strong>della</strong> media<br />
Sia (X 1 , X 2 , …, X n ) un campione casuale estratto da una popolazione qualsiasi<br />
avente media μ e varianza 2 , entrambe finite, considerando la seguente statistica “media<br />
campionaria” :<br />
+ + … + <br />
<br />
è ovvio che essa assume valore diverso a seconda del campione prescelto. La distribuzione<br />
che associa a ciascuna delle possibili medie campionarie la relativa probabilità di verificarsi<br />
costituisce la distribuzione campionaria <strong>della</strong> media. Tale distribuzione ha media e varianza che<br />
dipendono dal tipo di campionamento utilizzato.<br />
a. Campionamento con ripetizione (o bernoulliano)<br />
L’estrazione con ripetizione delle unità campionarie equivale ad ipotizzare che le<br />
X i sono indipendenti ed ugualmente distribuite. In tal caso si prova facilmente che:<br />
() = μ<br />
() = <br />
<br />
1
cioè la distribuzione <strong>della</strong> media campionaria è centrata intorno alla media <strong>della</strong><br />
popolazione, con dispersione dei suoi possibili valori intorno alla medesima media che<br />
diminuisce al crescere dell’ampiezza campionaria.<br />
Al tendere di n all’infinito, ovvero nel caso limite in cui n=N, è evidente che la<br />
dispersione si annulla completamente. Ciò si deduce matematicamente, ma anche<br />
pensando al fatto che se si rileva l’intera popolazione l’unico valore medio che si riscontra<br />
è proprio il valore μ <strong>della</strong> popolazione.<br />
b. Campionamento senza ripetizione<br />
In questo caso l’estrazione di un’unità campionaria è tale che ad ogni estrazione<br />
non è possibile rilevare un’unità di quelle estratte in precedenza. Vi è quindi dipendenza tra<br />
le diverse estrazioni effettuate.<br />
Si prova dunque che:<br />
() = μ<br />
() = <br />
<br />
− <br />
− 1<br />
<br />
ove il fattore correttivo , minore di 1, sta a significare che l’estrazione senza<br />
<br />
ripetizione genera una minore dispersione rispetto a quella bernoulliana. Tuttavia quando<br />
N si discosta molto da n il fattore correttivo si avvicina all’unità.<br />
c. Campionamento in blocco<br />
Nell’ipotesi di estrazione in blocco si riducono i possibili campioni estraibili<br />
rispetto al campionamento senza ripetizione, ma restano validi i seguenti risultati:<br />
() = μ<br />
() = <br />
<br />
− <br />
− 1<br />
il che significa che è indifferente parlare dell’uno o dell’altro campionamento ai fini <strong>della</strong><br />
dispersione dei possibili valori <strong>della</strong> media campionaria rispetto alla media <strong>della</strong><br />
popolazione.<br />
1B. Distribuzione campionaria <strong>della</strong> proporzione<br />
Consideriamo il caso di popolazioni dicotomiche, cioè di variabili X che possono<br />
assumere solo i valori 1 e 0, a seconda che si verifichi o meno l’evento in esame.<br />
2
Ipotizziamo quindi un’estrazione con ripetizione (cioè bernoulliana), e riprendiamo<br />
dalle precedenti <strong>lezioni</strong> i risultati <strong>della</strong> media e <strong>della</strong> varianza <strong>della</strong> v.c. di Bernoulli, in cui<br />
valevano le seguenti:<br />
() = <br />
2 (X) = p (1-p)<br />
ove questa volta si è sostituito Π con p, e si ottiene:<br />
(̂) = <br />
( ̂ ) =<br />
(1 − )<br />
<br />
in cui ̂ è la proporzione campionaria e coincide con la media campionaria (trattandosi<br />
appunto di fenomeno dicotomico).<br />
Esempio<br />
Si costruiscano le distribuzioni campionarie <strong>della</strong> media, considerando i primi 5 numeri<br />
naturali, con n=2, e si verifichi che valgono i risultati sopra riportati nei diversi tipi di<br />
campionamento analizzati.<br />
2. Forma delle distribuzioni campionarie e teorema del<br />
limite centrale<br />
Finora non si è detto nulla sulla forma delle distribuzioni campionarie esaminate.<br />
Consideriamo allora il caso <strong>della</strong> distribuzione campionaria <strong>della</strong> media.<br />
Se il fenomeno X si distribuisce secondo una curva normale, allora anche la<br />
distribuzione campionaria <strong>della</strong> media avrà una distribuzione normale, qualunque sia il<br />
valore di n.<br />
Se il fenomeno oggetto di studio non si distribuisce normalmente, allora non è<br />
possibile affermare quanto detto in precedenza.<br />
Tuttavia se il campione presenta numerosità elevata, cioè n è sufficientemente grande<br />
(di solito si considera n>100), si ricorre al Teorema del limite centrale. Esso afferma che<br />
quando è dato un campione di numerosità elevata, tratto da una popolazione con<br />
distribuzione qualsiasi, dove sono note media μ e varianza 2 , si ha che la distribuzione<br />
<strong>della</strong> media campionaria ha una forma approssimativamente normale.<br />
3
3. Stimatori e metodi di stima puntuale<br />
Si supponga che la caratteristica <strong>della</strong> popolazione che si intende stimare sia<br />
rappresentabile con una v.c. X, avente funzione di probabilità o di densità di probabilità,<br />
che dipende da uno o più parametri incogniti.<br />
In tal caso, lo stimatore del parametro θ è definito come segue:<br />
= ( , , … , )<br />
ovvero è una formula mediante la quale si stima il parametro incognito utilizzando le<br />
informazioni campionarie.<br />
Il valore assunto dallo stimatore in corrispondenza di un dato campione:<br />
X 1 = x 1 , X 2 = x 2 , …, X n = x n<br />
si denota con e viene chiamato stima del parametro θ.<br />
In pratica, lo stimatore è una variabile casuale, mentre la stima è un numero (cioè<br />
una determinazione <strong>della</strong> variabile casuale).<br />
Esistono diversi metodi di stima puntuale dei parametri. Tra questi riportiamo il<br />
metodo <strong>della</strong> massima verosimiglianza (ML) e il metodo dei momenti.<br />
3.1. Metodo di massima verosimiglianza (ML)<br />
segue:<br />
Definita la funzione di massima verosimiglianza L(x, θ) con la produttoria che<br />
<br />
( ! , )<br />
ove l’elemento generico <strong>della</strong> produttoria rappresenta la funzione di densità di probabilità<br />
di una data popolazione, mentre le x i indicano le osservazioni campionarie, il metodo<br />
consiste nell’individuare il valore del parametro incognito che rende massima la funzione<br />
L(x, θ). Se questa funzione è derivabile, allora si procede ponendo uguali a zero le derivate<br />
parziali <strong>della</strong> funzione L(x, θ) rispetto a ciascuno dei parametri incogniti e risolvendo il<br />
sistema che ne deriva.<br />
Nel caso di una funzione di densità di probabilità con un solo parametro si ha<br />
semplicemente un’equazione da risolvere. In questo caso, una volta individuato il valore<br />
del parametro che annulla la derivata prima, occorre verificare che la derivata seconda sia<br />
minore di zero nel punto in cui la derivata prima si è annullata (trattandosi appunto di un<br />
“punto di massimo”).<br />
Essendo il logaritmo una funzione monotona crescente, capita molto spesso di<br />
considerare al posto <strong>della</strong> funzione L(x, θ) la sua trasformazione logaritmica, nota come<br />
funzione di log-verosimiglianza. Risulta infatti più agevole il calcolo delle derivate parziali<br />
di quest’ultima funzione.<br />
4
Metodo dei momenti<br />
Se i parametri da stimare sono h, tale metodo consiste nell’uguagliare i primi h<br />
momenti <strong>della</strong> popolazione con i corrispondenti momenti campionari, purchè esistano tali<br />
momenti “rispetto all’origine”, e nel risolvere il sistema di h equazioni che ne deriva.<br />
Anche in questo caso, nel caso di una funzione di densità di probabilità con un<br />
solo parametro si ha semplicemente un’equazione da risolvere (E(X)= media campionaria).<br />
Esempi<br />
1. La durata di vita X di una particella radioattiva ha distribuzione esponenziale di<br />
parametro ω , con funzione di densità f ( x) = 1 e , con x > 0 e ω > 0 . Avendo<br />
ω<br />
osservato il seguente campione casuale semplice:<br />
x<br />
−<br />
ω<br />
x = (4.518, 4.329, 5.476, 5.455, 6.264, 4.277)<br />
in cui i dati sono espressi in secondi, determinare la stima di massima verosimiglianza del<br />
parametro ω .<br />
Fonte: M. Grigoletto, L. Ventura, Statistica per le scienze economiche, Giappichelli Editore,<br />
Torino <strong>19</strong>98)<br />
Soluzione<br />
Si determini la funzione di log-verosimiglianza e si ponga uguale a zero la sua derivata<br />
prima rispetto al parametro incognito. Una volta trovato lo stimatore, si sostituiscano in<br />
esso i valori campionari rilevati.<br />
2. Il direttore di una banca di una piccola città intende investigare la proporzione di<br />
depositanti che vengono pagati mensilmente. Per compiere tale studio vengono scelti in<br />
modo casuale <strong>20</strong>0 depositanti e, di questi, 23 affermano di essere pagati mensilmente.<br />
Trovare la stima <strong>della</strong> proporzione reale di depositanti che vengono pagati mensilmente.<br />
Fonte: M. Grigoletto, L. Ventura, Statistica per le scienze economiche, Giappichelli<br />
Editore, Torino <strong>19</strong>98<br />
Soluzione<br />
Si proceda come nel caso precedente, tenendo presente che la v.c. di riferimento per il<br />
fenomeno in esame è la bernoulliana.<br />
5