03.04.2015 Views

lezioni 19 e 20 - Università degli Studi della Basilicata

lezioni 19 e 20 - Università degli Studi della Basilicata

lezioni 19 e 20 - Università degli Studi della Basilicata

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Università</strong> <strong>degli</strong> <strong>Studi</strong> di <strong>Basilicata</strong> – Facoltà di Economia<br />

Corso di Laurea in Economia Aziendale - a.a. <strong>20</strong>12/<strong>20</strong>13<br />

<strong>lezioni</strong> di statistica del 3 e 6 giugno <strong>20</strong>13<br />

- di Massimo Cristallo -<br />

1. Distribuzioni campionarie<br />

Nei problemi di inferenza statistica si traggono conclusioni su una o più<br />

caratteristiche dell’intera popolazione osservando le medesime caratteristiche in un<br />

campione di numerosità n.<br />

In realtà, pur rilevando un solo campione è importante conoscere le proprietà <strong>della</strong><br />

caratteristica in esame al variare dei possibili campioni di ampiezza n estraibili dalla<br />

popolazione (di numerosità N) data una tecnica prescelta.<br />

Definiamo statistica una funzione dei dati di un campione casuale. Una statistica è<br />

quindi una variabile casuale, e come tale è possibile considerare la sua distribuzione di<br />

probabilità, detta distribuzione campionaria <strong>della</strong> statistica.<br />

1A. Distribuzione campionaria <strong>della</strong> media<br />

Sia (X 1 , X 2 , …, X n ) un campione casuale estratto da una popolazione qualsiasi<br />

avente media μ e varianza 2 , entrambe finite, considerando la seguente statistica “media<br />

campionaria” :<br />

+ + … + <br />

<br />

è ovvio che essa assume valore diverso a seconda del campione prescelto. La distribuzione<br />

che associa a ciascuna delle possibili medie campionarie la relativa probabilità di verificarsi<br />

costituisce la distribuzione campionaria <strong>della</strong> media. Tale distribuzione ha media e varianza che<br />

dipendono dal tipo di campionamento utilizzato.<br />

a. Campionamento con ripetizione (o bernoulliano)<br />

L’estrazione con ripetizione delle unità campionarie equivale ad ipotizzare che le<br />

X i sono indipendenti ed ugualmente distribuite. In tal caso si prova facilmente che:<br />

() = μ<br />

() = <br />

<br />

1


cioè la distribuzione <strong>della</strong> media campionaria è centrata intorno alla media <strong>della</strong><br />

popolazione, con dispersione dei suoi possibili valori intorno alla medesima media che<br />

diminuisce al crescere dell’ampiezza campionaria.<br />

Al tendere di n all’infinito, ovvero nel caso limite in cui n=N, è evidente che la<br />

dispersione si annulla completamente. Ciò si deduce matematicamente, ma anche<br />

pensando al fatto che se si rileva l’intera popolazione l’unico valore medio che si riscontra<br />

è proprio il valore μ <strong>della</strong> popolazione.<br />

b. Campionamento senza ripetizione<br />

In questo caso l’estrazione di un’unità campionaria è tale che ad ogni estrazione<br />

non è possibile rilevare un’unità di quelle estratte in precedenza. Vi è quindi dipendenza tra<br />

le diverse estrazioni effettuate.<br />

Si prova dunque che:<br />

() = μ<br />

() = <br />

<br />

− <br />

− 1<br />

<br />

ove il fattore correttivo , minore di 1, sta a significare che l’estrazione senza<br />

<br />

ripetizione genera una minore dispersione rispetto a quella bernoulliana. Tuttavia quando<br />

N si discosta molto da n il fattore correttivo si avvicina all’unità.<br />

c. Campionamento in blocco<br />

Nell’ipotesi di estrazione in blocco si riducono i possibili campioni estraibili<br />

rispetto al campionamento senza ripetizione, ma restano validi i seguenti risultati:<br />

() = μ<br />

() = <br />

<br />

− <br />

− 1<br />

il che significa che è indifferente parlare dell’uno o dell’altro campionamento ai fini <strong>della</strong><br />

dispersione dei possibili valori <strong>della</strong> media campionaria rispetto alla media <strong>della</strong><br />

popolazione.<br />

1B. Distribuzione campionaria <strong>della</strong> proporzione<br />

Consideriamo il caso di popolazioni dicotomiche, cioè di variabili X che possono<br />

assumere solo i valori 1 e 0, a seconda che si verifichi o meno l’evento in esame.<br />

2


Ipotizziamo quindi un’estrazione con ripetizione (cioè bernoulliana), e riprendiamo<br />

dalle precedenti <strong>lezioni</strong> i risultati <strong>della</strong> media e <strong>della</strong> varianza <strong>della</strong> v.c. di Bernoulli, in cui<br />

valevano le seguenti:<br />

() = <br />

2 (X) = p (1-p)<br />

ove questa volta si è sostituito Π con p, e si ottiene:<br />

(̂) = <br />

( ̂ ) =<br />

(1 − )<br />

<br />

in cui ̂ è la proporzione campionaria e coincide con la media campionaria (trattandosi<br />

appunto di fenomeno dicotomico).<br />

Esempio<br />

Si costruiscano le distribuzioni campionarie <strong>della</strong> media, considerando i primi 5 numeri<br />

naturali, con n=2, e si verifichi che valgono i risultati sopra riportati nei diversi tipi di<br />

campionamento analizzati.<br />

2. Forma delle distribuzioni campionarie e teorema del<br />

limite centrale<br />

Finora non si è detto nulla sulla forma delle distribuzioni campionarie esaminate.<br />

Consideriamo allora il caso <strong>della</strong> distribuzione campionaria <strong>della</strong> media.<br />

Se il fenomeno X si distribuisce secondo una curva normale, allora anche la<br />

distribuzione campionaria <strong>della</strong> media avrà una distribuzione normale, qualunque sia il<br />

valore di n.<br />

Se il fenomeno oggetto di studio non si distribuisce normalmente, allora non è<br />

possibile affermare quanto detto in precedenza.<br />

Tuttavia se il campione presenta numerosità elevata, cioè n è sufficientemente grande<br />

(di solito si considera n>100), si ricorre al Teorema del limite centrale. Esso afferma che<br />

quando è dato un campione di numerosità elevata, tratto da una popolazione con<br />

distribuzione qualsiasi, dove sono note media μ e varianza 2 , si ha che la distribuzione<br />

<strong>della</strong> media campionaria ha una forma approssimativamente normale.<br />

3


3. Stimatori e metodi di stima puntuale<br />

Si supponga che la caratteristica <strong>della</strong> popolazione che si intende stimare sia<br />

rappresentabile con una v.c. X, avente funzione di probabilità o di densità di probabilità,<br />

che dipende da uno o più parametri incogniti.<br />

In tal caso, lo stimatore del parametro θ è definito come segue:<br />

= ( , , … , )<br />

ovvero è una formula mediante la quale si stima il parametro incognito utilizzando le<br />

informazioni campionarie.<br />

Il valore assunto dallo stimatore in corrispondenza di un dato campione:<br />

X 1 = x 1 , X 2 = x 2 , …, X n = x n<br />

si denota con e viene chiamato stima del parametro θ.<br />

In pratica, lo stimatore è una variabile casuale, mentre la stima è un numero (cioè<br />

una determinazione <strong>della</strong> variabile casuale).<br />

Esistono diversi metodi di stima puntuale dei parametri. Tra questi riportiamo il<br />

metodo <strong>della</strong> massima verosimiglianza (ML) e il metodo dei momenti.<br />

3.1. Metodo di massima verosimiglianza (ML)<br />

segue:<br />

Definita la funzione di massima verosimiglianza L(x, θ) con la produttoria che<br />

<br />

( ! , )<br />

ove l’elemento generico <strong>della</strong> produttoria rappresenta la funzione di densità di probabilità<br />

di una data popolazione, mentre le x i indicano le osservazioni campionarie, il metodo<br />

consiste nell’individuare il valore del parametro incognito che rende massima la funzione<br />

L(x, θ). Se questa funzione è derivabile, allora si procede ponendo uguali a zero le derivate<br />

parziali <strong>della</strong> funzione L(x, θ) rispetto a ciascuno dei parametri incogniti e risolvendo il<br />

sistema che ne deriva.<br />

Nel caso di una funzione di densità di probabilità con un solo parametro si ha<br />

semplicemente un’equazione da risolvere. In questo caso, una volta individuato il valore<br />

del parametro che annulla la derivata prima, occorre verificare che la derivata seconda sia<br />

minore di zero nel punto in cui la derivata prima si è annullata (trattandosi appunto di un<br />

“punto di massimo”).<br />

Essendo il logaritmo una funzione monotona crescente, capita molto spesso di<br />

considerare al posto <strong>della</strong> funzione L(x, θ) la sua trasformazione logaritmica, nota come<br />

funzione di log-verosimiglianza. Risulta infatti più agevole il calcolo delle derivate parziali<br />

di quest’ultima funzione.<br />

4


Metodo dei momenti<br />

Se i parametri da stimare sono h, tale metodo consiste nell’uguagliare i primi h<br />

momenti <strong>della</strong> popolazione con i corrispondenti momenti campionari, purchè esistano tali<br />

momenti “rispetto all’origine”, e nel risolvere il sistema di h equazioni che ne deriva.<br />

Anche in questo caso, nel caso di una funzione di densità di probabilità con un<br />

solo parametro si ha semplicemente un’equazione da risolvere (E(X)= media campionaria).<br />

Esempi<br />

1. La durata di vita X di una particella radioattiva ha distribuzione esponenziale di<br />

parametro ω , con funzione di densità f ( x) = 1 e , con x > 0 e ω > 0 . Avendo<br />

ω<br />

osservato il seguente campione casuale semplice:<br />

x<br />

−<br />

ω<br />

x = (4.518, 4.329, 5.476, 5.455, 6.264, 4.277)<br />

in cui i dati sono espressi in secondi, determinare la stima di massima verosimiglianza del<br />

parametro ω .<br />

Fonte: M. Grigoletto, L. Ventura, Statistica per le scienze economiche, Giappichelli Editore,<br />

Torino <strong>19</strong>98)<br />

Soluzione<br />

Si determini la funzione di log-verosimiglianza e si ponga uguale a zero la sua derivata<br />

prima rispetto al parametro incognito. Una volta trovato lo stimatore, si sostituiscano in<br />

esso i valori campionari rilevati.<br />

2. Il direttore di una banca di una piccola città intende investigare la proporzione di<br />

depositanti che vengono pagati mensilmente. Per compiere tale studio vengono scelti in<br />

modo casuale <strong>20</strong>0 depositanti e, di questi, 23 affermano di essere pagati mensilmente.<br />

Trovare la stima <strong>della</strong> proporzione reale di depositanti che vengono pagati mensilmente.<br />

Fonte: M. Grigoletto, L. Ventura, Statistica per le scienze economiche, Giappichelli<br />

Editore, Torino <strong>19</strong>98<br />

Soluzione<br />

Si proceda come nel caso precedente, tenendo presente che la v.c. di riferimento per il<br />

fenomeno in esame è la bernoulliana.<br />

5

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!