01.07.2013 Views

e - Sapienza

e - Sapienza

e - Sapienza

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

TEORIA DELLA SUPERPOPOLAZIONE E CAMPIONM1ENTO DA<br />

POPOLAZIONI FINITE<br />

Incl1 c:: e<br />

Cap. I Introduzione Pago<br />

1. i<br />

1.2<br />

. 1. 3<br />

Concetti generali<br />

Inrerenza e campionamento<br />

Campionamento da popolazioni rinite<br />

Cap II LaSuperpopolazione<br />

2. 1 Introduzione 37<br />

2. 2 Superpopolazione di variabili 39<br />

2. 3 Superpopolazione di unità 4-4-<br />

2.4- Supe:r'popo l azione di variabili ed unità 4-8<br />

cap I I I L'approccio predittivo<br />

3. 1 Intr'oc1uzione<br />

50<br />

3.2 Dalla sUrficienza alla sufficienza<br />

prec:u t tiva<br />

54-<br />

3.3 ApPlicazione alla inferenza da popolazioni<br />

finite<br />

63<br />

-, ---- - .'-"<br />

3<br />

8<br />

32<br />

'"


Il· camPionamento da popolazioni finite<br />

Le iPotesi di base, del l 'approccio classico al campionamento<br />

da pOPolazioni finite, sono;<br />

,(·g·l) V i E I<br />

Nella 1) è stata assunta ì'assenza di ·errori non campionari.<br />

Il vettol""e<br />

(Yl'········, YN)<br />

viene considerato un punto dello spazio RN' E' possibile<br />

quindi l'iscrivere le 1) come;<br />

Supponiamo di estrarre da P, utilizzando un disegnO p (s), un<br />

campione cli n u;nità e di osservare<br />

d(s) =(Xi' , , , , , , •• Xn )<br />

Il parametro da stimare, utilizzando i dati caInpionari e:<br />

POiChè<br />

32


di P, un valore della variabile oggetto di indagtne pari a y e<br />

una funZione decrescente di X. Riconducendo il problema<br />

nell'mru)ito della teoria della massima entropia, il fine del<br />

Piano di camPionamento con probabilità proporZionale ad X e<br />

quello di massimizzare la distanza tra due distribuzioni sotto il<br />

vincolo di mantenere costante le qllantita;<br />

ma dalla derivazione della formula di entroPia interpretata come<br />

probabilità di una densità di probabilita, si ha;<br />

H(f) '" -l00<br />

ftx)iZof j{x) ,;(<br />

f) .<br />

ma le frequenze camPionarie, considerate come un campiona da una<br />

distribuzione di pr6babilita (SuperpopolaZiOne) , hanno una<br />

probabilita data da;<br />

dove<br />

pOicl1e<br />

e POssibile indicare direttamente<br />

quindi<br />

Pr{Y/x)<br />

35<br />

/<br />

V i E I<br />

invece di Pr{i/x]


dove<br />

se<br />

quindi<br />

ossia il risultato campionario non influisce sulla media delle.<br />

variabili non "osser'vate", e Punica assunzione Possibile e che:<br />

,<br />

che e POi l'assunzione fatta nel paragrafo 5 del caPitolo 1,<br />

)


Superpopolazione di variabili ed unità<br />

Come e stato detto precedentemente, l'approccio<br />

superpopolazione, nell'inferenza da popolazioni finite porta a<br />

considerare un insieme infinito di unità, oppure se viene<br />

considerata fissa la cardinalità di P, una varibile N<br />

dimensionale, indiPendentemente dalle singole unità di P.<br />

Riescono difficilemnte giustificabili le operazioni di limite<br />

su una struttura del genere, ed inoltreper il fatto che la<br />

correlazione interna (diPendenza intrinseCa) non tende a zero,<br />

qualsiasi "predittore" risulta inconsistente. Se invece la<br />

numerosità della pOPolazione 'reale non Viene considerata fissa,<br />

ma puo variare, (Puo tendere ad infinitO), allora si ha come<br />

struttura di superpopolazione un insieme di variabili aleatorie<br />

(una per ogni unità di P) che, al tendere di N (Cardinalità di P)<br />

all'infinito risulta un processo stocastico. In altri termini, il<br />

vettoY'e<br />

risulta un insieme di punti su una traiettoria del processo<br />

stocastico (Superpopolazione).<br />

In questo contesto, ad osni individuo viene associato una<br />

cOPPia di valori (Xi' i) il primo e la realizzazione di<br />

una variabile casuale Xi' mentre il secondo appartiene ad un<br />

insieme che induce sullo spazio X delle variabili Xi' un<br />

ordinamento (se, rispetto alla densità di probabilità congiunta<br />

delle Xi' tale ordinamento e irrilevante, allora il processo<br />

e SCambiabile). Se indicll1amo con è allora le traiettor'ie del<br />

processo (SuperpopolaZiOni)<br />

un<br />

" ....


Dalle fe)rmul e<br />

informativo (le<br />

non dipendono da<br />

5'" 3)<br />

precedenti si evince che il disegno e nonprobabilita<br />

di inclusione delle unita di P in s<br />

I): ne deriva:<br />

aJLs<br />

ed inoltre, data la sufficienza di t, per a si ha:<br />

ossia<br />

Xjs,tJLa e XjtJLs<br />

p(x:a, S)=p(x:a)<br />

p(x:a,t)=p(x:t)<br />

Il ruolo delle etichette, sembrerebbe quindi unicamente<br />

quello di consentire lJindividuazione delle unita che sono<br />

"portatrici" di una particolare realizzazione della variabile X<br />

in P, e quindi, una volta estratto il campione, il loro,ruolo si<br />

estingue, Questo aVViene, nel caso classico, quando le<br />

probabilita di inclusione sono costanti, Quando non lo sono, le<br />

etichette sono necessarie, in quanto servono per associare a<br />

ciascuna unita estratta la rispettiva probabilita di 'inclusione,<br />

.per avere una stima del parametro (di popolaZiOne) di interesse,<br />

Da quanto esposto in precedenza, invece, lJunica<br />

informazione rilevante per a,<br />

e lJinsieme dei valori osservati, indiPendentemente dalle unita<br />

estratte: ossia lJinteresse e sullJinsieme:<br />

qualunque sia s,<br />

X(S)={Xl"""Xn )<br />

56<br />

.l


dimostrazione:<br />

La distribuzione della variabile (s+i)-dimensionale Y(s+i),<br />

puo essere fattorizzata nel seguente modo;<br />

F[Y(S+i);6]= H[Y(s),t(s): 6] K[Y(s+i);Y(S),6]<br />

dalla sufficienza di t(s) per 6 si ha;<br />

H[Y(S),t(S);6]=H' [Y(S);t(S),6] P[t(S);6]=H[Y(s)] P[t(S);6]<br />

S i Ila Cflllndi :<br />

?(./I) F[Y(s+i);6] = H[Y(s)] P[t(s);6] K[Y(S+i);Y(S),6]<br />

siccome t(s) é predittiva, allora;<br />

K[Y(S+i:Y(s),6]= G [ Y(s+i);t(s),6 ]<br />

Sostituita nella (9) fornisce la (8) I<br />

. teorema;<br />

Se da una popolazione finita di N unita viene estratto un<br />

campione di numerosita n, utilizzando il disegno p(S);<br />

p (s) =<br />

n! (N-n) !<br />

N!<br />

la statistica t= (1/n) EX i<br />

sufficiente per e;<br />

dimostrazione;<br />

e<br />

6=6 (M) = (1/N) E<br />

iEs è totalmente<br />

Per dimostrare la sufficienza totale di t,<br />

dimostrare che il parametro delle variabili aleatorie<br />

·dipende dai dati campionari soltanto attraverso t(s).<br />

Nelle popolazioni rinite,<br />

e (s; y (1-s» =(1 /N) E y. l<br />

POiché t(S) é non distorto per 6, si ha;<br />

E[t(s)] =EP(S)T(S) =6<br />

E 1<br />

iE {I-sJ<br />

x ­<br />

i<br />

bisogna<br />

y(I-s),<br />

,.<br />

; -


pOlche<br />

sl Ila;<br />

p(s) =p(I-s)<br />

t(I-s)=[(N-n)/n]t(s)<br />

allora t(I-S) e non dlstorto per 9[s:Y(I-S)] la cul stlma dlpende<br />

dal datl, solo attraverso t (S) Il .<br />

62


la statistica SUIIiciente e data da<br />

e lo stimatore di Max-VerOSimiglianza per S viene ottenuto<br />

risolvendo 11 sistema non lineare (attraverso metodl iteratiVl);<br />

Utilizzando quindl S, 1 valori sulle unltà non campionate possono<br />

essere ottenuti apPllcando 11 "predlttore";<br />

che dlventa per Y(a)=1 e Y(b)=O


BisOgna aggiungere che se i cluster vengono 'campionati tutti,<br />

e quindi il' disegno diventa ad uno stadio stratificato, allora la<br />

disegUaglianza precedente risulta invertita.<br />

Il legmne che esiste tra le varianze dei due stimatori viene<br />

espresso attraverso la seguente formula:<br />

$"-:5. 1) V [Td (:y)] =_N_(N_-_n_}_N_(M_-_l_}__<br />

n HZ (l'i-1)<br />

dove<br />

V[Ts(y)]Z [i+(M-l}'I']<br />

ed affinché risulti V[Td(Y}] > Q dovra essere;<br />

1<br />

- -- M-i<br />


consideriamo separatamente le unita di primo stadio e quelle di<br />

secondo stadio.<br />

,<br />

Se invece consideriamo la variabile aleatoria di<br />

pari a<br />

dimensioni<br />

D= 'E Mi<br />

iE {I J<br />

allora la struttura di covarianza può essere espressa come:<br />

';;.4. 1) COV(Yi, j'Yh, 1)=<br />

13+


6. 1<br />

Cap. VI<br />

IL CAMPIONA}IENTO LONGITUDINALE<br />

Introc:ìuzione<br />

Il campionamento da popolazioni finite ha come scopo. in<br />

generale. di risalire induttivamente alla misurazione di alcuni<br />

par·ametr·i. (fenomeni) l'iguardanti un cer·to insieme di "individui"<br />

(poPOlaziOne). Viene osservato un sottoinsieme (CamPione) e minimizzato.<br />

attraverso opportuni aCcorgimenti. sia nella fase di selezione<br />

degli individui da campionare che nella scelta della<br />

funzione delle misurazioni effettuate sugli individui campionati.<br />

lJerrore che. inevitabilmente. si commette nel trarre conclusioni<br />

rispetto agli individui. della popolazione. non inclusi nel cmn-<br />

. Pione.<br />

L'errore campionario risulta direttanlente legato alla variabilita'<br />

del fenomeno (variabile oggetto di indagine) al variare<br />

dell'individuo ed allà modalita di estrazione dell'individuo<br />

stesso dalla popolazione (disegno campionario).<br />

Un fenomeno. qllindi. pUo aSSlunere diverse modalita (quantitative<br />

o qualitative) se misurato su individui differenti. in<br />

altri ter·mini. al variare .deIl' individuo si osser·va una certa<br />

variabilita' del fenomeno oggetto di indagine. E' da osservare<br />

che le indagini campionarie sarebbero prive di Significato se non<br />

esistesse la POSsibilita di osservare una variabilita del fenomeno<br />

pur misurandolo. sullo stesso individuo; questa Possibilita e<br />

data (deriVa). dall'introduzione del fattore tempo.<br />

In altre parole. per popolazioni finite. qualsiasi fenomeno<br />

potrebbe essere perfettamente conosciuto misurandolo dopo avere<br />

effettuato un censimento. soltanto sugli individui che entrano e<br />

su quelli che escono dalla popolazione.<br />

In realta' l'importanza delle indagini camPionarie deriva proprio<br />

dal fatto che esiste una variabilita' temporale nei fenomeni<br />

e da qui' l'esigenza di effettuare diverse misurazioni (CampiOnamenti)<br />

in tempi diversi per avere informazioni aggiornate circa<br />

l'effettiva entita' dei fenomeni di interesse. QuandO non si e<br />

interessati a misurare variazioni temporali del fenomeno. le<br />

indagini vengono cl1Ìamate "trasversali" J al trimenti vengono cilla-


za (livello di 'pI'o})abilita) o: prefissata cIle:<br />

oppure<br />

-<br />

X =X<br />

ti t2<br />

- X > X<br />

ti t2<br />

X -< X<br />

ti t2<br />

test bidirezionale<br />

test unidirezionali<br />

E' comunque arduo dare una valutazione abbastanza attendibile<br />

deIl' entita' de l cambiamento avvenuto nel per-iodo (t -t ) l se non<br />

- .' 2 i<br />

viene utilizzato un "modello statistico" atto a "spiesare" una<br />

parte della variabilita' temporale del fenomeno stesso.<br />

b) campionamento con le stesse unita nei successivi<br />

temPi (panel).<br />

Questo tipo e11 campionamento (spesso denominato panel) consente<br />

di ottenere quelle particolari quantita clle sono i "flussi"<br />

non altrimenti osservabili trmnite stime trasversali indipendenti<br />

(caso precedente).<br />

Le principali caratteristiche di questo tipo di<br />

disegno di camPionamento possono essere cosi' riassunte:<br />

- Le unita della popolazione cmnpionata rimansono nel campione<br />

per tutto il periodo di ossevazione del fenomeno.<br />

- Il questionario rimane identico nelle successive interviste<br />

(almeno per la parte di CUi interessa misurare i flUSSi)<br />

114


successivi tempi. Per le unita campionate, comunque,esiste la<br />

possibilita di porre qUesiti sugli istanti di tempo precedenti.<br />

In questo modo si ha una sovrapposizione temporale (liVelli) che<br />

prolungano la struttura di panel. Uno svantaggio di livelli<br />

mUltiPli elevati è quellO di corru)inare (al fine di ottenere delle<br />

stime) unita con e11versi "effetti memoria" e quindi con<br />

differenti errori di risposta.<br />

Supponendo di avere un disegnO a livello unico, le quantita di<br />

interesse sono le segUenti:<br />

a) la media campionaria delle unita entrate per la prima volta<br />

ne l campione,<br />

X h<br />

b) medie campionarie delle unita.rimaste nel campione ai tempi<br />

t e t<br />

Il h-i<br />

c)<br />

media can1pionaria delle unita rilevate al<br />

uscite al tempo t :tl<br />

Il<br />

ed<br />

tempo t ed<br />

h-i'<br />

Supponendo che la quantita che piU interessa sia la media al<br />

tempo t , una stima viene fornita da:<br />

Il .<br />

l a j1·i) utilizza per. l a stima de 11 a mee1ia al<br />

esistente tra il valore assunto dal fenomeno<br />

nei due temPi successivi, th e th-l'<br />

117<br />

tempo t il<br />

h<br />

oggetto di<br />

legame<br />

indagine<br />

.' ..,


C) Stima della diTTerenza (e somme)tra due medie.<br />

Supponendo di avere le stime di M e d M e possibile<br />

11. 11.- 1<br />

utilizzare la stima'al tempo t per migliorare quella al tempo<br />

tI<br />

t . Uno stimatore della diTTerenza e inTatti dato da:<br />

tl-l<br />

'-1-2 ) M -M =M -(M +u(M -x »<br />

tI 11.- 1 11. 11.- 1 tI 11.<br />

Come per la diTTerenza, per la somma di due o piU medie<br />

successivi si utilizza il valore ottenuto al tempo<br />

migliOrare le stime ottenute nei temPi precedenti.<br />

"tempi" sono maggior'e di 2 lo stimatore si complica,<br />

vengono presupposti solo due tempi di campionamento.<br />

G-t-3 ) M +M = M + (M -u(M -k »<br />

11. h-l 11. 11.-1 h h<br />

d) Campionamento ruotato a piU livelli:<br />

in temPi<br />

t per'<br />

11.<br />

Se i<br />

per cui<br />

Se i livelli sono Pit'l. di 2 la stima "media della popolazione al<br />

tempo 11. " si PUo ottenere i terativamente:<br />

dove<br />

come si<br />

ruotato<br />

M =x +u (M -x )<br />

h h h 'h-l h-l<br />

PUo intuire l'aumento di<br />

dipende (a parita di<br />

118<br />

preCisione<br />

numerosita<br />

in un campione<br />

direttamente


) p lim .{ (1IN) .E X (i, t) =IJ (t) l =1<br />

c) IE(Xt)=iJ(t)<br />

La (a) rappresenta l'evoluzione nel tempo del fenomeno oggetto di<br />

studiO. Per fenomeni demografici ed economici e solito imporre<br />

delle funzioni di crescita che abbiano un andamento Piuttosto<br />

r'ego l are. I l par'ametro dovr'à sOddiSf?l-'e de Il e equaziOni<br />

differenziali del tipo<br />

oppur'e essere;<br />

diJ(t)=a(t)iJ(t)dt<br />

diJ (t) =adt<br />

iJ(t)=cost<br />

Nell'approccio superpopolazione, per ogni<br />

riferimento t, la popolazione P e considerata un<br />

unità estratto casualmente da un insieme infinito<br />

una misura di probabilità F(IJ(t),02). Il parametro<br />

e(t) è tale che;<br />

Plim { e(t,N)=1J 1=1 V t E {i, T1<br />

per'iodo di<br />

campione di N<br />

su cui esiste<br />

di popolaZione<br />

In effetti e(t,N) risulta una statistica sufficiente per<br />

lJ(t), per cui<br />

ino l tre, POiC11e<br />

XtJe(tLLIJ(t)<br />

131<br />

V t


e quindi al variare di i cambia la probabilità che, campionando<br />

una unità da P essa possegga l'intensità Y=y del carattere Y. Lo<br />

scopo dell'inferenza diventa quindi quello di ricercare un legame<br />

funzionale stocastico che permetta di "predire" condizionalmente<br />

alle etichette non osservate, i valori della caratteristica Y. Il<br />

modello inferenziale sarà quindi;<br />

Pr {Y Y ; e e J = TI· F (Y. =Y. ; e . )<br />

1 li 1 li ( 111<br />

Se inoltre l'etichetta è multidimensionale (ad esempio coordinate<br />

geografiche dei comuni) allora il modello stocastico è quello di<br />

campo aleatorio ed i punti Y(i, j) saranno su una superficie<br />

stocastica scomponibile in lIsegnale + rumore", per quanto<br />

riguarda le unità ;non osservate di P. L'approccio inferenziale è<br />

satato quello· predittivo, in .cui le proprietà degli stimatori<br />

non sono le stesse dell'inferenza classica ma devono avere dei<br />

legami con le distribuzioni delle variabili non osservate<br />

(sufficienza predittiva). In alcuni casi ad esempio<br />

nella non-informatività delle etichette le due definizioni<br />

coincidono in quanto il parametro di Superpopolazione rimane<br />

costante al variare dell'unità (o della prova). Il lavoro è<br />

andato man mano espandendosi per cui risulta forse privo di<br />

conclusioni definitive. Quello che comunque è definito è che si<br />

tratta di un approccio al problema della stima da popolazioni<br />

finite che esula dagli attuali orientamenti (anche se modelbased)<br />

.<br />

138


Jessen R. J. (i942},"Statistical investigation of a farm survey<br />

for obtaining farm acts", Iowa Agricultural Experimental<br />

Station, Research Bullettin, 304, pp. 54-59.<br />

Lauritzen S. L. (1974) Sufficiency, Prediction and Extreme<br />

Models. Scandinavian Journal of Statistics,l,<br />

128-134.<br />

Lauritzen, S. L. (1982) Statistica1 model as Extremal Families­<br />

Aalborg University Press, Aalborg.<br />

Lauritzen S.L. (1984) Extreme Point Model in Statistics,<br />

Scandinavian Journal of Statistics,ll,65-91. .<br />

Lindgren B.W. (1976) Statistical Theory 3rd ed. New York:<br />

Macmillan<br />

Patterson H. D. (1950), "Sampling on successive occasions with<br />

partial replacement of units", Journal oh the Royal<br />

Statistical Society, B,12, pp. 241-255.<br />

Pfeffermann D. e Nathan G. (1985) "Problems in model<br />

identification based on data from complex sample<br />

surveys. Bull.lnt. Statist. Inst. $5th session 12.2<br />

Raj D. (1965), "On sampling over two occasions with probability<br />

proportionate to size", Annals of Mathematical Statistics,<br />

36, pp. 327-330.<br />

Rao j. N. K. and Graham J. E. (1964), "Rotation designs for<br />

sampling on repeated occasions", Journal of the American<br />

Statistical Association, 59, pp. 492-509.<br />

Rao J.N.K. e Scott A.J. (1981) The analisys of categorical date<br />

from complex surveys: Chi -squared tests for goodness<br />

of fit and independence in two-way tables. J.A.S.A.<br />

VoI 76 No.374 pp.221-230<br />

Royall R.M. (1970a) On finite population sampling theory under<br />

certain linear regression models. Biometrika 57 377-387.<br />

Royall R.M. (1970b) Finite population sampling - on labels in<br />

estimation. Ann. Math. Stato 41 1774-1779.


Royall R.M. _ (1971) Linear regression models in finite<br />

population sampling theory. In "V.P.Godambe e D.A.<br />

Sprott eds., Foundations of statistical inference".<br />

259-274<br />

Royall R.M. (1975) The likelihood principle in finite population<br />

sampling theory. 40th session Int. Stato Institute<br />

Royall R.M. and Herson J. (1973) Robust estimation in finite<br />

populations. J.A.S,A. 68 880-889.<br />

Sarndal C.E. (1972) Sample survey theory vs.general statistical<br />

theory:Estimation of population mean Rev. ·Int. Statist.<br />

Inst. 40 1-12.<br />

Sarndal C. ·E. (1976) On Uniformly mlnlmum variance estimation in<br />

finite populations. Ann. Statistics 2 993-997.<br />

Scott A. J., Blight B. J. N. (1973), "A stochastic model for<br />

repeated surveys", Journal of the Roya1 Statistical<br />

Society, B, 35, pp. 61-66.<br />

Scott A. J., Smitt. T. M. F. (1974), "Analysis of repeated<br />

surveys· using time series methods", Journalof the<br />

American Statistical Association, 59, 674-678.<br />

Yates F. (1949), Sampling methods for censues and surveys,<br />

London, Griffin.<br />

Watanabe S. (1985) Pattern Recognition . Wiley<br />

Wil1iams (1979) Diffusion, Markow Processes and Martingales.<br />

Cambridge University Presso Cambridge.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!