e - Sapienza
e - Sapienza
e - Sapienza
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
TEORIA DELLA SUPERPOPOLAZIONE E CAMPIONM1ENTO DA<br />
POPOLAZIONI FINITE<br />
Incl1 c:: e<br />
Cap. I Introduzione Pago<br />
1. i<br />
1.2<br />
. 1. 3<br />
Concetti generali<br />
Inrerenza e campionamento<br />
Campionamento da popolazioni rinite<br />
Cap II LaSuperpopolazione<br />
2. 1 Introduzione 37<br />
2. 2 Superpopolazione di variabili 39<br />
2. 3 Superpopolazione di unità 4-4-<br />
2.4- Supe:r'popo l azione di variabili ed unità 4-8<br />
cap I I I L'approccio predittivo<br />
3. 1 Intr'oc1uzione<br />
50<br />
3.2 Dalla sUrficienza alla sufficienza<br />
prec:u t tiva<br />
54-<br />
3.3 ApPlicazione alla inferenza da popolazioni<br />
finite<br />
63<br />
-, ---- - .'-"<br />
3<br />
8<br />
32<br />
'"
Il· camPionamento da popolazioni finite<br />
Le iPotesi di base, del l 'approccio classico al campionamento<br />
da pOPolazioni finite, sono;<br />
,(·g·l) V i E I<br />
Nella 1) è stata assunta ì'assenza di ·errori non campionari.<br />
Il vettol""e<br />
(Yl'········, YN)<br />
viene considerato un punto dello spazio RN' E' possibile<br />
quindi l'iscrivere le 1) come;<br />
Supponiamo di estrarre da P, utilizzando un disegnO p (s), un<br />
campione cli n u;nità e di osservare<br />
d(s) =(Xi' , , , , , , •• Xn )<br />
Il parametro da stimare, utilizzando i dati caInpionari e:<br />
POiChè<br />
32
di P, un valore della variabile oggetto di indagtne pari a y e<br />
una funZione decrescente di X. Riconducendo il problema<br />
nell'mru)ito della teoria della massima entropia, il fine del<br />
Piano di camPionamento con probabilità proporZionale ad X e<br />
quello di massimizzare la distanza tra due distribuzioni sotto il<br />
vincolo di mantenere costante le qllantita;<br />
ma dalla derivazione della formula di entroPia interpretata come<br />
probabilità di una densità di probabilita, si ha;<br />
H(f) '" -l00<br />
ftx)iZof j{x) ,;(<br />
f) .<br />
ma le frequenze camPionarie, considerate come un campiona da una<br />
distribuzione di pr6babilita (SuperpopolaZiOne) , hanno una<br />
probabilita data da;<br />
dove<br />
pOicl1e<br />
e POssibile indicare direttamente<br />
quindi<br />
Pr{Y/x)<br />
35<br />
/<br />
V i E I<br />
invece di Pr{i/x]
dove<br />
se<br />
quindi<br />
ossia il risultato campionario non influisce sulla media delle.<br />
variabili non "osser'vate", e Punica assunzione Possibile e che:<br />
,<br />
che e POi l'assunzione fatta nel paragrafo 5 del caPitolo 1,<br />
)
Superpopolazione di variabili ed unità<br />
Come e stato detto precedentemente, l'approccio<br />
superpopolazione, nell'inferenza da popolazioni finite porta a<br />
considerare un insieme infinito di unità, oppure se viene<br />
considerata fissa la cardinalità di P, una varibile N<br />
dimensionale, indiPendentemente dalle singole unità di P.<br />
Riescono difficilemnte giustificabili le operazioni di limite<br />
su una struttura del genere, ed inoltreper il fatto che la<br />
correlazione interna (diPendenza intrinseCa) non tende a zero,<br />
qualsiasi "predittore" risulta inconsistente. Se invece la<br />
numerosità della pOPolazione 'reale non Viene considerata fissa,<br />
ma puo variare, (Puo tendere ad infinitO), allora si ha come<br />
struttura di superpopolazione un insieme di variabili aleatorie<br />
(una per ogni unità di P) che, al tendere di N (Cardinalità di P)<br />
all'infinito risulta un processo stocastico. In altri termini, il<br />
vettoY'e<br />
risulta un insieme di punti su una traiettoria del processo<br />
stocastico (Superpopolazione).<br />
In questo contesto, ad osni individuo viene associato una<br />
cOPPia di valori (Xi' i) il primo e la realizzazione di<br />
una variabile casuale Xi' mentre il secondo appartiene ad un<br />
insieme che induce sullo spazio X delle variabili Xi' un<br />
ordinamento (se, rispetto alla densità di probabilità congiunta<br />
delle Xi' tale ordinamento e irrilevante, allora il processo<br />
e SCambiabile). Se indicll1amo con è allora le traiettor'ie del<br />
processo (SuperpopolaZiOni)<br />
un<br />
" ....
Dalle fe)rmul e<br />
informativo (le<br />
non dipendono da<br />
5'" 3)<br />
precedenti si evince che il disegno e nonprobabilita<br />
di inclusione delle unita di P in s<br />
I): ne deriva:<br />
aJLs<br />
ed inoltre, data la sufficienza di t, per a si ha:<br />
ossia<br />
Xjs,tJLa e XjtJLs<br />
p(x:a, S)=p(x:a)<br />
p(x:a,t)=p(x:t)<br />
Il ruolo delle etichette, sembrerebbe quindi unicamente<br />
quello di consentire lJindividuazione delle unita che sono<br />
"portatrici" di una particolare realizzazione della variabile X<br />
in P, e quindi, una volta estratto il campione, il loro,ruolo si<br />
estingue, Questo aVViene, nel caso classico, quando le<br />
probabilita di inclusione sono costanti, Quando non lo sono, le<br />
etichette sono necessarie, in quanto servono per associare a<br />
ciascuna unita estratta la rispettiva probabilita di 'inclusione,<br />
.per avere una stima del parametro (di popolaZiOne) di interesse,<br />
Da quanto esposto in precedenza, invece, lJunica<br />
informazione rilevante per a,<br />
e lJinsieme dei valori osservati, indiPendentemente dalle unita<br />
estratte: ossia lJinteresse e sullJinsieme:<br />
qualunque sia s,<br />
X(S)={Xl"""Xn )<br />
56<br />
.l
dimostrazione:<br />
La distribuzione della variabile (s+i)-dimensionale Y(s+i),<br />
puo essere fattorizzata nel seguente modo;<br />
F[Y(S+i);6]= H[Y(s),t(s): 6] K[Y(s+i);Y(S),6]<br />
dalla sufficienza di t(s) per 6 si ha;<br />
H[Y(S),t(S);6]=H' [Y(S);t(S),6] P[t(S);6]=H[Y(s)] P[t(S);6]<br />
S i Ila Cflllndi :<br />
?(./I) F[Y(s+i);6] = H[Y(s)] P[t(s);6] K[Y(S+i);Y(S),6]<br />
siccome t(s) é predittiva, allora;<br />
K[Y(S+i:Y(s),6]= G [ Y(s+i);t(s),6 ]<br />
Sostituita nella (9) fornisce la (8) I<br />
. teorema;<br />
Se da una popolazione finita di N unita viene estratto un<br />
campione di numerosita n, utilizzando il disegno p(S);<br />
p (s) =<br />
n! (N-n) !<br />
N!<br />
la statistica t= (1/n) EX i<br />
sufficiente per e;<br />
dimostrazione;<br />
e<br />
6=6 (M) = (1/N) E<br />
iEs è totalmente<br />
Per dimostrare la sufficienza totale di t,<br />
dimostrare che il parametro delle variabili aleatorie<br />
·dipende dai dati campionari soltanto attraverso t(s).<br />
Nelle popolazioni rinite,<br />
e (s; y (1-s» =(1 /N) E y. l<br />
POiché t(S) é non distorto per 6, si ha;<br />
E[t(s)] =EP(S)T(S) =6<br />
E 1<br />
iE {I-sJ<br />
x <br />
i<br />
bisogna<br />
y(I-s),<br />
,.<br />
; -
pOlche<br />
sl Ila;<br />
p(s) =p(I-s)<br />
t(I-s)=[(N-n)/n]t(s)<br />
allora t(I-S) e non dlstorto per 9[s:Y(I-S)] la cul stlma dlpende<br />
dal datl, solo attraverso t (S) Il .<br />
62
la statistica SUIIiciente e data da<br />
e lo stimatore di Max-VerOSimiglianza per S viene ottenuto<br />
risolvendo 11 sistema non lineare (attraverso metodl iteratiVl);<br />
Utilizzando quindl S, 1 valori sulle unltà non campionate possono<br />
essere ottenuti apPllcando 11 "predlttore";<br />
che dlventa per Y(a)=1 e Y(b)=O
BisOgna aggiungere che se i cluster vengono 'campionati tutti,<br />
e quindi il' disegno diventa ad uno stadio stratificato, allora la<br />
disegUaglianza precedente risulta invertita.<br />
Il legmne che esiste tra le varianze dei due stimatori viene<br />
espresso attraverso la seguente formula:<br />
$"-:5. 1) V [Td (:y)] =_N_(N_-_n_}_N_(M_-_l_}__<br />
n HZ (l'i-1)<br />
dove<br />
V[Ts(y)]Z [i+(M-l}'I']<br />
ed affinché risulti V[Td(Y}] > Q dovra essere;<br />
1<br />
- -- M-i<br />
consideriamo separatamente le unita di primo stadio e quelle di<br />
secondo stadio.<br />
,<br />
Se invece consideriamo la variabile aleatoria di<br />
pari a<br />
dimensioni<br />
D= 'E Mi<br />
iE {I J<br />
allora la struttura di covarianza può essere espressa come:<br />
';;.4. 1) COV(Yi, j'Yh, 1)=<br />
13+
6. 1<br />
Cap. VI<br />
IL CAMPIONA}IENTO LONGITUDINALE<br />
Introc:ìuzione<br />
Il campionamento da popolazioni finite ha come scopo. in<br />
generale. di risalire induttivamente alla misurazione di alcuni<br />
par·ametr·i. (fenomeni) l'iguardanti un cer·to insieme di "individui"<br />
(poPOlaziOne). Viene osservato un sottoinsieme (CamPione) e minimizzato.<br />
attraverso opportuni aCcorgimenti. sia nella fase di selezione<br />
degli individui da campionare che nella scelta della<br />
funzione delle misurazioni effettuate sugli individui campionati.<br />
lJerrore che. inevitabilmente. si commette nel trarre conclusioni<br />
rispetto agli individui. della popolazione. non inclusi nel cmn-<br />
. Pione.<br />
L'errore campionario risulta direttanlente legato alla variabilita'<br />
del fenomeno (variabile oggetto di indagine) al variare<br />
dell'individuo ed allà modalita di estrazione dell'individuo<br />
stesso dalla popolazione (disegno campionario).<br />
Un fenomeno. qllindi. pUo aSSlunere diverse modalita (quantitative<br />
o qualitative) se misurato su individui differenti. in<br />
altri ter·mini. al variare .deIl' individuo si osser·va una certa<br />
variabilita' del fenomeno oggetto di indagine. E' da osservare<br />
che le indagini campionarie sarebbero prive di Significato se non<br />
esistesse la POSsibilita di osservare una variabilita del fenomeno<br />
pur misurandolo. sullo stesso individuo; questa Possibilita e<br />
data (deriVa). dall'introduzione del fattore tempo.<br />
In altre parole. per popolazioni finite. qualsiasi fenomeno<br />
potrebbe essere perfettamente conosciuto misurandolo dopo avere<br />
effettuato un censimento. soltanto sugli individui che entrano e<br />
su quelli che escono dalla popolazione.<br />
In realta' l'importanza delle indagini camPionarie deriva proprio<br />
dal fatto che esiste una variabilita' temporale nei fenomeni<br />
e da qui' l'esigenza di effettuare diverse misurazioni (CampiOnamenti)<br />
in tempi diversi per avere informazioni aggiornate circa<br />
l'effettiva entita' dei fenomeni di interesse. QuandO non si e<br />
interessati a misurare variazioni temporali del fenomeno. le<br />
indagini vengono cl1Ìamate "trasversali" J al trimenti vengono cilla-
za (livello di 'pI'o})abilita) o: prefissata cIle:<br />
oppure<br />
-<br />
X =X<br />
ti t2<br />
- X > X<br />
ti t2<br />
X -< X<br />
ti t2<br />
test bidirezionale<br />
test unidirezionali<br />
E' comunque arduo dare una valutazione abbastanza attendibile<br />
deIl' entita' de l cambiamento avvenuto nel per-iodo (t -t ) l se non<br />
- .' 2 i<br />
viene utilizzato un "modello statistico" atto a "spiesare" una<br />
parte della variabilita' temporale del fenomeno stesso.<br />
b) campionamento con le stesse unita nei successivi<br />
temPi (panel).<br />
Questo tipo e11 campionamento (spesso denominato panel) consente<br />
di ottenere quelle particolari quantita clle sono i "flussi"<br />
non altrimenti osservabili trmnite stime trasversali indipendenti<br />
(caso precedente).<br />
Le principali caratteristiche di questo tipo di<br />
disegno di camPionamento possono essere cosi' riassunte:<br />
- Le unita della popolazione cmnpionata rimansono nel campione<br />
per tutto il periodo di ossevazione del fenomeno.<br />
- Il questionario rimane identico nelle successive interviste<br />
(almeno per la parte di CUi interessa misurare i flUSSi)<br />
114
successivi tempi. Per le unita campionate, comunque,esiste la<br />
possibilita di porre qUesiti sugli istanti di tempo precedenti.<br />
In questo modo si ha una sovrapposizione temporale (liVelli) che<br />
prolungano la struttura di panel. Uno svantaggio di livelli<br />
mUltiPli elevati è quellO di corru)inare (al fine di ottenere delle<br />
stime) unita con e11versi "effetti memoria" e quindi con<br />
differenti errori di risposta.<br />
Supponendo di avere un disegnO a livello unico, le quantita di<br />
interesse sono le segUenti:<br />
a) la media campionaria delle unita entrate per la prima volta<br />
ne l campione,<br />
X h<br />
b) medie campionarie delle unita.rimaste nel campione ai tempi<br />
t e t<br />
Il h-i<br />
c)<br />
media can1pionaria delle unita rilevate al<br />
uscite al tempo t :tl<br />
Il<br />
ed<br />
tempo t ed<br />
h-i'<br />
Supponendo che la quantita che piU interessa sia la media al<br />
tempo t , una stima viene fornita da:<br />
Il .<br />
l a j1·i) utilizza per. l a stima de 11 a mee1ia al<br />
esistente tra il valore assunto dal fenomeno<br />
nei due temPi successivi, th e th-l'<br />
117<br />
tempo t il<br />
h<br />
oggetto di<br />
legame<br />
indagine<br />
.' ..,
C) Stima della diTTerenza (e somme)tra due medie.<br />
Supponendo di avere le stime di M e d M e possibile<br />
11. 11.- 1<br />
utilizzare la stima'al tempo t per migliorare quella al tempo<br />
tI<br />
t . Uno stimatore della diTTerenza e inTatti dato da:<br />
tl-l<br />
'-1-2 ) M -M =M -(M +u(M -x »<br />
tI 11.- 1 11. 11.- 1 tI 11.<br />
Come per la diTTerenza, per la somma di due o piU medie<br />
successivi si utilizza il valore ottenuto al tempo<br />
migliOrare le stime ottenute nei temPi precedenti.<br />
"tempi" sono maggior'e di 2 lo stimatore si complica,<br />
vengono presupposti solo due tempi di campionamento.<br />
G-t-3 ) M +M = M + (M -u(M -k »<br />
11. h-l 11. 11.-1 h h<br />
d) Campionamento ruotato a piU livelli:<br />
in temPi<br />
t per'<br />
11.<br />
Se i<br />
per cui<br />
Se i livelli sono Pit'l. di 2 la stima "media della popolazione al<br />
tempo 11. " si PUo ottenere i terativamente:<br />
dove<br />
come si<br />
ruotato<br />
M =x +u (M -x )<br />
h h h 'h-l h-l<br />
PUo intuire l'aumento di<br />
dipende (a parita di<br />
118<br />
preCisione<br />
numerosita<br />
in un campione<br />
direttamente
) p lim .{ (1IN) .E X (i, t) =IJ (t) l =1<br />
c) IE(Xt)=iJ(t)<br />
La (a) rappresenta l'evoluzione nel tempo del fenomeno oggetto di<br />
studiO. Per fenomeni demografici ed economici e solito imporre<br />
delle funzioni di crescita che abbiano un andamento Piuttosto<br />
r'ego l are. I l par'ametro dovr'à sOddiSf?l-'e de Il e equaziOni<br />
differenziali del tipo<br />
oppur'e essere;<br />
diJ(t)=a(t)iJ(t)dt<br />
diJ (t) =adt<br />
iJ(t)=cost<br />
Nell'approccio superpopolazione, per ogni<br />
riferimento t, la popolazione P e considerata un<br />
unità estratto casualmente da un insieme infinito<br />
una misura di probabilità F(IJ(t),02). Il parametro<br />
e(t) è tale che;<br />
Plim { e(t,N)=1J 1=1 V t E {i, T1<br />
per'iodo di<br />
campione di N<br />
su cui esiste<br />
di popolaZione<br />
In effetti e(t,N) risulta una statistica sufficiente per<br />
lJ(t), per cui<br />
ino l tre, POiC11e<br />
XtJe(tLLIJ(t)<br />
131<br />
V t
e quindi al variare di i cambia la probabilità che, campionando<br />
una unità da P essa possegga l'intensità Y=y del carattere Y. Lo<br />
scopo dell'inferenza diventa quindi quello di ricercare un legame<br />
funzionale stocastico che permetta di "predire" condizionalmente<br />
alle etichette non osservate, i valori della caratteristica Y. Il<br />
modello inferenziale sarà quindi;<br />
Pr {Y Y ; e e J = TI· F (Y. =Y. ; e . )<br />
1 li 1 li ( 111<br />
Se inoltre l'etichetta è multidimensionale (ad esempio coordinate<br />
geografiche dei comuni) allora il modello stocastico è quello di<br />
campo aleatorio ed i punti Y(i, j) saranno su una superficie<br />
stocastica scomponibile in lIsegnale + rumore", per quanto<br />
riguarda le unità ;non osservate di P. L'approccio inferenziale è<br />
satato quello· predittivo, in .cui le proprietà degli stimatori<br />
non sono le stesse dell'inferenza classica ma devono avere dei<br />
legami con le distribuzioni delle variabili non osservate<br />
(sufficienza predittiva). In alcuni casi ad esempio<br />
nella non-informatività delle etichette le due definizioni<br />
coincidono in quanto il parametro di Superpopolazione rimane<br />
costante al variare dell'unità (o della prova). Il lavoro è<br />
andato man mano espandendosi per cui risulta forse privo di<br />
conclusioni definitive. Quello che comunque è definito è che si<br />
tratta di un approccio al problema della stima da popolazioni<br />
finite che esula dagli attuali orientamenti (anche se modelbased)<br />
.<br />
138
Jessen R. J. (i942},"Statistical investigation of a farm survey<br />
for obtaining farm acts", Iowa Agricultural Experimental<br />
Station, Research Bullettin, 304, pp. 54-59.<br />
Lauritzen S. L. (1974) Sufficiency, Prediction and Extreme<br />
Models. Scandinavian Journal of Statistics,l,<br />
128-134.<br />
Lauritzen, S. L. (1982) Statistica1 model as Extremal Families<br />
Aalborg University Press, Aalborg.<br />
Lauritzen S.L. (1984) Extreme Point Model in Statistics,<br />
Scandinavian Journal of Statistics,ll,65-91. .<br />
Lindgren B.W. (1976) Statistical Theory 3rd ed. New York:<br />
Macmillan<br />
Patterson H. D. (1950), "Sampling on successive occasions with<br />
partial replacement of units", Journal oh the Royal<br />
Statistical Society, B,12, pp. 241-255.<br />
Pfeffermann D. e Nathan G. (1985) "Problems in model<br />
identification based on data from complex sample<br />
surveys. Bull.lnt. Statist. Inst. $5th session 12.2<br />
Raj D. (1965), "On sampling over two occasions with probability<br />
proportionate to size", Annals of Mathematical Statistics,<br />
36, pp. 327-330.<br />
Rao j. N. K. and Graham J. E. (1964), "Rotation designs for<br />
sampling on repeated occasions", Journal of the American<br />
Statistical Association, 59, pp. 492-509.<br />
Rao J.N.K. e Scott A.J. (1981) The analisys of categorical date<br />
from complex surveys: Chi -squared tests for goodness<br />
of fit and independence in two-way tables. J.A.S.A.<br />
VoI 76 No.374 pp.221-230<br />
Royall R.M. (1970a) On finite population sampling theory under<br />
certain linear regression models. Biometrika 57 377-387.<br />
Royall R.M. (1970b) Finite population sampling - on labels in<br />
estimation. Ann. Math. Stato 41 1774-1779.
Royall R.M. _ (1971) Linear regression models in finite<br />
population sampling theory. In "V.P.Godambe e D.A.<br />
Sprott eds., Foundations of statistical inference".<br />
259-274<br />
Royall R.M. (1975) The likelihood principle in finite population<br />
sampling theory. 40th session Int. Stato Institute<br />
Royall R.M. and Herson J. (1973) Robust estimation in finite<br />
populations. J.A.S,A. 68 880-889.<br />
Sarndal C.E. (1972) Sample survey theory vs.general statistical<br />
theory:Estimation of population mean Rev. ·Int. Statist.<br />
Inst. 40 1-12.<br />
Sarndal C. ·E. (1976) On Uniformly mlnlmum variance estimation in<br />
finite populations. Ann. Statistics 2 993-997.<br />
Scott A. J., Blight B. J. N. (1973), "A stochastic model for<br />
repeated surveys", Journal of the Roya1 Statistical<br />
Society, B, 35, pp. 61-66.<br />
Scott A. J., Smitt. T. M. F. (1974), "Analysis of repeated<br />
surveys· using time series methods", Journalof the<br />
American Statistical Association, 59, 674-678.<br />
Yates F. (1949), Sampling methods for censues and surveys,<br />
London, Griffin.<br />
Watanabe S. (1985) Pattern Recognition . Wiley<br />
Wil1iams (1979) Diffusion, Markow Processes and Martingales.<br />
Cambridge University Presso Cambridge.