e - Sapienza

TEORIA DELLA SUPERPOPOLAZIONE E CAMPIONM1ENTO DA 

POPOLAZIONI FINITE 

Incl1 c:: e 

Cap. I Introduzione Pago 

1. i 

1.2 

. 1. 3 

Concetti generali 

Inrerenza e campionamento 

Campionamento da popolazioni rinite 

Cap II LaSuperpopolazione 

2. 1 Introduzione 37 

2. 2 Superpopolazione di variabili 39 

2. 3 Superpopolazione di unità 4-4- 

2.4- Supe:r'popo l azione di variabili ed unità 4-8 

cap I I I L'approccio predittivo 

3. 1 Intr'oc1uzione 

50 

3.2 Dalla sUrficienza alla sufficienza 

prec:u t tiva 

54- 

3.3 ApPlicazione alla inferenza da popolazioni 

finite 

63 

-, ---- - .'-" 

3 

8 

32 

'"

Il· camPionamento da popolazioni finite 

Le iPotesi di base, del l 'approccio classico al campionamento 

da pOPolazioni finite, sono; 

,(·g·l) V i E I 

Nella 1) è stata assunta ì'assenza di ·errori non campionari. 

Il vettol""e 

(Yl'········, YN) 

viene considerato un punto dello spazio RN' E' possibile 

quindi l'iscrivere le 1) come; 

Supponiamo di estrarre da P, utilizzando un disegnO p (s), un 

campione cli n u;nità e di osservare 

d(s) =(Xi' , , , , , , •• Xn ) 

Il parametro da stimare, utilizzando i dati caInpionari e: 

POiChè 

32

di P, un valore della variabile oggetto di indagtne pari a y e 

una funZione decrescente di X. Riconducendo il problema 

nell'mru)ito della teoria della massima entropia, il fine del 

Piano di camPionamento con probabilità proporZionale ad X e 

quello di massimizzare la distanza tra due distribuzioni sotto il 

vincolo di mantenere costante le qllantita; 

ma dalla derivazione della formula di entroPia interpretata come 

probabilità di una densità di probabilita, si ha; 

H(f) '" -l00 

ftx)iZof j{x) ,;( 

f) . 

ma le frequenze camPionarie, considerate come un campiona da una 

distribuzione di pr6babilita (SuperpopolaZiOne) , hanno una 

probabilita data da; 

dove 

pOicl1e 

e POssibile indicare direttamente 

quindi 

Pr{Y/x) 

35 

/ 

V i E I 

invece di Pr{i/x]

dove 

se 

quindi 

ossia il risultato campionario non influisce sulla media delle. 

variabili non "osser'vate", e Punica assunzione Possibile e che: 

, 

che e POi l'assunzione fatta nel paragrafo 5 del caPitolo 1, 

)

Superpopolazione di variabili ed unità 

Come e stato detto precedentemente, l'approccio 

superpopolazione, nell'inferenza da popolazioni finite porta a 

considerare un insieme infinito di unità, oppure se viene 

considerata fissa la cardinalità di P, una varibile N 

dimensionale, indiPendentemente dalle singole unità di P. 

Riescono difficilemnte giustificabili le operazioni di limite 

su una struttura del genere, ed inoltreper il fatto che la 

correlazione interna (diPendenza intrinseCa) non tende a zero, 

qualsiasi "predittore" risulta inconsistente. Se invece la 

numerosità della pOPolazione 'reale non Viene considerata fissa, 

ma puo variare, (Puo tendere ad infinitO), allora si ha come 

struttura di superpopolazione un insieme di variabili aleatorie 

(una per ogni unità di P) che, al tendere di N (Cardinalità di P) 

all'infinito risulta un processo stocastico. In altri termini, il 

vettoY'e 

risulta un insieme di punti su una traiettoria del processo 

stocastico (Superpopolazione). 

In questo contesto, ad osni individuo viene associato una 

cOPPia di valori (Xi' i) il primo e la realizzazione di 

una variabile casuale Xi' mentre il secondo appartiene ad un 

insieme che induce sullo spazio X delle variabili Xi' un 

ordinamento (se, rispetto alla densità di probabilità congiunta 

delle Xi' tale ordinamento e irrilevante, allora il processo 

e SCambiabile). Se indicll1amo con è allora le traiettor'ie del 

processo (SuperpopolaZiOni) 

un 

" ....

Dalle fe)rmul e 

informativo (le 

non dipendono da 

5'" 3) 

precedenti si evince che il disegno e nonprobabilita 

di inclusione delle unita di P in s 

I): ne deriva: 

aJLs 

ed inoltre, data la sufficienza di t, per a si ha: 

ossia 

Xjs,tJLa e XjtJLs 

p(x:a, S)=p(x:a) 

p(x:a,t)=p(x:t) 

Il ruolo delle etichette, sembrerebbe quindi unicamente 

quello di consentire lJindividuazione delle unita che sono 

"portatrici" di una particolare realizzazione della variabile X 

in P, e quindi, una volta estratto il campione, il loro,ruolo si 

estingue, Questo aVViene, nel caso classico, quando le 

probabilita di inclusione sono costanti, Quando non lo sono, le 

etichette sono necessarie, in quanto servono per associare a 

ciascuna unita estratta la rispettiva probabilita di 'inclusione, 

.per avere una stima del parametro (di popolaZiOne) di interesse, 

Da quanto esposto in precedenza, invece, lJunica 

informazione rilevante per a, 

e lJinsieme dei valori osservati, indiPendentemente dalle unita 

estratte: ossia lJinteresse e sullJinsieme: 

qualunque sia s, 

X(S)={Xl"""Xn ) 

56 

.l

dimostrazione: 

La distribuzione della variabile (s+i)-dimensionale Y(s+i), 

puo essere fattorizzata nel seguente modo; 

F[Y(S+i);6]= H[Y(s),t(s): 6] K[Y(s+i);Y(S),6] 

dalla sufficienza di t(s) per 6 si ha; 

H[Y(S),t(S);6]=H' [Y(S);t(S),6] P[t(S);6]=H[Y(s)] P[t(S);6] 

S i Ila Cflllndi : 

?(./I) F[Y(s+i);6] = H[Y(s)] P[t(s);6] K[Y(S+i);Y(S),6] 

siccome t(s) é predittiva, allora; 

K[Y(S+i:Y(s),6]= G [ Y(s+i);t(s),6 ] 

Sostituita nella (9) fornisce la (8) I 

. teorema; 

Se da una popolazione finita di N unita viene estratto un 

campione di numerosita n, utilizzando il disegno p(S); 

p (s) = 

n! (N-n) ! 

N! 

la statistica t= (1/n) EX i 

sufficiente per e; 

dimostrazione; 

e 

6=6 (M) = (1/N) E 

iEs è totalmente 

Per dimostrare la sufficienza totale di t, 

dimostrare che il parametro delle variabili aleatorie 

·dipende dai dati campionari soltanto attraverso t(s). 

Nelle popolazioni rinite, 

e (s; y (1-s» =(1 /N) E y. l 

POiché t(S) é non distorto per 6, si ha; 

E[t(s)] =EP(S)T(S) =6 

E 1 

iE {I-sJ 

x 

i 

bisogna 

y(I-s), 

,. 

; -

pOlche 

sl Ila; 

p(s) =p(I-s) 

t(I-s)=[(N-n)/n]t(s) 

allora t(I-S) e non dlstorto per 9[s:Y(I-S)] la cul stlma dlpende 

dal datl, solo attraverso t (S) Il . 

62

la statistica SUIIiciente e data da 

e lo stimatore di Max-VerOSimiglianza per S viene ottenuto 

risolvendo 11 sistema non lineare (attraverso metodl iteratiVl); 

Utilizzando quindl S, 1 valori sulle unltà non campionate possono 

essere ottenuti apPllcando 11 "predlttore"; 

che dlventa per Y(a)=1 e Y(b)=O

BisOgna aggiungere che se i cluster vengono 'campionati tutti, 

e quindi il' disegno diventa ad uno stadio stratificato, allora la 

disegUaglianza precedente risulta invertita. 

Il legmne che esiste tra le varianze dei due stimatori viene 

espresso attraverso la seguente formula: 

$"-:5. 1) V [Td (:y)] =_N_(N_-_n_}_N_(M_-_l_}__ 

n HZ (l'i-1) 

dove 

V[Ts(y)]Z [i+(M-l}'I'] 

ed affinché risulti V[Td(Y}] > Q dovra essere; 

1 

- -- M-i 

consideriamo separatamente le unita di primo stadio e quelle di 

secondo stadio. 

, 

Se invece consideriamo la variabile aleatoria di 

pari a 

dimensioni 

D= 'E Mi 

iE {I J 

allora la struttura di covarianza può essere espressa come: 

';;.4. 1) COV(Yi, j'Yh, 1)= 

13+

6. 1 

Cap. VI 

IL CAMPIONA}IENTO LONGITUDINALE 

Introc:ìuzione 

Il campionamento da popolazioni finite ha come scopo. in 

generale. di risalire induttivamente alla misurazione di alcuni 

par·ametr·i. (fenomeni) l'iguardanti un cer·to insieme di "individui" 

(poPOlaziOne). Viene osservato un sottoinsieme (CamPione) e minimizzato. 

attraverso opportuni aCcorgimenti. sia nella fase di selezione 

degli individui da campionare che nella scelta della 

funzione delle misurazioni effettuate sugli individui campionati. 

lJerrore che. inevitabilmente. si commette nel trarre conclusioni 

rispetto agli individui. della popolazione. non inclusi nel cmn- 

. Pione. 

L'errore campionario risulta direttanlente legato alla variabilita' 

del fenomeno (variabile oggetto di indagine) al variare 

dell'individuo ed allà modalita di estrazione dell'individuo 

stesso dalla popolazione (disegno campionario). 

Un fenomeno. qllindi. pUo aSSlunere diverse modalita (quantitative 

o qualitative) se misurato su individui differenti. in 

altri ter·mini. al variare .deIl' individuo si osser·va una certa 

variabilita' del fenomeno oggetto di indagine. E' da osservare 

che le indagini campionarie sarebbero prive di Significato se non 

esistesse la POSsibilita di osservare una variabilita del fenomeno 

pur misurandolo. sullo stesso individuo; questa Possibilita e 

data (deriVa). dall'introduzione del fattore tempo. 

In altre parole. per popolazioni finite. qualsiasi fenomeno 

potrebbe essere perfettamente conosciuto misurandolo dopo avere 

effettuato un censimento. soltanto sugli individui che entrano e 

su quelli che escono dalla popolazione. 

In realta' l'importanza delle indagini camPionarie deriva proprio 

dal fatto che esiste una variabilita' temporale nei fenomeni 

e da qui' l'esigenza di effettuare diverse misurazioni (CampiOnamenti) 

in tempi diversi per avere informazioni aggiornate circa 

l'effettiva entita' dei fenomeni di interesse. QuandO non si e 

interessati a misurare variazioni temporali del fenomeno. le 

indagini vengono cl1Ìamate "trasversali" J al trimenti vengono cilla-

za (livello di 'pI'o})abilita) o: prefissata cIle: 

oppure 

- 

X =X 

ti t2 

- X > X 

ti t2 

X -< X 

ti t2 

test bidirezionale 

test unidirezionali 

E' comunque arduo dare una valutazione abbastanza attendibile 

deIl' entita' de l cambiamento avvenuto nel per-iodo (t -t ) l se non 

- .' 2 i 

viene utilizzato un "modello statistico" atto a "spiesare" una 

parte della variabilita' temporale del fenomeno stesso. 

b) campionamento con le stesse unita nei successivi 

temPi (panel). 

Questo tipo e11 campionamento (spesso denominato panel) consente 

di ottenere quelle particolari quantita clle sono i "flussi" 

non altrimenti osservabili trmnite stime trasversali indipendenti 

(caso precedente). 

Le principali caratteristiche di questo tipo di 

disegno di camPionamento possono essere cosi' riassunte: 

- Le unita della popolazione cmnpionata rimansono nel campione 

per tutto il periodo di ossevazione del fenomeno. 

- Il questionario rimane identico nelle successive interviste 

(almeno per la parte di CUi interessa misurare i flUSSi) 

114

successivi tempi. Per le unita campionate, comunque,esiste la 

possibilita di porre qUesiti sugli istanti di tempo precedenti. 

In questo modo si ha una sovrapposizione temporale (liVelli) che 

prolungano la struttura di panel. Uno svantaggio di livelli 

mUltiPli elevati è quellO di corru)inare (al fine di ottenere delle 

stime) unita con e11versi "effetti memoria" e quindi con 

differenti errori di risposta. 

Supponendo di avere un disegnO a livello unico, le quantita di 

interesse sono le segUenti: 

a) la media campionaria delle unita entrate per la prima volta 

ne l campione, 

X h 

b) medie campionarie delle unita.rimaste nel campione ai tempi 

t e t 

Il h-i 

c) 

media can1pionaria delle unita rilevate al 

uscite al tempo t :tl 

Il 

ed 

tempo t ed 

h-i' 

Supponendo che la quantita che piU interessa sia la media al 

tempo t , una stima viene fornita da: 

Il . 

l a j1·i) utilizza per. l a stima de 11 a mee1ia al 

esistente tra il valore assunto dal fenomeno 

nei due temPi successivi, th e th-l' 

117 

tempo t il 

h 

oggetto di 

legame 

indagine 

.' ..,

C) Stima della diTTerenza (e somme)tra due medie. 

Supponendo di avere le stime di M e d M e possibile 

11. 11.- 1 

utilizzare la stima'al tempo t per migliorare quella al tempo 

tI 

t . Uno stimatore della diTTerenza e inTatti dato da: 

tl-l 

'-1-2 ) M -M =M -(M +u(M -x » 

tI 11.- 1 11. 11.- 1 tI 11. 

Come per la diTTerenza, per la somma di due o piU medie 

successivi si utilizza il valore ottenuto al tempo 

migliOrare le stime ottenute nei temPi precedenti. 

"tempi" sono maggior'e di 2 lo stimatore si complica, 

vengono presupposti solo due tempi di campionamento. 

G-t-3 ) M +M = M + (M -u(M -k » 

11. h-l 11. 11.-1 h h 

d) Campionamento ruotato a piU livelli: 

in temPi 

t per' 

11. 

Se i 

per cui 

Se i livelli sono Pit'l. di 2 la stima "media della popolazione al 

tempo 11. " si PUo ottenere i terativamente: 

dove 

come si 

ruotato 

M =x +u (M -x ) 

h h h 'h-l h-l 

PUo intuire l'aumento di 

dipende (a parita di 

118 

preCisione 

numerosita 

in un campione 

direttamente

) p lim .{ (1IN) .E X (i, t) =IJ (t) l =1 

c) IE(Xt)=iJ(t) 

La (a) rappresenta l'evoluzione nel tempo del fenomeno oggetto di 

studiO. Per fenomeni demografici ed economici e solito imporre 

delle funzioni di crescita che abbiano un andamento Piuttosto 

r'ego l are. I l par'ametro dovr'à sOddiSf?l-'e de Il e equaziOni 

differenziali del tipo 

oppur'e essere; 

diJ(t)=a(t)iJ(t)dt 

diJ (t) =adt 

iJ(t)=cost 

Nell'approccio superpopolazione, per ogni 

riferimento t, la popolazione P e considerata un 

unità estratto casualmente da un insieme infinito 

una misura di probabilità F(IJ(t),02). Il parametro 

e(t) è tale che; 

Plim { e(t,N)=1J 1=1 V t E {i, T1 

per'iodo di 

campione di N 

su cui esiste 

di popolaZione 

In effetti e(t,N) risulta una statistica sufficiente per 

lJ(t), per cui 

ino l tre, POiC11e 

XtJe(tLLIJ(t) 

131 

V t

e quindi al variare di i cambia la probabilità che, campionando 

una unità da P essa possegga l'intensità Y=y del carattere Y. Lo 

scopo dell'inferenza diventa quindi quello di ricercare un legame 

funzionale stocastico che permetta di "predire" condizionalmente 

alle etichette non osservate, i valori della caratteristica Y. Il 

modello inferenziale sarà quindi; 

Pr {Y Y ; e e J = TI· F (Y. =Y. ; e . ) 

1 li 1 li ( 111 

Se inoltre l'etichetta è multidimensionale (ad esempio coordinate 

geografiche dei comuni) allora il modello stocastico è quello di 

campo aleatorio ed i punti Y(i, j) saranno su una superficie 

stocastica scomponibile in lIsegnale + rumore", per quanto 

riguarda le unità ;non osservate di P. L'approccio inferenziale è 

satato quello· predittivo, in .cui le proprietà degli stimatori 

non sono le stesse dell'inferenza classica ma devono avere dei 

legami con le distribuzioni delle variabili non osservate 

(sufficienza predittiva). In alcuni casi ad esempio 

nella non-informatività delle etichette le due definizioni 

coincidono in quanto il parametro di Superpopolazione rimane 

costante al variare dell'unità (o della prova). Il lavoro è 

andato man mano espandendosi per cui risulta forse privo di 

conclusioni definitive. Quello che comunque è definito è che si 

tratta di un approccio al problema della stima da popolazioni 

finite che esula dagli attuali orientamenti (anche se modelbased) 

. 

138

Jessen R. J. (i942},"Statistical investigation of a farm survey 

for obtaining farm acts", Iowa Agricultural Experimental 

Station, Research Bullettin, 304, pp. 54-59. 

Lauritzen S. L. (1974) Sufficiency, Prediction and Extreme 

Models. Scandinavian Journal of Statistics,l, 

128-134. 

Lauritzen, S. L. (1982) Statistica1 model as Extremal Families 

Aalborg University Press, Aalborg. 

Lauritzen S.L. (1984) Extreme Point Model in Statistics, 

Scandinavian Journal of Statistics,ll,65-91. . 

Lindgren B.W. (1976) Statistical Theory 3rd ed. New York: 

Macmillan 

Patterson H. D. (1950), "Sampling on successive occasions with 

partial replacement of units", Journal oh the Royal 

Statistical Society, B,12, pp. 241-255. 

Pfeffermann D. e Nathan G. (1985) "Problems in model 

identification based on data from complex sample 

surveys. Bull.lnt. Statist. Inst. $5th session 12.2 

Raj D. (1965), "On sampling over two occasions with probability 

proportionate to size", Annals of Mathematical Statistics, 

36, pp. 327-330. 

Rao j. N. K. and Graham J. E. (1964), "Rotation designs for 

sampling on repeated occasions", Journal of the American 

Statistical Association, 59, pp. 492-509. 

Rao J.N.K. e Scott A.J. (1981) The analisys of categorical date 

from complex surveys: Chi -squared tests for goodness 

of fit and independence in two-way tables. J.A.S.A. 

VoI 76 No.374 pp.221-230 

Royall R.M. (1970a) On finite population sampling theory under 

certain linear regression models. Biometrika 57 377-387. 

Royall R.M. (1970b) Finite population sampling - on labels in 

estimation. Ann. Math. Stato 41 1774-1779.

Royall R.M. _ (1971) Linear regression models in finite 

population sampling theory. In "V.P.Godambe e D.A. 

Sprott eds., Foundations of statistical inference". 

259-274 

Royall R.M. (1975) The likelihood principle in finite population 

sampling theory. 40th session Int. Stato Institute 

Royall R.M. and Herson J. (1973) Robust estimation in finite 

populations. J.A.S,A. 68 880-889. 

Sarndal C.E. (1972) Sample survey theory vs.general statistical 

theory:Estimation of population mean Rev. ·Int. Statist. 

Inst. 40 1-12. 

Sarndal C. ·E. (1976) On Uniformly mlnlmum variance estimation in 

finite populations. Ann. Statistics 2 993-997. 

Scott A. J., Blight B. J. N. (1973), "A stochastic model for 

repeated surveys", Journal of the Roya1 Statistical 

Society, B, 35, pp. 61-66. 

Scott A. J., Smitt. T. M. F. (1974), "Analysis of repeated 

surveys· using time series methods", Journalof the 

American Statistical Association, 59, 674-678. 

Yates F. (1949), Sampling methods for censues and surveys, 

London, Griffin. 

Watanabe S. (1985) Pattern Recognition . Wiley 

Wil1iams (1979) Diffusion, Markow Processes and Martingales. 

Cambridge University Presso Cambridge.

e - Sapienza

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?