18.01.2013 Views

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

dergelijke situaties zijn deze variabel<strong>en</strong> als koppelvariabel<strong>en</strong> te gebruik<strong>en</strong>. De techniek<strong>en</strong> die dan<br />

gebruikt kunn<strong>en</strong> word<strong>en</strong> zijn niet veel anders dan in het geval van situaties 1b of 2a.<br />

E<strong>en</strong> andere specifieke situatie betreft het feit dat niet wordt voldaan aan de voorwaarde dat de<br />

scores in beide bestand<strong>en</strong> op ongeveer hetzelfde tijdstip betrekking di<strong>en</strong><strong>en</strong> te hebb<strong>en</strong>, dus met<br />

(ongeveer) gelijke refer<strong>en</strong>tietijd<strong>en</strong>. Het kan zijn dat de tijdstipp<strong>en</strong> 8 , waarop de gegev<strong>en</strong>s in de<br />

bestand<strong>en</strong> betrekking hebb<strong>en</strong>, zo ver uit elkaar ligg<strong>en</strong> dat er verschill<strong>en</strong> in de scores van dezelfde<br />

e<strong>en</strong>hed<strong>en</strong> kunn<strong>en</strong> optred<strong>en</strong> louter omdat er sprake is van dynamiek in de populatie, waardoor<br />

nieuwe e<strong>en</strong>hed<strong>en</strong> kunn<strong>en</strong> instrom<strong>en</strong> in de populatie (‘geboorte’), of juist uitstrom<strong>en</strong> (‘sterfte’), of<br />

van eig<strong>en</strong>schap verander<strong>en</strong> (bijvoorbeeld e<strong>en</strong> jaartje ouder word<strong>en</strong>, huw<strong>en</strong> of scheid<strong>en</strong>, etc.).<br />

Daarnaast komt het voor dat de e<strong>en</strong>hed<strong>en</strong> zelf kunn<strong>en</strong> verander<strong>en</strong>. Dit is bijvoorbeeld mogelijk bij<br />

sam<strong>en</strong>gestelde e<strong>en</strong>hed<strong>en</strong> zoals bedrijv<strong>en</strong> of huishoud<strong>en</strong>s, die kunn<strong>en</strong> splits<strong>en</strong> of fuser<strong>en</strong> met andere<br />

e<strong>en</strong>hed<strong>en</strong>.<br />

<strong>Koppel<strong>en</strong></strong> wordt meestal gebruikt om records uit 2 bestand<strong>en</strong> 1:1 te match<strong>en</strong>. Dit wil zegg<strong>en</strong> dat in<br />

de definitieve matching als twee records koppel<strong>en</strong>, rA uit A <strong>en</strong> rB uit B, er ge<strong>en</strong> records s uit A zijn<br />

<strong>en</strong> t uit B, zodanig dat r A aan t koppelt of r B aan s. Het is echter zeer wel mogelijk dat<br />

afzonderlijke records uit A aan meerdere records uit B kunn<strong>en</strong> word<strong>en</strong> gekoppeld, of omgekeerd,<br />

afzonderlijke records uit B aan meerdere in A. Te d<strong>en</strong>k<strong>en</strong> valt hierbij aan koppelsituaties waarbij<br />

tuss<strong>en</strong> de peiltijd waarop A <strong>en</strong> waarop B is verzameld e<strong>en</strong> zodanig verschil zit dat de effect<strong>en</strong> van<br />

de dynamiek zichtbaar word<strong>en</strong>. Het kan dan zijn dat e<strong>en</strong> bedrijf uit bestand A is gesplitst in<br />

meerdere bedrijv<strong>en</strong> die in bestand B zijn verteg<strong>en</strong>woordigd. Of omgekeerd dat e<strong>en</strong> bedrijf in B is<br />

ontstaan door fusie van meerdere bedrijv<strong>en</strong> in A. Het hoeft hierbij trouw<strong>en</strong>s niet per se om<br />

sam<strong>en</strong>gestelde e<strong>en</strong>hed<strong>en</strong> te gaan als bedrijv<strong>en</strong>. Het kan ook om person<strong>en</strong> gaan. Zo zou e<strong>en</strong> persoon<br />

die in bestand A 32 jaar is in bestand B 32 of 33 jaar oud kunn<strong>en</strong> zijn. Als op secundaire<br />

sleutelwaard<strong>en</strong> twee person<strong>en</strong> voorkom<strong>en</strong> in B die dezelfde scores hebb<strong>en</strong> op alle<br />

koppelvariabel<strong>en</strong>, alle<strong>en</strong> e<strong>en</strong> verschill<strong>en</strong>de score op de variabele leeftijd, namelijk 32 jaar <strong>en</strong> 33<br />

jaar, dan zijn beide person<strong>en</strong> in B koppelkandidat<strong>en</strong> voor het g<strong>en</strong>oemde record in A (verondersteld<br />

dat er verder ge<strong>en</strong> id<strong>en</strong>tificer<strong>en</strong>de informatie in A <strong>en</strong> B aanwezig is). Met bepaalde kans<strong>en</strong> kunn<strong>en</strong><br />

de beide records uit B aan het record in A word<strong>en</strong> gekoppeld. Hierbij kan de kans gebruikt word<strong>en</strong><br />

als koppelgewicht, of beter gezegd de reciproke kans. Dit is dan e<strong>en</strong> voorbeeld van e<strong>en</strong><br />

koppelingsmodel dat gebruik maakt van koppelingsgewicht<strong>en</strong>. Dat is niet per se nodig. Er zijn ook<br />

koppelingsmodell<strong>en</strong> die zonder deze gewicht<strong>en</strong> werk<strong>en</strong>.<br />

Verder wordt in dit stuk niet alle<strong>en</strong> gekek<strong>en</strong> naar koppeling<strong>en</strong> van gelijke e<strong>en</strong>hed<strong>en</strong>. In de<br />

economische statistiek<strong>en</strong> is vaak sprake van sam<strong>en</strong>gestelde e<strong>en</strong>hed<strong>en</strong>, die kunn<strong>en</strong> splits<strong>en</strong>, maar<br />

ook kunn<strong>en</strong> sam<strong>en</strong>gaan met andere, soortgelijke e<strong>en</strong>hed<strong>en</strong>, tot e<strong>en</strong> nieuwe e<strong>en</strong>heid. Zie ook<br />

paragraaf 9.6. De relatie tuss<strong>en</strong> twee e<strong>en</strong>hed<strong>en</strong> in verschill<strong>en</strong>de te koppel<strong>en</strong> bestand<strong>en</strong> hoeft dan<br />

niet per se te zijn die van gelijkheid van e<strong>en</strong>hed<strong>en</strong>, maar bijvoorbeeld van ‘is voortgekom<strong>en</strong> uit’<br />

(bij e<strong>en</strong> splitsing) of omgekeerd ‘is onderdeel geword<strong>en</strong> van’ (bij e<strong>en</strong> fusie).<br />

8 Daarbij gaat het om het tijdstip waarop de data betrekking hebb<strong>en</strong>. Echter ook al gaat het om hetzelfde<br />

tijdstip waarop de gegev<strong>en</strong>s betrekking hebb<strong>en</strong>, er kan ook sprake zijn van e<strong>en</strong> groot tijdverschil in het<br />

mom<strong>en</strong>t van registratie. Ook in dat geval kunn<strong>en</strong> g<strong>en</strong>oemde koppelproblem<strong>en</strong> optred<strong>en</strong>.<br />

30

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!