Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
dergelijke situaties zijn deze variabel<strong>en</strong> als koppelvariabel<strong>en</strong> te gebruik<strong>en</strong>. De techniek<strong>en</strong> die dan<br />
gebruikt kunn<strong>en</strong> word<strong>en</strong> zijn niet veel anders dan in het geval van situaties 1b of 2a.<br />
E<strong>en</strong> andere specifieke situatie betreft het feit dat niet wordt voldaan aan de voorwaarde dat de<br />
scores in beide bestand<strong>en</strong> op ongeveer hetzelfde tijdstip betrekking di<strong>en</strong><strong>en</strong> te hebb<strong>en</strong>, dus met<br />
(ongeveer) gelijke refer<strong>en</strong>tietijd<strong>en</strong>. Het kan zijn dat de tijdstipp<strong>en</strong> 8 , waarop de gegev<strong>en</strong>s in de<br />
bestand<strong>en</strong> betrekking hebb<strong>en</strong>, zo ver uit elkaar ligg<strong>en</strong> dat er verschill<strong>en</strong> in de scores van dezelfde<br />
e<strong>en</strong>hed<strong>en</strong> kunn<strong>en</strong> optred<strong>en</strong> louter omdat er sprake is van dynamiek in de populatie, waardoor<br />
nieuwe e<strong>en</strong>hed<strong>en</strong> kunn<strong>en</strong> instrom<strong>en</strong> in de populatie (‘geboorte’), of juist uitstrom<strong>en</strong> (‘sterfte’), of<br />
van eig<strong>en</strong>schap verander<strong>en</strong> (bijvoorbeeld e<strong>en</strong> jaartje ouder word<strong>en</strong>, huw<strong>en</strong> of scheid<strong>en</strong>, etc.).<br />
Daarnaast komt het voor dat de e<strong>en</strong>hed<strong>en</strong> zelf kunn<strong>en</strong> verander<strong>en</strong>. Dit is bijvoorbeeld mogelijk bij<br />
sam<strong>en</strong>gestelde e<strong>en</strong>hed<strong>en</strong> zoals bedrijv<strong>en</strong> of huishoud<strong>en</strong>s, die kunn<strong>en</strong> splits<strong>en</strong> of fuser<strong>en</strong> met andere<br />
e<strong>en</strong>hed<strong>en</strong>.<br />
<strong>Koppel<strong>en</strong></strong> wordt meestal gebruikt om records uit 2 bestand<strong>en</strong> 1:1 te match<strong>en</strong>. Dit wil zegg<strong>en</strong> dat in<br />
de definitieve matching als twee records koppel<strong>en</strong>, rA uit A <strong>en</strong> rB uit B, er ge<strong>en</strong> records s uit A zijn<br />
<strong>en</strong> t uit B, zodanig dat r A aan t koppelt of r B aan s. Het is echter zeer wel mogelijk dat<br />
afzonderlijke records uit A aan meerdere records uit B kunn<strong>en</strong> word<strong>en</strong> gekoppeld, of omgekeerd,<br />
afzonderlijke records uit B aan meerdere in A. Te d<strong>en</strong>k<strong>en</strong> valt hierbij aan koppelsituaties waarbij<br />
tuss<strong>en</strong> de peiltijd waarop A <strong>en</strong> waarop B is verzameld e<strong>en</strong> zodanig verschil zit dat de effect<strong>en</strong> van<br />
de dynamiek zichtbaar word<strong>en</strong>. Het kan dan zijn dat e<strong>en</strong> bedrijf uit bestand A is gesplitst in<br />
meerdere bedrijv<strong>en</strong> die in bestand B zijn verteg<strong>en</strong>woordigd. Of omgekeerd dat e<strong>en</strong> bedrijf in B is<br />
ontstaan door fusie van meerdere bedrijv<strong>en</strong> in A. Het hoeft hierbij trouw<strong>en</strong>s niet per se om<br />
sam<strong>en</strong>gestelde e<strong>en</strong>hed<strong>en</strong> te gaan als bedrijv<strong>en</strong>. Het kan ook om person<strong>en</strong> gaan. Zo zou e<strong>en</strong> persoon<br />
die in bestand A 32 jaar is in bestand B 32 of 33 jaar oud kunn<strong>en</strong> zijn. Als op secundaire<br />
sleutelwaard<strong>en</strong> twee person<strong>en</strong> voorkom<strong>en</strong> in B die dezelfde scores hebb<strong>en</strong> op alle<br />
koppelvariabel<strong>en</strong>, alle<strong>en</strong> e<strong>en</strong> verschill<strong>en</strong>de score op de variabele leeftijd, namelijk 32 jaar <strong>en</strong> 33<br />
jaar, dan zijn beide person<strong>en</strong> in B koppelkandidat<strong>en</strong> voor het g<strong>en</strong>oemde record in A (verondersteld<br />
dat er verder ge<strong>en</strong> id<strong>en</strong>tificer<strong>en</strong>de informatie in A <strong>en</strong> B aanwezig is). Met bepaalde kans<strong>en</strong> kunn<strong>en</strong><br />
de beide records uit B aan het record in A word<strong>en</strong> gekoppeld. Hierbij kan de kans gebruikt word<strong>en</strong><br />
als koppelgewicht, of beter gezegd de reciproke kans. Dit is dan e<strong>en</strong> voorbeeld van e<strong>en</strong><br />
koppelingsmodel dat gebruik maakt van koppelingsgewicht<strong>en</strong>. Dat is niet per se nodig. Er zijn ook<br />
koppelingsmodell<strong>en</strong> die zonder deze gewicht<strong>en</strong> werk<strong>en</strong>.<br />
Verder wordt in dit stuk niet alle<strong>en</strong> gekek<strong>en</strong> naar koppeling<strong>en</strong> van gelijke e<strong>en</strong>hed<strong>en</strong>. In de<br />
economische statistiek<strong>en</strong> is vaak sprake van sam<strong>en</strong>gestelde e<strong>en</strong>hed<strong>en</strong>, die kunn<strong>en</strong> splits<strong>en</strong>, maar<br />
ook kunn<strong>en</strong> sam<strong>en</strong>gaan met andere, soortgelijke e<strong>en</strong>hed<strong>en</strong>, tot e<strong>en</strong> nieuwe e<strong>en</strong>heid. Zie ook<br />
paragraaf 9.6. De relatie tuss<strong>en</strong> twee e<strong>en</strong>hed<strong>en</strong> in verschill<strong>en</strong>de te koppel<strong>en</strong> bestand<strong>en</strong> hoeft dan<br />
niet per se te zijn die van gelijkheid van e<strong>en</strong>hed<strong>en</strong>, maar bijvoorbeeld van ‘is voortgekom<strong>en</strong> uit’<br />
(bij e<strong>en</strong> splitsing) of omgekeerd ‘is onderdeel geword<strong>en</strong> van’ (bij e<strong>en</strong> fusie).<br />
8 Daarbij gaat het om het tijdstip waarop de data betrekking hebb<strong>en</strong>. Echter ook al gaat het om hetzelfde<br />
tijdstip waarop de gegev<strong>en</strong>s betrekking hebb<strong>en</strong>, er kan ook sprake zijn van e<strong>en</strong> groot tijdverschil in het<br />
mom<strong>en</strong>t van registratie. Ook in dat geval kunn<strong>en</strong> g<strong>en</strong>oemde koppelproblem<strong>en</strong> optred<strong>en</strong>.<br />
30