Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
4. Theorie van het koppel<strong>en</strong><br />
4.1 Inleiding<br />
Stel dat we koppelbestand<strong>en</strong> A <strong>en</strong> B hebb<strong>en</strong>, waarvoor geldt dat ze informatie bevatt<strong>en</strong> die<br />
betrekking heeft op tijdstipp<strong>en</strong> die niet al te ver uit elkaar ligg<strong>en</strong>. T<strong>en</strong> aanzi<strong>en</strong> van de koppelbaarheid<br />
van deze bestand<strong>en</strong> do<strong>en</strong> zich de volg<strong>en</strong>de mogelijkhed<strong>en</strong> voor (zie ook figuur 2.4):<br />
1. Er is e<strong>en</strong> geme<strong>en</strong>schappelijke <strong>en</strong> unieke primaire koppelsleutel die zowel in bestand A als in<br />
bestand B aanwezig is. Er zijn vervolg<strong>en</strong>s twee mogelijkhed<strong>en</strong>:<br />
a. De scores op de variabel<strong>en</strong> in de koppelsleutel zijn van voldo<strong>en</strong>de kwaliteit.<br />
b. De scores op de variabel<strong>en</strong> in de koppelsleutel zijn van onvoldo<strong>en</strong>de kwaliteit.<br />
2. Er is ge<strong>en</strong> (goede) geme<strong>en</strong>schappelijke <strong>en</strong> unieke primaire koppelsleutel in beide bestand<strong>en</strong><br />
aanwezig. Er zijn wel bepaalde variabel<strong>en</strong> geme<strong>en</strong>schappelijk in beide bestand<strong>en</strong> aanwezig die<br />
als secundaire koppelsleutel kunn<strong>en</strong> di<strong>en</strong><strong>en</strong>. Ook in dit geval zijn er twee mogelijkhed<strong>en</strong>:<br />
a. De scores op deze geme<strong>en</strong>schappelijke secundaire koppelsleutel zijn van voldo<strong>en</strong>de<br />
kwaliteit.<br />
b. De scores op deze geme<strong>en</strong>schappelijke secundaire koppelsleutel zijn van onvoldo<strong>en</strong>de<br />
kwaliteit.<br />
Het is duidelijk dat dit e<strong>en</strong> opsomming is van typ<strong>en</strong> van koppelproblem<strong>en</strong>, geord<strong>en</strong>d van<br />
gemakkelijk (geval 1a) naar moeilijk of zelfs ondo<strong>en</strong>lijk (geval 2b). De lastigste gevall<strong>en</strong> van<br />
koppel<strong>en</strong> zijn de gevall<strong>en</strong> die onder 1b of onder 2a vall<strong>en</strong>. Daar ligt de koppelproblematiek waar in<br />
dit stuk de meeste aandacht aan zal word<strong>en</strong> besteed. Situatie 1a wordt voor de volledigheid ook<br />
behandeld (hoofdstuk 5) maar hier spel<strong>en</strong> ge<strong>en</strong> methodologische problem<strong>en</strong>. In de terminologie van<br />
Van de Laar (2008) betreft dit e<strong>en</strong> procedure <strong>en</strong> ge<strong>en</strong> methode. 6<br />
Koppelcriteria <strong>en</strong> randvoorwaard<strong>en</strong>:<br />
Toepassing van e<strong>en</strong> koppelcriterium levert records op die mogelijk te koppel<strong>en</strong> zijn, de<br />
zog<strong>en</strong>aamde koppelkandidat<strong>en</strong>. Deze koppelkandidat<strong>en</strong> word<strong>en</strong> eerst vastgesteld, in geval<br />
koppelmethod<strong>en</strong> word<strong>en</strong> gebruikt, dat wil zegg<strong>en</strong> in situaties met secundaire sleutels <strong>en</strong> fout<strong>en</strong> of<br />
afwijking<strong>en</strong> in de data. Als m<strong>en</strong> bijvoorbeeld e<strong>en</strong> metriek gebruikt om de afstand (of de mate van<br />
overe<strong>en</strong>komst) tuss<strong>en</strong> twee records te met<strong>en</strong>, dan geeft het koppelcriterium aan bij welke afstand<strong>en</strong><br />
(bijvoorbeeld cut-off- of drempelwaard<strong>en</strong>) m<strong>en</strong> moet stopp<strong>en</strong> twee records nog als<br />
koppelkandidat<strong>en</strong> te gebruik<strong>en</strong>. Stel m<strong>en</strong> heeft vijf secundaire koppelvariabel<strong>en</strong> als sam<strong>en</strong>gestelde<br />
sleutel. Het koppelcriterium zou dan kunn<strong>en</strong> zijn dat records die op minimaal drie van de vijf<br />
koppelvariabel<strong>en</strong> e<strong>en</strong> gelijke score hebb<strong>en</strong> als koppelkandidat<strong>en</strong> beschouwd moet<strong>en</strong> word<strong>en</strong> <strong>en</strong> de<br />
rest niet.<br />
6 Het verschil is dat e<strong>en</strong> methode e<strong>en</strong> b<strong>en</strong>adering betreft, <strong>en</strong> e<strong>en</strong> procedure niet. Zo heeft m<strong>en</strong> e<strong>en</strong> ophoging<br />
nodig om via populatieschatting<strong>en</strong> b<strong>en</strong>adering<strong>en</strong> te krijg<strong>en</strong> voor populatieaantall<strong>en</strong>. Zo’n ophoging is<br />
gebaseerd op één van de vele ophoogmethod<strong>en</strong> die bek<strong>en</strong>d zijn, <strong>en</strong> die ieder geschikt zijn voor specifieke<br />
situaties. Ophoging<strong>en</strong> lever<strong>en</strong> schatting<strong>en</strong> op van populatiegroothed<strong>en</strong>. Bij e<strong>en</strong> koppeling van twee bestand<strong>en</strong><br />
op basis van e<strong>en</strong> harde sleutel (e<strong>en</strong> primaire sleutel) is ge<strong>en</strong> sprake van e<strong>en</strong> b<strong>en</strong>adering. (Zie Hoofdstuk 5) De<br />
koppelmethod<strong>en</strong> gebaseerd op secundaire sleutels (zie Hoofdstukk<strong>en</strong> 6 <strong>en</strong> 7) zijn wel b<strong>en</strong>adering<strong>en</strong>.<br />
28