18.01.2013 Views

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

4. Theorie van het koppel<strong>en</strong><br />

4.1 Inleiding<br />

Stel dat we koppelbestand<strong>en</strong> A <strong>en</strong> B hebb<strong>en</strong>, waarvoor geldt dat ze informatie bevatt<strong>en</strong> die<br />

betrekking heeft op tijdstipp<strong>en</strong> die niet al te ver uit elkaar ligg<strong>en</strong>. T<strong>en</strong> aanzi<strong>en</strong> van de koppelbaarheid<br />

van deze bestand<strong>en</strong> do<strong>en</strong> zich de volg<strong>en</strong>de mogelijkhed<strong>en</strong> voor (zie ook figuur 2.4):<br />

1. Er is e<strong>en</strong> geme<strong>en</strong>schappelijke <strong>en</strong> unieke primaire koppelsleutel die zowel in bestand A als in<br />

bestand B aanwezig is. Er zijn vervolg<strong>en</strong>s twee mogelijkhed<strong>en</strong>:<br />

a. De scores op de variabel<strong>en</strong> in de koppelsleutel zijn van voldo<strong>en</strong>de kwaliteit.<br />

b. De scores op de variabel<strong>en</strong> in de koppelsleutel zijn van onvoldo<strong>en</strong>de kwaliteit.<br />

2. Er is ge<strong>en</strong> (goede) geme<strong>en</strong>schappelijke <strong>en</strong> unieke primaire koppelsleutel in beide bestand<strong>en</strong><br />

aanwezig. Er zijn wel bepaalde variabel<strong>en</strong> geme<strong>en</strong>schappelijk in beide bestand<strong>en</strong> aanwezig die<br />

als secundaire koppelsleutel kunn<strong>en</strong> di<strong>en</strong><strong>en</strong>. Ook in dit geval zijn er twee mogelijkhed<strong>en</strong>:<br />

a. De scores op deze geme<strong>en</strong>schappelijke secundaire koppelsleutel zijn van voldo<strong>en</strong>de<br />

kwaliteit.<br />

b. De scores op deze geme<strong>en</strong>schappelijke secundaire koppelsleutel zijn van onvoldo<strong>en</strong>de<br />

kwaliteit.<br />

Het is duidelijk dat dit e<strong>en</strong> opsomming is van typ<strong>en</strong> van koppelproblem<strong>en</strong>, geord<strong>en</strong>d van<br />

gemakkelijk (geval 1a) naar moeilijk of zelfs ondo<strong>en</strong>lijk (geval 2b). De lastigste gevall<strong>en</strong> van<br />

koppel<strong>en</strong> zijn de gevall<strong>en</strong> die onder 1b of onder 2a vall<strong>en</strong>. Daar ligt de koppelproblematiek waar in<br />

dit stuk de meeste aandacht aan zal word<strong>en</strong> besteed. Situatie 1a wordt voor de volledigheid ook<br />

behandeld (hoofdstuk 5) maar hier spel<strong>en</strong> ge<strong>en</strong> methodologische problem<strong>en</strong>. In de terminologie van<br />

Van de Laar (2008) betreft dit e<strong>en</strong> procedure <strong>en</strong> ge<strong>en</strong> methode. 6<br />

Koppelcriteria <strong>en</strong> randvoorwaard<strong>en</strong>:<br />

Toepassing van e<strong>en</strong> koppelcriterium levert records op die mogelijk te koppel<strong>en</strong> zijn, de<br />

zog<strong>en</strong>aamde koppelkandidat<strong>en</strong>. Deze koppelkandidat<strong>en</strong> word<strong>en</strong> eerst vastgesteld, in geval<br />

koppelmethod<strong>en</strong> word<strong>en</strong> gebruikt, dat wil zegg<strong>en</strong> in situaties met secundaire sleutels <strong>en</strong> fout<strong>en</strong> of<br />

afwijking<strong>en</strong> in de data. Als m<strong>en</strong> bijvoorbeeld e<strong>en</strong> metriek gebruikt om de afstand (of de mate van<br />

overe<strong>en</strong>komst) tuss<strong>en</strong> twee records te met<strong>en</strong>, dan geeft het koppelcriterium aan bij welke afstand<strong>en</strong><br />

(bijvoorbeeld cut-off- of drempelwaard<strong>en</strong>) m<strong>en</strong> moet stopp<strong>en</strong> twee records nog als<br />

koppelkandidat<strong>en</strong> te gebruik<strong>en</strong>. Stel m<strong>en</strong> heeft vijf secundaire koppelvariabel<strong>en</strong> als sam<strong>en</strong>gestelde<br />

sleutel. Het koppelcriterium zou dan kunn<strong>en</strong> zijn dat records die op minimaal drie van de vijf<br />

koppelvariabel<strong>en</strong> e<strong>en</strong> gelijke score hebb<strong>en</strong> als koppelkandidat<strong>en</strong> beschouwd moet<strong>en</strong> word<strong>en</strong> <strong>en</strong> de<br />

rest niet.<br />

6 Het verschil is dat e<strong>en</strong> methode e<strong>en</strong> b<strong>en</strong>adering betreft, <strong>en</strong> e<strong>en</strong> procedure niet. Zo heeft m<strong>en</strong> e<strong>en</strong> ophoging<br />

nodig om via populatieschatting<strong>en</strong> b<strong>en</strong>adering<strong>en</strong> te krijg<strong>en</strong> voor populatieaantall<strong>en</strong>. Zo’n ophoging is<br />

gebaseerd op één van de vele ophoogmethod<strong>en</strong> die bek<strong>en</strong>d zijn, <strong>en</strong> die ieder geschikt zijn voor specifieke<br />

situaties. Ophoging<strong>en</strong> lever<strong>en</strong> schatting<strong>en</strong> op van populatiegroothed<strong>en</strong>. Bij e<strong>en</strong> koppeling van twee bestand<strong>en</strong><br />

op basis van e<strong>en</strong> harde sleutel (e<strong>en</strong> primaire sleutel) is ge<strong>en</strong> sprake van e<strong>en</strong> b<strong>en</strong>adering. (Zie Hoofdstuk 5) De<br />

koppelmethod<strong>en</strong> gebaseerd op secundaire sleutels (zie Hoofdstukk<strong>en</strong> 6 <strong>en</strong> 7) zijn wel b<strong>en</strong>adering<strong>en</strong>.<br />

28

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!