Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
2. Overzicht van de koppelproblematiek<br />
2.1 Wat is koppel<strong>en</strong>?<br />
<strong>Koppel<strong>en</strong></strong> is het bij elkaar br<strong>en</strong>g<strong>en</strong> van de informatie van twee of meer records, waarvan gedacht<br />
wordt dat zij betrekking hebb<strong>en</strong> op dezelfde e<strong>en</strong>heid zoals persoon, bedrijf of regio (zie<br />
Newcombe, 1988). Bij het koppel<strong>en</strong> word<strong>en</strong> gewoonlijk records, aanwezig in bijvoorbeeld twee<br />
verschill<strong>en</strong>de files – koppelbestand<strong>en</strong> g<strong>en</strong>oemd – bij elkaar gezocht op basis van verschill<strong>en</strong>de<br />
criteria <strong>en</strong> randvoorwaard<strong>en</strong>.<br />
Het koppel<strong>en</strong> gebeurt in twee stapp<strong>en</strong>, namelijk:<br />
1. eerst wordt nagegaan welke records koppelkandidat<strong>en</strong> zijn, <strong>en</strong><br />
2. vervolg<strong>en</strong>s wordt uit alle mogelijke koppelkandidat<strong>en</strong> de beste subset gekoz<strong>en</strong>, die aan<br />
bepaalde randvoorwaard<strong>en</strong> voldoet (bijvoorbeeld dat ge<strong>en</strong> <strong>en</strong>kel record aan twee of meer<br />
records gekoppeld mag zijn).<br />
In hoofdstuk 4 wordt nader ingegaan op beide stapp<strong>en</strong> <strong>en</strong> de eis<strong>en</strong> die word<strong>en</strong> opgelegd aan<br />
toelaatbare oplossing<strong>en</strong>, waaruit de beste uiteindelijk di<strong>en</strong>t te word<strong>en</strong> bepaald.<br />
Figuur 2.1: Sam<strong>en</strong>gestelde primaire sleutel<br />
person<strong>en</strong> Jaar, maand, volgnummer<br />
2009, 01, 21<br />
2009, 01, 22<br />
2009, 01,23<br />
2009, 02, 01<br />
2009, 02, 02<br />
2009, 2, 03<br />
2009, 02, 04<br />
2009, 03, 01<br />
In dit stuk behandel<strong>en</strong> we twee groep<strong>en</strong> van koppelmethod<strong>en</strong>. 2 In de eerste groep wordt op basis<br />
van e<strong>en</strong> koppelcriterium in de vorm van e<strong>en</strong> beslisregel, in de eerste fase van het koppelproces,<br />
nagegaan welke records koppelkandidat<strong>en</strong> zijn. Hiervoor wordt gewoonlijk gebruik gemaakt van<br />
e<strong>en</strong> koppelsleutel bestaande uit e<strong>en</strong> aantal variabel<strong>en</strong> die beide koppelbestand<strong>en</strong> geme<strong>en</strong> hebb<strong>en</strong>.<br />
2 We beschouw<strong>en</strong> het join<strong>en</strong> dat in Hoofdstuk 5 wordt beschrev<strong>en</strong>, strikt g<strong>en</strong>om<strong>en</strong>, niet als e<strong>en</strong> methode,<br />
maar als e<strong>en</strong> procedure (in de terminologie van Van de Laar, 2008) omdat deze exact is. Dit is in<br />
teg<strong>en</strong>stelling tot methodes die word<strong>en</strong> gebruikt om b<strong>en</strong>adering<strong>en</strong> te vind<strong>en</strong>.<br />
14<br />
Het plaatje hiernaast geeft het ideale geval.<br />
In de praktijk hoeft dit niet altijd op te gaan.<br />
Duplicat<strong>en</strong> kunn<strong>en</strong> dan wel voorkom<strong>en</strong>.<br />
In databases kan refer<strong>en</strong>tiële integriteit<br />
word<strong>en</strong> bewaakt