18.01.2013 Views

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

2. Overzicht van de koppelproblematiek<br />

2.1 Wat is koppel<strong>en</strong>?<br />

<strong>Koppel<strong>en</strong></strong> is het bij elkaar br<strong>en</strong>g<strong>en</strong> van de informatie van twee of meer records, waarvan gedacht<br />

wordt dat zij betrekking hebb<strong>en</strong> op dezelfde e<strong>en</strong>heid zoals persoon, bedrijf of regio (zie<br />

Newcombe, 1988). Bij het koppel<strong>en</strong> word<strong>en</strong> gewoonlijk records, aanwezig in bijvoorbeeld twee<br />

verschill<strong>en</strong>de files – koppelbestand<strong>en</strong> g<strong>en</strong>oemd – bij elkaar gezocht op basis van verschill<strong>en</strong>de<br />

criteria <strong>en</strong> randvoorwaard<strong>en</strong>.<br />

Het koppel<strong>en</strong> gebeurt in twee stapp<strong>en</strong>, namelijk:<br />

1. eerst wordt nagegaan welke records koppelkandidat<strong>en</strong> zijn, <strong>en</strong><br />

2. vervolg<strong>en</strong>s wordt uit alle mogelijke koppelkandidat<strong>en</strong> de beste subset gekoz<strong>en</strong>, die aan<br />

bepaalde randvoorwaard<strong>en</strong> voldoet (bijvoorbeeld dat ge<strong>en</strong> <strong>en</strong>kel record aan twee of meer<br />

records gekoppeld mag zijn).<br />

In hoofdstuk 4 wordt nader ingegaan op beide stapp<strong>en</strong> <strong>en</strong> de eis<strong>en</strong> die word<strong>en</strong> opgelegd aan<br />

toelaatbare oplossing<strong>en</strong>, waaruit de beste uiteindelijk di<strong>en</strong>t te word<strong>en</strong> bepaald.<br />

Figuur 2.1: Sam<strong>en</strong>gestelde primaire sleutel<br />

person<strong>en</strong> Jaar, maand, volgnummer<br />

2009, 01, 21<br />

2009, 01, 22<br />

2009, 01,23<br />

2009, 02, 01<br />

2009, 02, 02<br />

2009, 2, 03<br />

2009, 02, 04<br />

2009, 03, 01<br />

In dit stuk behandel<strong>en</strong> we twee groep<strong>en</strong> van koppelmethod<strong>en</strong>. 2 In de eerste groep wordt op basis<br />

van e<strong>en</strong> koppelcriterium in de vorm van e<strong>en</strong> beslisregel, in de eerste fase van het koppelproces,<br />

nagegaan welke records koppelkandidat<strong>en</strong> zijn. Hiervoor wordt gewoonlijk gebruik gemaakt van<br />

e<strong>en</strong> koppelsleutel bestaande uit e<strong>en</strong> aantal variabel<strong>en</strong> die beide koppelbestand<strong>en</strong> geme<strong>en</strong> hebb<strong>en</strong>.<br />

2 We beschouw<strong>en</strong> het join<strong>en</strong> dat in Hoofdstuk 5 wordt beschrev<strong>en</strong>, strikt g<strong>en</strong>om<strong>en</strong>, niet als e<strong>en</strong> methode,<br />

maar als e<strong>en</strong> procedure (in de terminologie van Van de Laar, 2008) omdat deze exact is. Dit is in<br />

teg<strong>en</strong>stelling tot methodes die word<strong>en</strong> gebruikt om b<strong>en</strong>adering<strong>en</strong> te vind<strong>en</strong>.<br />

14<br />

Het plaatje hiernaast geeft het ideale geval.<br />

In de praktijk hoeft dit niet altijd op te gaan.<br />

Duplicat<strong>en</strong> kunn<strong>en</strong> dan wel voorkom<strong>en</strong>.<br />

In databases kan refer<strong>en</strong>tiële integriteit<br />

word<strong>en</strong> bewaakt

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!