18.01.2013 Views

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

idee daarbij is dat bij het kopiër<strong>en</strong> van zo’n nummer e<strong>en</strong> fout is gemaakt, bijvoorbeeld dat twee<br />

cijfers zijn omgewisseld, of e<strong>en</strong> 5 door e<strong>en</strong> 6 is vervang<strong>en</strong> (of omgekeerd) of e<strong>en</strong> 7 door e<strong>en</strong> 1 (of<br />

omgekeerd) etc. Door bijvoorbeeld alle BSN’s op te zoek<strong>en</strong> met e<strong>en</strong> Lev<strong>en</strong>shtein-afstand 1 of 2<br />

(zie paragraaf 3.2) tot de gegev<strong>en</strong> BSN, <strong>en</strong> door de bijbehor<strong>en</strong>de persoonsk<strong>en</strong>merk<strong>en</strong> te vergelijk<strong>en</strong><br />

met de gegev<strong>en</strong>s in het betreff<strong>en</strong>de bestand of register, zou m<strong>en</strong> wellicht toch e<strong>en</strong> correct BSN<br />

kunn<strong>en</strong> vind<strong>en</strong> met bijbehor<strong>en</strong>de persoonsk<strong>en</strong>merk<strong>en</strong>. Hierbij gaat het in feite om e<strong>en</strong> methode die<br />

thuishoort in de hoofdstukk<strong>en</strong> 6 <strong>en</strong> 7.<br />

5.3 Uitgebreide beschrijving<br />

Gezi<strong>en</strong> de e<strong>en</strong>voud van deze methode valt er niet zoveel meer over te zegg<strong>en</strong>. Uitgangspunt is dat<br />

e<strong>en</strong> koppeling plaatsvindt dan <strong>en</strong> slechts dan als e<strong>en</strong> record uit het <strong>en</strong>e koppelbestand precies<br />

dezelfde sleutelwaarde heeft als die van e<strong>en</strong> ander record uit het tweede koppelbestand. Dat kan<br />

betek<strong>en</strong><strong>en</strong> dat er sprake is van 1:1, 1:n of n:1 koppeling<strong>en</strong>. Als de kwaliteit van de primaire<br />

koppelsleutel onvoldo<strong>en</strong>de (bek<strong>en</strong>d) is, bestaat het gevaar dat koppeling<strong>en</strong> word<strong>en</strong> gelegd, die ge<strong>en</strong><br />

echte koppeling<strong>en</strong> zijn (miskoppeling<strong>en</strong>), <strong>en</strong> omgekeerd (gemiste koppeling<strong>en</strong>).<br />

5.4 Voorbeeld<strong>en</strong><br />

We gev<strong>en</strong> de volg<strong>en</strong>de voorbeeld<strong>en</strong> van koppelsituaties waar op primaire sleutel wordt gekoppeld:<br />

- de koppeling van bedrijv<strong>en</strong> uit twee statistiek<strong>en</strong>, die allebei op het Algeme<strong>en</strong><br />

Bedrijv<strong>en</strong>register (ABR) zijn gebaseerd. In beide bestand<strong>en</strong> wordt de e<strong>en</strong>heid, het bedrijf,<br />

geïd<strong>en</strong>tificeerd door e<strong>en</strong> Bedrijfsid<strong>en</strong>tificati<strong>en</strong>ummer van 8 cijfers (BEID). Het BEID is dan<br />

de primaire sleutel waarop wordt gekoppeld. Kom<strong>en</strong> BEIDs in beide bestand<strong>en</strong> overe<strong>en</strong> dan<br />

wordt er gekoppeld; kom<strong>en</strong> ze niet overe<strong>en</strong> dan word<strong>en</strong> ze niet gekoppeld. Er wordt<br />

bijvoorbeeld ge<strong>en</strong> rek<strong>en</strong>ing meegehoud<strong>en</strong> met het feit dat er tijd<strong>en</strong>s het verwerkingsproces van<br />

de individuele statistiek<strong>en</strong> fout<strong>en</strong> in de BEIDs kunn<strong>en</strong> zijn geslop<strong>en</strong>. Deze controle is vaak<br />

ook moeilijk omdat in veel gevall<strong>en</strong> ge<strong>en</strong> secundaire sleutels, zoals naam <strong>en</strong> adres, meer<br />

aanwezig zijn;<br />

- e<strong>en</strong> variant op het eerste voorbeeld is dat gegev<strong>en</strong>s van de Belastingdi<strong>en</strong>st gekoppeld word<strong>en</strong><br />

aan de BEIDs van het ABR. In het <strong>en</strong>e bestand van het ABR is de primaire sleutel BEID<br />

aanwezig. In het bestand van de Belastingdi<strong>en</strong>st is de Fiscale e<strong>en</strong>heid (FE) als primaire sleutel<br />

aanwezig. Om beide bestand<strong>en</strong> aan elkaar te koppel<strong>en</strong> is er e<strong>en</strong> “relatie- of koppeltabel”<br />

aanwezig, waarbij is aangegev<strong>en</strong> welke FE’s bij welke BEIDs behor<strong>en</strong>. Op dezelfde wijze als<br />

in het eerste voorbeeld, alle<strong>en</strong> met e<strong>en</strong> extra tuss<strong>en</strong>stap, word<strong>en</strong> beide bestand<strong>en</strong> aan elkaar<br />

gekoppeld. De kans op foute koppeling<strong>en</strong> is hier wel groter omdat er niet alle<strong>en</strong> fout<strong>en</strong> kunn<strong>en</strong><br />

zijn geslop<strong>en</strong> in de FE’s of BEIDs, maar ook in de registratie van de relatie tuss<strong>en</strong> FE’s <strong>en</strong><br />

BEIDs;<br />

- bij persoonsgegev<strong>en</strong>s is vaak het Burgerservic<strong>en</strong>ummer (BSN) als primaire sleutel in het<br />

bestand aanwezig. In dat soort gevall<strong>en</strong> is e<strong>en</strong> e<strong>en</strong>voudige koppeling te mak<strong>en</strong> op basis van de<br />

BSN in beide bestand<strong>en</strong>. E<strong>en</strong> voorbeeld is het koppel<strong>en</strong> van loon- <strong>en</strong> werkgeleg<strong>en</strong>heidsgegev<strong>en</strong>s<br />

van respectievelijk de Belastingdi<strong>en</strong>st <strong>en</strong> de Polisadministratie (van het UWV);<br />

- koppeling op basis van e<strong>en</strong> zog<strong>en</strong>aamde foreign key, bijvoorbeeld de SBI-codering of<br />

grootteklasse-codering in e<strong>en</strong> record van e<strong>en</strong> BEID. K<strong>en</strong>getall<strong>en</strong> of gemiddeld<strong>en</strong> uit e<strong>en</strong><br />

bestand op basis van de SBI of grootteklasse, maar dan als primaire sleutel, kunn<strong>en</strong> aan het<br />

40

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!