18.01.2013 Views

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

6. <strong>Koppel<strong>en</strong></strong> op secundaire sleutels, zonder koppelgewicht<strong>en</strong><br />

6.1 Korte beschrijving<br />

Bij het koppel<strong>en</strong> op basis van e<strong>en</strong> secundaire sleutel word<strong>en</strong> één of meerdere variabel<strong>en</strong> gebruikt<br />

die het record mogelijk id<strong>en</strong>tificer<strong>en</strong>. Deze id<strong>en</strong>tificatie is, anders dan met behulp van e<strong>en</strong> unieke<br />

primaire sleutel, niet per se ondubbelzinnig. Het probleem is dat e<strong>en</strong> e<strong>en</strong>heid die uniek is op e<strong>en</strong> set<br />

secundaire sleutels, niet per se uniek hoeft te zijn in de populatie. In de populatie van Nederlanders<br />

zijn er diverse person<strong>en</strong> die ‘Janss<strong>en</strong>’ als achternaam hebb<strong>en</strong>, of die van beroep ‘ambt<strong>en</strong>aar’ zijn.<br />

Zelfs bij combinaties van <strong>en</strong>kele van zulke variabel<strong>en</strong> kan m<strong>en</strong> nog dubbel<strong>en</strong> hebb<strong>en</strong>: er zijn<br />

meerdere ambt<strong>en</strong>ar<strong>en</strong> die Janss<strong>en</strong> het<strong>en</strong>. Daar<strong>en</strong>teg<strong>en</strong> zou iemand die ‘Wladimirow’ heet <strong>en</strong><br />

advocaat is wel uniek kunn<strong>en</strong> zijn in Nederland. Hoe meer van dergelijke direct of indirect<br />

id<strong>en</strong>tificer<strong>en</strong>de variabel<strong>en</strong> 14 m<strong>en</strong> ter beschikking heeft (zoals initial<strong>en</strong>, voornaam, famili<strong>en</strong>aam,<br />

bedrijfsnaam, geslacht, geboortedatum, leeftijd (op e<strong>en</strong> bepaald mom<strong>en</strong>t), adres, beroep, etc.) des te<br />

groter is de kans dat er unieke person<strong>en</strong> word<strong>en</strong> aangeduid in e<strong>en</strong> bestand. Ze hoev<strong>en</strong> niet allemaal<br />

uniek te zijn, maar e<strong>en</strong> deel van de person<strong>en</strong> gerepres<strong>en</strong>teerd in e<strong>en</strong> bestand zou uniek kunn<strong>en</strong> zijn.<br />

Hoe meer er van dergelijke variabel<strong>en</strong> in e<strong>en</strong> bestand aanwezig zijn, hoe meer uniek<strong>en</strong> (in de<br />

populatie) <strong>en</strong> niet alle<strong>en</strong> in het bestand m<strong>en</strong> aantreft. Indi<strong>en</strong> de scores betrouwbaar zijn, zijn dit dan<br />

waarschijnlijk ook in werkelijkheid populatie-uniek<strong>en</strong>.<br />

Daarbij komt dat er ook nog waarnemingsfout<strong>en</strong> <strong>en</strong> andere afwijking<strong>en</strong> kunn<strong>en</strong> voorkom<strong>en</strong> in de<br />

waard<strong>en</strong> die deze indirecte id<strong>en</strong>tificator<strong>en</strong> aannem<strong>en</strong>. In dat opzicht verschill<strong>en</strong> ze van variabel<strong>en</strong><br />

die als primaire sleutelvariabele geld<strong>en</strong>. Bov<strong>en</strong>di<strong>en</strong> zijn ‘waard<strong>en</strong>-met-afwijking<strong>en</strong>/fout<strong>en</strong>’ op<br />

secundaire sleutels meestal nog bruikbaar om te koppel<strong>en</strong>. Fout<strong>en</strong> op scores van primaire sleutels<br />

zijn meestal onbruikbaar (d<strong>en</strong>k aan BSN-nummers met typefout<strong>en</strong>).<br />

6.2 Toepasbaarheid<br />

Voorwaarde om deze methode toe te kunn<strong>en</strong> pass<strong>en</strong> is dat in beide koppelbestand<strong>en</strong><br />

geme<strong>en</strong>schappelijke indirect id<strong>en</strong>tificer<strong>en</strong>de variabel<strong>en</strong> 15 aanwezig zijn, op basis waarvan de<br />

koppeling kan word<strong>en</strong> uitgevoerd. We lat<strong>en</strong> daarbij ook toe dat twee overe<strong>en</strong>komstige variabel<strong>en</strong><br />

ook e<strong>en</strong> verschill<strong>en</strong>d domein hebb<strong>en</strong>, bijvoorbeeld met e<strong>en</strong> andere categorie-indeling (bijvoorbeeld<br />

leeftijd in 5-jaarsklass<strong>en</strong> in het <strong>en</strong>e bestand <strong>en</strong> 10-jaarsklass<strong>en</strong> in het andere). Verder lat<strong>en</strong> we toe<br />

dat waarnemingsfout<strong>en</strong> kunn<strong>en</strong> voorkom<strong>en</strong> op de scores van deze variabel<strong>en</strong>.<br />

14 Deze nam<strong>en</strong> zijn ontle<strong>en</strong>d aan de statistische beveiliging. Zie <strong>Will<strong>en</strong>borg</strong> <strong>en</strong> De Waal (2000). Overig<strong>en</strong>s<br />

zijn primaire sleutels als sofinummer of BEID hier niet bedoeld. Wel echter variabel<strong>en</strong> als famili<strong>en</strong>aam,<br />

initial<strong>en</strong>, voornaam, adres, etc. Dit zijn weliswaar directe id<strong>en</strong>tificator<strong>en</strong>, ze duid<strong>en</strong> ge<strong>en</strong>szins altijd unieke<br />

e<strong>en</strong>hed<strong>en</strong> aan. Immers e<strong>en</strong> naam als Janss<strong>en</strong> komt veel voor, ev<strong>en</strong>als woonplaats Amsterdam, of adres<br />

Dorpstraat. Gecombineerd zijn ze veel krachtiger <strong>en</strong> kunn<strong>en</strong> ze unieke e<strong>en</strong>hed<strong>en</strong> als person<strong>en</strong> gaan<br />

aanduid<strong>en</strong>. E<strong>en</strong> score of BSN duidt al e<strong>en</strong> unieke persoon aan.<br />

15 Dat ze geme<strong>en</strong>schappelijke variabel<strong>en</strong> hebb<strong>en</strong> is niet voldo<strong>en</strong>de. Het zou dan bijvoorbeeld kunn<strong>en</strong> gaan<br />

over variabel<strong>en</strong> die e<strong>en</strong> opinie of opvatting uitdrukk<strong>en</strong>. Bijvoorbeeld antwoord<strong>en</strong> op vrag<strong>en</strong> als: op welke<br />

partij heeft u de laatste keer gestemd? Voelt u zich veilig op straat na zonsondergang? De antwoord<strong>en</strong> op dit<br />

soort vrag<strong>en</strong> zijn in het algeme<strong>en</strong> niet zo betrouwbaar.<br />

42

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!