Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Niettemin kan e<strong>en</strong> aantal van dergelijke secundaire sleutels vaak goed gebruikt word<strong>en</strong> om<br />
e<strong>en</strong>hed<strong>en</strong> te id<strong>en</strong>tificer<strong>en</strong> <strong>en</strong> te koppel<strong>en</strong>. 3 Zie figuur 2.2.<br />
In databases word<strong>en</strong> ook zog<strong>en</strong>aamde foreign keys gebruikt. E<strong>en</strong> foreign key id<strong>en</strong>tificeert het<br />
betreff<strong>en</strong>de record zelf niet, maar is e<strong>en</strong> verwijzing of koppeling naar e<strong>en</strong> andere tabel, waarin de<br />
betreff<strong>en</strong>de key wel als primaire sleutel voorkomt. Bijvoorbeeld om e<strong>en</strong> record van e<strong>en</strong> werknemer,<br />
geïd<strong>en</strong>tificeerd door e<strong>en</strong> personeelsnummer, te koppel<strong>en</strong> aan gegev<strong>en</strong>s over het bedrijf,<br />
geïd<strong>en</strong>tificeerd door e<strong>en</strong> BEID, waar hij/zij werkt. In de tabel met werknemers is dan per<br />
werknemer record e<strong>en</strong> BEID als foreign key beschikbaar die (uniek) koppelt aan de tabel met<br />
bedrijfsgegev<strong>en</strong>s, waar de BEID de primaire key is. Voorwaarde daarbij is dat e<strong>en</strong> foreign key<br />
waarde ook inderdaad bestaat, anders wordt verwez<strong>en</strong> naar e<strong>en</strong> niet bestaande e<strong>en</strong>heid. Deze<br />
eig<strong>en</strong>schap wordt in databases wel aangeduid met ‘refer<strong>en</strong>tiële integriteit’.<br />
2.2 Wat maakt koppel<strong>en</strong> zo complex?<br />
Op het eerste oog lijkt het koppel<strong>en</strong> van bestand<strong>en</strong> e<strong>en</strong> e<strong>en</strong>voudige opgave. In de praktijk is dat<br />
echter zeld<strong>en</strong> het geval. De volg<strong>en</strong>de oorzak<strong>en</strong> ligg<strong>en</strong> onder meer t<strong>en</strong> grondslag aan het feit dat<br />
bestand<strong>en</strong> niet gemakkelijk één-op-één te koppel<strong>en</strong> zijn:<br />
de kwaliteit <strong>en</strong> de structuur van de data in de te koppel<strong>en</strong> bestand<strong>en</strong>. Het zal zeld<strong>en</strong> zo zijn dat<br />
de aangebod<strong>en</strong> data, <strong>en</strong> dus ook die van de koppelvariabel<strong>en</strong>, zonder “ruis” is. Bij de<br />
verwerking kunn<strong>en</strong> bijvoorbeeld waarnemings- <strong>en</strong> verwerkingsfout<strong>en</strong>, zoals typefout<strong>en</strong>,<br />
optred<strong>en</strong>. Hierdoor kan het zijn dat records, die in werkelijkheid bij elkaar hor<strong>en</strong>, niet koppel<strong>en</strong><br />
of omgekeerd. Als het gaat om de structuur van de aangebod<strong>en</strong> data kan het bijvoorbeeld zijn<br />
dat de scores van de koppelvariabel<strong>en</strong> in beide records wel goed zijn, maar op e<strong>en</strong> dusdanige<br />
manier zijn gepres<strong>en</strong>teerd dat het moeilijk is deze (geautomatiseerd) met elkaar te vergelijk<strong>en</strong>.<br />
Dit alles maakt het stadium van pre-verwerking belangrijk. Daar kan zowel de kwaliteit als de<br />
structuur van de data, voor zover nodig bij het koppel<strong>en</strong>, word<strong>en</strong> aangepast <strong>en</strong> verbeterd;<br />
de e<strong>en</strong>hed<strong>en</strong> van te koppel<strong>en</strong> bestand<strong>en</strong> kunn<strong>en</strong> verschill<strong>en</strong>, maar zijn wel uit elkaar af te<br />
leid<strong>en</strong>. D<strong>en</strong>k bijvoorbeeld aan e<strong>en</strong> bestand met individuele person<strong>en</strong> <strong>en</strong>erzijds <strong>en</strong> e<strong>en</strong> bestand<br />
met huishoud<strong>en</strong>s anderzijds. Of e<strong>en</strong> bestand met Bedrijfse<strong>en</strong>hed<strong>en</strong> dat gekoppeld moet word<strong>en</strong><br />
aan e<strong>en</strong> bestand met Onderneming<strong>en</strong>groep<strong>en</strong>. Hierbij di<strong>en</strong>t gebruikt te word<strong>en</strong> gemaakt van<br />
e<strong>en</strong> koppeltabel, waarin de relatie tuss<strong>en</strong> beide e<strong>en</strong>hed<strong>en</strong> is vastgelegd, of van e<strong>en</strong> foreign key;<br />
het hanter<strong>en</strong> van verschill<strong>en</strong>de domein<strong>en</strong> of classificatie-indeling<strong>en</strong> bij de koppelvariabel<strong>en</strong>.<br />
Ook hier is het voor het koppel<strong>en</strong> w<strong>en</strong>selijk dat de domein<strong>en</strong> of classificaties compatibel zijn,<br />
dat wil zegg<strong>en</strong> dat ze geconverteerd (kunn<strong>en</strong>) word<strong>en</strong> naar e<strong>en</strong>zelfde noemer (zonder te veel<br />
informatieverlies). Zie paragraaf 7.3.1.2 voor e<strong>en</strong> verdere discussie van dit probleem;<br />
de tijdsdim<strong>en</strong>sie. De koppelvariabel<strong>en</strong> of e<strong>en</strong>hed<strong>en</strong> zijn dynamisch <strong>en</strong> zijn op verschill<strong>en</strong>de<br />
mom<strong>en</strong>t<strong>en</strong> in de tijd waarg<strong>en</strong>om<strong>en</strong>. Dat kan bijvoorbeeld geld<strong>en</strong> voor bedrijv<strong>en</strong>. Tuss<strong>en</strong> twee<br />
verschill<strong>en</strong>de waarneming<strong>en</strong>, die zijn opgeslag<strong>en</strong> in de twee verschill<strong>en</strong>de bestand<strong>en</strong>, kan het<br />
bedrijf zijn gesplitst of juist gefuseerd, terwijl het bedrijf nog wel dezelfde id<strong>en</strong>tifier of<br />
3 Ook bij statistische beveiliging word<strong>en</strong> deze begripp<strong>en</strong> gebruikt. Daar zijn primaire sleutels in de regel niet<br />
aanwezig in beveiligde bestand<strong>en</strong>. De vraag is dan of de bestand<strong>en</strong> voldo<strong>en</strong>de beveiligd zijn, lett<strong>en</strong>d op de<br />
secundaire sleutels die in de bestand<strong>en</strong> aanwezig zijn.<br />
16