18.01.2013 Views

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Niettemin kan e<strong>en</strong> aantal van dergelijke secundaire sleutels vaak goed gebruikt word<strong>en</strong> om<br />

e<strong>en</strong>hed<strong>en</strong> te id<strong>en</strong>tificer<strong>en</strong> <strong>en</strong> te koppel<strong>en</strong>. 3 Zie figuur 2.2.<br />

In databases word<strong>en</strong> ook zog<strong>en</strong>aamde foreign keys gebruikt. E<strong>en</strong> foreign key id<strong>en</strong>tificeert het<br />

betreff<strong>en</strong>de record zelf niet, maar is e<strong>en</strong> verwijzing of koppeling naar e<strong>en</strong> andere tabel, waarin de<br />

betreff<strong>en</strong>de key wel als primaire sleutel voorkomt. Bijvoorbeeld om e<strong>en</strong> record van e<strong>en</strong> werknemer,<br />

geïd<strong>en</strong>tificeerd door e<strong>en</strong> personeelsnummer, te koppel<strong>en</strong> aan gegev<strong>en</strong>s over het bedrijf,<br />

geïd<strong>en</strong>tificeerd door e<strong>en</strong> BEID, waar hij/zij werkt. In de tabel met werknemers is dan per<br />

werknemer record e<strong>en</strong> BEID als foreign key beschikbaar die (uniek) koppelt aan de tabel met<br />

bedrijfsgegev<strong>en</strong>s, waar de BEID de primaire key is. Voorwaarde daarbij is dat e<strong>en</strong> foreign key<br />

waarde ook inderdaad bestaat, anders wordt verwez<strong>en</strong> naar e<strong>en</strong> niet bestaande e<strong>en</strong>heid. Deze<br />

eig<strong>en</strong>schap wordt in databases wel aangeduid met ‘refer<strong>en</strong>tiële integriteit’.<br />

2.2 Wat maakt koppel<strong>en</strong> zo complex?<br />

Op het eerste oog lijkt het koppel<strong>en</strong> van bestand<strong>en</strong> e<strong>en</strong> e<strong>en</strong>voudige opgave. In de praktijk is dat<br />

echter zeld<strong>en</strong> het geval. De volg<strong>en</strong>de oorzak<strong>en</strong> ligg<strong>en</strong> onder meer t<strong>en</strong> grondslag aan het feit dat<br />

bestand<strong>en</strong> niet gemakkelijk één-op-één te koppel<strong>en</strong> zijn:<br />

de kwaliteit <strong>en</strong> de structuur van de data in de te koppel<strong>en</strong> bestand<strong>en</strong>. Het zal zeld<strong>en</strong> zo zijn dat<br />

de aangebod<strong>en</strong> data, <strong>en</strong> dus ook die van de koppelvariabel<strong>en</strong>, zonder “ruis” is. Bij de<br />

verwerking kunn<strong>en</strong> bijvoorbeeld waarnemings- <strong>en</strong> verwerkingsfout<strong>en</strong>, zoals typefout<strong>en</strong>,<br />

optred<strong>en</strong>. Hierdoor kan het zijn dat records, die in werkelijkheid bij elkaar hor<strong>en</strong>, niet koppel<strong>en</strong><br />

of omgekeerd. Als het gaat om de structuur van de aangebod<strong>en</strong> data kan het bijvoorbeeld zijn<br />

dat de scores van de koppelvariabel<strong>en</strong> in beide records wel goed zijn, maar op e<strong>en</strong> dusdanige<br />

manier zijn gepres<strong>en</strong>teerd dat het moeilijk is deze (geautomatiseerd) met elkaar te vergelijk<strong>en</strong>.<br />

Dit alles maakt het stadium van pre-verwerking belangrijk. Daar kan zowel de kwaliteit als de<br />

structuur van de data, voor zover nodig bij het koppel<strong>en</strong>, word<strong>en</strong> aangepast <strong>en</strong> verbeterd;<br />

de e<strong>en</strong>hed<strong>en</strong> van te koppel<strong>en</strong> bestand<strong>en</strong> kunn<strong>en</strong> verschill<strong>en</strong>, maar zijn wel uit elkaar af te<br />

leid<strong>en</strong>. D<strong>en</strong>k bijvoorbeeld aan e<strong>en</strong> bestand met individuele person<strong>en</strong> <strong>en</strong>erzijds <strong>en</strong> e<strong>en</strong> bestand<br />

met huishoud<strong>en</strong>s anderzijds. Of e<strong>en</strong> bestand met Bedrijfse<strong>en</strong>hed<strong>en</strong> dat gekoppeld moet word<strong>en</strong><br />

aan e<strong>en</strong> bestand met Onderneming<strong>en</strong>groep<strong>en</strong>. Hierbij di<strong>en</strong>t gebruikt te word<strong>en</strong> gemaakt van<br />

e<strong>en</strong> koppeltabel, waarin de relatie tuss<strong>en</strong> beide e<strong>en</strong>hed<strong>en</strong> is vastgelegd, of van e<strong>en</strong> foreign key;<br />

het hanter<strong>en</strong> van verschill<strong>en</strong>de domein<strong>en</strong> of classificatie-indeling<strong>en</strong> bij de koppelvariabel<strong>en</strong>.<br />

Ook hier is het voor het koppel<strong>en</strong> w<strong>en</strong>selijk dat de domein<strong>en</strong> of classificaties compatibel zijn,<br />

dat wil zegg<strong>en</strong> dat ze geconverteerd (kunn<strong>en</strong>) word<strong>en</strong> naar e<strong>en</strong>zelfde noemer (zonder te veel<br />

informatieverlies). Zie paragraaf 7.3.1.2 voor e<strong>en</strong> verdere discussie van dit probleem;<br />

de tijdsdim<strong>en</strong>sie. De koppelvariabel<strong>en</strong> of e<strong>en</strong>hed<strong>en</strong> zijn dynamisch <strong>en</strong> zijn op verschill<strong>en</strong>de<br />

mom<strong>en</strong>t<strong>en</strong> in de tijd waarg<strong>en</strong>om<strong>en</strong>. Dat kan bijvoorbeeld geld<strong>en</strong> voor bedrijv<strong>en</strong>. Tuss<strong>en</strong> twee<br />

verschill<strong>en</strong>de waarneming<strong>en</strong>, die zijn opgeslag<strong>en</strong> in de twee verschill<strong>en</strong>de bestand<strong>en</strong>, kan het<br />

bedrijf zijn gesplitst of juist gefuseerd, terwijl het bedrijf nog wel dezelfde id<strong>en</strong>tifier of<br />

3 Ook bij statistische beveiliging word<strong>en</strong> deze begripp<strong>en</strong> gebruikt. Daar zijn primaire sleutels in de regel niet<br />

aanwezig in beveiligde bestand<strong>en</strong>. De vraag is dan of de bestand<strong>en</strong> voldo<strong>en</strong>de beveiligd zijn, lett<strong>en</strong>d op de<br />

secundaire sleutels die in de bestand<strong>en</strong> aanwezig zijn.<br />

16

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!