18.01.2013 Views

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Begrip Omschrijving<br />

Ontdubbel<strong>en</strong> De records uit e<strong>en</strong> bestand hal<strong>en</strong>, op één na, die meerdere ker<strong>en</strong><br />

voorkom<strong>en</strong>, die allemaal op e<strong>en</strong>zelfde e<strong>en</strong>heid (in e<strong>en</strong> bepaalde periode)<br />

betrekking hebb<strong>en</strong>.<br />

Primary key Zie: primaire sleutel<br />

Primaire sleutel Primaire sleutel is (in databasetechnologie) de b<strong>en</strong>aming voor e<strong>en</strong> variabele<br />

of e<strong>en</strong> combinatie van variabel<strong>en</strong> die voldoet aan volg<strong>en</strong>de eis<strong>en</strong> :<br />

- de waarde van de variabele (of van de combinatie van variabel<strong>en</strong>) is uniek<br />

binn<strong>en</strong> de tabel (of dataset) <strong>en</strong> bepaalt dus e<strong>en</strong>duidig het record waarin hij<br />

voorkomt.<br />

- de variabele (of de combinatie van variabel<strong>en</strong>) is overal ingevuld <strong>en</strong> kan<br />

dus niet leeg zijn.<br />

De combinatie van variabel<strong>en</strong> is minimaal: door het lat<strong>en</strong> vall<strong>en</strong> van één<br />

van de variabel<strong>en</strong> wordt de record niet langer meer e<strong>en</strong>duidig bepaald<br />

Wanneer gerelateerde tabell<strong>en</strong> verwijz<strong>en</strong> naar de tabel waarin de variabele<br />

(of combinatie) van variabel<strong>en</strong> voorkom<strong>en</strong>, wordt deze gebruikt om e<strong>en</strong><br />

relatie tuss<strong>en</strong> tabell<strong>en</strong> tot stand te br<strong>en</strong>g<strong>en</strong>.<br />

Voorbeeld<strong>en</strong> zijn BSN <strong>en</strong> RIN-nummer voor person<strong>en</strong>, <strong>en</strong> BEID voor<br />

bedrijv<strong>en</strong>.<br />

In de statistische beveiliging word<strong>en</strong> dergelijke variabel<strong>en</strong> ook wel directe<br />

id<strong>en</strong>tificator<strong>en</strong> g<strong>en</strong>oemd. Helaas word<strong>en</strong> daar variabel<strong>en</strong> als naam, adres,<br />

woonplaats, etc. ook directe id<strong>en</strong>tificator<strong>en</strong> g<strong>en</strong>oemd. Die zijn hier<br />

uitdrukkelijk niet bedoeld. Dergelijke variabel<strong>en</strong> word<strong>en</strong> in dit stuk<br />

secundaire sleutels g<strong>en</strong>oemd.<br />

Probabilistisch koppel<strong>en</strong> <strong>Koppel<strong>en</strong></strong> met als doel om informatie van dezelfde e<strong>en</strong>hed<strong>en</strong> bij elkaar te<br />

zoek<strong>en</strong>, waarbij de scores op de koppelvariabel<strong>en</strong> niet per se hetzelfde<br />

hoev<strong>en</strong> te zijn. De verschill<strong>en</strong> kunn<strong>en</strong> diverse oorzak<strong>en</strong> hebb<strong>en</strong>:<br />

1. er zitt<strong>en</strong> waarnemings- of verwerkingsfout<strong>en</strong> in de scores<br />

2. de e<strong>en</strong>hed<strong>en</strong> in beide bestand<strong>en</strong> zijn op verschill<strong>en</strong>de tijdstipp<strong>en</strong><br />

waarg<strong>en</strong>om<strong>en</strong>, of<br />

3. koppelvariabel<strong>en</strong> in de verschill<strong>en</strong>de files zijn niet exact hetzelfde<br />

gedefinieerd <strong>en</strong> hebb<strong>en</strong> mogelijk andere domein<strong>en</strong>.<br />

Record linkage Engelse aanduiding voor koppel<strong>en</strong>; zie aldaar.<br />

Refer<strong>en</strong>tiële integriteit In e<strong>en</strong> relationele database is dit het uitgangspunt dat de interne<br />

consist<strong>en</strong>tie tuss<strong>en</strong> de verschill<strong>en</strong>de tabell<strong>en</strong> binn<strong>en</strong> die database wordt<br />

gewaarborgd. Dat betek<strong>en</strong>t dat er altijd e<strong>en</strong> sleutel in e<strong>en</strong> tabel bestaat als<br />

er in e<strong>en</strong> sleutelveld, kan ook e<strong>en</strong> foreign key zijn, in e<strong>en</strong> andere tabel naar<br />

wordt verwez<strong>en</strong>. Database system<strong>en</strong> waarborg<strong>en</strong> de consist<strong>en</strong>tie <strong>en</strong> zorg<strong>en</strong><br />

er voor dat e<strong>en</strong> transactie die de consist<strong>en</strong>tie doorbreekt niet kan word<strong>en</strong><br />

doorgevoerd. Voorbeeld: er bestaat e<strong>en</strong> tabel (1) met regiogegev<strong>en</strong>s,<br />

geïd<strong>en</strong>tificeerd door de postcode. In e<strong>en</strong> andere tabel (2) wordt de postcode<br />

gebruikt om aan te gev<strong>en</strong> in welke regio iemand woont. Refer<strong>en</strong>tiële<br />

integriteit zorgt ervoor dat de postcodes in tabel 2 altijd terug te vind<strong>en</strong> zijn<br />

in de tabel 1. Het kan niet zo zijn dat postcodes in tabel 1 word<strong>en</strong> verwijderd<br />

als deze nog voorkom<strong>en</strong> in tabel 2, dan wel als primaire, secundaire of<br />

foreign key.<br />

Restant Records die niet koppelbaar blek<strong>en</strong> bij e<strong>en</strong> koppeling van twee bestand<strong>en</strong>.<br />

In sommige gevall<strong>en</strong> is het ongew<strong>en</strong>st dat er restant<strong>en</strong> overblijv<strong>en</strong> <strong>en</strong><br />

moet<strong>en</strong> ze word<strong>en</strong> ‘weggewerkt’ door extra koppeling<strong>en</strong> te realiser<strong>en</strong>.<br />

RIN Record Id<strong>en</strong>tificatie Nummer. E<strong>en</strong> primary key die door het <strong>CBS</strong> wordt<br />

gebruikt ter vervanging van ook buit<strong>en</strong> het <strong>CBS</strong> bek<strong>en</strong>de sleutels als BSN.<br />

Dit gebeurt op basis van privacy overweging<strong>en</strong>.<br />

Sam<strong>en</strong>gestelde e<strong>en</strong>heid E<strong>en</strong> e<strong>en</strong>heid die is sam<strong>en</strong>gesteld uit e<strong>en</strong>hed<strong>en</strong> van e<strong>en</strong> lagere orde. E<strong>en</strong><br />

huishoud<strong>en</strong> is e<strong>en</strong> voorbeeld van e<strong>en</strong> sam<strong>en</strong>gestelde e<strong>en</strong>heid; de person<strong>en</strong><br />

die in e<strong>en</strong> huishoud<strong>en</strong> aanwezig zijn, zijn in dit geval e<strong>en</strong>hed<strong>en</strong> van e<strong>en</strong><br />

lagere orde.<br />

Sam<strong>en</strong>hang<strong>en</strong>de graph E<strong>en</strong> graaf waarin alle punt<strong>en</strong> verbond<strong>en</strong> zijn <strong>en</strong> dus één compon<strong>en</strong>t<br />

vorm<strong>en</strong>, heet e<strong>en</strong> sam<strong>en</strong>hang<strong>en</strong>de graaf.<br />

Sam<strong>en</strong>hangscompon<strong>en</strong>t (van e<strong>en</strong><br />

graph)<br />

Binn<strong>en</strong> e<strong>en</strong> graaf is e<strong>en</strong> compon<strong>en</strong>t e<strong>en</strong> aantal knop<strong>en</strong> van de graaf die<br />

onderling alle verbond<strong>en</strong> zijn via e<strong>en</strong> pad. Ook wel e<strong>en</strong> (maximale)<br />

subgraph met deze punt<strong>en</strong> plus de kant<strong>en</strong> van graph G met als eindpunt<strong>en</strong><br />

de punt<strong>en</strong> uit de sam<strong>en</strong>hangscompon<strong>en</strong>t. Deze subgraph is e<strong>en</strong><br />

sam<strong>en</strong>hang<strong>en</strong>de graph. Hij is maximaal omdat er niet nog e<strong>en</strong> punt aan kan<br />

word<strong>en</strong> toegevoegd zodanig dat de uitgebreide punt<strong>en</strong>set sam<strong>en</strong>hang<strong>en</strong>d<br />

is.<br />

Secundaire sleutel E<strong>en</strong> combinatie van variabel<strong>en</strong> die gebruikt kunn<strong>en</strong> word<strong>en</strong> bij de<br />

id<strong>en</strong>tificatie van e<strong>en</strong>hed<strong>en</strong>, maar die niet bedoeld zijn als primaire sleutel.<br />

Vaak gaat het om (e<strong>en</strong> combinatie van) variabel<strong>en</strong> zoals naam, adres,<br />

woonplaats, geboortedatum, beroep, opleiding, geslacht, e.d. Elk van deze<br />

variabel<strong>en</strong> zelf kan het record niet id<strong>en</strong>tificer<strong>en</strong>, maar de combinatie ervan<br />

kan gebuikt word<strong>en</strong> als proxy voor e<strong>en</strong> primaire sleutel, mocht die<br />

12

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!