Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Begrip Omschrijving<br />
Ontdubbel<strong>en</strong> De records uit e<strong>en</strong> bestand hal<strong>en</strong>, op één na, die meerdere ker<strong>en</strong><br />
voorkom<strong>en</strong>, die allemaal op e<strong>en</strong>zelfde e<strong>en</strong>heid (in e<strong>en</strong> bepaalde periode)<br />
betrekking hebb<strong>en</strong>.<br />
Primary key Zie: primaire sleutel<br />
Primaire sleutel Primaire sleutel is (in databasetechnologie) de b<strong>en</strong>aming voor e<strong>en</strong> variabele<br />
of e<strong>en</strong> combinatie van variabel<strong>en</strong> die voldoet aan volg<strong>en</strong>de eis<strong>en</strong> :<br />
- de waarde van de variabele (of van de combinatie van variabel<strong>en</strong>) is uniek<br />
binn<strong>en</strong> de tabel (of dataset) <strong>en</strong> bepaalt dus e<strong>en</strong>duidig het record waarin hij<br />
voorkomt.<br />
- de variabele (of de combinatie van variabel<strong>en</strong>) is overal ingevuld <strong>en</strong> kan<br />
dus niet leeg zijn.<br />
De combinatie van variabel<strong>en</strong> is minimaal: door het lat<strong>en</strong> vall<strong>en</strong> van één<br />
van de variabel<strong>en</strong> wordt de record niet langer meer e<strong>en</strong>duidig bepaald<br />
Wanneer gerelateerde tabell<strong>en</strong> verwijz<strong>en</strong> naar de tabel waarin de variabele<br />
(of combinatie) van variabel<strong>en</strong> voorkom<strong>en</strong>, wordt deze gebruikt om e<strong>en</strong><br />
relatie tuss<strong>en</strong> tabell<strong>en</strong> tot stand te br<strong>en</strong>g<strong>en</strong>.<br />
Voorbeeld<strong>en</strong> zijn BSN <strong>en</strong> RIN-nummer voor person<strong>en</strong>, <strong>en</strong> BEID voor<br />
bedrijv<strong>en</strong>.<br />
In de statistische beveiliging word<strong>en</strong> dergelijke variabel<strong>en</strong> ook wel directe<br />
id<strong>en</strong>tificator<strong>en</strong> g<strong>en</strong>oemd. Helaas word<strong>en</strong> daar variabel<strong>en</strong> als naam, adres,<br />
woonplaats, etc. ook directe id<strong>en</strong>tificator<strong>en</strong> g<strong>en</strong>oemd. Die zijn hier<br />
uitdrukkelijk niet bedoeld. Dergelijke variabel<strong>en</strong> word<strong>en</strong> in dit stuk<br />
secundaire sleutels g<strong>en</strong>oemd.<br />
Probabilistisch koppel<strong>en</strong> <strong>Koppel<strong>en</strong></strong> met als doel om informatie van dezelfde e<strong>en</strong>hed<strong>en</strong> bij elkaar te<br />
zoek<strong>en</strong>, waarbij de scores op de koppelvariabel<strong>en</strong> niet per se hetzelfde<br />
hoev<strong>en</strong> te zijn. De verschill<strong>en</strong> kunn<strong>en</strong> diverse oorzak<strong>en</strong> hebb<strong>en</strong>:<br />
1. er zitt<strong>en</strong> waarnemings- of verwerkingsfout<strong>en</strong> in de scores<br />
2. de e<strong>en</strong>hed<strong>en</strong> in beide bestand<strong>en</strong> zijn op verschill<strong>en</strong>de tijdstipp<strong>en</strong><br />
waarg<strong>en</strong>om<strong>en</strong>, of<br />
3. koppelvariabel<strong>en</strong> in de verschill<strong>en</strong>de files zijn niet exact hetzelfde<br />
gedefinieerd <strong>en</strong> hebb<strong>en</strong> mogelijk andere domein<strong>en</strong>.<br />
Record linkage Engelse aanduiding voor koppel<strong>en</strong>; zie aldaar.<br />
Refer<strong>en</strong>tiële integriteit In e<strong>en</strong> relationele database is dit het uitgangspunt dat de interne<br />
consist<strong>en</strong>tie tuss<strong>en</strong> de verschill<strong>en</strong>de tabell<strong>en</strong> binn<strong>en</strong> die database wordt<br />
gewaarborgd. Dat betek<strong>en</strong>t dat er altijd e<strong>en</strong> sleutel in e<strong>en</strong> tabel bestaat als<br />
er in e<strong>en</strong> sleutelveld, kan ook e<strong>en</strong> foreign key zijn, in e<strong>en</strong> andere tabel naar<br />
wordt verwez<strong>en</strong>. Database system<strong>en</strong> waarborg<strong>en</strong> de consist<strong>en</strong>tie <strong>en</strong> zorg<strong>en</strong><br />
er voor dat e<strong>en</strong> transactie die de consist<strong>en</strong>tie doorbreekt niet kan word<strong>en</strong><br />
doorgevoerd. Voorbeeld: er bestaat e<strong>en</strong> tabel (1) met regiogegev<strong>en</strong>s,<br />
geïd<strong>en</strong>tificeerd door de postcode. In e<strong>en</strong> andere tabel (2) wordt de postcode<br />
gebruikt om aan te gev<strong>en</strong> in welke regio iemand woont. Refer<strong>en</strong>tiële<br />
integriteit zorgt ervoor dat de postcodes in tabel 2 altijd terug te vind<strong>en</strong> zijn<br />
in de tabel 1. Het kan niet zo zijn dat postcodes in tabel 1 word<strong>en</strong> verwijderd<br />
als deze nog voorkom<strong>en</strong> in tabel 2, dan wel als primaire, secundaire of<br />
foreign key.<br />
Restant Records die niet koppelbaar blek<strong>en</strong> bij e<strong>en</strong> koppeling van twee bestand<strong>en</strong>.<br />
In sommige gevall<strong>en</strong> is het ongew<strong>en</strong>st dat er restant<strong>en</strong> overblijv<strong>en</strong> <strong>en</strong><br />
moet<strong>en</strong> ze word<strong>en</strong> ‘weggewerkt’ door extra koppeling<strong>en</strong> te realiser<strong>en</strong>.<br />
RIN Record Id<strong>en</strong>tificatie Nummer. E<strong>en</strong> primary key die door het <strong>CBS</strong> wordt<br />
gebruikt ter vervanging van ook buit<strong>en</strong> het <strong>CBS</strong> bek<strong>en</strong>de sleutels als BSN.<br />
Dit gebeurt op basis van privacy overweging<strong>en</strong>.<br />
Sam<strong>en</strong>gestelde e<strong>en</strong>heid E<strong>en</strong> e<strong>en</strong>heid die is sam<strong>en</strong>gesteld uit e<strong>en</strong>hed<strong>en</strong> van e<strong>en</strong> lagere orde. E<strong>en</strong><br />
huishoud<strong>en</strong> is e<strong>en</strong> voorbeeld van e<strong>en</strong> sam<strong>en</strong>gestelde e<strong>en</strong>heid; de person<strong>en</strong><br />
die in e<strong>en</strong> huishoud<strong>en</strong> aanwezig zijn, zijn in dit geval e<strong>en</strong>hed<strong>en</strong> van e<strong>en</strong><br />
lagere orde.<br />
Sam<strong>en</strong>hang<strong>en</strong>de graph E<strong>en</strong> graaf waarin alle punt<strong>en</strong> verbond<strong>en</strong> zijn <strong>en</strong> dus één compon<strong>en</strong>t<br />
vorm<strong>en</strong>, heet e<strong>en</strong> sam<strong>en</strong>hang<strong>en</strong>de graaf.<br />
Sam<strong>en</strong>hangscompon<strong>en</strong>t (van e<strong>en</strong><br />
graph)<br />
Binn<strong>en</strong> e<strong>en</strong> graaf is e<strong>en</strong> compon<strong>en</strong>t e<strong>en</strong> aantal knop<strong>en</strong> van de graaf die<br />
onderling alle verbond<strong>en</strong> zijn via e<strong>en</strong> pad. Ook wel e<strong>en</strong> (maximale)<br />
subgraph met deze punt<strong>en</strong> plus de kant<strong>en</strong> van graph G met als eindpunt<strong>en</strong><br />
de punt<strong>en</strong> uit de sam<strong>en</strong>hangscompon<strong>en</strong>t. Deze subgraph is e<strong>en</strong><br />
sam<strong>en</strong>hang<strong>en</strong>de graph. Hij is maximaal omdat er niet nog e<strong>en</strong> punt aan kan<br />
word<strong>en</strong> toegevoegd zodanig dat de uitgebreide punt<strong>en</strong>set sam<strong>en</strong>hang<strong>en</strong>d<br />
is.<br />
Secundaire sleutel E<strong>en</strong> combinatie van variabel<strong>en</strong> die gebruikt kunn<strong>en</strong> word<strong>en</strong> bij de<br />
id<strong>en</strong>tificatie van e<strong>en</strong>hed<strong>en</strong>, maar die niet bedoeld zijn als primaire sleutel.<br />
Vaak gaat het om (e<strong>en</strong> combinatie van) variabel<strong>en</strong> zoals naam, adres,<br />
woonplaats, geboortedatum, beroep, opleiding, geslacht, e.d. Elk van deze<br />
variabel<strong>en</strong> zelf kan het record niet id<strong>en</strong>tificer<strong>en</strong>, maar de combinatie ervan<br />
kan gebuikt word<strong>en</strong> als proxy voor e<strong>en</strong> primaire sleutel, mocht die<br />
12