Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Begrip Omschrijving<br />
geschikt als primaire sleutels. Andere (als naam, adres, etc.) zijn geschikt<br />
als secundaire sleutelvariabel<strong>en</strong>. Zie ook: indirecte id<strong>en</strong>tificator.<br />
Dissimilarity measure E<strong>en</strong> maat om de ongelijkheid van twee object<strong>en</strong> of <strong>en</strong>titeit<strong>en</strong> uit te drukk<strong>en</strong>.<br />
Lijkt <strong>en</strong>igszins op e<strong>en</strong> metriek. Teg<strong>en</strong>overgestelde begrip: Similarity<br />
measure.<br />
Drempelwaarde Zie: cut-off-waarde<br />
Enkelvoudige e<strong>en</strong>heid E<strong>en</strong> e<strong>en</strong>heid die (voor het koppelprobleem in kwestie) niet is sam<strong>en</strong>gesteld<br />
uit e<strong>en</strong>hed<strong>en</strong> van e<strong>en</strong> lagere orde, ook wel <strong>en</strong>kelvoudige (of atomaire)<br />
e<strong>en</strong>heid g<strong>en</strong>oemd. E<strong>en</strong> persoon is voor het <strong>CBS</strong> e<strong>en</strong> <strong>en</strong>kelvoudige e<strong>en</strong>heid.<br />
Voor e<strong>en</strong> arts kan het e<strong>en</strong> sam<strong>en</strong>gestelde e<strong>en</strong>heid zijn, namelijk wanneer<br />
deze e<strong>en</strong> persoon beschouwd als e<strong>en</strong> sam<strong>en</strong>stel van organ<strong>en</strong>. Of e<strong>en</strong><br />
e<strong>en</strong>heid als <strong>en</strong>kelvoudig of sam<strong>en</strong>gesteld wordt beschouwd hangt van het<br />
koppelprobleem in kwestie af. Teg<strong>en</strong>gesteld aan sam<strong>en</strong>gestelde e<strong>en</strong>heid.<br />
ETL Extract Transform Load. E<strong>en</strong> set operaties om e<strong>en</strong> externe data-set<br />
geschikt te mak<strong>en</strong> om (bij het <strong>CBS</strong>, zeg) verder bewerkt te word<strong>en</strong>. Deze<br />
operaties kunn<strong>en</strong> erop gericht zijn dataformat<strong>en</strong> om te zett<strong>en</strong>, nieuwe<br />
variabel<strong>en</strong> aan te pass<strong>en</strong>, gebruikte codering<strong>en</strong> om te zett<strong>en</strong> naar<br />
codering<strong>en</strong> die het <strong>CBS</strong> hanteert, etc.<br />
False negative match Zie: Gemiste koppeling<br />
False positive match Zie: Miskoppeling<br />
Fellegi-Sunter methode Koppelmethode beschrev<strong>en</strong> in Fellegi <strong>en</strong> Sunter (1969). Voor e<strong>en</strong> korte<br />
bespreking van deze methode zie App<strong>en</strong>dix A.<br />
Foreign key E<strong>en</strong> sleutelwaarde, die wel in e<strong>en</strong> record voorkomt maar niet gericht is om<br />
het record zelf te id<strong>en</strong>tificer<strong>en</strong>. E<strong>en</strong> foreign key bevindt zich derhalve buit<strong>en</strong><br />
de sleutel van e<strong>en</strong> dataset.<br />
E<strong>en</strong> foreign key is bedoeld om e<strong>en</strong> koppeling te kunn<strong>en</strong> mak<strong>en</strong> met e<strong>en</strong><br />
record in e<strong>en</strong> andere dataset waarin bijvoorbeeld additionele gegev<strong>en</strong>s op<br />
basis van die sleutel zijn opg<strong>en</strong>om<strong>en</strong>. Voorbeeld: in e<strong>en</strong> record van e<strong>en</strong><br />
bedrijf, dat geïd<strong>en</strong>tificeerd wordt door e<strong>en</strong> Beid, is ook e<strong>en</strong> unieke code, als<br />
foreign key, opg<strong>en</strong>om<strong>en</strong> van de regio waarin het bedrijf actief is. In e<strong>en</strong><br />
andere dataset is de code van de regio de primaire sleutel met additionele<br />
gegev<strong>en</strong>s over de regio, zoals het aantal inwoners, de gemiddelde omzet<br />
van de bedrijv<strong>en</strong> in die regio, de oppervlakte van de regio, e.d. In e<strong>en</strong><br />
record met persoonsgegev<strong>en</strong>s, uniek geïd<strong>en</strong>tificeerd door e<strong>en</strong> BSN, kan<br />
m<strong>en</strong> d<strong>en</strong>k<strong>en</strong> aan e<strong>en</strong> verwijzing naar het bedrijf waar iemand werkt.<br />
Daarvoor kan bijvoorbeeld e<strong>en</strong> code (bijvoorbeeld Beid) word<strong>en</strong> gebruikt.<br />
E<strong>en</strong> andere dataset, waar de Beid de sleutel is, bevat gegev<strong>en</strong>s over het<br />
bedrijf waar de persoon werkt. E<strong>en</strong> foreign key is vaak e<strong>en</strong> verwijzing naar<br />
e<strong>en</strong> ander e<strong>en</strong>heidstype dan waar het record zelf betrekking op heeft, maar<br />
dat hoeft niet. D<strong>en</strong>k bijvoorbeeld aan gegev<strong>en</strong>s van e<strong>en</strong> werknemer met<br />
e<strong>en</strong> verwijzing naar zijn baas. Beide zijn van het type persoon <strong>en</strong> beide zijn<br />
aan te duid<strong>en</strong> met e<strong>en</strong> personeelsnummer.<br />
Gemiste koppeling Koppeling die t<strong>en</strong> onrechte niet gemaakt is.<br />
Gewicht Zie: koppelgewicht<br />
Graad<br />
Zij G = ( V , E)<br />
e<strong>en</strong> graph. De graad van e<strong>en</strong> punt v in V het aantal<br />
kant<strong>en</strong> e in E waarvoor geldt: v ∈ e .<br />
Graadrestrictie Beperking met betrekking tot de graad van e<strong>en</strong> deel van de punt<strong>en</strong> van e<strong>en</strong><br />
graph<br />
Hamming-afstand Afstand tuss<strong>en</strong> twee records op e<strong>en</strong> koppelsleutel, gemet<strong>en</strong> door het aantal<br />
variabel<strong>en</strong> te tell<strong>en</strong> waar de waard<strong>en</strong> verschill<strong>en</strong>d zijn.<br />
Incid<strong>en</strong>tiematrix<br />
0-1 matrix J die voor e<strong>en</strong> graph G = ( V , E)<br />
aan geeft wat de relatie is<br />
tuss<strong>en</strong> kant<strong>en</strong> in E <strong>en</strong> punt<strong>en</strong> in V. Stel | V | = n , | E | = m <strong>en</strong> J is de<br />
m × n matrix met J ( i,<br />
j)<br />
= 1als<br />
punt j op kant i ligt, <strong>en</strong> J ( i,<br />
j)<br />
= 0<br />
anders.<br />
Indirecte id<strong>en</strong>tificator E<strong>en</strong> variabele die gebruikt kan word<strong>en</strong> om (sommige) <strong>en</strong>titeit<strong>en</strong> in e<strong>en</strong><br />
populatie op te spor<strong>en</strong>, maar die ge<strong>en</strong> directe id<strong>en</strong>tificator is. Voorbeeld<strong>en</strong><br />
zijn: woonplaats, beroep, leeftijd, geslacht. Indirecte id<strong>en</strong>tificator<strong>en</strong> zijn<br />
kandidat<strong>en</strong> voor secundaire sleutels.<br />
Variabel<strong>en</strong> die ge<strong>en</strong> directe of indirecte id<strong>en</strong>tificator zijn drukk<strong>en</strong><br />
bijvoorbeeld m<strong>en</strong>ing<strong>en</strong>, opinies, opvatting<strong>en</strong> e.d. uit. Dergelijke variabel<strong>en</strong><br />
zijn niet geschikt als secundaire koppelsleutels. De scores van e<strong>en</strong>hed<strong>en</strong><br />
op dergelijke variabel<strong>en</strong> zijn in het algeme<strong>en</strong> niet publiek, <strong>en</strong> bov<strong>en</strong>di<strong>en</strong><br />
kunn<strong>en</strong> ze fluctuer<strong>en</strong> in de tijd.<br />
Indirect id<strong>en</strong>tifier Zie indirecte id<strong>en</strong>tificator<br />
Integer programming E<strong>en</strong> speciaal geval van lineair programmer<strong>en</strong>, waarbij de variabel<strong>en</strong> die in<br />
het optimaliseringsmodel voorkom<strong>en</strong> integers zijn <strong>en</strong> ge<strong>en</strong> reële getall<strong>en</strong>.<br />
10