18.01.2013 Views

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Begrip Omschrijving<br />

geschikt als primaire sleutels. Andere (als naam, adres, etc.) zijn geschikt<br />

als secundaire sleutelvariabel<strong>en</strong>. Zie ook: indirecte id<strong>en</strong>tificator.<br />

Dissimilarity measure E<strong>en</strong> maat om de ongelijkheid van twee object<strong>en</strong> of <strong>en</strong>titeit<strong>en</strong> uit te drukk<strong>en</strong>.<br />

Lijkt <strong>en</strong>igszins op e<strong>en</strong> metriek. Teg<strong>en</strong>overgestelde begrip: Similarity<br />

measure.<br />

Drempelwaarde Zie: cut-off-waarde<br />

Enkelvoudige e<strong>en</strong>heid E<strong>en</strong> e<strong>en</strong>heid die (voor het koppelprobleem in kwestie) niet is sam<strong>en</strong>gesteld<br />

uit e<strong>en</strong>hed<strong>en</strong> van e<strong>en</strong> lagere orde, ook wel <strong>en</strong>kelvoudige (of atomaire)<br />

e<strong>en</strong>heid g<strong>en</strong>oemd. E<strong>en</strong> persoon is voor het <strong>CBS</strong> e<strong>en</strong> <strong>en</strong>kelvoudige e<strong>en</strong>heid.<br />

Voor e<strong>en</strong> arts kan het e<strong>en</strong> sam<strong>en</strong>gestelde e<strong>en</strong>heid zijn, namelijk wanneer<br />

deze e<strong>en</strong> persoon beschouwd als e<strong>en</strong> sam<strong>en</strong>stel van organ<strong>en</strong>. Of e<strong>en</strong><br />

e<strong>en</strong>heid als <strong>en</strong>kelvoudig of sam<strong>en</strong>gesteld wordt beschouwd hangt van het<br />

koppelprobleem in kwestie af. Teg<strong>en</strong>gesteld aan sam<strong>en</strong>gestelde e<strong>en</strong>heid.<br />

ETL Extract Transform Load. E<strong>en</strong> set operaties om e<strong>en</strong> externe data-set<br />

geschikt te mak<strong>en</strong> om (bij het <strong>CBS</strong>, zeg) verder bewerkt te word<strong>en</strong>. Deze<br />

operaties kunn<strong>en</strong> erop gericht zijn dataformat<strong>en</strong> om te zett<strong>en</strong>, nieuwe<br />

variabel<strong>en</strong> aan te pass<strong>en</strong>, gebruikte codering<strong>en</strong> om te zett<strong>en</strong> naar<br />

codering<strong>en</strong> die het <strong>CBS</strong> hanteert, etc.<br />

False negative match Zie: Gemiste koppeling<br />

False positive match Zie: Miskoppeling<br />

Fellegi-Sunter methode Koppelmethode beschrev<strong>en</strong> in Fellegi <strong>en</strong> Sunter (1969). Voor e<strong>en</strong> korte<br />

bespreking van deze methode zie App<strong>en</strong>dix A.<br />

Foreign key E<strong>en</strong> sleutelwaarde, die wel in e<strong>en</strong> record voorkomt maar niet gericht is om<br />

het record zelf te id<strong>en</strong>tificer<strong>en</strong>. E<strong>en</strong> foreign key bevindt zich derhalve buit<strong>en</strong><br />

de sleutel van e<strong>en</strong> dataset.<br />

E<strong>en</strong> foreign key is bedoeld om e<strong>en</strong> koppeling te kunn<strong>en</strong> mak<strong>en</strong> met e<strong>en</strong><br />

record in e<strong>en</strong> andere dataset waarin bijvoorbeeld additionele gegev<strong>en</strong>s op<br />

basis van die sleutel zijn opg<strong>en</strong>om<strong>en</strong>. Voorbeeld: in e<strong>en</strong> record van e<strong>en</strong><br />

bedrijf, dat geïd<strong>en</strong>tificeerd wordt door e<strong>en</strong> Beid, is ook e<strong>en</strong> unieke code, als<br />

foreign key, opg<strong>en</strong>om<strong>en</strong> van de regio waarin het bedrijf actief is. In e<strong>en</strong><br />

andere dataset is de code van de regio de primaire sleutel met additionele<br />

gegev<strong>en</strong>s over de regio, zoals het aantal inwoners, de gemiddelde omzet<br />

van de bedrijv<strong>en</strong> in die regio, de oppervlakte van de regio, e.d. In e<strong>en</strong><br />

record met persoonsgegev<strong>en</strong>s, uniek geïd<strong>en</strong>tificeerd door e<strong>en</strong> BSN, kan<br />

m<strong>en</strong> d<strong>en</strong>k<strong>en</strong> aan e<strong>en</strong> verwijzing naar het bedrijf waar iemand werkt.<br />

Daarvoor kan bijvoorbeeld e<strong>en</strong> code (bijvoorbeeld Beid) word<strong>en</strong> gebruikt.<br />

E<strong>en</strong> andere dataset, waar de Beid de sleutel is, bevat gegev<strong>en</strong>s over het<br />

bedrijf waar de persoon werkt. E<strong>en</strong> foreign key is vaak e<strong>en</strong> verwijzing naar<br />

e<strong>en</strong> ander e<strong>en</strong>heidstype dan waar het record zelf betrekking op heeft, maar<br />

dat hoeft niet. D<strong>en</strong>k bijvoorbeeld aan gegev<strong>en</strong>s van e<strong>en</strong> werknemer met<br />

e<strong>en</strong> verwijzing naar zijn baas. Beide zijn van het type persoon <strong>en</strong> beide zijn<br />

aan te duid<strong>en</strong> met e<strong>en</strong> personeelsnummer.<br />

Gemiste koppeling Koppeling die t<strong>en</strong> onrechte niet gemaakt is.<br />

Gewicht Zie: koppelgewicht<br />

Graad<br />

Zij G = ( V , E)<br />

e<strong>en</strong> graph. De graad van e<strong>en</strong> punt v in V het aantal<br />

kant<strong>en</strong> e in E waarvoor geldt: v ∈ e .<br />

Graadrestrictie Beperking met betrekking tot de graad van e<strong>en</strong> deel van de punt<strong>en</strong> van e<strong>en</strong><br />

graph<br />

Hamming-afstand Afstand tuss<strong>en</strong> twee records op e<strong>en</strong> koppelsleutel, gemet<strong>en</strong> door het aantal<br />

variabel<strong>en</strong> te tell<strong>en</strong> waar de waard<strong>en</strong> verschill<strong>en</strong>d zijn.<br />

Incid<strong>en</strong>tiematrix<br />

0-1 matrix J die voor e<strong>en</strong> graph G = ( V , E)<br />

aan geeft wat de relatie is<br />

tuss<strong>en</strong> kant<strong>en</strong> in E <strong>en</strong> punt<strong>en</strong> in V. Stel | V | = n , | E | = m <strong>en</strong> J is de<br />

m × n matrix met J ( i,<br />

j)<br />

= 1als<br />

punt j op kant i ligt, <strong>en</strong> J ( i,<br />

j)<br />

= 0<br />

anders.<br />

Indirecte id<strong>en</strong>tificator E<strong>en</strong> variabele die gebruikt kan word<strong>en</strong> om (sommige) <strong>en</strong>titeit<strong>en</strong> in e<strong>en</strong><br />

populatie op te spor<strong>en</strong>, maar die ge<strong>en</strong> directe id<strong>en</strong>tificator is. Voorbeeld<strong>en</strong><br />

zijn: woonplaats, beroep, leeftijd, geslacht. Indirecte id<strong>en</strong>tificator<strong>en</strong> zijn<br />

kandidat<strong>en</strong> voor secundaire sleutels.<br />

Variabel<strong>en</strong> die ge<strong>en</strong> directe of indirecte id<strong>en</strong>tificator zijn drukk<strong>en</strong><br />

bijvoorbeeld m<strong>en</strong>ing<strong>en</strong>, opinies, opvatting<strong>en</strong> e.d. uit. Dergelijke variabel<strong>en</strong><br />

zijn niet geschikt als secundaire koppelsleutels. De scores van e<strong>en</strong>hed<strong>en</strong><br />

op dergelijke variabel<strong>en</strong> zijn in het algeme<strong>en</strong> niet publiek, <strong>en</strong> bov<strong>en</strong>di<strong>en</strong><br />

kunn<strong>en</strong> ze fluctuer<strong>en</strong> in de tijd.<br />

Indirect id<strong>en</strong>tifier Zie indirecte id<strong>en</strong>tificator<br />

Integer programming E<strong>en</strong> speciaal geval van lineair programmer<strong>en</strong>, waarbij de variabel<strong>en</strong> die in<br />

het optimaliseringsmodel voorkom<strong>en</strong> integers zijn <strong>en</strong> ge<strong>en</strong> reële getall<strong>en</strong>.<br />

10

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!