Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
2. {c,f} of {e,f} (één van beide).<br />
De keuzes bij 1. <strong>en</strong> 2. zijn onafhankelijk van elkaar te mak<strong>en</strong>.<br />
In het geval van KK-graph zonder gewicht<strong>en</strong> tell<strong>en</strong> alle kandidaat-koppeling<strong>en</strong> ev<strong>en</strong> zwaar. E<strong>en</strong><br />
belangrijk voorbeeld van e<strong>en</strong> koppelcriterium dat leidt tot e<strong>en</strong> KK-graph zonder koppelgewicht<strong>en</strong> is<br />
dat van gelijkheid van scores op de koppelsleutel. De koppelwijze gebaseerd op dit criterium wordt<br />
ook wel aangeduid als exact koppel<strong>en</strong> of exact match<strong>en</strong>. Opgemerkt zij dat dit louter slaat op het<br />
feit dat het gebruikte koppelcriterium exacte gelijkheid eist van scores op de variabel<strong>en</strong> in de<br />
koppelsleutel om de bijbehor<strong>en</strong>de records als koppelkandidat<strong>en</strong> te beschouw<strong>en</strong>. Het heeft niets te<br />
mak<strong>en</strong> met ‘nauwkeurigheid’, of het ‘foutloos’ zijn van de koppeling<strong>en</strong>. De red<strong>en</strong> hiervoor is dat in<br />
de praktijk fout<strong>en</strong>, afwijking<strong>en</strong> of onregelmatighed<strong>en</strong> voorkom<strong>en</strong> in de te koppel<strong>en</strong> bestand<strong>en</strong>, <strong>en</strong><br />
meer in het bijzonder op de koppelsleutel. Deze fout<strong>en</strong> in de gegev<strong>en</strong>s leid<strong>en</strong> er toe dat<br />
koppelkandidat<strong>en</strong> word<strong>en</strong> gevond<strong>en</strong> die ge<strong>en</strong> betrekking hebb<strong>en</strong> op dezelfde e<strong>en</strong>hed<strong>en</strong>. Maar ook<br />
dat koppeling<strong>en</strong> word<strong>en</strong> gemist.<br />
Figuur 6.2: KK-graph zonder koppelgewicht<strong>en</strong><br />
Bestand A Bestand B<br />
a<br />
b<br />
c<br />
d<br />
e<br />
Wanneer we het koppelcriterium voor exact koppel<strong>en</strong> verruim<strong>en</strong> kunn<strong>en</strong> we wel e<strong>en</strong>hed<strong>en</strong> bij<br />
elkaar zoek<strong>en</strong> met e<strong>en</strong> gering aantal afwijking<strong>en</strong> in de scores op de gebruikte koppelsleutel. Stel dat<br />
de koppelsleutel bestaat uit de variabel<strong>en</strong> (secondary keys) k s s 1 ,..., . Stel dat a e<strong>en</strong> record is uit<br />
bestand A <strong>en</strong> b e<strong>en</strong> record uit bestand B. De scores van a <strong>en</strong> b gev<strong>en</strong> we aan als respectievelijk<br />
a a<br />
b b<br />
a a b b<br />
( s1 ,... sk<br />
) <strong>en</strong> ( s 1 ,... sk<br />
) . De records a <strong>en</strong> b zijn koppelkandidat<strong>en</strong> als ( s 1 ,... sk<br />
) = ( s1<br />
,..., sk<br />
) . We<br />
zoud<strong>en</strong> in plaats daarvan kunn<strong>en</strong> eis<strong>en</strong> dat er afwijking<strong>en</strong> mog<strong>en</strong> zijn, maar e<strong>en</strong> beperkt aantal, zeg<br />
maximaal p. Als we bijvoorbeeld de Hamming-afstand d H (zie ook hoofdstuk 3) zoud<strong>en</strong><br />
44<br />
f<br />
g<br />
h<br />
i<br />
j