18.01.2013 Views

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

2. {c,f} of {e,f} (één van beide).<br />

De keuzes bij 1. <strong>en</strong> 2. zijn onafhankelijk van elkaar te mak<strong>en</strong>.<br />

In het geval van KK-graph zonder gewicht<strong>en</strong> tell<strong>en</strong> alle kandidaat-koppeling<strong>en</strong> ev<strong>en</strong> zwaar. E<strong>en</strong><br />

belangrijk voorbeeld van e<strong>en</strong> koppelcriterium dat leidt tot e<strong>en</strong> KK-graph zonder koppelgewicht<strong>en</strong> is<br />

dat van gelijkheid van scores op de koppelsleutel. De koppelwijze gebaseerd op dit criterium wordt<br />

ook wel aangeduid als exact koppel<strong>en</strong> of exact match<strong>en</strong>. Opgemerkt zij dat dit louter slaat op het<br />

feit dat het gebruikte koppelcriterium exacte gelijkheid eist van scores op de variabel<strong>en</strong> in de<br />

koppelsleutel om de bijbehor<strong>en</strong>de records als koppelkandidat<strong>en</strong> te beschouw<strong>en</strong>. Het heeft niets te<br />

mak<strong>en</strong> met ‘nauwkeurigheid’, of het ‘foutloos’ zijn van de koppeling<strong>en</strong>. De red<strong>en</strong> hiervoor is dat in<br />

de praktijk fout<strong>en</strong>, afwijking<strong>en</strong> of onregelmatighed<strong>en</strong> voorkom<strong>en</strong> in de te koppel<strong>en</strong> bestand<strong>en</strong>, <strong>en</strong><br />

meer in het bijzonder op de koppelsleutel. Deze fout<strong>en</strong> in de gegev<strong>en</strong>s leid<strong>en</strong> er toe dat<br />

koppelkandidat<strong>en</strong> word<strong>en</strong> gevond<strong>en</strong> die ge<strong>en</strong> betrekking hebb<strong>en</strong> op dezelfde e<strong>en</strong>hed<strong>en</strong>. Maar ook<br />

dat koppeling<strong>en</strong> word<strong>en</strong> gemist.<br />

Figuur 6.2: KK-graph zonder koppelgewicht<strong>en</strong><br />

Bestand A Bestand B<br />

a<br />

b<br />

c<br />

d<br />

e<br />

Wanneer we het koppelcriterium voor exact koppel<strong>en</strong> verruim<strong>en</strong> kunn<strong>en</strong> we wel e<strong>en</strong>hed<strong>en</strong> bij<br />

elkaar zoek<strong>en</strong> met e<strong>en</strong> gering aantal afwijking<strong>en</strong> in de scores op de gebruikte koppelsleutel. Stel dat<br />

de koppelsleutel bestaat uit de variabel<strong>en</strong> (secondary keys) k s s 1 ,..., . Stel dat a e<strong>en</strong> record is uit<br />

bestand A <strong>en</strong> b e<strong>en</strong> record uit bestand B. De scores van a <strong>en</strong> b gev<strong>en</strong> we aan als respectievelijk<br />

a a<br />

b b<br />

a a b b<br />

( s1 ,... sk<br />

) <strong>en</strong> ( s 1 ,... sk<br />

) . De records a <strong>en</strong> b zijn koppelkandidat<strong>en</strong> als ( s 1 ,... sk<br />

) = ( s1<br />

,..., sk<br />

) . We<br />

zoud<strong>en</strong> in plaats daarvan kunn<strong>en</strong> eis<strong>en</strong> dat er afwijking<strong>en</strong> mog<strong>en</strong> zijn, maar e<strong>en</strong> beperkt aantal, zeg<br />

maximaal p. Als we bijvoorbeeld de Hamming-afstand d H (zie ook hoofdstuk 3) zoud<strong>en</strong><br />

44<br />

f<br />

g<br />

h<br />

i<br />

j

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!