18.01.2013 Views

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

6.4 Voorbeeld<br />

M<strong>en</strong> heeft twee bestand<strong>en</strong> A <strong>en</strong> B <strong>en</strong> wil deze op basis van de geme<strong>en</strong>schappelijke<br />

koppelvariabel<strong>en</strong> naam, adres <strong>en</strong> geboortedatum (alle secundaire sleutels) koppel<strong>en</strong>. In eerste<br />

instantie koppel<strong>en</strong> alle<strong>en</strong> de eerste records van beide bestand<strong>en</strong> (P. Jans<strong>en</strong>). Er is sprake van e<strong>en</strong><br />

koppeling op basis van gelijkheid van de scores van alle koppelvariabel<strong>en</strong>. In tweede instantie<br />

wordt de eis van gelijke scores op de koppelvariabel<strong>en</strong> naam, adres <strong>en</strong> geboortedatum afgezwakt.<br />

Bij de variabele geboortedatum is het voldo<strong>en</strong>de om alle<strong>en</strong> te koppel<strong>en</strong> op het geboortejaar. Dat<br />

levert e<strong>en</strong> extra koppeling op bij de naam L. Pieters<strong>en</strong>. T<strong>en</strong> slotte zwakt m<strong>en</strong> de eis nog verder af.<br />

Er is al sprake van e<strong>en</strong> koppeling als de achternaam, het geboortejaar <strong>en</strong> het adres gelijk zijn. Dat<br />

levert nog e<strong>en</strong> extra koppeling op namelijk die tuss<strong>en</strong> S. Jans<strong>en</strong> (bestand A) <strong>en</strong> G. Jans<strong>en</strong> (bestand<br />

B). In figuur 6.3 is deze situatie weergegev<strong>en</strong>. Dit is e<strong>en</strong> voorbeeld waarbij we ook zoud<strong>en</strong> kunn<strong>en</strong><br />

stell<strong>en</strong> dat e<strong>en</strong> metriek is gebruikt, namelijk e<strong>en</strong> Hamming-metriek (zie paragraaf 7.3.1.1). Maar<br />

deze metriek leidt tot gewicht<strong>en</strong> 0 (ge<strong>en</strong> koppelkandidaat) of 1 (koppelkandidaat).<br />

Vergelijkbare voorbeeld<strong>en</strong> zijn er ook bij de economische statistiek<strong>en</strong>. Bijvoorbeeld als gekoppeld<br />

wordt op basis van koppelvariabel<strong>en</strong> als ‘Naam van het bedrijf’, ‘adres’ <strong>en</strong> ‘telefoonnummer’. Het<br />

mag duidelijk zijn dat dit ge<strong>en</strong> gemakkelijke opgave is omdat de nam<strong>en</strong> van bedrijv<strong>en</strong> op veel<br />

verschill<strong>en</strong>de manier<strong>en</strong> kunn<strong>en</strong> word<strong>en</strong> vastgelegd. Zo kan het de <strong>en</strong>e keer gaan om de formele<br />

rechtspersoon (bijv. Verkoop Vanalles BV), de andere keer om e<strong>en</strong> afkorting (bijv. Vanalles) <strong>en</strong> de<br />

volg<strong>en</strong>de keer om de naam van de eig<strong>en</strong>aar (bijv. G. Jans<strong>en</strong>).<br />

6.5 Kwaliteitsindicator<strong>en</strong><br />

Ook hier zijn aantall<strong>en</strong> miskoppeling<strong>en</strong> of gemiste koppeling<strong>en</strong> te gebruik<strong>en</strong> als kwaliteitsmat<strong>en</strong>.<br />

Er spel<strong>en</strong> hier <strong>en</strong>kele zak<strong>en</strong> die corresponder<strong>en</strong> met de cruciale stapp<strong>en</strong> in e<strong>en</strong> koppelproces:<br />

1. Het vind<strong>en</strong> van koppelkandidat<strong>en</strong>. Hierbij spel<strong>en</strong> e<strong>en</strong> rol:<br />

a. Het gebruikte koppelcriterium (bijvoorbeeld gebruik mak<strong>en</strong>d van de Hammingafstand)<br />

om records wel/niet als koppelkandidat<strong>en</strong> te beschouw<strong>en</strong>.<br />

b. In geval m<strong>en</strong> e<strong>en</strong> metriek etc. gebruikt, is het de vraag in hoeverre deze adequaat<br />

het onderligg<strong>en</strong>de foutproces verdisconteert. (Zie ook paragraaf 7.3.) Ook de keuze<br />

van cut-off-waard<strong>en</strong> is van invloed op welke records als koppelkandidat<strong>en</strong> word<strong>en</strong><br />

beschouwd.<br />

c. Ev<strong>en</strong>tueel gebruikte blocking variabel<strong>en</strong> (bijvoorbeeld bij grote bestand<strong>en</strong>); door<br />

de koppelbestand<strong>en</strong> te partitioner<strong>en</strong> <strong>en</strong> de zoekruimte bewust te beperk<strong>en</strong><br />

(vanwege de performance) kan het zijn dat m<strong>en</strong> kandidaat-koppeling<strong>en</strong> mist, <strong>en</strong><br />

uiteindelijk dus ook koppeling<strong>en</strong>.<br />

2. het selecter<strong>en</strong> van de uiteindelijke koppeling<strong>en</strong> uit de koppelkandidat<strong>en</strong>. Ook hier wordt<br />

e<strong>en</strong> criterium gebruikt. De vraag is in hoeverre dit tot correcte keuze leidt.<br />

De kwaliteit van e<strong>en</strong> gebruikte koppelingsmethode is te schatt<strong>en</strong> op basis van inspectie van<br />

koppeling<strong>en</strong> van proefbestand<strong>en</strong>. Dat is hier arbeidsint<strong>en</strong>sief. Niet alle<strong>en</strong> moet word<strong>en</strong> gekek<strong>en</strong><br />

naar de koppelkandidat<strong>en</strong> <strong>en</strong> de uiteindelijk geselecteerde koppeling<strong>en</strong>, maar ook naar ev<strong>en</strong>tueel<br />

gemiste koppeling<strong>en</strong> bij diverse parameterinstelling<strong>en</strong>.<br />

46

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!