18.01.2013 Views

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

8. Het ev<strong>en</strong>tueel kiez<strong>en</strong> van de zog<strong>en</strong>aamde blocking variabel<strong>en</strong>. Twee te koppel<strong>en</strong> bestand<strong>en</strong><br />

van bijvoorbeeld elk 1000 records lever<strong>en</strong> al 1.000.000 pot<strong>en</strong>tiële koppelkandidat<strong>en</strong> op. Om<br />

alle koppelkandidat<strong>en</strong> te controler<strong>en</strong> op e<strong>en</strong> mogelijke koppeling is dan erg inefficiënt. Te<br />

koppel<strong>en</strong> bestand<strong>en</strong> zijn in de praktijk vaak nog vele mal<strong>en</strong> groter <strong>en</strong> daarom wordt vaak<br />

gebruik gemaakt van zog<strong>en</strong>aamde blocking variabel<strong>en</strong>. Deze del<strong>en</strong> de te koppel<strong>en</strong> bestand<strong>en</strong><br />

op zodat er twee of meer blokk<strong>en</strong> ontstaan, waarbinn<strong>en</strong> records word<strong>en</strong> vergelek<strong>en</strong>. Is de<br />

kwaliteit van de gekoz<strong>en</strong> blocking-variabele niet al te groot dan word<strong>en</strong> vaak meerdere runs<br />

gedraaid met verschill<strong>en</strong>de variabel<strong>en</strong> als blocking-variabele. M<strong>en</strong> di<strong>en</strong>t zich te realiser<strong>en</strong> dat<br />

het kiez<strong>en</strong> van de blocking variabele(n) niet evid<strong>en</strong>t is. E<strong>en</strong> “foute” keuze kan bijvoorbeeld<br />

leid<strong>en</strong> tot slechte eindresultat<strong>en</strong>;<br />

9. Het selecter<strong>en</strong> van koppelmethode. Zie verder de hoofdstukk<strong>en</strong> 5 tot <strong>en</strong> met 7;<br />

10. Het ev<strong>en</strong>tueel uitvoer<strong>en</strong>, analyser<strong>en</strong> <strong>en</strong> beschrijv<strong>en</strong> van e<strong>en</strong> proef-run (zie daarvoor verder C.<br />

Koppelfase). Dit geldt vooral als e<strong>en</strong> meer geavanceerde methode, bijvoorbeeld met<br />

koppelgewicht<strong>en</strong> <strong>en</strong> cut-off-waard<strong>en</strong>, wordt gebruikt.<br />

C. Koppelfase:<br />

11. Het ophal<strong>en</strong> van de (ev<strong>en</strong>tueel eerder bewerkte) databestand<strong>en</strong>;<br />

12. Het koppel<strong>en</strong> zelf. Daarbij kan onderscheid word<strong>en</strong> gemaakt naar:<br />

het ev<strong>en</strong>tueel sorter<strong>en</strong> van de bestand<strong>en</strong>;<br />

het ev<strong>en</strong>tueel bepal<strong>en</strong> van de gewicht<strong>en</strong> <strong>en</strong> cut-off-waard<strong>en</strong>;<br />

het bij elkaar br<strong>en</strong>g<strong>en</strong> (match<strong>en</strong>) van de pot<strong>en</strong>tieel te koppel<strong>en</strong> records op basis van de<br />

koppelsleutel (de set van koppelkandidat<strong>en</strong>), als eerste hoofdstap;<br />

het vergelijk<strong>en</strong> van de verschill<strong>en</strong>de koppelkandidat<strong>en</strong> <strong>en</strong> het besluit<strong>en</strong> of er sprake is van<br />

e<strong>en</strong> “echte koppeling” of niet of dat er sprake is van e<strong>en</strong> twijfelgeval, als tweede<br />

hoofdstap;<br />

het opslaan in resultaatfiles.<br />

13. Het ev<strong>en</strong>tueel handmatig verwerk<strong>en</strong> van de twijfelgevall<strong>en</strong>;<br />

14. Het controler<strong>en</strong> <strong>en</strong> analyser<strong>en</strong> van het koppelresultaat <strong>en</strong> het bepal<strong>en</strong> van kwaliteitsindicator<strong>en</strong><br />

(type I <strong>en</strong> type II fout<strong>en</strong>). E<strong>en</strong> optie is om bijvoorbeeld e<strong>en</strong> kleine steekproef te trekk<strong>en</strong> uit het<br />

eindresultaat <strong>en</strong> handmatig te controler<strong>en</strong> of zij juist zijn of niet. Hiermee kan vervolg<strong>en</strong>s e<strong>en</strong><br />

maat voor de kwaliteit word<strong>en</strong> berek<strong>en</strong>d;<br />

15. Het ev<strong>en</strong>tueel opnieuw draai<strong>en</strong> van de run met bijvoorbeeld andere blocking variabel<strong>en</strong>,<br />

gewicht<strong>en</strong> <strong>en</strong> drempelwaard<strong>en</strong> of het minder str<strong>en</strong>g toepass<strong>en</strong> van de voorwaard<strong>en</strong> bij de<br />

onderlinge vergelijking.<br />

D. Post-verwerkingsfase:<br />

16. Sam<strong>en</strong>stell<strong>en</strong> van het definitieve eindresultaat (met bestand<strong>en</strong> van gekoppelde <strong>en</strong> niet<br />

gekoppelde e<strong>en</strong>hed<strong>en</strong>);<br />

17. Het beschrijv<strong>en</strong> van het eindresultaat, onder meer met kwaliteitsindicator<strong>en</strong>, het uitgevoerde<br />

proces <strong>en</strong> de gebruikte method<strong>en</strong> (met parameters);<br />

18. Het ev<strong>en</strong>tueel anders formatter<strong>en</strong> <strong>en</strong>/of herstructurer<strong>en</strong> van de eindresultat<strong>en</strong> t<strong>en</strong> behoeve van<br />

de levering of de opslag;<br />

20

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!