Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
8. Het ev<strong>en</strong>tueel kiez<strong>en</strong> van de zog<strong>en</strong>aamde blocking variabel<strong>en</strong>. Twee te koppel<strong>en</strong> bestand<strong>en</strong><br />
van bijvoorbeeld elk 1000 records lever<strong>en</strong> al 1.000.000 pot<strong>en</strong>tiële koppelkandidat<strong>en</strong> op. Om<br />
alle koppelkandidat<strong>en</strong> te controler<strong>en</strong> op e<strong>en</strong> mogelijke koppeling is dan erg inefficiënt. Te<br />
koppel<strong>en</strong> bestand<strong>en</strong> zijn in de praktijk vaak nog vele mal<strong>en</strong> groter <strong>en</strong> daarom wordt vaak<br />
gebruik gemaakt van zog<strong>en</strong>aamde blocking variabel<strong>en</strong>. Deze del<strong>en</strong> de te koppel<strong>en</strong> bestand<strong>en</strong><br />
op zodat er twee of meer blokk<strong>en</strong> ontstaan, waarbinn<strong>en</strong> records word<strong>en</strong> vergelek<strong>en</strong>. Is de<br />
kwaliteit van de gekoz<strong>en</strong> blocking-variabele niet al te groot dan word<strong>en</strong> vaak meerdere runs<br />
gedraaid met verschill<strong>en</strong>de variabel<strong>en</strong> als blocking-variabele. M<strong>en</strong> di<strong>en</strong>t zich te realiser<strong>en</strong> dat<br />
het kiez<strong>en</strong> van de blocking variabele(n) niet evid<strong>en</strong>t is. E<strong>en</strong> “foute” keuze kan bijvoorbeeld<br />
leid<strong>en</strong> tot slechte eindresultat<strong>en</strong>;<br />
9. Het selecter<strong>en</strong> van koppelmethode. Zie verder de hoofdstukk<strong>en</strong> 5 tot <strong>en</strong> met 7;<br />
10. Het ev<strong>en</strong>tueel uitvoer<strong>en</strong>, analyser<strong>en</strong> <strong>en</strong> beschrijv<strong>en</strong> van e<strong>en</strong> proef-run (zie daarvoor verder C.<br />
Koppelfase). Dit geldt vooral als e<strong>en</strong> meer geavanceerde methode, bijvoorbeeld met<br />
koppelgewicht<strong>en</strong> <strong>en</strong> cut-off-waard<strong>en</strong>, wordt gebruikt.<br />
C. Koppelfase:<br />
11. Het ophal<strong>en</strong> van de (ev<strong>en</strong>tueel eerder bewerkte) databestand<strong>en</strong>;<br />
12. Het koppel<strong>en</strong> zelf. Daarbij kan onderscheid word<strong>en</strong> gemaakt naar:<br />
het ev<strong>en</strong>tueel sorter<strong>en</strong> van de bestand<strong>en</strong>;<br />
het ev<strong>en</strong>tueel bepal<strong>en</strong> van de gewicht<strong>en</strong> <strong>en</strong> cut-off-waard<strong>en</strong>;<br />
het bij elkaar br<strong>en</strong>g<strong>en</strong> (match<strong>en</strong>) van de pot<strong>en</strong>tieel te koppel<strong>en</strong> records op basis van de<br />
koppelsleutel (de set van koppelkandidat<strong>en</strong>), als eerste hoofdstap;<br />
het vergelijk<strong>en</strong> van de verschill<strong>en</strong>de koppelkandidat<strong>en</strong> <strong>en</strong> het besluit<strong>en</strong> of er sprake is van<br />
e<strong>en</strong> “echte koppeling” of niet of dat er sprake is van e<strong>en</strong> twijfelgeval, als tweede<br />
hoofdstap;<br />
het opslaan in resultaatfiles.<br />
13. Het ev<strong>en</strong>tueel handmatig verwerk<strong>en</strong> van de twijfelgevall<strong>en</strong>;<br />
14. Het controler<strong>en</strong> <strong>en</strong> analyser<strong>en</strong> van het koppelresultaat <strong>en</strong> het bepal<strong>en</strong> van kwaliteitsindicator<strong>en</strong><br />
(type I <strong>en</strong> type II fout<strong>en</strong>). E<strong>en</strong> optie is om bijvoorbeeld e<strong>en</strong> kleine steekproef te trekk<strong>en</strong> uit het<br />
eindresultaat <strong>en</strong> handmatig te controler<strong>en</strong> of zij juist zijn of niet. Hiermee kan vervolg<strong>en</strong>s e<strong>en</strong><br />
maat voor de kwaliteit word<strong>en</strong> berek<strong>en</strong>d;<br />
15. Het ev<strong>en</strong>tueel opnieuw draai<strong>en</strong> van de run met bijvoorbeeld andere blocking variabel<strong>en</strong>,<br />
gewicht<strong>en</strong> <strong>en</strong> drempelwaard<strong>en</strong> of het minder str<strong>en</strong>g toepass<strong>en</strong> van de voorwaard<strong>en</strong> bij de<br />
onderlinge vergelijking.<br />
D. Post-verwerkingsfase:<br />
16. Sam<strong>en</strong>stell<strong>en</strong> van het definitieve eindresultaat (met bestand<strong>en</strong> van gekoppelde <strong>en</strong> niet<br />
gekoppelde e<strong>en</strong>hed<strong>en</strong>);<br />
17. Het beschrijv<strong>en</strong> van het eindresultaat, onder meer met kwaliteitsindicator<strong>en</strong>, het uitgevoerde<br />
proces <strong>en</strong> de gebruikte method<strong>en</strong> (met parameters);<br />
18. Het ev<strong>en</strong>tueel anders formatter<strong>en</strong> <strong>en</strong>/of herstructurer<strong>en</strong> van de eindresultat<strong>en</strong> t<strong>en</strong> behoeve van<br />
de levering of de opslag;<br />
20