18.01.2013 Views

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

A. Oriëntatiefase:<br />

1. Het vaststell<strong>en</strong> van het doel van de koppeling. Wat moet het resultaat zijn van de koppeling? Is<br />

het doel om zoveel mogelijk koppeling<strong>en</strong> te realiser<strong>en</strong> met e<strong>en</strong> geringe mate van zekerheid of<br />

is m<strong>en</strong> alle<strong>en</strong> geïnteresseerd in koppeling<strong>en</strong> die met e<strong>en</strong> hoge mate van zekerheid zijn<br />

vastgesteld? Hoe erg is het om e<strong>en</strong> koppeling te miss<strong>en</strong>? Of vindt m<strong>en</strong> het juist erg als e<strong>en</strong><br />

koppeling t<strong>en</strong> onrechte wordt gemaakt? Welke koppelvariabel<strong>en</strong> wil m<strong>en</strong> gebruik<strong>en</strong> <strong>en</strong> wat is<br />

de kwaliteit van die koppelvariabel<strong>en</strong>? Dit soort aspect<strong>en</strong> bepal<strong>en</strong> voor e<strong>en</strong> belangrijk deel<br />

uiteindelijk de andere stapp<strong>en</strong> in het koppelproces;<br />

2. Het oploss<strong>en</strong> van juridische <strong>en</strong> ethische problem<strong>en</strong>. E<strong>en</strong> eerste vraag is of er beperking<strong>en</strong> zijn<br />

op het terrein van de privacy, ev<strong>en</strong>tueel vastgelegd in de wet. Daarvoor is bij het koppel<strong>en</strong> van<br />

person<strong>en</strong> bij het <strong>CBS</strong> bijvoorbeeld e<strong>en</strong> RIN-nummer geïntroduceerd, dat voor de verwerking<br />

<strong>en</strong> het koppel<strong>en</strong> het originele BSN-nummer vervangt. Bij bedrijv<strong>en</strong> di<strong>en</strong>t m<strong>en</strong> er zich<br />

rek<strong>en</strong>schap van te gev<strong>en</strong> dat de resultat<strong>en</strong> van gekoppelde bestand<strong>en</strong> niet bij iedere<strong>en</strong> in de<br />

buit<strong>en</strong>wereld positieve reacties uitlokk<strong>en</strong>. Doordat vaak gebruik wordt gemaakt van externe<br />

bestand<strong>en</strong> zijn ook afsprak<strong>en</strong> nodig met de dataleverancier. Het is niet vanzelfsprek<strong>en</strong>d dat de<br />

resultat<strong>en</strong> van gekoppelde bestand<strong>en</strong> vrij aan iedere<strong>en</strong> (bijvoorbeeld externe onderzoekers) ter<br />

beschikking kunn<strong>en</strong> word<strong>en</strong> gesteld. Dat geldt met name als het gaat om microdata. E<strong>en</strong><br />

andere vraag is hoe de (fysieke) beveiliging van de data geregeld is.<br />

3. Het overlegg<strong>en</strong> met de (externe) dataleveranciers <strong>en</strong> het verkrijg<strong>en</strong> van de te koppel<strong>en</strong><br />

bestand<strong>en</strong>. Hierbij gaat het om twee zak<strong>en</strong>. T<strong>en</strong> eerste gaat het om de wijze waarop de<br />

bestand<strong>en</strong> word<strong>en</strong> geleverd <strong>en</strong> wat er wordt geleverd. Te d<strong>en</strong>k<strong>en</strong> valt aan informatie over de<br />

populatie <strong>en</strong> de betek<strong>en</strong>is van variabel<strong>en</strong> (inclusief het domein), het formaat <strong>en</strong> de structuur<br />

waarin de data word<strong>en</strong> geleverd. Periodieke levering van te koppel<strong>en</strong> bestand<strong>en</strong> moet<br />

uiteindelijk leid<strong>en</strong> tot goede onderlinge afsprak<strong>en</strong>, die zijn vastgelegd in e<strong>en</strong> SLA of SLL. E<strong>en</strong><br />

tweede, ev<strong>en</strong> belangrijk, aspect is het verkrijg<strong>en</strong> van zoveel mogelijk informatie van de<br />

dataleverancier over (de kwaliteit van) de data in het bestand zelf. Daarbij gaat het niet alle<strong>en</strong><br />

om informatie over de kwaliteit, maar ook om informatie over hoe de data tot stand is<br />

gekom<strong>en</strong> <strong>en</strong> verwerkt; hoe er is waarg<strong>en</strong>om<strong>en</strong>; of er sprake is geweest van controles <strong>en</strong> zo ja<br />

welke dan; of er ge<strong>en</strong> vreemde constructies zijn gebruikt, bijvoorbeeld door veld<strong>en</strong> in e<strong>en</strong><br />

bestand te b<strong>en</strong>utt<strong>en</strong> voor doel<strong>en</strong> waarvoor ze niet zijn opgezet; hoe moet de kwaliteit van de<br />

data, <strong>en</strong> dan vooral van de koppelvariabel<strong>en</strong>, word<strong>en</strong> ingeschat. K<strong>en</strong>nis over dit soort zak<strong>en</strong><br />

kan in e<strong>en</strong> latere fase van het koppelproces heel veel werk schel<strong>en</strong>. Het ontwikkel<strong>en</strong> van deze<br />

b<strong>en</strong>odigde k<strong>en</strong>nis blijkt in de praktijk zeer arbeidsint<strong>en</strong>sief te zijn. Leg de opgedane k<strong>en</strong>nis dan<br />

ook vast. Dat is vooral van belang als er sprake is van veel mobiliteit bij medewerkers;<br />

4. Het bepal<strong>en</strong> van de te gebruik<strong>en</strong> software <strong>en</strong> opslag van de (tuss<strong>en</strong>)resultat<strong>en</strong>. Binn<strong>en</strong> het <strong>CBS</strong><br />

wordt als koppelprogrammatuur gebruik gemaakt van TRILLIUM, eig<strong>en</strong> maatwerk <strong>en</strong><br />

pakkett<strong>en</strong> zoals MS Access <strong>en</strong> SPSS. De vraag is welke software het beste past bij het<br />

specifieke koppelprobleem. Voor de opslag van de (tuss<strong>en</strong>)resultat<strong>en</strong> moet gekek<strong>en</strong> word<strong>en</strong><br />

welke rustpunt<strong>en</strong> kunn<strong>en</strong> word<strong>en</strong> b<strong>en</strong>ut: zijn lokale rustpunt<strong>en</strong> beschikbaar of moet<strong>en</strong> die<br />

word<strong>en</strong> ontwikkeld, of kunn<strong>en</strong> de (tuss<strong>en</strong>)resultat<strong>en</strong> in het Data Service C<strong>en</strong>ter (DSC), voor<br />

algeme<strong>en</strong> gebruik door ander<strong>en</strong>, word<strong>en</strong> opgeslag<strong>en</strong>?<br />

18

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!