Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Koppelen 910Leon Willenborg en Nico Heerschap - CBS
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
niet zozeer om de mate waarin strings van elkaar verschill<strong>en</strong>, maar om de mate waarin de<br />
betek<strong>en</strong>iss<strong>en</strong> van de strings verschill<strong>en</strong> van elkaar. Dit is bijvoorbeeld het geval bij beroep<strong>en</strong>. De<br />
woord<strong>en</strong> (begripp<strong>en</strong>) ‘leraar’ <strong>en</strong> ‘doc<strong>en</strong>t’ verschill<strong>en</strong> behoorlijk van elkaar als m<strong>en</strong> naar de letters<br />
kijkt die erin voorkom<strong>en</strong>, maar qua betek<strong>en</strong>is ligg<strong>en</strong> ze dicht bij elkaar, of kunn<strong>en</strong> zelfs als gelijk<br />
word<strong>en</strong> beschouwd. Het gaat om e<strong>en</strong> ander afstandsbegrip dan het hiervoor besprok<strong>en</strong><br />
afstandsbegrip. Het gaat nu om de betek<strong>en</strong>is of semantiek geassocieerd met de strings opgevat als<br />
woord<strong>en</strong> of begripp<strong>en</strong>. E<strong>en</strong>zelfde verschil krijg<strong>en</strong> we als we niet op de schrijfwijze van strings<br />
lett<strong>en</strong>, maar op de uitspraak. Nam<strong>en</strong> als ‘Taylor’ <strong>en</strong> ‘Teler’ ligg<strong>en</strong> fonetisch gezi<strong>en</strong> dicht bij elkaar.<br />
In beide gevall<strong>en</strong> met<strong>en</strong> we niet de afstand van twee strings s,t met behulp van e<strong>en</strong> metriek d, dus<br />
d ( , ts ) , maar van D ( f ( s),<br />
( tf )) , waar f : S → T e<strong>en</strong> afbeelding is van de verzameling S van<br />
strings naar e<strong>en</strong> ruimte T van betek<strong>en</strong>iss<strong>en</strong>, of klank<strong>en</strong> etc. met D e<strong>en</strong> metriek op T.<br />
E<strong>en</strong> metriek is e<strong>en</strong> voorbeeld van e<strong>en</strong> functie die gebruikt kan word<strong>en</strong> om koppelgewicht<strong>en</strong> uit te<br />
rek<strong>en</strong><strong>en</strong>. Deze koppelgewicht<strong>en</strong> kunn<strong>en</strong> gebruikt word<strong>en</strong> om de sterkte van e<strong>en</strong> kandidaatkoppeling<br />
tot uitdrukking te br<strong>en</strong>g<strong>en</strong>. In de praktijk hoort hier nog bij dat m<strong>en</strong> met cut-off-waard<strong>en</strong><br />
moet werk<strong>en</strong>: koppeling<strong>en</strong> die te zwak zijn in term<strong>en</strong> van het bijbehor<strong>en</strong>de koppelgewicht word<strong>en</strong><br />
beschouwd als zijnde ge<strong>en</strong> koppelkandidat<strong>en</strong>. Het is de kunst om dergelijke cut-off-waard<strong>en</strong> goed<br />
in te stell<strong>en</strong>: niet zodanig dat m<strong>en</strong> te veel irrelevante matches mee neemt, maar wel zodanig dat de<br />
correcte matches niet gemist word<strong>en</strong>. In de praktijk vergt dit experim<strong>en</strong>ter<strong>en</strong> met diverse<br />
instelling<strong>en</strong> van de cut-off-waard<strong>en</strong>.<br />
Andere mogelijkhed<strong>en</strong> om tot koppelgewicht<strong>en</strong> te kom<strong>en</strong> dan met behulp van metriek<strong>en</strong> word<strong>en</strong> in<br />
paragraaf 7.3.1 besprok<strong>en</strong>. Alle overweging<strong>en</strong> om koppelgewicht<strong>en</strong> te gebruik<strong>en</strong> di<strong>en</strong><strong>en</strong> te zijn<br />
ingegev<strong>en</strong> door de process<strong>en</strong> of mechanism<strong>en</strong> die tot verschill<strong>en</strong> in de data aanleiding hebb<strong>en</strong><br />
gev<strong>en</strong>, of zoud<strong>en</strong> kunn<strong>en</strong> gev<strong>en</strong>. Dat kunn<strong>en</strong> verschrijving<strong>en</strong> zijn (‘Jans<strong>en</strong>’ in plaats van ‘Janss<strong>en</strong>’,<br />
of het gebruik van alternatieve aanduiding<strong>en</strong> als die vrijheid bestaat (bij adress<strong>en</strong>: ‘Dorpsstr.’ in<br />
plaats van ‘Dorpsstraat’; bij beroep<strong>en</strong>: ‘doc<strong>en</strong>t’, ‘leerkracht’, ‘onderwijzer’, ‘leraar’ duid<strong>en</strong><br />
allemaal vergelijkbare functies aan in het onderwijs). M<strong>en</strong> di<strong>en</strong>t daarom e<strong>en</strong> grondige k<strong>en</strong>nis te<br />
hebb<strong>en</strong> over de wijze waarop de te koppel<strong>en</strong> bestand<strong>en</strong> zijn sam<strong>en</strong>gesteld. Daarnaast kan het zijn<br />
dat niet precies dezelfde koppelvariabel<strong>en</strong> word<strong>en</strong> gebruikt in beide bestand<strong>en</strong>, of dat de scores niet<br />
betrekking hebb<strong>en</strong> op hetzelfde mom<strong>en</strong>t in de tijd. Hierdoor kunn<strong>en</strong> k<strong>en</strong>merk<strong>en</strong> van e<strong>en</strong> <strong>en</strong>titeit<br />
(individu, bedrijf, etc.) veranderd zijn.<br />
7.3 Uitgebreide beschrijving<br />
7.3.1 Berek<strong>en</strong>ing van koppelgewicht<strong>en</strong><br />
Er zijn verschill<strong>en</strong>de manier<strong>en</strong> om koppelgewicht<strong>en</strong> te bepal<strong>en</strong> die gebruikt kunn<strong>en</strong> word<strong>en</strong> in e<strong>en</strong><br />
koppelprobleem. E<strong>en</strong> aantal van die manier<strong>en</strong> besprek<strong>en</strong> we hier. De opsomming is niet uitputt<strong>en</strong>d,<br />
maar geeft wel e<strong>en</strong> aantal belangrijke voorbeeld<strong>en</strong>. Deze koppelgewicht<strong>en</strong> word<strong>en</strong> gebruikt bij het<br />
koppel<strong>en</strong>, als de informatie over de ‘koppelkandidatuur’ van twee records niet tweewaardig wordt<br />
weergegev<strong>en</strong> (‘wel’, ‘niet’ koppelkandidaat) maar met meer nuance. De mate waarin twee records<br />
bij elkaar pass<strong>en</strong> kan in e<strong>en</strong> koppelgewicht tot uitdrukking word<strong>en</strong> gebracht.<br />
In de bespreking in de onderstaande paragraf<strong>en</strong> beschouw<strong>en</strong> we steeds twee bestand<strong>en</strong>, A <strong>en</strong> B, met<br />
records, waarvoor er geme<strong>en</strong>schappelijke koppelvariabel<strong>en</strong> n v v 1,...,<br />
bestaan die sam<strong>en</strong> de<br />
koppelsleutel vorm<strong>en</strong>, op basis waarvan de records in beide bestand<strong>en</strong> gekoppeld word<strong>en</strong>.<br />
50