18.01.2013 Views

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

niet zozeer om de mate waarin strings van elkaar verschill<strong>en</strong>, maar om de mate waarin de<br />

betek<strong>en</strong>iss<strong>en</strong> van de strings verschill<strong>en</strong> van elkaar. Dit is bijvoorbeeld het geval bij beroep<strong>en</strong>. De<br />

woord<strong>en</strong> (begripp<strong>en</strong>) ‘leraar’ <strong>en</strong> ‘doc<strong>en</strong>t’ verschill<strong>en</strong> behoorlijk van elkaar als m<strong>en</strong> naar de letters<br />

kijkt die erin voorkom<strong>en</strong>, maar qua betek<strong>en</strong>is ligg<strong>en</strong> ze dicht bij elkaar, of kunn<strong>en</strong> zelfs als gelijk<br />

word<strong>en</strong> beschouwd. Het gaat om e<strong>en</strong> ander afstandsbegrip dan het hiervoor besprok<strong>en</strong><br />

afstandsbegrip. Het gaat nu om de betek<strong>en</strong>is of semantiek geassocieerd met de strings opgevat als<br />

woord<strong>en</strong> of begripp<strong>en</strong>. E<strong>en</strong>zelfde verschil krijg<strong>en</strong> we als we niet op de schrijfwijze van strings<br />

lett<strong>en</strong>, maar op de uitspraak. Nam<strong>en</strong> als ‘Taylor’ <strong>en</strong> ‘Teler’ ligg<strong>en</strong> fonetisch gezi<strong>en</strong> dicht bij elkaar.<br />

In beide gevall<strong>en</strong> met<strong>en</strong> we niet de afstand van twee strings s,t met behulp van e<strong>en</strong> metriek d, dus<br />

d ( , ts ) , maar van D ( f ( s),<br />

( tf )) , waar f : S → T e<strong>en</strong> afbeelding is van de verzameling S van<br />

strings naar e<strong>en</strong> ruimte T van betek<strong>en</strong>iss<strong>en</strong>, of klank<strong>en</strong> etc. met D e<strong>en</strong> metriek op T.<br />

E<strong>en</strong> metriek is e<strong>en</strong> voorbeeld van e<strong>en</strong> functie die gebruikt kan word<strong>en</strong> om koppelgewicht<strong>en</strong> uit te<br />

rek<strong>en</strong><strong>en</strong>. Deze koppelgewicht<strong>en</strong> kunn<strong>en</strong> gebruikt word<strong>en</strong> om de sterkte van e<strong>en</strong> kandidaatkoppeling<br />

tot uitdrukking te br<strong>en</strong>g<strong>en</strong>. In de praktijk hoort hier nog bij dat m<strong>en</strong> met cut-off-waard<strong>en</strong><br />

moet werk<strong>en</strong>: koppeling<strong>en</strong> die te zwak zijn in term<strong>en</strong> van het bijbehor<strong>en</strong>de koppelgewicht word<strong>en</strong><br />

beschouwd als zijnde ge<strong>en</strong> koppelkandidat<strong>en</strong>. Het is de kunst om dergelijke cut-off-waard<strong>en</strong> goed<br />

in te stell<strong>en</strong>: niet zodanig dat m<strong>en</strong> te veel irrelevante matches mee neemt, maar wel zodanig dat de<br />

correcte matches niet gemist word<strong>en</strong>. In de praktijk vergt dit experim<strong>en</strong>ter<strong>en</strong> met diverse<br />

instelling<strong>en</strong> van de cut-off-waard<strong>en</strong>.<br />

Andere mogelijkhed<strong>en</strong> om tot koppelgewicht<strong>en</strong> te kom<strong>en</strong> dan met behulp van metriek<strong>en</strong> word<strong>en</strong> in<br />

paragraaf 7.3.1 besprok<strong>en</strong>. Alle overweging<strong>en</strong> om koppelgewicht<strong>en</strong> te gebruik<strong>en</strong> di<strong>en</strong><strong>en</strong> te zijn<br />

ingegev<strong>en</strong> door de process<strong>en</strong> of mechanism<strong>en</strong> die tot verschill<strong>en</strong> in de data aanleiding hebb<strong>en</strong><br />

gev<strong>en</strong>, of zoud<strong>en</strong> kunn<strong>en</strong> gev<strong>en</strong>. Dat kunn<strong>en</strong> verschrijving<strong>en</strong> zijn (‘Jans<strong>en</strong>’ in plaats van ‘Janss<strong>en</strong>’,<br />

of het gebruik van alternatieve aanduiding<strong>en</strong> als die vrijheid bestaat (bij adress<strong>en</strong>: ‘Dorpsstr.’ in<br />

plaats van ‘Dorpsstraat’; bij beroep<strong>en</strong>: ‘doc<strong>en</strong>t’, ‘leerkracht’, ‘onderwijzer’, ‘leraar’ duid<strong>en</strong><br />

allemaal vergelijkbare functies aan in het onderwijs). M<strong>en</strong> di<strong>en</strong>t daarom e<strong>en</strong> grondige k<strong>en</strong>nis te<br />

hebb<strong>en</strong> over de wijze waarop de te koppel<strong>en</strong> bestand<strong>en</strong> zijn sam<strong>en</strong>gesteld. Daarnaast kan het zijn<br />

dat niet precies dezelfde koppelvariabel<strong>en</strong> word<strong>en</strong> gebruikt in beide bestand<strong>en</strong>, of dat de scores niet<br />

betrekking hebb<strong>en</strong> op hetzelfde mom<strong>en</strong>t in de tijd. Hierdoor kunn<strong>en</strong> k<strong>en</strong>merk<strong>en</strong> van e<strong>en</strong> <strong>en</strong>titeit<br />

(individu, bedrijf, etc.) veranderd zijn.<br />

7.3 Uitgebreide beschrijving<br />

7.3.1 Berek<strong>en</strong>ing van koppelgewicht<strong>en</strong><br />

Er zijn verschill<strong>en</strong>de manier<strong>en</strong> om koppelgewicht<strong>en</strong> te bepal<strong>en</strong> die gebruikt kunn<strong>en</strong> word<strong>en</strong> in e<strong>en</strong><br />

koppelprobleem. E<strong>en</strong> aantal van die manier<strong>en</strong> besprek<strong>en</strong> we hier. De opsomming is niet uitputt<strong>en</strong>d,<br />

maar geeft wel e<strong>en</strong> aantal belangrijke voorbeeld<strong>en</strong>. Deze koppelgewicht<strong>en</strong> word<strong>en</strong> gebruikt bij het<br />

koppel<strong>en</strong>, als de informatie over de ‘koppelkandidatuur’ van twee records niet tweewaardig wordt<br />

weergegev<strong>en</strong> (‘wel’, ‘niet’ koppelkandidaat) maar met meer nuance. De mate waarin twee records<br />

bij elkaar pass<strong>en</strong> kan in e<strong>en</strong> koppelgewicht tot uitdrukking word<strong>en</strong> gebracht.<br />

In de bespreking in de onderstaande paragraf<strong>en</strong> beschouw<strong>en</strong> we steeds twee bestand<strong>en</strong>, A <strong>en</strong> B, met<br />

records, waarvoor er geme<strong>en</strong>schappelijke koppelvariabel<strong>en</strong> n v v 1,...,<br />

bestaan die sam<strong>en</strong> de<br />

koppelsleutel vorm<strong>en</strong>, op basis waarvan de records in beide bestand<strong>en</strong> gekoppeld word<strong>en</strong>.<br />

50

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!