18.01.2013 Views

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

Koppelen 910Leon Willenborg en Nico Heerschap - CBS

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

dus het aantal plaats<strong>en</strong> waarop de vector<strong>en</strong> α <strong>en</strong> β verschill<strong>en</strong>de scores hebb<strong>en</strong>. Merk op dat de<br />

Hamming-afstand (in principe) voor alle typ<strong>en</strong> van variabel<strong>en</strong> te definiër<strong>en</strong> is. 5 E<strong>en</strong> voorbeeld: stel<br />

er zijn twee koppelsleutels van 4 alfanumerieke cijfers, respectievelijk “1034” <strong>en</strong> “1135”. De<br />

Hamming-afstand is dan 2, omdat de cijfers verschill<strong>en</strong> op de 2 plekk<strong>en</strong>, namelijk posities 2 <strong>en</strong> 4.<br />

Mat andere woord<strong>en</strong>: hoe kleiner de Hamming-afstand des te groter de vergelijkbaarheid van de<br />

koppelsleutels. De Hamming-afstand is gelijk aan het aantal “fout<strong>en</strong>” dat m<strong>en</strong> in de <strong>en</strong>e<br />

sleutewaarde moet mak<strong>en</strong> om de andere sleutelwaarde te verkrijg<strong>en</strong>.<br />

E<strong>en</strong> andere metriek die we hier expliciet will<strong>en</strong> noem<strong>en</strong> is die van Lev<strong>en</strong>shtein, g<strong>en</strong>oteerd als d L .<br />

Deze werkt op strings <strong>en</strong> telt het aantal elem<strong>en</strong>taire operaties, zoals het weglat<strong>en</strong>, het verander<strong>en</strong> of<br />

juist het toevoeg<strong>en</strong> van karakters, nodig om de <strong>en</strong>e string in de andere te transformer<strong>en</strong>. In<br />

teg<strong>en</strong>stelling tot de Hamming-afstand, die e<strong>en</strong> universele metriek kan word<strong>en</strong> g<strong>en</strong>oemd, in de zin<br />

van: toepasbaar voor ieder type variabele, is de Lev<strong>en</strong>shtein-afstand e<strong>en</strong> metriek die specifiek voor<br />

het vergelijk<strong>en</strong> van strings is ontworp<strong>en</strong>. Dit soort metriek<strong>en</strong>, specifiek toegesned<strong>en</strong> op e<strong>en</strong> bepaald<br />

type variabele, zijn er meer, zoals in paragraaf 7.3.1 wordt getoond. Voorbeeld: de Lev<strong>en</strong>shteinafstand<br />

tuss<strong>en</strong> de woord<strong>en</strong> “water” <strong>en</strong> “wet<strong>en</strong>d” is 3: 1) water wordt weter (a vervang<strong>en</strong> door e), 2)<br />

weter wordt wet<strong>en</strong> (r vervang<strong>en</strong> door n) <strong>en</strong> 3) wet<strong>en</strong> wordt wet<strong>en</strong>d (d wordt toegevoegd). Het<br />

voordeel van de Lev<strong>en</strong>shtein-afstand, t<strong>en</strong> opzichte van de Hamming-afstand, is dat het<br />

sleutelwaard<strong>en</strong> van verschill<strong>en</strong>de l<strong>en</strong>gte kan verwerk<strong>en</strong>.<br />

Het volg<strong>en</strong>de is e<strong>en</strong> speciaal geval van e<strong>en</strong> metriek voor e<strong>en</strong> koppelsleutel bestaande uit meerdere<br />

variabel<strong>en</strong>. We zoud<strong>en</strong> bijvoorbeeld e<strong>en</strong> koppelsleutel kunn<strong>en</strong> hebb<strong>en</strong> die bestaat uit n variabel<strong>en</strong><br />

(alle secondaire sleutelvariabel<strong>en</strong>), allemaal van verschill<strong>en</strong>d type, <strong>en</strong> waarbij de i e variabele e<strong>en</strong><br />

metriek di heeft. We kunn<strong>en</strong> voor de hele koppelsleutel e<strong>en</strong> metriek d definiër<strong>en</strong> door de metriek<strong>en</strong><br />

van de afzonderlijke variabel<strong>en</strong> van de sleutel gewog<strong>en</strong> op te tell<strong>en</strong>, waarbij voor ieder gewicht<br />

w geldt w > 0 , i = 1,...,<br />

n . We krijg<strong>en</strong> dan = w d . Overig<strong>en</strong>s zijn de gewicht<strong>en</strong> nodig om<br />

i<br />

i<br />

de afzonderlijke deelmetriek<strong>en</strong> op elkaar af te stemm<strong>en</strong>. Hierbij wordt gebruik gemaakt van het feit<br />

dat als δ e<strong>en</strong> metriek is aδ dat ook is voor iedere a > 0 . Door de gewicht<strong>en</strong> te gebruik<strong>en</strong> kunn<strong>en</strong><br />

we metriek<strong>en</strong> di op elkaar afstemm<strong>en</strong>. Overig<strong>en</strong>s is het niet per se nodig om één metriek te<br />

gebruik<strong>en</strong> als we e<strong>en</strong> koppelsleutel hebb<strong>en</strong> bestaande uit meerdere variabel<strong>en</strong>. We zoud<strong>en</strong> ook<br />

kunn<strong>en</strong> werk<strong>en</strong> met de metriek<strong>en</strong> voor de afzonderlijke variabel<strong>en</strong>.<br />

Soms is e<strong>en</strong> indicatorvector nodig, die aangeeft op welke plaats<strong>en</strong> α <strong>en</strong> β verschill<strong>en</strong>. δ zij e<strong>en</strong> 0-<br />

1-indicator functie, die als volgt is gedefinieerd: δ ( a,<br />

b)<br />

= 0 als a = b <strong>en</strong> δ ( a,<br />

b)<br />

= 1als<br />

a ≠ b ,<br />

voor scores a, b voor e<strong>en</strong> (koppel)variabele. Voor score vectors α, β zij<br />

∆ β<br />

n<br />

( α , β ) = ( δ ( α1,<br />

β1),...,<br />

δ ( α n , n )) ∈{<br />

0,<br />

1}<br />

.<br />

5 Wat overig<strong>en</strong>s niet wil zegg<strong>en</strong> dat het daarmee ook altijd e<strong>en</strong> te verkiez<strong>en</strong> metriek zou zijn. Voor e<strong>en</strong><br />

alfanumerieke variabele bijvoorbeeld, zoals famili<strong>en</strong>aam, zal m<strong>en</strong> eerder e<strong>en</strong> metriek kiez<strong>en</strong> die gradueel<br />

onderscheid maakt tuss<strong>en</strong> verschill<strong>en</strong>de nam<strong>en</strong>. Zo wijkt ‘Jans<strong>en</strong>’ slechts één letter af van ‘Janss<strong>en</strong>’, maar<br />

van ‘Boog’ zes letters. De Hamming-afstand registreert slechts dat beide nam<strong>en</strong> verschill<strong>en</strong>d zijn.<br />

26<br />

i<br />

i i d

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!