Paper - Hogeschool Gent
Paper - Hogeschool Gent
Paper - Hogeschool Gent
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Hoofdstuk 2. Theoretische achtergrond 21<br />
Figuur 2.3 is een grafische voorstelling van het uitgewerkte voorbeeld. Merk op dat de<br />
centroidvector, in tegenstelling tot de documentvectoren, niet genormaliseerd wordt.<br />
beta<br />
(0.447,0.894)<br />
(0.798,0.403)<br />
(1,2)<br />
(0.948,0.316)<br />
(1,0)<br />
(2,0)<br />
Figuur 2.3: Grafische voorstelling van het centroidvoorbeeld.<br />
(3,1)<br />
Nu het begrip centroid verklaard is, kan RSS uitgelegd worden als de som van de ge-<br />
kwadrateerde verschillen tussen elke documentvector en de centroid van zijn cluster. In<br />
formulevorm:<br />
RSSk = <br />
|v − µk| 2<br />
RSS =<br />
v∈ωk<br />
K<br />
RSSk<br />
k=1<br />
alfa<br />
(2.23)<br />
(2.24)<br />
Tijdens de uitvoering van het K-means algoritme wordt geprobeerd om deze objectieffunctie<br />
te minimaliseren. Het algoritme gaat nu als volgt (met regelnummers uit algoritme 4<br />
(p. 22)):<br />
1. Bepaald het gewenste aantal clusters K.