03.05.2013 Views

Paper - Hogeschool Gent

Paper - Hogeschool Gent

Paper - Hogeschool Gent

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Hoofdstuk 2. Theoretische achtergrond 15<br />

Dit document kan uitgezet worden in de tweedimensionale “alfa beta”-ruimte als de vector<br />

v1 = (2, 3), zie figuur 2.1. Hierin zijn de coörinaten respectievelijk de frequenties van de<br />

woorden alfa en beta.<br />

beta<br />

3<br />

2<br />

1<br />

0<br />

(2,3)<br />

1 2 3 4<br />

Figuur 2.1: De vectorrepresentatie v1 van het voorbeeld.<br />

Omdat een document natuurlijk meer dan twee verschillende woorden kan bevatten, zijn<br />

de vectoren niet tweedimensionaal maar multidimensionaal. Er zijn evenveel dimensies als<br />

er verschillende woorden in de volledige dataset staan.<br />

De vectoren kunnen op verschillende manier gerepresenteerd worden. De eerste manier<br />

kwam reeds aan bod als (2, 3). Wanneer het aantal woorden toeneemt, wordt deze re-<br />

presentatie erg lang en bevat ze bovendien veel nullen. De grote overdaad aan nullen<br />

kan weggewerkt worden door over te gaan op ijle vectoren. Bij ijle vectoren bestaan de<br />

coördinaten uit een ID van de dimensie en de waarde. Omdat de waarden vergezeld zijn<br />

van een ID is het niet meer nodig om alle ID’s op te nemen en kunnen de nulwaarden<br />

weggelaten worden. Een uitbreiding van het vorige voorbeeld naar een collectie met vijf<br />

documenten levert het overzicht in tabel 2.2 (p. 16).<br />

Merk op dat hier gekozen werd voor letters als ID’s van de coördinaten. Voor de praktische<br />

implementatie werden woorden niet afgebeeld op letters maar op getallen.<br />

Uit Manning et al. (2008) kan geleerd worden dat classificatie in vectorruimten beter pres-<br />

teert wanneer gewerkt wordt met genormaliseerde TF*IDF vectoren (zie volgende alinea)<br />

in plaats van vectoren met frequenties. In een normaliseerde vector wordt de waarde in<br />

elke dimensie gedeeld door de lengte van de vector. De nieuw bekomen vector heeft dan<br />

alfa

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!