Paper - Hogeschool Gent
Paper - Hogeschool Gent
Paper - Hogeschool Gent
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Hoofdstuk 2. Theoretische achtergrond 15<br />
Dit document kan uitgezet worden in de tweedimensionale “alfa beta”-ruimte als de vector<br />
v1 = (2, 3), zie figuur 2.1. Hierin zijn de coörinaten respectievelijk de frequenties van de<br />
woorden alfa en beta.<br />
beta<br />
3<br />
2<br />
1<br />
0<br />
(2,3)<br />
1 2 3 4<br />
Figuur 2.1: De vectorrepresentatie v1 van het voorbeeld.<br />
Omdat een document natuurlijk meer dan twee verschillende woorden kan bevatten, zijn<br />
de vectoren niet tweedimensionaal maar multidimensionaal. Er zijn evenveel dimensies als<br />
er verschillende woorden in de volledige dataset staan.<br />
De vectoren kunnen op verschillende manier gerepresenteerd worden. De eerste manier<br />
kwam reeds aan bod als (2, 3). Wanneer het aantal woorden toeneemt, wordt deze re-<br />
presentatie erg lang en bevat ze bovendien veel nullen. De grote overdaad aan nullen<br />
kan weggewerkt worden door over te gaan op ijle vectoren. Bij ijle vectoren bestaan de<br />
coördinaten uit een ID van de dimensie en de waarde. Omdat de waarden vergezeld zijn<br />
van een ID is het niet meer nodig om alle ID’s op te nemen en kunnen de nulwaarden<br />
weggelaten worden. Een uitbreiding van het vorige voorbeeld naar een collectie met vijf<br />
documenten levert het overzicht in tabel 2.2 (p. 16).<br />
Merk op dat hier gekozen werd voor letters als ID’s van de coördinaten. Voor de praktische<br />
implementatie werden woorden niet afgebeeld op letters maar op getallen.<br />
Uit Manning et al. (2008) kan geleerd worden dat classificatie in vectorruimten beter pres-<br />
teert wanneer gewerkt wordt met genormaliseerde TF*IDF vectoren (zie volgende alinea)<br />
in plaats van vectoren met frequenties. In een normaliseerde vector wordt de waarde in<br />
elke dimensie gedeeld door de lengte van de vector. De nieuw bekomen vector heeft dan<br />
alfa