Paper - Hogeschool Gent
Paper - Hogeschool Gent
Paper - Hogeschool Gent
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Hoofdstuk 2. Theoretische achtergrond 17<br />
Wanneer elk document uitgezet is in de vectorruimte met behulp van zijn genormaliseerde<br />
TF*IDF vector poogt de SVM classifier om een hypervlak te vinden in de multidimensionale<br />
vectorruimte die de vectoren van de positieve en de negatieve documenten zo goed mogelijk<br />
scheidt. Dit hypervlak -ook wel beslissingsvlak- genoemd, is optimaal wanneer het zo ver<br />
mogelijk verwijderd is van de data. Dit betekent dat de positie van het hypervlak -en<br />
daarmee de beslissingsfunctie van de classifier- volledig gedefinieerd is door een klein aantal<br />
vectoren uit de dataset. Deze vectoren worden de steunvectoren genoemd en verklaren de<br />
naam van de classifier. De afstand van het hypervlak tot de steunvectoren noemt men de<br />
marge.<br />
Een eenvoudige dataset met twee dimensies geeft een classificatieprobleem zoals in onder-<br />
staande figuur.<br />
Marge<br />
Hypervlak<br />
Steunvectoren<br />
Figuur 2.2: Een tweedimensionaal classificatieprobleem met SVM oplossing.