Paper - Hogeschool Gent
Paper - Hogeschool Gent
Paper - Hogeschool Gent
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Hoofdstuk 2<br />
Theoretische achtergrond<br />
2.1 Inleiding<br />
Het verwezenlijken van een lerend systeem voor tekstclassificatie vergt twee grote com-<br />
ponenten. Elke component heeft verschillende parameters. Het meest optimale resultaat<br />
wordt bereikt wanneer elke component geoptimaliseerd is met de best mogelijke parame-<br />
ters.<br />
Een eerste component selecteert de termen in een document. Om te beginnen dient het<br />
begrip ‘term’ zo goed mogelijk beschreven te worden. Op welke tekens worden documenten<br />
gesplitst, wat gebeurt er met cijfers, enzovoort. Hoewel dit op het eerste zicht een eenvou-<br />
dige taak lijkt, zijn er enkele concrete problemen die moeten aangepakt worden. Hierbij<br />
mag niet nagelaten worden te vermelden dat deze problemen taalspecifiek zijn. Daar de<br />
verstrekte data hoofdzakelijk in het Nederlands is, worden de problemen zo veel moge-<br />
lijk verduidelijkt met Nederlandse voorbeelden. Meer hierover is terug te vinden in het<br />
hoofdstuk rond featurebewerkingen (hoofdstuk 2.2.4, p. 6). Daarna moet bepaald worden<br />
welke van die termen gebruikt worden om het document te klasseren. Dit is de taak van<br />
de feature selector.<br />
De tweede grote component is de text classifier zelf. Deze gebruikt de woorden die geselec-<br />
teerd werden door de feature selector om te bepalen in welke klasse een document wordt<br />
ingedeeld.<br />
In deze studie worden drie text classifiers geëvalueerd, telkens in combinatie met een feature<br />
selector. De text classifiers zijn multinomial naive Bayes (hoofdstuk 2.3.1, p. 10), binomial<br />
naive Bayes (hoofdstuk 2.3.2, p. 12) en support vector machines (hoofdstuk 2.3.3, p. 14).<br />
3