03.05.2013 Views

Paper - Hogeschool Gent

Paper - Hogeschool Gent

Paper - Hogeschool Gent

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Hoofdstuk 2<br />

Theoretische achtergrond<br />

2.1 Inleiding<br />

Het verwezenlijken van een lerend systeem voor tekstclassificatie vergt twee grote com-<br />

ponenten. Elke component heeft verschillende parameters. Het meest optimale resultaat<br />

wordt bereikt wanneer elke component geoptimaliseerd is met de best mogelijke parame-<br />

ters.<br />

Een eerste component selecteert de termen in een document. Om te beginnen dient het<br />

begrip ‘term’ zo goed mogelijk beschreven te worden. Op welke tekens worden documenten<br />

gesplitst, wat gebeurt er met cijfers, enzovoort. Hoewel dit op het eerste zicht een eenvou-<br />

dige taak lijkt, zijn er enkele concrete problemen die moeten aangepakt worden. Hierbij<br />

mag niet nagelaten worden te vermelden dat deze problemen taalspecifiek zijn. Daar de<br />

verstrekte data hoofdzakelijk in het Nederlands is, worden de problemen zo veel moge-<br />

lijk verduidelijkt met Nederlandse voorbeelden. Meer hierover is terug te vinden in het<br />

hoofdstuk rond featurebewerkingen (hoofdstuk 2.2.4, p. 6). Daarna moet bepaald worden<br />

welke van die termen gebruikt worden om het document te klasseren. Dit is de taak van<br />

de feature selector.<br />

De tweede grote component is de text classifier zelf. Deze gebruikt de woorden die geselec-<br />

teerd werden door de feature selector om te bepalen in welke klasse een document wordt<br />

ingedeeld.<br />

In deze studie worden drie text classifiers geëvalueerd, telkens in combinatie met een feature<br />

selector. De text classifiers zijn multinomial naive Bayes (hoofdstuk 2.3.1, p. 10), binomial<br />

naive Bayes (hoofdstuk 2.3.2, p. 12) en support vector machines (hoofdstuk 2.3.3, p. 14).<br />

3

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!