03.05.2013 Views

Paper - Hogeschool Gent

Paper - Hogeschool Gent

Paper - Hogeschool Gent

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Hoofdstuk 6<br />

Conclusie<br />

Tijdens het onderzoek werden goede resultaten genoteerd voor de classificatie van tekst-<br />

documenten door een gesuperviseerd leeralgoritme. De verschillende componenten, feature<br />

selector en text classifier, werden uitvoerig belicht. Op basis van de resultaten uit eigen<br />

tests werd beslist dat een support vector machine als text classifier gecombineerd met<br />

mutual information als feature selector de combinatie is die de beste cijfers geeft.<br />

Een ongelijke klassenverdeling vormt een probleem voor het efficiënt classificeren van tekst-<br />

documenten. Dit probleem kan het best aangepakt worden door het onevenwichtig in de<br />

data op één of andere manier door te voeren in de trainingsdata van de text classifier. Zo-<br />

wel onevenwichtig trainen op documenten als het onevenwichtig trainen op features levert<br />

significante verbeteringen. In het beste geval wordt een F1 measure van 91,6% bereikt.<br />

Zowel precision als recall liggen daarbij boven de 90%.<br />

Het opnemen van clusteringsfeatures tijdens de classificatie levert slechts in een zeer beperkt<br />

gebied een verbetering. Dit gebied wordt afgebakend door de hoeveelheid gebruikte features<br />

om de klassen te definiëren. De extra informatie die uit de clustering kan gehaald worden, is<br />

evenwel niet miniem en nodigt uit tot verder onderzoek. Met de juiste trainingsdocumenten<br />

moet de classifier in staat zijn om niet enkel seksueel misbruik, maar bijvoorbeeld ook<br />

gevallen van depressie, pestgedrag of spam te detecteren.<br />

55

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!