Paper - Hogeschool Gent
Paper - Hogeschool Gent
Paper - Hogeschool Gent
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Hoofdstuk 6<br />
Conclusie<br />
Tijdens het onderzoek werden goede resultaten genoteerd voor de classificatie van tekst-<br />
documenten door een gesuperviseerd leeralgoritme. De verschillende componenten, feature<br />
selector en text classifier, werden uitvoerig belicht. Op basis van de resultaten uit eigen<br />
tests werd beslist dat een support vector machine als text classifier gecombineerd met<br />
mutual information als feature selector de combinatie is die de beste cijfers geeft.<br />
Een ongelijke klassenverdeling vormt een probleem voor het efficiënt classificeren van tekst-<br />
documenten. Dit probleem kan het best aangepakt worden door het onevenwichtig in de<br />
data op één of andere manier door te voeren in de trainingsdata van de text classifier. Zo-<br />
wel onevenwichtig trainen op documenten als het onevenwichtig trainen op features levert<br />
significante verbeteringen. In het beste geval wordt een F1 measure van 91,6% bereikt.<br />
Zowel precision als recall liggen daarbij boven de 90%.<br />
Het opnemen van clusteringsfeatures tijdens de classificatie levert slechts in een zeer beperkt<br />
gebied een verbetering. Dit gebied wordt afgebakend door de hoeveelheid gebruikte features<br />
om de klassen te definiëren. De extra informatie die uit de clustering kan gehaald worden, is<br />
evenwel niet miniem en nodigt uit tot verder onderzoek. Met de juiste trainingsdocumenten<br />
moet de classifier in staat zijn om niet enkel seksueel misbruik, maar bijvoorbeeld ook<br />
gevallen van depressie, pestgedrag of spam te detecteren.<br />
55