Paper - Hogeschool Gent
Paper - Hogeschool Gent
Paper - Hogeschool Gent
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Hoofdstuk 5. Resultaten 44<br />
5.4 Optimalisatie<br />
Nu de beste combinatie van text classifier en feature selector vastgelegd is op SVM+MI<br />
is het tijd om te kijken naar de resultaten bij een realistische test. De gegevens van de<br />
realistische dataset staan beschreven in hoofdstuk 3.2.3 (p. 29).<br />
test min P min R min F1 max P max R max F1<br />
evenwichtig 93,8% 82,0% 88,6% 99,0% 96,0% 97,5%<br />
realistisch 14,2% 78,0% 24,2% 39,4% 92,7% 55,1%<br />
Tabel 5.2: Resultaten voor verschillende tests bij SVM met MI.<br />
De minimale en maximale recall dalen respectievelijk met 4,0% en 3,3%. Deze dalingen<br />
verdwijnen echter in het niets in vergelijking met de dalingen van 79,6% en 49,6% bij<br />
de minimale en maximale precision. Het gevolg is dat de F1 measure eveneens stevig<br />
omlaag gaat. Wat volgt zijn twee vormen van optimalisatie, elke met de bedoeling om de<br />
resultaten bij de realistische test terug op te krikken. Alle volgende tabellen bevatten dan<br />
ook uitsluitend resultaten op de realistische dataset.<br />
Beïnvloeden van de parameterverhoudingen<br />
Zoals blijkt uit de realistische testset is de klassenverdeling zeer onevenwichtig. Dit one-<br />
venwicht wordt ook wel data skew of “datascheefheid” genoemd (Tang & Liu (2005)). Uit<br />
de realistische dataset kan besloten worden dat de hoeveelheid seksueel ongepast materiaal<br />
slechts enkele procenten bedraag van de totale hoeveelheid data. Als we het misbruik-<br />
percentage uit de realistische dataset afronden, wordt een misbruikpercentage van 2% of<br />
een verhouding van 1/50 bekomen. Het doel van onevenwichtig trainen is nu om diezelfde<br />
verhouding ook door te voeren in de trainingsdata. Het immers logisch dat een realistische<br />
trainingsset beter zal presteren op een realistische testset.<br />
Het onevenwicht in de trainingsdata kan op twee manieren bekomen worden.<br />
1. Onevenwichtig trainen op het aantal documenten.<br />
2. Onevenwichtig trainen op het aantal features.<br />
Beide zijn sterk met elkaar verwant. Het aantal documenten voor een klasse opdrijven,<br />
betekent immers dat het aantal beschikbare features voor die klasse mee omhoog gaat. In<br />
de eerste methode zit dus zeker een deel van het effect van de tweede methode vervat.