03.05.2013 Views

Paper - Hogeschool Gent

Paper - Hogeschool Gent

Paper - Hogeschool Gent

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Hoofdstuk 5. Resultaten 44<br />

5.4 Optimalisatie<br />

Nu de beste combinatie van text classifier en feature selector vastgelegd is op SVM+MI<br />

is het tijd om te kijken naar de resultaten bij een realistische test. De gegevens van de<br />

realistische dataset staan beschreven in hoofdstuk 3.2.3 (p. 29).<br />

test min P min R min F1 max P max R max F1<br />

evenwichtig 93,8% 82,0% 88,6% 99,0% 96,0% 97,5%<br />

realistisch 14,2% 78,0% 24,2% 39,4% 92,7% 55,1%<br />

Tabel 5.2: Resultaten voor verschillende tests bij SVM met MI.<br />

De minimale en maximale recall dalen respectievelijk met 4,0% en 3,3%. Deze dalingen<br />

verdwijnen echter in het niets in vergelijking met de dalingen van 79,6% en 49,6% bij<br />

de minimale en maximale precision. Het gevolg is dat de F1 measure eveneens stevig<br />

omlaag gaat. Wat volgt zijn twee vormen van optimalisatie, elke met de bedoeling om de<br />

resultaten bij de realistische test terug op te krikken. Alle volgende tabellen bevatten dan<br />

ook uitsluitend resultaten op de realistische dataset.<br />

Beïnvloeden van de parameterverhoudingen<br />

Zoals blijkt uit de realistische testset is de klassenverdeling zeer onevenwichtig. Dit one-<br />

venwicht wordt ook wel data skew of “datascheefheid” genoemd (Tang & Liu (2005)). Uit<br />

de realistische dataset kan besloten worden dat de hoeveelheid seksueel ongepast materiaal<br />

slechts enkele procenten bedraag van de totale hoeveelheid data. Als we het misbruik-<br />

percentage uit de realistische dataset afronden, wordt een misbruikpercentage van 2% of<br />

een verhouding van 1/50 bekomen. Het doel van onevenwichtig trainen is nu om diezelfde<br />

verhouding ook door te voeren in de trainingsdata. Het immers logisch dat een realistische<br />

trainingsset beter zal presteren op een realistische testset.<br />

Het onevenwicht in de trainingsdata kan op twee manieren bekomen worden.<br />

1. Onevenwichtig trainen op het aantal documenten.<br />

2. Onevenwichtig trainen op het aantal features.<br />

Beide zijn sterk met elkaar verwant. Het aantal documenten voor een klasse opdrijven,<br />

betekent immers dat het aantal beschikbare features voor die klasse mee omhoog gaat. In<br />

de eerste methode zit dus zeker een deel van het effect van de tweede methode vervat.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!