03.05.2013 Views

Paper - Hogeschool Gent

Paper - Hogeschool Gent

Paper - Hogeschool Gent

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Hoofdstuk 5. Resultaten 45<br />

Een onevenwicht in documenten kan op twee manieren bereikt worden. De beschikbare<br />

evenwichtige dataset van 500 positieve en 500 negatieve documenten kan afgebouwd wor-<br />

den naar bijvoorbeeld 100 positieve en 500 negatieve. De 500 moeizaam verkregen positieve<br />

documenten afbouwen is echter geen goed idee. 500 documenten is gezien de grote data-<br />

hoeveelheid reeds miniem en deze dataset verder afbouwen zou zorgen voor een slechtere<br />

definiëring van de positieve klasse.<br />

Het alternatief is om de verzameling negatieve trainingsdocumenten flink uit te breiden.<br />

Maar om ook maar enigszins in de buurt te komen van de verhouding 1/50, gaat het hier<br />

over duizenden nieuwe negatieve documenten die allemaal zouden moeten gecontroleerd<br />

worden. Deze controle zou echter flink wat tijd in beslag nemen. Daarom is geopteerd om<br />

random documenten te samplen en deze zonder controle toe te voegen aan de negatieve<br />

trainingsset. Precies omdat de klassenverhouding zo groot is, mag de controle overgeslagen<br />

worden. Er kan immers met grote waarschijnlijkheid gezegd worden dat 98% van alle<br />

documenten die toegevoegd worden aan de negatieve trainingsset ook effectief negatief<br />

zijn.<br />

Om de verhouding tussen features en documenten te tonen zijn enkele nieuwe kolommen<br />

gedefinieerd in tabel 5.3 (p. 46). Hieronder volgt een verduidelijking van de kolomtitels:<br />

NoF+ = number of features positive, het aantal features in de positieve trainingsset<br />

NoF- = number of features negative, het aantal features in de negatieve trainingsset<br />

NoF ratio = NoF+ / NoF-<br />

TrS+ = training set positive, het aantal documenten in de positieve trainingsset<br />

TrS- = training set negative, het aantal documenten in de negatieve trainingsset<br />

TrS ratio = TrS+ / NoF-<br />

Voor de realistische testset is deze laatste verhouding dus ongeveer gelijk aan 1/50 = 0, 02.<br />

Voor het gemak van de besprekingen zijn de testen genummerd. Deze nummering staat<br />

links van tabel 5.3 (p. 46) en komt terug in figuur 5.7 en 5.8 (p. 47). Merk op dat de<br />

horizontale as van de figuren terug het percentage gebruikte features toont. Test 1 is de<br />

baseline en komt overeen met de tweede rij uit tabel 5.2 (p. 44).

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!