Paper - Hogeschool Gent
Paper - Hogeschool Gent
Paper - Hogeschool Gent
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Hoofdstuk 5. Resultaten 45<br />
Een onevenwicht in documenten kan op twee manieren bereikt worden. De beschikbare<br />
evenwichtige dataset van 500 positieve en 500 negatieve documenten kan afgebouwd wor-<br />
den naar bijvoorbeeld 100 positieve en 500 negatieve. De 500 moeizaam verkregen positieve<br />
documenten afbouwen is echter geen goed idee. 500 documenten is gezien de grote data-<br />
hoeveelheid reeds miniem en deze dataset verder afbouwen zou zorgen voor een slechtere<br />
definiëring van de positieve klasse.<br />
Het alternatief is om de verzameling negatieve trainingsdocumenten flink uit te breiden.<br />
Maar om ook maar enigszins in de buurt te komen van de verhouding 1/50, gaat het hier<br />
over duizenden nieuwe negatieve documenten die allemaal zouden moeten gecontroleerd<br />
worden. Deze controle zou echter flink wat tijd in beslag nemen. Daarom is geopteerd om<br />
random documenten te samplen en deze zonder controle toe te voegen aan de negatieve<br />
trainingsset. Precies omdat de klassenverhouding zo groot is, mag de controle overgeslagen<br />
worden. Er kan immers met grote waarschijnlijkheid gezegd worden dat 98% van alle<br />
documenten die toegevoegd worden aan de negatieve trainingsset ook effectief negatief<br />
zijn.<br />
Om de verhouding tussen features en documenten te tonen zijn enkele nieuwe kolommen<br />
gedefinieerd in tabel 5.3 (p. 46). Hieronder volgt een verduidelijking van de kolomtitels:<br />
NoF+ = number of features positive, het aantal features in de positieve trainingsset<br />
NoF- = number of features negative, het aantal features in de negatieve trainingsset<br />
NoF ratio = NoF+ / NoF-<br />
TrS+ = training set positive, het aantal documenten in de positieve trainingsset<br />
TrS- = training set negative, het aantal documenten in de negatieve trainingsset<br />
TrS ratio = TrS+ / NoF-<br />
Voor de realistische testset is deze laatste verhouding dus ongeveer gelijk aan 1/50 = 0, 02.<br />
Voor het gemak van de besprekingen zijn de testen genummerd. Deze nummering staat<br />
links van tabel 5.3 (p. 46) en komt terug in figuur 5.7 en 5.8 (p. 47). Merk op dat de<br />
horizontale as van de figuren terug het percentage gebruikte features toont. Test 1 is de<br />
baseline en komt overeen met de tweede rij uit tabel 5.2 (p. 44).