03.05.2013 Views

Paper - Hogeschool Gent

Paper - Hogeschool Gent

Paper - Hogeschool Gent

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Hoofdstuk 5. Resultaten 51<br />

Inzoomen op het eerste deel van de grafiek voor test 300k64 (figuur 5.10) toont dat de hoge<br />

precision de oorzaak is van de hoge beginwaarden. De precision start immers op waarde 1,<br />

alle positief geklasseerde documenten zijn dan ook daadwerkelijk positief voor ongepaste<br />

seksueel inhoud. Zolang de clusterfeatures de overhand hebben, blijft de precision hoog.<br />

Er kan dus geargumenteerd worden dat de clustering betere features levert aan de classifier<br />

dan de MI feature selector.<br />

1,0<br />

0,9<br />

0,8<br />

0,7<br />

0,6<br />

0,5<br />

0,4<br />

0,3<br />

0,2<br />

0,1<br />

0,0<br />

0% 2% 4% 6% 8% 10% 12%<br />

% gebruikte features<br />

Figuur 5.10: Inzoomen op het begin van test 300k64 met toevoeging van P en R.<br />

Voor de eerste zes datapunten van elke grafiek uit figuur 5.10 zijn de aantallen MI features<br />

gelijk aan 10, 20, 30, 40, 50 en 60 voor elke klasse. Aan die features worden telkens 29 extra<br />

cluster features toegevoegd. De tweemaal 29 komt voort uit de hier uitgevoerde clustering<br />

waarbij de negatieve en de positieve trainingsdocumenten elk over 29 clusters verspreid<br />

liggen. Dit betekent nog niet dat het hier om 58 verschillende clusters gaat.<br />

Het grote nadeel aan het verwerken van clusteringinformatie in het classificatieproces is de<br />

tijd die de clustering in beslag neemt. Clusteringen van grote hoeveelheden data nemen<br />

flink wat tijd in beslag. De eigen implementatie deed er met een Intel Core i5 (een 2,5GHz<br />

processor) bijna exact 24 uur over om 300.000 documenten te clusteren. Mits gebruik van<br />

een rekencluster en een geschikte multithreaded implementatie kan de benodigde tijd wel-<br />

P<br />

R<br />

F1

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!