03.05.2013 Views

Paper - Hogeschool Gent

Paper - Hogeschool Gent

Paper - Hogeschool Gent

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Hoofdstuk 5. Resultaten 37<br />

Bij de uiteindelijke beoordeling van een classifier wordt gekeken naar het gebied onder de<br />

curve (Area Under the Curve of AUC, voor meer uitleg zie Tape (2012)). Een rudimentaire<br />

indeling voor classifiers aan de hand van hun AUC is als volgt :<br />

90-100% = excellent<br />

80-90% = goed<br />

70-80% = redelijk<br />

60-70% = zwak<br />

50-60% = slecht<br />

Een interessante eigenschap van ROC curves is bovendien dat ze ongevoelig zijn voor onge-<br />

lijke klassenverdeling (Fawcett (2006)). Dit laatste betekent dat er een grote ongelijkheid<br />

is tussen de groottes van de verschillende klassen. In hoofdstuk 3.2.3 (p. 29) rond realis-<br />

tische data hebben we reeds kunnen besluiten dat dit bij ons het geval is. De resultaten<br />

op verdere pagina’s zullen trouwens aantonen dat een ongelijke klassenverdeling een grote<br />

invloed heeft op de kwaliteit van de classifier.<br />

De gegevens nodig voor het genereren van de ROC-curves waren alleen vlot beschikbaar<br />

bij eigen implementaties. Daarom is er geen ROC-data voor de SVM classifier die getest<br />

werd aan de hand van een open source bibliotheek (Waldvogel (2011)).<br />

5.1 Feature selector<br />

Voor het kiezen van een feature selector zijn er drie keuzes. De opties werden hierboven<br />

reeds besproken (zie paginanummers tussen haakjes). Voor het verdere verloop van dit<br />

hoofdstuk zal gebruikgemaakt worden van de afkortingen.<br />

1. Collection frequency (CF, p. 5)<br />

2. Document frequency (DF, p. 4)<br />

3. Mutual information (MI, p. 5)<br />

Figuur 5.2 (p. 38) geeft een overzicht van de F1 measure wanneer MNB (multinomial naive<br />

bayes) gecombineerd wordt met verschillende feature selectors. De cijfergegevens die hier-<br />

voor gebruikt zijn, werden gegenereerd met een evenwichtige trainingsset van 400 positieve

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!