Paper - Hogeschool Gent
Paper - Hogeschool Gent
Paper - Hogeschool Gent
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Hoofdstuk 5. Resultaten 37<br />
Bij de uiteindelijke beoordeling van een classifier wordt gekeken naar het gebied onder de<br />
curve (Area Under the Curve of AUC, voor meer uitleg zie Tape (2012)). Een rudimentaire<br />
indeling voor classifiers aan de hand van hun AUC is als volgt :<br />
90-100% = excellent<br />
80-90% = goed<br />
70-80% = redelijk<br />
60-70% = zwak<br />
50-60% = slecht<br />
Een interessante eigenschap van ROC curves is bovendien dat ze ongevoelig zijn voor onge-<br />
lijke klassenverdeling (Fawcett (2006)). Dit laatste betekent dat er een grote ongelijkheid<br />
is tussen de groottes van de verschillende klassen. In hoofdstuk 3.2.3 (p. 29) rond realis-<br />
tische data hebben we reeds kunnen besluiten dat dit bij ons het geval is. De resultaten<br />
op verdere pagina’s zullen trouwens aantonen dat een ongelijke klassenverdeling een grote<br />
invloed heeft op de kwaliteit van de classifier.<br />
De gegevens nodig voor het genereren van de ROC-curves waren alleen vlot beschikbaar<br />
bij eigen implementaties. Daarom is er geen ROC-data voor de SVM classifier die getest<br />
werd aan de hand van een open source bibliotheek (Waldvogel (2011)).<br />
5.1 Feature selector<br />
Voor het kiezen van een feature selector zijn er drie keuzes. De opties werden hierboven<br />
reeds besproken (zie paginanummers tussen haakjes). Voor het verdere verloop van dit<br />
hoofdstuk zal gebruikgemaakt worden van de afkortingen.<br />
1. Collection frequency (CF, p. 5)<br />
2. Document frequency (DF, p. 4)<br />
3. Mutual information (MI, p. 5)<br />
Figuur 5.2 (p. 38) geeft een overzicht van de F1 measure wanneer MNB (multinomial naive<br />
bayes) gecombineerd wordt met verschillende feature selectors. De cijfergegevens die hier-<br />
voor gebruikt zijn, werden gegenereerd met een evenwichtige trainingsset van 400 positieve