03.05.2013 Views

Paper - Hogeschool Gent

Paper - Hogeschool Gent

Paper - Hogeschool Gent

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Hoofdstuk 3. Data 29<br />

3.2.3 Realistische test<br />

Voor de realistische test werd random data geselecteerd. Het randomizatieproces was het<br />

volgende:<br />

1. Bepaal de gewenste grootteorde van de sample.<br />

2. Bereken de drempelwaarde als verhouding van de gewenste grootte en de grootte van<br />

de beschikbare data.<br />

3. Genereer voor elk document een random waarde.<br />

4. Voeg de documenten met een bijhorende waarde kleiner dan de drempelwaarde toe<br />

aan de sample.<br />

In een eerste ronde werden 1008 documenten geselecteerd. De tweede ronde was goed voor<br />

948 documenten. Voor de query gebruikt bij deze selectie wordt verwezen naar hoofd-<br />

stuk 4.2 (p. 32). Het resultaat van elke ronde werd manueel doorgenomen en de gevallen<br />

van seksueel misbruik aangeduid. De eerste en tweede ronde waren goed voor respectieve-<br />

lijk 25 en 17 positieve documenten. Dit zorgt voor een misbruikverhouding van 42 op 1956<br />

documenten. Omgerekend betekent dit dat ongeveer 2, 15% van de blogberichten niet door<br />

de beugel kunnen vanwege ongepaste seksuele inhoud.<br />

De samples tonen aan dat de hoeveelheid data rond seksueel misbruik relatief klein is<br />

ten opzichte van alle data. Om de verhoudingen van een realistische dataset beter te<br />

kunnen benaderen bij het trainen is dus in verhouding veel meer negatieve data nodig.<br />

Momenteel zijn dat 579 positieve documenten tegenover 944 negatieve documenten. Deze<br />

aantallen weerspiegelen niet de gewenste verhoudingen. Daarom werden volgens het reeds<br />

eerder gebruikte sampelingmechanisme nog 14880 random documenten geselecteerd die<br />

indien nodig kunnen toegevoegd worden aan de hoeveelheid negatieve data. Deze laatste<br />

14880 documenten werden dus niet manueel overlezen, maar vanuit de steekproeven kan er<br />

besloten worden dat ook hier de hoeveelheid positieve documenten zeer laag was. Wanneer<br />

er dus random documenten toegevoegd worden aan de negatieve data kan er vanuit gegaan<br />

worden dat de negatieve invloed op het trainingsgedeelte van de algoritmes beperkt blijft.<br />

Het getal 14880 is afkomstig van het algoritme waaraan gevraagd werd 15000 documenten<br />

te samplen. Dit aantal extra documenten is voldoende groot om al de testen in deze scriptie<br />

te kunnen uitvoeren.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!