Paper - Hogeschool Gent
Paper - Hogeschool Gent
Paper - Hogeschool Gent
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Hoofdstuk 3. Data 29<br />
3.2.3 Realistische test<br />
Voor de realistische test werd random data geselecteerd. Het randomizatieproces was het<br />
volgende:<br />
1. Bepaal de gewenste grootteorde van de sample.<br />
2. Bereken de drempelwaarde als verhouding van de gewenste grootte en de grootte van<br />
de beschikbare data.<br />
3. Genereer voor elk document een random waarde.<br />
4. Voeg de documenten met een bijhorende waarde kleiner dan de drempelwaarde toe<br />
aan de sample.<br />
In een eerste ronde werden 1008 documenten geselecteerd. De tweede ronde was goed voor<br />
948 documenten. Voor de query gebruikt bij deze selectie wordt verwezen naar hoofd-<br />
stuk 4.2 (p. 32). Het resultaat van elke ronde werd manueel doorgenomen en de gevallen<br />
van seksueel misbruik aangeduid. De eerste en tweede ronde waren goed voor respectieve-<br />
lijk 25 en 17 positieve documenten. Dit zorgt voor een misbruikverhouding van 42 op 1956<br />
documenten. Omgerekend betekent dit dat ongeveer 2, 15% van de blogberichten niet door<br />
de beugel kunnen vanwege ongepaste seksuele inhoud.<br />
De samples tonen aan dat de hoeveelheid data rond seksueel misbruik relatief klein is<br />
ten opzichte van alle data. Om de verhoudingen van een realistische dataset beter te<br />
kunnen benaderen bij het trainen is dus in verhouding veel meer negatieve data nodig.<br />
Momenteel zijn dat 579 positieve documenten tegenover 944 negatieve documenten. Deze<br />
aantallen weerspiegelen niet de gewenste verhoudingen. Daarom werden volgens het reeds<br />
eerder gebruikte sampelingmechanisme nog 14880 random documenten geselecteerd die<br />
indien nodig kunnen toegevoegd worden aan de hoeveelheid negatieve data. Deze laatste<br />
14880 documenten werden dus niet manueel overlezen, maar vanuit de steekproeven kan er<br />
besloten worden dat ook hier de hoeveelheid positieve documenten zeer laag was. Wanneer<br />
er dus random documenten toegevoegd worden aan de negatieve data kan er vanuit gegaan<br />
worden dat de negatieve invloed op het trainingsgedeelte van de algoritmes beperkt blijft.<br />
Het getal 14880 is afkomstig van het algoritme waaraan gevraagd werd 15000 documenten<br />
te samplen. Dit aantal extra documenten is voldoende groot om al de testen in deze scriptie<br />
te kunnen uitvoeren.