Paper - Hogeschool Gent
Paper - Hogeschool Gent
Paper - Hogeschool Gent
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Hoofdstuk 3. Data 25<br />
3.2 Vereiste data<br />
Uit deze ruime dataset wordt een selectie gemaakt voor het gebruik in supervised learning.<br />
Concreet betekent dit dat de data die aan het algoritme verstrekt worden, moet gelabeld<br />
zijn. Er moet dus een indicatie aan een tekstdocument gekoppeld worden die aanduidt of<br />
het document een geval is van seksueel misbruik.<br />
Daar de data geleverd werd in een SQL-dump is besloten om verder te werken met data-<br />
basestructuren en niet met bijvoorbeeld losse tekstbestanden.<br />
3.2.1 Positieve documenten<br />
Positieve documenten zijn documenten waar volgens de inhoud een positief antwoord kan<br />
gegeven worden op de vraag “Is er bij dit document sprake van seksueel misbruik?”. Een<br />
document bestaat voor blogberichten uit een titel en een corpus. Voor blogcommentaren<br />
is er enkel een corpus.<br />
De data bevat nu wel geklasseerde profielen, maar geen geklasseerde documenten die als<br />
trainingsset kunnen dienen. Daarom moest deze trainingsdata op een andere manier wor-<br />
den verkregen. Hieronder staan de verschillende technieken en query’s die gebruikt werden<br />
bij de initiële selectie van positieve data.<br />
Eerst werden uit de tabel met geblokkeerde gebruikers die gebruikers geselecteerd die ge-<br />
blokkeerd zijn omwille van seksuele misdragingen, zijnde de types ‘seksprofiel’ en ‘pedofiel-<br />
profiel’. De kans dat de berichten van deze gebruikers seksuele inhoud bevatten, is relatief<br />
groot. Dit betekent echter niet dat alle berichten van deze selectie van geblokkeerde gebrui-<br />
kers zomaar kunnen toegevoegd worden aan de tabel met seksueel misbruik. Een gebruiker<br />
kan zo bijvoorbeeld 100 berichten hebben waarvan 99 zonder seksueel misbruik, maar ge-<br />
blokkeerd worden omwille van dat ene bericht dat wel als ongepast geklasseerd wordt. Het<br />
toevoegen van de 99 toegelaten berichten zou de resultaten van de text classifier flink om-<br />
laag halen. Als extra criterium werd daarom een selectie gemaakt waarbij de gebruikers<br />
geblokkeerd zijn omwille van seksuele berichten en die bovendien maar één enkel bericht<br />
hebben. De kans dat een gebruiker geblokkeerd werd vanwege dit ene bericht is nu vrij<br />
groot. De data die nu geselecteerd is, wordt selectie Y genoemd. Maar ook nu mag er nog<br />
niet beslist worden om al deze documenten zonder meer te klasseren als seksueel misbruik.<br />
Een gebruiker kan geblokkeerd zijn voor seksuele reden en maar één tekstbericht hebben,<br />
maar 20 seksuele foto’s. Of misschien bestaat dat ene bericht uit enkel een niet toegelaten