03.05.2013 Views

Paper - Hogeschool Gent

Paper - Hogeschool Gent

Paper - Hogeschool Gent

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Hoofdstuk 3. Data 25<br />

3.2 Vereiste data<br />

Uit deze ruime dataset wordt een selectie gemaakt voor het gebruik in supervised learning.<br />

Concreet betekent dit dat de data die aan het algoritme verstrekt worden, moet gelabeld<br />

zijn. Er moet dus een indicatie aan een tekstdocument gekoppeld worden die aanduidt of<br />

het document een geval is van seksueel misbruik.<br />

Daar de data geleverd werd in een SQL-dump is besloten om verder te werken met data-<br />

basestructuren en niet met bijvoorbeeld losse tekstbestanden.<br />

3.2.1 Positieve documenten<br />

Positieve documenten zijn documenten waar volgens de inhoud een positief antwoord kan<br />

gegeven worden op de vraag “Is er bij dit document sprake van seksueel misbruik?”. Een<br />

document bestaat voor blogberichten uit een titel en een corpus. Voor blogcommentaren<br />

is er enkel een corpus.<br />

De data bevat nu wel geklasseerde profielen, maar geen geklasseerde documenten die als<br />

trainingsset kunnen dienen. Daarom moest deze trainingsdata op een andere manier wor-<br />

den verkregen. Hieronder staan de verschillende technieken en query’s die gebruikt werden<br />

bij de initiële selectie van positieve data.<br />

Eerst werden uit de tabel met geblokkeerde gebruikers die gebruikers geselecteerd die ge-<br />

blokkeerd zijn omwille van seksuele misdragingen, zijnde de types ‘seksprofiel’ en ‘pedofiel-<br />

profiel’. De kans dat de berichten van deze gebruikers seksuele inhoud bevatten, is relatief<br />

groot. Dit betekent echter niet dat alle berichten van deze selectie van geblokkeerde gebrui-<br />

kers zomaar kunnen toegevoegd worden aan de tabel met seksueel misbruik. Een gebruiker<br />

kan zo bijvoorbeeld 100 berichten hebben waarvan 99 zonder seksueel misbruik, maar ge-<br />

blokkeerd worden omwille van dat ene bericht dat wel als ongepast geklasseerd wordt. Het<br />

toevoegen van de 99 toegelaten berichten zou de resultaten van de text classifier flink om-<br />

laag halen. Als extra criterium werd daarom een selectie gemaakt waarbij de gebruikers<br />

geblokkeerd zijn omwille van seksuele berichten en die bovendien maar één enkel bericht<br />

hebben. De kans dat een gebruiker geblokkeerd werd vanwege dit ene bericht is nu vrij<br />

groot. De data die nu geselecteerd is, wordt selectie Y genoemd. Maar ook nu mag er nog<br />

niet beslist worden om al deze documenten zonder meer te klasseren als seksueel misbruik.<br />

Een gebruiker kan geblokkeerd zijn voor seksuele reden en maar één tekstbericht hebben,<br />

maar 20 seksuele foto’s. Of misschien bestaat dat ene bericht uit enkel een niet toegelaten

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!