Paper - Hogeschool Gent
Paper - Hogeschool Gent
Paper - Hogeschool Gent
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Hoofdstuk 3. Data 27<br />
na revisie een selectie X3 van 90 documenten bekomen. Dit brengt het totaal op 579<br />
documenten met seksueel onaanvaardbare inhoud.<br />
3.2.2 Negatieve documenten<br />
Aangezien er met enkel positieve gegevens niet kan getraind worden, is er nood aan een<br />
voldoende grote verzameling negatieve gegevens. Vooral indien de verhouding tussen posi-<br />
tieve en negatieve data uit de realistische data geëvenaard moet worden, is zelfs een ruime<br />
set negatieve data nodig. De verhouding en scheefheid in de klassenverdeling, ook wel class<br />
skew genoemd, wordt later besproken (p 44). Onderstaande MySQL-query werd gebruikt<br />
voor de selectie van negatieve data:<br />
SELECT "0" AS id,<br />
FROM blogs<br />
"blog" AS source,<br />
concat(blogs.title,’ ’,blogs.message) AS "message"<br />
WHERE userid NOT IN ( SELECT userid<br />
LIMIT 0,500<br />
FROM blocked_users<br />
char_length(blogs.message)>50<br />
INTO OUTFILE ’/tmp/blogs-neg-output.csv’<br />
FIELDS TERMINATED BY ’,’<br />
ENCLOSED BY ’"’<br />
LINES TERMINATED BY ’\n’;<br />
WHERE reason_type in (0,2,10) ) AND<br />
De eerste twee kolommen zijn noodzakelijk voor de structuur van de nieuwe tabel waarin de<br />
negatieve data wordt ondergebracht. Extra eisen voor de opgevraagde documenten zijn dat<br />
de gebruiker niet mag opgenomen zijn in de lijst met geblokkeerde gebruikers en bovendien<br />
moeten de documenten ten minste 50 karakters bevatten. Deze laatste eis zorgt ervoor<br />
dat het aantal mogelijke features per document in de negatieve data omhoog getrokken<br />
wordt. Deze eis werd niet toegepast bij de positieve documenten omdat de uiteindelijke<br />
set positieve documenten dan nog verder krimpt. De limit-clausule kan gevarieerd worden<br />
om blokken van 500 documenten op te vragen. De data in de tabel met negatieve data<br />
is samengesteld uit het tweemaal uitvoeren van deze query (limit 0,500 en limit 500,500).<br />
De laatste vier lijnen zijn enkel voor het wegschrijven van de geselecteerde data naar