03.05.2013 Views

Paper - Hogeschool Gent

Paper - Hogeschool Gent

Paper - Hogeschool Gent

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Hoofdstuk 3. Data 27<br />

na revisie een selectie X3 van 90 documenten bekomen. Dit brengt het totaal op 579<br />

documenten met seksueel onaanvaardbare inhoud.<br />

3.2.2 Negatieve documenten<br />

Aangezien er met enkel positieve gegevens niet kan getraind worden, is er nood aan een<br />

voldoende grote verzameling negatieve gegevens. Vooral indien de verhouding tussen posi-<br />

tieve en negatieve data uit de realistische data geëvenaard moet worden, is zelfs een ruime<br />

set negatieve data nodig. De verhouding en scheefheid in de klassenverdeling, ook wel class<br />

skew genoemd, wordt later besproken (p 44). Onderstaande MySQL-query werd gebruikt<br />

voor de selectie van negatieve data:<br />

SELECT "0" AS id,<br />

FROM blogs<br />

"blog" AS source,<br />

concat(blogs.title,’ ’,blogs.message) AS "message"<br />

WHERE userid NOT IN ( SELECT userid<br />

LIMIT 0,500<br />

FROM blocked_users<br />

char_length(blogs.message)>50<br />

INTO OUTFILE ’/tmp/blogs-neg-output.csv’<br />

FIELDS TERMINATED BY ’,’<br />

ENCLOSED BY ’"’<br />

LINES TERMINATED BY ’\n’;<br />

WHERE reason_type in (0,2,10) ) AND<br />

De eerste twee kolommen zijn noodzakelijk voor de structuur van de nieuwe tabel waarin de<br />

negatieve data wordt ondergebracht. Extra eisen voor de opgevraagde documenten zijn dat<br />

de gebruiker niet mag opgenomen zijn in de lijst met geblokkeerde gebruikers en bovendien<br />

moeten de documenten ten minste 50 karakters bevatten. Deze laatste eis zorgt ervoor<br />

dat het aantal mogelijke features per document in de negatieve data omhoog getrokken<br />

wordt. Deze eis werd niet toegepast bij de positieve documenten omdat de uiteindelijke<br />

set positieve documenten dan nog verder krimpt. De limit-clausule kan gevarieerd worden<br />

om blokken van 500 documenten op te vragen. De data in de tabel met negatieve data<br />

is samengesteld uit het tweemaal uitvoeren van deze query (limit 0,500 en limit 500,500).<br />

De laatste vier lijnen zijn enkel voor het wegschrijven van de geselecteerde data naar

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!