Paper - Hogeschool Gent

More documents

Recommendations

Info

$C:\Olmo\compositie\Caprice\finale versie paganini.sib$

Hoofdstuk 3 Data 3.1 Oorsprong en eigenschappen De data waarmee gewerkt werd tijdens het evalueren van de verschillende tekstclassificeer- ders en technieken is afkomstig van Netlog. Het gaat om openbare data, meer specifiek: blogberichten en commentaren hier op. De dataset van Netlog, die geleverd werd in enkele SQL-dumps, is goed voor 8.283.641 blogberichten, 12.852.999 blogcommentaren en een lijst van 51.994 geblokkeerde gebruikers. Blogberichten en commentaren zijn gelinkt aan gebruikers door middel van een ID. Namen en andere persoonlijke data zijn begrijpelijk omwille van privacyredenen niet opgenomen in de SQL-dumps. Hoewel deze data, met een totaal van 21.136.640 berichten, op het eerste zicht vrij om- vangrijk lijkt, dient deze voor het doel van dit onderzoek flink te worden uitgedund. Zo bevat de lijst van bijna 52.000 geblokkeerde gebruikers niet enkel profielen die geblokkeerd zijn vanwege het posten van seksueel ongepaste inhoud. In totaal zijn zo’n elf verschillende types van blokkering gedefinieerd. De twee types die voor ons van toepassing zijn, zijn de profielen ‘sexprofiel’ en ‘pedofielprofiel’. Er is echter ook nog het type ‘other’. Aangezien de opdeling in verschillende misbruikprofielen niet van in het begin is toegepast, zijn alle profielen van voor zekere datum ondergebracht onder ‘other’. De standaardzin eindigend op ‘... is een jongerencommunity en geen sekssite!’ als commentaar laat weinig twijfel bestaan over de echte reden van blokkering. Omdat het profiel ‘other’ zeker niet alleen gevallen van seksueel misbruik aanduidt, is besloten om dit type niet te gebruiken. 24
Hoofdstuk 3. Data 25 3.2 Vereiste data Uit deze ruime dataset wordt een selectie gemaakt voor het gebruik in supervised learning. Concreet betekent dit dat de data die aan het algoritme verstrekt worden, moet gelabeld zijn. Er moet dus een indicatie aan een tekstdocument gekoppeld worden die aanduidt of het document een geval is van seksueel misbruik. Daar de data geleverd werd in een SQL-dump is besloten om verder te werken met data- basestructuren en niet met bijvoorbeeld losse tekstbestanden. 3.2.1 Positieve documenten Positieve documenten zijn documenten waar volgens de inhoud een positief antwoord kan gegeven worden op de vraag “Is er bij dit document sprake van seksueel misbruik?”. Een document bestaat voor blogberichten uit een titel en een corpus. Voor blogcommentaren is er enkel een corpus. De data bevat nu wel geklasseerde profielen, maar geen geklasseerde documenten die als trainingsset kunnen dienen. Daarom moest deze trainingsdata op een andere manier worden verkregen. Hieronder staan de verschillende technieken en query’s die gebruikt werden bij de initiële selectie van positieve data. Eerst werden uit de tabel met geblokkeerde gebruikers die gebruikers geselecteerd die geblokkeerd zijn omwille van seksuele misdragingen, zijnde de types ‘seksprofiel’ en ‘pedofielprofiel’. De kans dat de berichten van deze gebruikers seksuele inhoud bevatten, is relatief groot. Dit betekent echter niet dat alle berichten van deze selectie van geblokkeerde gebruikers zomaar kunnen toegevoegd worden aan de tabel met seksueel misbruik. Een gebruiker kan zo bijvoorbeeld 100 berichten hebben waarvan 99 zonder seksueel misbruik, maar geblokkeerd worden omwille van dat ene bericht dat wel als ongepast geklasseerd wordt. Het toevoegen van de 99 toegelaten berichten zou de resultaten van de text classifier flink om- laag halen. Als extra criterium werd daarom een selectie gemaakt waarbij de gebruikers geblokkeerd zijn omwille van seksuele berichten en die bovendien maar één enkel bericht hebben. De kans dat een gebruiker geblokkeerd werd vanwege dit ene bericht is nu vrij groot. De data die nu geselecteerd is, wordt selectie Y genoemd. Maar ook nu mag er nog niet beslist worden om al deze documenten zonder meer te klasseren als seksueel misbruik. Een gebruiker kan geblokkeerd zijn voor seksuele reden en maar één tekstbericht hebben, maar 20 seksuele foto’s. Of misschien bestaat dat ene bericht uit enkel een niet toegelaten
Page 1 and 2: Geassocieerde faculteit Toegepaste
Page 3 and 4: Sentimentdetectie op Sociale Netwer
Page 5 and 6: Abstract Deze scriptie gaat over he
Page 7 and 8: Inhoudsopgave 1 Introductie 1 2 The
Page 9 and 10: Hoofdstuk 1 Introductie Tijdens dez
Page 11 and 12: Hoofdstuk 2 Theoretische achtergron
Page 13 and 14: Hoofdstuk 2. Theoretische achtergro
Page 31: Hoofdstuk 2. Theoretische achtergro
Page 35 and 36: Hoofdstuk 3. Data 27 na revisie een
Page 37 and 38: Hoofdstuk 3. Data 29 3.2.3 Realisti
Page 39 and 40: Hoofdstuk 4. Implementatie 31 Het i
Page 41 and 42: Hoofdstuk 4. Implementatie 33 Alle
Page 43 and 44: Hoofdstuk 5. Resultaten 35 Beoordel
Page 45 and 46: Hoofdstuk 5. Resultaten 37 Bij de u
Page 47 and 48: Hoofdstuk 5. Resultaten 39 F1 1,00
Page 49 and 50: Hoofdstuk 5. Resultaten 41 5.3 Feat
Page 51 and 52: Hoofdstuk 5. Resultaten 43 De voll
Page 53 and 54: Hoofdstuk 5. Resultaten 45 Een onev
Page 55 and 56: Hoofdstuk 5. Resultaten 47 F1 F1 1,
Page 57 and 58: Hoofdstuk 5. Resultaten 49 gaat, st
Page 59 and 60: Hoofdstuk 5. Resultaten 51 Inzoomen
Page 61 and 62: Hoofdstuk 5. Resultaten 53 2. Afsch
Page 63 and 64: Hoofdstuk 6 Conclusie Tijdens het o
Page 65 and 66: Bibliografie 1ste Keuze BV (2012).
Page 67 and 68: Bibliografie 59 S. Zhu, X. Ji, W. X
Page 69 and 70: Bijlage A Woordenlijsten A.1 Nederl
Page 71 and 72: Bijlage A. Woordenlijsten 63 37. do
Page 73 and 74: Bijlage A. Woordenlijsten 65 19. ji
Page 75 and 76: Bijlage B. Resultaattabellen 67 Het
Page 77 and 78: Bijlage B. Resultaattabellen 69 Eve
Page 83 and 84:
Bijlage C. Figuren 75 F1 1,00 0,95
Page 85 and 86:
Bijlage C. Figuren 77 F1 F1 1,00 0,
Page 87 and 88:
Bijlage C. Figuren 79 F1 1,00 0,95
Page 89:
Bijlage D Afkortingen AUC − area
show all

Paper - Hogeschool Gent

Create successful ePaper yourself

Delete template?

Save as template?