Paper - Hogeschool Gent

More documents

Recommendations

Info

$C:\Olmo\compositie\Caprice\finale versie paganini.sib$

Hoofdstuk 3. Data 28 een CSV-bestand. Na revisie, want ook deze data is manueel gescand, werd dit CSV- bestand dan geconverteerd naar een lijst MySQL-insert-query’s. De data die zo overblijft als geverifieerde negatieve data bestaat uit 944 documenten. Dat ook hier revisie noodzakelijk was, heeft te maken met het feit dat een bericht duidelijk ongewenste seksuele inhoud kan bevatten, maar door de mazen van het net geglipt zijn bij de manuele detectie van Netlog. Soms is het echter veel subtieler. Zo is er een zeer expliciet verhaal rond een verkrachting die net de bedoeling heeft om te shockeren en mensen hiervoor te waarschuwen. Wanneer dit verhaal door iemand gepubliceerd wordt met de bijhorende waarschuwing en oproep tot verspreiding om het taboe rond verkrachting te doorbreken, dan is het verhaal toegestaan. Wie louter het verhaal post op zijn blog (zonder de waarschuwingen en antitaboe-oproep) en daarmee enkel de seksuele inhoud weergeeft, wordt wel geclassificeerd als seksueel misbruiker. Andere vormen van berichten die seksgerelateerde termen bevatten maar geen misbruik zijn, kunnen samengevat worden in drie categorieën. Deze categorieën staan hieronder verduidelijkt met een voorbeeldje. Humoristische definitie Lef = midden in de nacht bezopen thuiskomen met een parfum luchtje om je heen en lipstick op je kleding, je vrouw op haar kont slaan en zeggen: “Jij bent de volgende.” Seksmop Er lopen twee domme blondjes op straat. Zegt de een tegen de ander: “Heb jij ook een roze clitoris?” Waarop de ander antwoordt: “Weet ik niet, mijn man doet de tuin.” Wist je dat... WIST JE DAT... ...de gemiddelde lengte van een piemel (slap) 8,9 cm is? ...de gemiddelde lengte van een stijve 13,2 - 16,2 cm is? ...de langste piemel ooit gemeten 33 cm was? ...de kortste piemel ooit gemeten 1,5 cm is? ...een man tijdens zijn leven gemiddeld 7200 keer ejaculeert? ...waarin 2000 keer door masturberen? ...een man in zijn leven gemiddeld 53 liter sperma de wereld inhelpt? ...de gemiddelde snelheid van een ejaculatie 45 km/uur is?
Hoofdstuk 3. Data 29 3.2.3 Realistische test Voor de realistische test werd random data geselecteerd. Het randomizatieproces was het volgende: 1. Bepaal de gewenste grootteorde van de sample. 2. Bereken de drempelwaarde als verhouding van de gewenste grootte en de grootte van de beschikbare data. 3. Genereer voor elk document een random waarde. 4. Voeg de documenten met een bijhorende waarde kleiner dan de drempelwaarde toe aan de sample. In een eerste ronde werden 1008 documenten geselecteerd. De tweede ronde was goed voor 948 documenten. Voor de query gebruikt bij deze selectie wordt verwezen naar hoofdstuk 4.2 (p. 32). Het resultaat van elke ronde werd manueel doorgenomen en de gevallen van seksueel misbruik aangeduid. De eerste en tweede ronde waren goed voor respectieve- lijk 25 en 17 positieve documenten. Dit zorgt voor een misbruikverhouding van 42 op 1956 documenten. Omgerekend betekent dit dat ongeveer 2, 15% van de blogberichten niet door de beugel kunnen vanwege ongepaste seksuele inhoud. De samples tonen aan dat de hoeveelheid data rond seksueel misbruik relatief klein is ten opzichte van alle data. Om de verhoudingen van een realistische dataset beter te kunnen benaderen bij het trainen is dus in verhouding veel meer negatieve data nodig. Momenteel zijn dat 579 positieve documenten tegenover 944 negatieve documenten. Deze aantallen weerspiegelen niet de gewenste verhoudingen. Daarom werden volgens het reeds eerder gebruikte sampelingmechanisme nog 14880 random documenten geselecteerd die indien nodig kunnen toegevoegd worden aan de hoeveelheid negatieve data. Deze laatste 14880 documenten werden dus niet manueel overlezen, maar vanuit de steekproeven kan er besloten worden dat ook hier de hoeveelheid positieve documenten zeer laag was. Wanneer er dus random documenten toegevoegd worden aan de negatieve data kan er vanuit gegaan worden dat de negatieve invloed op het trainingsgedeelte van de algoritmes beperkt blijft. Het getal 14880 is afkomstig van het algoritme waaraan gevraagd werd 15000 documenten te samplen. Dit aantal extra documenten is voldoende groot om al de testen in deze scriptie te kunnen uitvoeren.
Page 1 and 2: Geassocieerde faculteit Toegepaste
Page 3 and 4: Sentimentdetectie op Sociale Netwer
Page 5 and 6: Abstract Deze scriptie gaat over he
Page 7 and 8: Inhoudsopgave 1 Introductie 1 2 The
Page 9 and 10: Hoofdstuk 1 Introductie Tijdens dez
Page 11 and 12: Hoofdstuk 2 Theoretische achtergron
Page 13 and 14: Hoofdstuk 2. Theoretische achtergro
Page 33 and 34: Hoofdstuk 3. Data 25 3.2 Vereiste d
Page 35: Hoofdstuk 3. Data 27 na revisie een
Page 39 and 40: Hoofdstuk 4. Implementatie 31 Het i
Page 41 and 42: Hoofdstuk 4. Implementatie 33 Alle
Page 43 and 44: Hoofdstuk 5. Resultaten 35 Beoordel
Page 45 and 46: Hoofdstuk 5. Resultaten 37 Bij de u
Page 47 and 48: Hoofdstuk 5. Resultaten 39 F1 1,00
Page 49 and 50: Hoofdstuk 5. Resultaten 41 5.3 Feat
Page 51 and 52: Hoofdstuk 5. Resultaten 43 De voll
Page 53 and 54: Hoofdstuk 5. Resultaten 45 Een onev
Page 55 and 56: Hoofdstuk 5. Resultaten 47 F1 F1 1,
Page 57 and 58: Hoofdstuk 5. Resultaten 49 gaat, st
Page 59 and 60: Hoofdstuk 5. Resultaten 51 Inzoomen
Page 61 and 62: Hoofdstuk 5. Resultaten 53 2. Afsch
Page 63 and 64: Hoofdstuk 6 Conclusie Tijdens het o
Page 65 and 66: Bibliografie 1ste Keuze BV (2012).
Page 67 and 68: Bibliografie 59 S. Zhu, X. Ji, W. X
Page 69 and 70: Bijlage A Woordenlijsten A.1 Nederl
Page 71 and 72: Bijlage A. Woordenlijsten 63 37. do
Page 73 and 74: Bijlage A. Woordenlijsten 65 19. ji
Page 75 and 76: Bijlage B. Resultaattabellen 67 Het
Page 77 and 78: Bijlage B. Resultaattabellen 69 Eve
Page 83 and 84: Bijlage C. Figuren 75 F1 1,00 0,95
Page 85 and 86: Bijlage C. Figuren 77 F1 F1 1,00 0,
Page 87 and 88:
Bijlage C. Figuren 79 F1 1,00 0,95
Page 89:
Bijlage D Afkortingen AUC − area
show all

Paper - Hogeschool Gent

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?