Paper - Hogeschool Gent

More documents

Recommendations

Info

$C:\Olmo\compositie\Caprice\finale versie paganini.sib$

Hoofdstuk 1. Introductie 2 Voor de methodieken wordt gekeken naar lerende system (Manning et al. (2008)). Wanneer er nieuwe tekstdocumenten met misbruik op de website geplaatst worden, moet het systeem in staat zijn om zich aan te passen. De nieuwe, nog niet eerder behandelde documenten, kunnen daarbij woorden bevatten die nog niet eerder voorkwamen in misbruikberichten. Het systeem moet leren om de juiste nieuwe woorden een negatief of positief karakter toe te wijzen. Lerende systemen kunnen opgedeeld worden in twee grote categoriën. Er zijn de supervised learning systemen en de unsupervised learning systemen. Deze laatste zal zelf criteria bepalen om documenten op te delen in verschillende groepen. De kans dat dit de gewenste scheiding tussen wel en geen seksueel misbruik oplevert, is zeer klein. Er moet dus be- roep gedaan worden op een supervised learning systeem. Dit soort systemen maakt een scheiding op basis van voorbeelden van de gewenste scheiding. Het aanleveren van documenten die reeds gelabeld zijn volgens wel en niet aanvaardbare inhoud moet uiteindelijk een systeem geven dat zelfstandig, zonder de labels, een onderscheid kan maken tussen de verschillende soorten documenten. Deze soorten documenten worden verder aange- duid als klassen. Hierbij is de positieve klasse de klasse die positief test voor seksueel misbruik. De manueel gelabelde voorbeelddocumenten wordt de trainingsdata of de trai- ningsset genoemd. Om het systeem te testen, wordt een deel van de gelabelde documenten achtergehouden. Door deze achtergehouden gelabelde documenten voor te schotelen aan het getrainde systeem kan getest worden of de training succesvol was. De achtergehouden documenten worden dan ook vanaf nu de testset genoemd. Sentimentdetectie kan ook aangewend worden voor de classificering van reviews (scheiding van positieve en negatieve commentaar op een product), de detectie van spamberichten, het aggregeren van reviews met een verschillende beoordelingsschaal, het detecteren van gemeenschappen die er eenzelfde mening op na houden, het samenvatten van teksten in verschillende kernzinnen, enz. De bijdrage die sentimentdetectie kan leveren bij commerciële bedrijven mag dus niet onderschat worden. Veel informatie rond de gebruikte methodieken kan dan ook in artikels met deze onderwerpen teruggevonden worden (Tang et al. (2009), Barbosa & Feng (2010), Jindal & Liu (2008)).
Hoofdstuk 2 Theoretische achtergrond 2.1 Inleiding Het verwezenlijken van een lerend systeem voor tekstclassificatie vergt twee grote com- ponenten. Elke component heeft verschillende parameters. Het meest optimale resultaat wordt bereikt wanneer elke component geoptimaliseerd is met de best mogelijke parameters. Een eerste component selecteert de termen in een document. Om te beginnen dient het begrip ‘term’ zo goed mogelijk beschreven te worden. Op welke tekens worden documenten gesplitst, wat gebeurt er met cijfers, enzovoort. Hoewel dit op het eerste zicht een eenvou- dige taak lijkt, zijn er enkele concrete problemen die moeten aangepakt worden. Hierbij mag niet nagelaten worden te vermelden dat deze problemen taalspecifiek zijn. Daar de verstrekte data hoofdzakelijk in het Nederlands is, worden de problemen zo veel mogelijk verduidelijkt met Nederlandse voorbeelden. Meer hierover is terug te vinden in het hoofdstuk rond featurebewerkingen (hoofdstuk 2.2.4, p. 6). Daarna moet bepaald worden welke van die termen gebruikt worden om het document te klasseren. Dit is de taak van de feature selector. De tweede grote component is de text classifier zelf. Deze gebruikt de woorden die geselec- teerd werden door de feature selector om te bepalen in welke klasse een document wordt ingedeeld. In deze studie worden drie text classifiers geëvalueerd, telkens in combinatie met een feature selector. De text classifiers zijn multinomial naive Bayes (hoofdstuk 2.3.1, p. 10), binomial naive Bayes (hoofdstuk 2.3.2, p. 12) en support vector machines (hoofdstuk 2.3.3, p. 14). 3
Page 1 and 2: Geassocieerde faculteit Toegepaste
Page 3 and 4: Sentimentdetectie op Sociale Netwer
Page 5 and 6: Abstract Deze scriptie gaat over he
Page 7 and 8: Inhoudsopgave 1 Introductie 1 2 The
Page 9: Hoofdstuk 1 Introductie Tijdens dez
Page 13 and 14: Hoofdstuk 2. Theoretische achtergro
Page 33 and 34: Hoofdstuk 3. Data 25 3.2 Vereiste d
Page 35 and 36: Hoofdstuk 3. Data 27 na revisie een
Page 37 and 38: Hoofdstuk 3. Data 29 3.2.3 Realisti
Page 39 and 40: Hoofdstuk 4. Implementatie 31 Het i
Page 41 and 42: Hoofdstuk 4. Implementatie 33 Alle
Page 43 and 44: Hoofdstuk 5. Resultaten 35 Beoordel
Page 45 and 46: Hoofdstuk 5. Resultaten 37 Bij de u
Page 47 and 48: Hoofdstuk 5. Resultaten 39 F1 1,00
Page 49 and 50: Hoofdstuk 5. Resultaten 41 5.3 Feat
Page 51 and 52: Hoofdstuk 5. Resultaten 43 De voll
Page 53 and 54: Hoofdstuk 5. Resultaten 45 Een onev
Page 55 and 56: Hoofdstuk 5. Resultaten 47 F1 F1 1,
Page 57 and 58: Hoofdstuk 5. Resultaten 49 gaat, st
Page 59 and 60: Hoofdstuk 5. Resultaten 51 Inzoomen
Page 61 and 62:
Hoofdstuk 5. Resultaten 53 2. Afsch
Page 63 and 64:
Hoofdstuk 6 Conclusie Tijdens het o
Page 65 and 66:
Bibliografie 1ste Keuze BV (2012).
Page 67 and 68:
Bibliografie 59 S. Zhu, X. Ji, W. X
Page 69 and 70:
Bijlage A Woordenlijsten A.1 Nederl
Page 71 and 72:
Bijlage A. Woordenlijsten 63 37. do
Page 73 and 74:
Bijlage A. Woordenlijsten 65 19. ji
Page 75 and 76:
Bijlage B. Resultaattabellen 67 Het
Page 77 and 78:
Bijlage B. Resultaattabellen 69 Eve
Page 79 and 80:
Page 81 and 82:
Page 83 and 84:
Bijlage C. Figuren 75 F1 1,00 0,95
Page 85 and 86:
Bijlage C. Figuren 77 F1 F1 1,00 0,
Page 87 and 88:
Bijlage C. Figuren 79 F1 1,00 0,95
Page 89:
Bijlage D Afkortingen AUC − area
show all

Paper - Hogeschool Gent

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?