Paper - Hogeschool Gent

More documents

Recommendations

Info

$C:\Olmo\compositie\Caprice\finale versie paganini.sib$

Hoofdstuk 5. Resultaten 44 5.4 Optimalisatie Nu de beste combinatie van text classifier en feature selector vastgelegd is op SVM+MI is het tijd om te kijken naar de resultaten bij een realistische test. De gegevens van de realistische dataset staan beschreven in hoofdstuk 3.2.3 (p. 29). test min P min R min F1 max P max R max F1 evenwichtig 93,8% 82,0% 88,6% 99,0% 96,0% 97,5% realistisch 14,2% 78,0% 24,2% 39,4% 92,7% 55,1% Tabel 5.2: Resultaten voor verschillende tests bij SVM met MI. De minimale en maximale recall dalen respectievelijk met 4,0% en 3,3%. Deze dalingen verdwijnen echter in het niets in vergelijking met de dalingen van 79,6% en 49,6% bij de minimale en maximale precision. Het gevolg is dat de F1 measure eveneens stevig omlaag gaat. Wat volgt zijn twee vormen van optimalisatie, elke met de bedoeling om de resultaten bij de realistische test terug op te krikken. Alle volgende tabellen bevatten dan ook uitsluitend resultaten op de realistische dataset. Beïnvloeden van de parameterverhoudingen Zoals blijkt uit de realistische testset is de klassenverdeling zeer onevenwichtig. Dit onevenwicht wordt ook wel data skew of “datascheefheid” genoemd (Tang & Liu (2005)). Uit de realistische dataset kan besloten worden dat de hoeveelheid seksueel ongepast materiaal slechts enkele procenten bedraag van de totale hoeveelheid data. Als we het misbruikpercentage uit de realistische dataset afronden, wordt een misbruikpercentage van 2% of een verhouding van 1/50 bekomen. Het doel van onevenwichtig trainen is nu om diezelfde verhouding ook door te voeren in de trainingsdata. Het immers logisch dat een realistische trainingsset beter zal presteren op een realistische testset. Het onevenwicht in de trainingsdata kan op twee manieren bekomen worden. 1. Onevenwichtig trainen op het aantal documenten. 2. Onevenwichtig trainen op het aantal features. Beide zijn sterk met elkaar verwant. Het aantal documenten voor een klasse opdrijven, betekent immers dat het aantal beschikbare features voor die klasse mee omhoog gaat. In de eerste methode zit dus zeker een deel van het effect van de tweede methode vervat.
Hoofdstuk 5. Resultaten 45 Een onevenwicht in documenten kan op twee manieren bereikt worden. De beschikbare evenwichtige dataset van 500 positieve en 500 negatieve documenten kan afgebouwd worden naar bijvoorbeeld 100 positieve en 500 negatieve. De 500 moeizaam verkregen positieve documenten afbouwen is echter geen goed idee. 500 documenten is gezien de grote data- hoeveelheid reeds miniem en deze dataset verder afbouwen zou zorgen voor een slechtere definiëring van de positieve klasse. Het alternatief is om de verzameling negatieve trainingsdocumenten flink uit te breiden. Maar om ook maar enigszins in de buurt te komen van de verhouding 1/50, gaat het hier over duizenden nieuwe negatieve documenten die allemaal zouden moeten gecontroleerd worden. Deze controle zou echter flink wat tijd in beslag nemen. Daarom is geopteerd om random documenten te samplen en deze zonder controle toe te voegen aan de negatieve trainingsset. Precies omdat de klassenverhouding zo groot is, mag de controle overgeslagen worden. Er kan immers met grote waarschijnlijkheid gezegd worden dat 98% van alle documenten die toegevoegd worden aan de negatieve trainingsset ook effectief negatief zijn. Om de verhouding tussen features en documenten te tonen zijn enkele nieuwe kolommen gedefinieerd in tabel 5.3 (p. 46). Hieronder volgt een verduidelijking van de kolomtitels: NoF+ = number of features positive, het aantal features in de positieve trainingsset NoF- = number of features negative, het aantal features in de negatieve trainingsset NoF ratio = NoF+ / NoF- TrS+ = training set positive, het aantal documenten in de positieve trainingsset TrS- = training set negative, het aantal documenten in de negatieve trainingsset TrS ratio = TrS+ / NoF- Voor de realistische testset is deze laatste verhouding dus ongeveer gelijk aan 1/50 = 0, 02. Voor het gemak van de besprekingen zijn de testen genummerd. Deze nummering staat links van tabel 5.3 (p. 46) en komt terug in figuur 5.7 en 5.8 (p. 47). Merk op dat de horizontale as van de figuren terug het percentage gebruikte features toont. Test 1 is de baseline en komt overeen met de tweede rij uit tabel 5.2 (p. 44).
Page 1 and 2: Geassocieerde faculteit Toegepaste
Page 3 and 4: Sentimentdetectie op Sociale Netwer
Page 5 and 6: Abstract Deze scriptie gaat over he
Page 7 and 8: Inhoudsopgave 1 Introductie 1 2 The
Page 9 and 10: Hoofdstuk 1 Introductie Tijdens dez
Page 11 and 12: Hoofdstuk 2 Theoretische achtergron
Page 13 and 14: Hoofdstuk 2. Theoretische achtergro
Page 33 and 34: Hoofdstuk 3. Data 25 3.2 Vereiste d
Page 35 and 36: Hoofdstuk 3. Data 27 na revisie een
Page 37 and 38: Hoofdstuk 3. Data 29 3.2.3 Realisti
Page 39 and 40: Hoofdstuk 4. Implementatie 31 Het i
Page 41 and 42: Hoofdstuk 4. Implementatie 33 Alle
Page 43 and 44: Hoofdstuk 5. Resultaten 35 Beoordel
Page 45 and 46: Hoofdstuk 5. Resultaten 37 Bij de u
Page 47 and 48: Hoofdstuk 5. Resultaten 39 F1 1,00
Page 49 and 50: Hoofdstuk 5. Resultaten 41 5.3 Feat
Page 51: Hoofdstuk 5. Resultaten 43 De voll
Page 55 and 56: Hoofdstuk 5. Resultaten 47 F1 F1 1,
Page 57 and 58: Hoofdstuk 5. Resultaten 49 gaat, st
Page 59 and 60: Hoofdstuk 5. Resultaten 51 Inzoomen
Page 61 and 62: Hoofdstuk 5. Resultaten 53 2. Afsch
Page 63 and 64: Hoofdstuk 6 Conclusie Tijdens het o
Page 65 and 66: Bibliografie 1ste Keuze BV (2012).
Page 67 and 68: Bibliografie 59 S. Zhu, X. Ji, W. X
Page 69 and 70: Bijlage A Woordenlijsten A.1 Nederl
Page 71 and 72: Bijlage A. Woordenlijsten 63 37. do
Page 73 and 74: Bijlage A. Woordenlijsten 65 19. ji
Page 75 and 76: Bijlage B. Resultaattabellen 67 Het
Page 77 and 78: Bijlage B. Resultaattabellen 69 Eve
Page 83 and 84: Bijlage C. Figuren 75 F1 1,00 0,95
Page 85 and 86: Bijlage C. Figuren 77 F1 F1 1,00 0,
Page 87 and 88: Bijlage C. Figuren 79 F1 1,00 0,95
Page 89: Bijlage D Afkortingen AUC − area

Paper - Hogeschool Gent

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?