Paper - Hogeschool Gent

More documents

Recommendations

Info

$C:\Olmo\compositie\Caprice\finale versie paganini.sib$

Hoofdstuk 5. Resultaten 50 min P min R min F1 max P max R max F1 baseline 12,6% 73,2% 21,8% 36,9% 92,7% 52,8% 300k64 19,6% 75,6% 31,2% 39,5% 92,7% 53,5% 300k128 9,4% 63,4% 16,4% 21,7% 95,1% 35,2% 300k256 13,3% 78,0% 22,7% 29,0% 95,1% 44,2% 300k512 8,2% 73,2% 14,8% 14,7% 95,1% 25,4% Tabel 5.5: Effect van clustering op SVM+MI. Uit tabel 5.5 volgt dat het toevoegen van clusteringfeatures aan het classificatieproces geen positieve invloed heeft. Figuur 5.9 bevestigt dat hoe groter het aantal clusters is, hoe slechter de classifier presteert. Enkel met 64 clusters komen de resultaten terug in de buurt van de baseline. Bovendien kan in het begin van grafiek 300k64 een scherpe daling waargenomen worden. De hoge startwaarde en de daling van de F1 measure valt in het gebied waar de gezamenlijke hoeveelheid clusterfeatures groter dan of gelijk is aan het aantal features per klasse aangebracht door de MI feature selector. F1 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% % gebruikte features Figuur 5.9: Optimalisatie door extra clustering features. baseline 300k64 300k128 300k256 300k512
Hoofdstuk 5. Resultaten 51 Inzoomen op het eerste deel van de grafiek voor test 300k64 (figuur 5.10) toont dat de hoge precision de oorzaak is van de hoge beginwaarden. De precision start immers op waarde 1, alle positief geklasseerde documenten zijn dan ook daadwerkelijk positief voor ongepaste seksueel inhoud. Zolang de clusterfeatures de overhand hebben, blijft de precision hoog. Er kan dus geargumenteerd worden dat de clustering betere features levert aan de classifier dan de MI feature selector. 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0% 2% 4% 6% 8% 10% 12% % gebruikte features Figuur 5.10: Inzoomen op het begin van test 300k64 met toevoeging van P en R. Voor de eerste zes datapunten van elke grafiek uit figuur 5.10 zijn de aantallen MI features gelijk aan 10, 20, 30, 40, 50 en 60 voor elke klasse. Aan die features worden telkens 29 extra cluster features toegevoegd. De tweemaal 29 komt voort uit de hier uitgevoerde clustering waarbij de negatieve en de positieve trainingsdocumenten elk over 29 clusters verspreid liggen. Dit betekent nog niet dat het hier om 58 verschillende clusters gaat. Het grote nadeel aan het verwerken van clusteringinformatie in het classificatieproces is de tijd die de clustering in beslag neemt. Clusteringen van grote hoeveelheden data nemen flink wat tijd in beslag. De eigen implementatie deed er met een Intel Core i5 (een 2,5GHz processor) bijna exact 24 uur over om 300.000 documenten te clusteren. Mits gebruik van een rekencluster en een geschikte multithreaded implementatie kan de benodigde tijd wel- P R F1
Page 1 and 2:
Geassocieerde faculteit Toegepaste
Page 3 and 4:
Sentimentdetectie op Sociale Netwer
Page 5 and 6:
Abstract Deze scriptie gaat over he
Page 7 and 8: Inhoudsopgave 1 Introductie 1 2 The
Page 9 and 10: Hoofdstuk 1 Introductie Tijdens dez
Page 11 and 12: Hoofdstuk 2 Theoretische achtergron
Page 13 and 14: Hoofdstuk 2. Theoretische achtergro
Page 33 and 34: Hoofdstuk 3. Data 25 3.2 Vereiste d
Page 35 and 36: Hoofdstuk 3. Data 27 na revisie een
Page 37 and 38: Hoofdstuk 3. Data 29 3.2.3 Realisti
Page 39 and 40: Hoofdstuk 4. Implementatie 31 Het i
Page 41 and 42: Hoofdstuk 4. Implementatie 33 Alle
Page 43 and 44: Hoofdstuk 5. Resultaten 35 Beoordel
Page 45 and 46: Hoofdstuk 5. Resultaten 37 Bij de u
Page 47 and 48: Hoofdstuk 5. Resultaten 39 F1 1,00
Page 49 and 50: Hoofdstuk 5. Resultaten 41 5.3 Feat
Page 51 and 52: Hoofdstuk 5. Resultaten 43 De voll
Page 53 and 54: Hoofdstuk 5. Resultaten 45 Een onev
Page 55 and 56: Hoofdstuk 5. Resultaten 47 F1 F1 1,
Page 57: Hoofdstuk 5. Resultaten 49 gaat, st
Page 61 and 62: Hoofdstuk 5. Resultaten 53 2. Afsch
Page 63 and 64: Hoofdstuk 6 Conclusie Tijdens het o
Page 65 and 66: Bibliografie 1ste Keuze BV (2012).
Page 67 and 68: Bibliografie 59 S. Zhu, X. Ji, W. X
Page 69 and 70: Bijlage A Woordenlijsten A.1 Nederl
Page 71 and 72: Bijlage A. Woordenlijsten 63 37. do
Page 73 and 74: Bijlage A. Woordenlijsten 65 19. ji
Page 75 and 76: Bijlage B. Resultaattabellen 67 Het
Page 77 and 78: Bijlage B. Resultaattabellen 69 Eve
Page 83 and 84: Bijlage C. Figuren 75 F1 1,00 0,95
Page 85 and 86: Bijlage C. Figuren 77 F1 F1 1,00 0,
Page 87 and 88: Bijlage C. Figuren 79 F1 1,00 0,95
Page 89: Bijlage D Afkortingen AUC − area
show all

Paper - Hogeschool Gent

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?