Paper - Hogeschool Gent

More documents

Recommendations

Info

$C:\Olmo\compositie\Caprice\finale versie paganini.sib$

Hoofdstuk 2. Theoretische achtergrond 4 Voor de feature selector werd afgewisseld tussen document frequency (hoofdstuk 2.2.1, p. 4), collection frequency (hoofdstuk 2.2.2, p. 5) en mutual information (hoofdstuk 2.2.3, p. 5). 2.2 Feature selection De volgende paragrafen geven een antwoord op de vragen “Hoe wordt bepaald welke woorden een document definiëren?” en “Welke bewerkingen kunnen uitgevoerd worden op de termen om de feature selectie en daarmee de classifier te verbeteren?” Het basisalgoritme (Manning et al. (2008)) om de k beste features voor een klasse c uit een groep documenten D te selecteren is: Algoritme 1 Selectie beste features per klasse function SelecteerFeatures(D, c, k) V ← ExtractheerW oordenschat(D) L ← [] for each t ∈ V do A(t, c) ← BerekenBruikbaarheid(D, t, c) V oegT oe(L, 〈t, A(t, c)〉) return W oordenMetGrootsteW aarde(L, k) De volgende punten geven de verschillende werkwijzen die gebruikt werden voor de bere- kening van de waarde A(t, c). 2.2.1 Document Frequency Deze techniek steunt zoals de naam aangeeft op frequenties. De frequenties die hier gebuikt worden, zijn documentfrequenties. Een frequentiegetal geeft dus aan in hoeveel documenten een woord voorkomt. Vooral bij grote aantallen features zou document frequency (DF) goed moeten presteren (Manning et al. (2008)). Er zijn echter flink wat woorden, met name stopwoorden (zie verder p. 9), die vaak tot heel vaak voorkomen zonder bij te dragen aan het classificatieproces. Een typisch voorbeeld van stopwoorden zijn lidwoorden. Voor de rest vraagt DF geen complexe berekeningen en is het noodzakelijke geheugen beperkt tot een frequentietabel. Om de selectie te kiezen werd, volgens algoritme 1, per label de gevraagde hoeveelheid features met de hoogste frequenties behouden. Dit wil zeggen dat als een text classifier getraind wordt met 500 features, dan elke klasse gedefinieerd wordt door 500 features.
Hoofdstuk 2. Theoretische achtergrond 5 2.2.2 Collection Frequency Deze vorm van feature selectie werkt eveneens met frequenties. Collection frequentie (CF) houdt bij hoe vaak een woord voorkomt in alle documenten samen. Net als bij DF zijn de berekeningen eenvoudig en beperkt het geheugengebruik zich tot een frequentietabel. 2.2.3 Mutual information Deze laatste feature selection techniek is de meest complexe van de drie beschouwde tech- nieken. Mutual information (MI) meet hoeveel informatie het al dan niet voorkomen van een term bijdraagt aan het maken van een correcte classificatie. I(U, C) = et∈{1,0} ec∈{1,0} P (U = et, C = ec) log 2 P (U = et, C = ec) P (U = et)P (C = ec) (2.1) Hierbij is U een random variabele die de waarden et = 1 (het document bevat term t) en et = 0 (het document bevat term t niet) kan aannemen. C is een random variabele die de waarden ec = 1 (het document zit in klasse c) en ec = 0 (het document zit niet in klasse c) kan aannemen. Ut en Cc worden gebruikt wanneer niet uit de context kan afgeleid worden over welke term t en welke klasse c het gaat. Bovenstaande formule is equivalent met de volgende: I(U, C) = N11 N log 2 + N10 N log 2 N N11 N1. N.1 N N10 N1. N.0 + N01 N log 2 + N00 N log 2 N N01 N0. N.1 N N00 N0. N.0 (2.2) Hierin staan de verschillende termen N voor het aantal documenten die de waarden et en ec bevatten die worden aangeduid door de subscripts. Zo staat N10 voor het aantal documenten die term t (et = 1) bevatten en niet tot de klasse c (ec = 0) behoren. De termen N met een punt in de index zijn minder beperkend. Voorbeeld: N1. = N10 + N11 is het aantal documenten die term t (et = 1) bevatten onafhankelijk van de aanwezigheid van term t. De minst beperkende term N (zonder subscript) is het totaal aantal documenten en is dus gelijk aan N00 + N01 + N10 + N11. Het invullen van de waarden voor U en C zoals hieronder toont het verband met formule (2.1). P (U = 1, C = 1) = N11 N (2.3)
Page 1 and 2: Geassocieerde faculteit Toegepaste
Page 3 and 4: Sentimentdetectie op Sociale Netwer
Page 5 and 6: Abstract Deze scriptie gaat over he
Page 7 and 8: Inhoudsopgave 1 Introductie 1 2 The
Page 9 and 10: Hoofdstuk 1 Introductie Tijdens dez
Page 11: Hoofdstuk 2 Theoretische achtergron
Page 15 and 16: Hoofdstuk 2. Theoretische achtergro
Page 33 and 34: Hoofdstuk 3. Data 25 3.2 Vereiste d
Page 35 and 36: Hoofdstuk 3. Data 27 na revisie een
Page 37 and 38: Hoofdstuk 3. Data 29 3.2.3 Realisti
Page 39 and 40: Hoofdstuk 4. Implementatie 31 Het i
Page 41 and 42: Hoofdstuk 4. Implementatie 33 Alle
Page 43 and 44: Hoofdstuk 5. Resultaten 35 Beoordel
Page 45 and 46: Hoofdstuk 5. Resultaten 37 Bij de u
Page 47 and 48: Hoofdstuk 5. Resultaten 39 F1 1,00
Page 49 and 50: Hoofdstuk 5. Resultaten 41 5.3 Feat
Page 51 and 52: Hoofdstuk 5. Resultaten 43 De voll
Page 53 and 54: Hoofdstuk 5. Resultaten 45 Een onev
Page 55 and 56: Hoofdstuk 5. Resultaten 47 F1 F1 1,
Page 57 and 58: Hoofdstuk 5. Resultaten 49 gaat, st
Page 59 and 60: Hoofdstuk 5. Resultaten 51 Inzoomen
Page 61 and 62: Hoofdstuk 5. Resultaten 53 2. Afsch
Page 63 and 64:
Hoofdstuk 6 Conclusie Tijdens het o
Page 65 and 66:
Bibliografie 1ste Keuze BV (2012).
Page 67 and 68:
Bibliografie 59 S. Zhu, X. Ji, W. X
Page 69 and 70:
Bijlage A Woordenlijsten A.1 Nederl
Page 71 and 72:
Bijlage A. Woordenlijsten 63 37. do
Page 73 and 74:
Bijlage A. Woordenlijsten 65 19. ji
Page 75 and 76:
Bijlage B. Resultaattabellen 67 Het
Page 77 and 78:
Bijlage B. Resultaattabellen 69 Eve
Page 79 and 80:
Page 81 and 82:
Page 83 and 84:
Bijlage C. Figuren 75 F1 1,00 0,95
Page 85 and 86:
Bijlage C. Figuren 77 F1 F1 1,00 0,
Page 87 and 88:
Bijlage C. Figuren 79 F1 1,00 0,95
Page 89:
Bijlage D Afkortingen AUC − area
show all

Paper - Hogeschool Gent

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?