Paper - Hogeschool Gent

More documents

Recommendations

Info

$C:\Olmo\compositie\Caprice\finale versie paganini.sib$

Hoofdstuk 2. Theoretische achtergrond 6 Mutual information meet hoeveel informatie (in de informatietheoretische zin) een term bevat over een klasse. Als de verspreiding van een woord binnen een bepaalde klasse dezelfde is als de verspreiding over alle klassen, dan is de berekende waarde gelijk aan nul. De maximale waarde wordt bereikt wanneer de term een perfecte indicator is voor een klasse, indien een term dus enkel in één bepaalde klasse voorkomt. 2.2.4 Featurebewerkingen Voorafgaande bewerkingen De allereerste bewerkingen die er gebeuren op de tekstdocumenten bestaan uit het instellen van de delimiters, het wegwerken van hoofdletters en het verwijderen van diakritische tekens en cijfers. De delimiters zijn de tekens die gebruikt worden om een document op te splitsen in ver- schillende woorden. De gebruikte programmeertaal (Java) laat toe om alle delimiters te definiëren in een enkele string-variabele. In de praktijk blijkt het echter onbegonnen werk om alle exotische ASCII-tekens die voor- komen in de dataset op te nemen in de delimiterstring. De initiële aanpak werd daarom gewijzigd naar het verwijderen van al wat geen letter uit het alphabet is. Een twijfelgeval voor het verwijderen, is het afbreekstreepje (-). Volgens Kraaij & Pohl- mann (1994) worden, voor de Nederlandse taal, de beste resultaten verkregen door noch op het afbreekstreepje te splitsen, noch het afbreekstreepje te behouden, maar door het te verwijderen. Zoals in onderstaand voorbeeld worden alle afbreekstreepjes dus gewoon weggegooid. Het vervangen van de streepjes zou leiden tot het splitsen van woorden. vb: doe-het-zelf-zaak → doehetzelfzaak Het wegwerken van hoofdletters spreekt voor zich. Alle hoofdletters worden vervangen door hun kleine letter. vb: VaN iEdEr MeNs Is Dr Ma 1 DuS k BeN uNiEk → van ieder mens is dr ma 1 dus k ben uniek
Hoofdstuk 2. Theoretische achtergrond 7 Het weglaten van cijfers is een vereenvoudiging. Om bijvoorbeeld ‘w8’ op te nemen in de frequentiebel als een equivalent van ‘wacht’ zou een vervanging van vele cijfers nodig zijn. Vele, niet alle, want bijvoorbeeld voetbaluitslagen zouden dan niet mogen omgezet worden. Het verwijderen van diakritische tekens komt neer op het verwijderen van accenten, trema’s, tildes en konsoorten. De letters worden evenwel behouden. Stemming vb: ç → c é → e ë → e ^e → e ~n → n Stemming is het proces waarbij woorden afgekapt worden om ze tot eenzelfde stamvorm te herleiden. Er wordt een rudimentaire poging ondernomen om afleidingen en vervoegingen weg te werken en de woordenschat in de testset te reduceren. Een kleinere woordenschat betekent dat in geheugenkritische systemen meer features kunnen opgeslagen worden. Stemming kan ook omschreven worden als een afgezwakte vorm van lemmatizering. Deze laatste heeft eveneens als doel om de woordenschat te verkleinen door woorden terug te voeren tot hun stam, maar gaat evenwel anders te werk. Lemmatizering steunt voor het herleiden van woorden op een taalkundige analyse. Een taalkundige analyse kan bovendien verder gaan dan enkel een woord reduceren tot zijn stam. Er kan ook een link gelegd worden tussen woorden die hetzelfde voorwerp aanduiden, maar weinig letters gemeenschappelijk hebben. Een voorbeeld is auto en wagen. Een morfologische analyse is echter niet het onderwerp van dit werkstuk en is dan ook niet geëvalueerd. Afgezien van de beschikbare tijd, waren noch de kennis, noch de bronnen daarvoor aanwezig. Maar men kan aannemen dat, indien rekenkracht en uitvoeringstijd geen punt zijn, lemmatizering de resultaten wellicht nog meer kan verbeteren in verhouding tot stemming. Of deze verbetering de moeite is, is zoals gezegd niet uitgewerkt. Wanneer het om de Engelse taal gaat, is reeds lang een algoritme beschikbaar dat goede resultaten haalt. Dit algoritme, genoemd naar zijn uitvinder, is gekend als Porter’s Al- gorithm. Onze data bestaat echter voornamelijk uit Nederlandstalige tekst. De beperkte Engelstalige content bestaat voor het overgrote deel uit songteksten. Het toepassen van Porter’s Algorithm op onze data zou van weinig nut zijn daar stemmingsalgoritmen per definitie taalspecifiek zijn. Een oplossing werd gevonden in de paper van Kraaij & Pohlmann (1994) getiteld “Porter’s Algorithm for Dutch”. Hierbij wordt gesteund op de bevindingen van Kraaij & Pohlmann
Page 1 and 2: Geassocieerde faculteit Toegepaste
Page 3 and 4: Sentimentdetectie op Sociale Netwer
Page 5 and 6: Abstract Deze scriptie gaat over he
Page 7 and 8: Inhoudsopgave 1 Introductie 1 2 The
Page 9 and 10: Hoofdstuk 1 Introductie Tijdens dez
Page 11 and 12: Hoofdstuk 2 Theoretische achtergron
Page 13: Hoofdstuk 2. Theoretische achtergro
Page 17 and 18: Hoofdstuk 2. Theoretische achtergro
Page 33 and 34: Hoofdstuk 3. Data 25 3.2 Vereiste d
Page 35 and 36: Hoofdstuk 3. Data 27 na revisie een
Page 37 and 38: Hoofdstuk 3. Data 29 3.2.3 Realisti
Page 39 and 40: Hoofdstuk 4. Implementatie 31 Het i
Page 41 and 42: Hoofdstuk 4. Implementatie 33 Alle
Page 43 and 44: Hoofdstuk 5. Resultaten 35 Beoordel
Page 45 and 46: Hoofdstuk 5. Resultaten 37 Bij de u
Page 47 and 48: Hoofdstuk 5. Resultaten 39 F1 1,00
Page 49 and 50: Hoofdstuk 5. Resultaten 41 5.3 Feat
Page 51 and 52: Hoofdstuk 5. Resultaten 43 De voll
Page 53 and 54: Hoofdstuk 5. Resultaten 45 Een onev
Page 55 and 56: Hoofdstuk 5. Resultaten 47 F1 F1 1,
Page 57 and 58: Hoofdstuk 5. Resultaten 49 gaat, st
Page 59 and 60: Hoofdstuk 5. Resultaten 51 Inzoomen
Page 61 and 62: Hoofdstuk 5. Resultaten 53 2. Afsch
Page 63 and 64: Hoofdstuk 6 Conclusie Tijdens het o
Page 65 and 66:
Bibliografie 1ste Keuze BV (2012).
Page 67 and 68:
Bibliografie 59 S. Zhu, X. Ji, W. X
Page 69 and 70:
Bijlage A Woordenlijsten A.1 Nederl
Page 71 and 72:
Bijlage A. Woordenlijsten 63 37. do
Page 73 and 74:
Bijlage A. Woordenlijsten 65 19. ji
Page 75 and 76:
Bijlage B. Resultaattabellen 67 Het
Page 77 and 78:
Bijlage B. Resultaattabellen 69 Eve
Page 79 and 80:
Page 81 and 82:
Page 83 and 84:
Bijlage C. Figuren 75 F1 1,00 0,95
Page 85 and 86:
Bijlage C. Figuren 77 F1 F1 1,00 0,
Page 87 and 88:
Bijlage C. Figuren 79 F1 1,00 0,95
Page 89:
Bijlage D Afkortingen AUC − area
show all

Paper - Hogeschool Gent

Create successful ePaper yourself

Delete template?

Save as template?