Paper - Hogeschool Gent
Paper - Hogeschool Gent
Paper - Hogeschool Gent
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Hoofdstuk 2. Theoretische achtergrond 7<br />
Het weglaten van cijfers is een vereenvoudiging. Om bijvoorbeeld ‘w8’ op te nemen in de<br />
frequentiebel als een equivalent van ‘wacht’ zou een vervanging van vele cijfers nodig zijn.<br />
Vele, niet alle, want bijvoorbeeld voetbaluitslagen zouden dan niet mogen omgezet worden.<br />
Het verwijderen van diakritische tekens komt neer op het verwijderen van accenten, trema’s,<br />
tildes en konsoorten. De letters worden evenwel behouden.<br />
Stemming<br />
vb: ç → c é → e ë → e ^e → e ~n → n<br />
Stemming is het proces waarbij woorden afgekapt worden om ze tot eenzelfde stamvorm te<br />
herleiden. Er wordt een rudimentaire poging ondernomen om afleidingen en vervoegingen<br />
weg te werken en de woordenschat in de testset te reduceren. Een kleinere woordenschat<br />
betekent dat in geheugenkritische systemen meer features kunnen opgeslagen worden.<br />
Stemming kan ook omschreven worden als een afgezwakte vorm van lemmatizering. Deze<br />
laatste heeft eveneens als doel om de woordenschat te verkleinen door woorden terug te<br />
voeren tot hun stam, maar gaat evenwel anders te werk. Lemmatizering steunt voor het<br />
herleiden van woorden op een taalkundige analyse. Een taalkundige analyse kan bovendien<br />
verder gaan dan enkel een woord reduceren tot zijn stam. Er kan ook een link gelegd worden<br />
tussen woorden die hetzelfde voorwerp aanduiden, maar weinig letters gemeenschappelijk<br />
hebben. Een voorbeeld is auto en wagen.<br />
Een morfologische analyse is echter niet het onderwerp van dit werkstuk en is dan ook niet<br />
geëvalueerd. Afgezien van de beschikbare tijd, waren noch de kennis, noch de bronnen<br />
daarvoor aanwezig. Maar men kan aannemen dat, indien rekenkracht en uitvoeringstijd<br />
geen punt zijn, lemmatizering de resultaten wellicht nog meer kan verbeteren in verhouding<br />
tot stemming. Of deze verbetering de moeite is, is zoals gezegd niet uitgewerkt.<br />
Wanneer het om de Engelse taal gaat, is reeds lang een algoritme beschikbaar dat goede<br />
resultaten haalt. Dit algoritme, genoemd naar zijn uitvinder, is gekend als Porter’s Al-<br />
gorithm. Onze data bestaat echter voornamelijk uit Nederlandstalige tekst. De beperkte<br />
Engelstalige content bestaat voor het overgrote deel uit songteksten. Het toepassen van<br />
Porter’s Algorithm op onze data zou van weinig nut zijn daar stemmingsalgoritmen per<br />
definitie taalspecifiek zijn.<br />
Een oplossing werd gevonden in de paper van Kraaij & Pohlmann (1994) getiteld “Porter’s<br />
Algorithm for Dutch”. Hierbij wordt gesteund op de bevindingen van Kraaij & Pohlmann