03.05.2013 Views

Paper - Hogeschool Gent

Paper - Hogeschool Gent

Paper - Hogeschool Gent

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Hoofdstuk 2. Theoretische achtergrond 7<br />

Het weglaten van cijfers is een vereenvoudiging. Om bijvoorbeeld ‘w8’ op te nemen in de<br />

frequentiebel als een equivalent van ‘wacht’ zou een vervanging van vele cijfers nodig zijn.<br />

Vele, niet alle, want bijvoorbeeld voetbaluitslagen zouden dan niet mogen omgezet worden.<br />

Het verwijderen van diakritische tekens komt neer op het verwijderen van accenten, trema’s,<br />

tildes en konsoorten. De letters worden evenwel behouden.<br />

Stemming<br />

vb: ç → c é → e ë → e ^e → e ~n → n<br />

Stemming is het proces waarbij woorden afgekapt worden om ze tot eenzelfde stamvorm te<br />

herleiden. Er wordt een rudimentaire poging ondernomen om afleidingen en vervoegingen<br />

weg te werken en de woordenschat in de testset te reduceren. Een kleinere woordenschat<br />

betekent dat in geheugenkritische systemen meer features kunnen opgeslagen worden.<br />

Stemming kan ook omschreven worden als een afgezwakte vorm van lemmatizering. Deze<br />

laatste heeft eveneens als doel om de woordenschat te verkleinen door woorden terug te<br />

voeren tot hun stam, maar gaat evenwel anders te werk. Lemmatizering steunt voor het<br />

herleiden van woorden op een taalkundige analyse. Een taalkundige analyse kan bovendien<br />

verder gaan dan enkel een woord reduceren tot zijn stam. Er kan ook een link gelegd worden<br />

tussen woorden die hetzelfde voorwerp aanduiden, maar weinig letters gemeenschappelijk<br />

hebben. Een voorbeeld is auto en wagen.<br />

Een morfologische analyse is echter niet het onderwerp van dit werkstuk en is dan ook niet<br />

geëvalueerd. Afgezien van de beschikbare tijd, waren noch de kennis, noch de bronnen<br />

daarvoor aanwezig. Maar men kan aannemen dat, indien rekenkracht en uitvoeringstijd<br />

geen punt zijn, lemmatizering de resultaten wellicht nog meer kan verbeteren in verhouding<br />

tot stemming. Of deze verbetering de moeite is, is zoals gezegd niet uitgewerkt.<br />

Wanneer het om de Engelse taal gaat, is reeds lang een algoritme beschikbaar dat goede<br />

resultaten haalt. Dit algoritme, genoemd naar zijn uitvinder, is gekend als Porter’s Al-<br />

gorithm. Onze data bestaat echter voornamelijk uit Nederlandstalige tekst. De beperkte<br />

Engelstalige content bestaat voor het overgrote deel uit songteksten. Het toepassen van<br />

Porter’s Algorithm op onze data zou van weinig nut zijn daar stemmingsalgoritmen per<br />

definitie taalspecifiek zijn.<br />

Een oplossing werd gevonden in de paper van Kraaij & Pohlmann (1994) getiteld “Porter’s<br />

Algorithm for Dutch”. Hierbij wordt gesteund op de bevindingen van Kraaij & Pohlmann

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!