03.05.2013 Views

Paper - Hogeschool Gent

Paper - Hogeschool Gent

Paper - Hogeschool Gent

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Hoofdstuk 2. Theoretische achtergrond 9<br />

1 en → ∅ M > 0 EK VK (-en, meervouden)<br />

2 e → ∅ M > 0 EK VK (-e, adjectieven)<br />

3 etj → ∅ EK VK (-etje, de eind-‘e’ werd al behandeld)<br />

4 tj → ∅ (-e, zelfde opmerking als hierboven)<br />

5 heid → ∅ M > 0 VK (-heid)<br />

6 ing → ∅ M > 0 (-ing)<br />

7 baar → ∅ M > 0 VK (-baar)<br />

8 ig → ∅ M > 0 (-ig)<br />

9 ge- → ∅ M > 0 (ge-)<br />

10 -ge- → ∅ (-ge-)<br />

11 v → f (-v → -f)<br />

12 pp → p (-pp → -p)<br />

Stopwoorden<br />

Tabel 2.1: Een Nederlandse versie van Porter’s Algorithm<br />

Om de definiëring van de klassen te verbeteren, kan het nuttig zijn om zeer frequente<br />

woorden niet op te nemen in de berekeningen. De hoge frequenties zorgen voor grote<br />

getallen bij de berekeningen en bovendien dragen de termen niet bij tot definiëring van<br />

een klasse. Manning et al. (2008) beschrijft de algemene trend in informatievergarende<br />

systemen, gaande van het gebruik van lange lijsten (200-300 termen) naar zeer kleine stop-<br />

woordlijsten (7-12 termen) naar helemaal geen stopwoordfiltering. Ook stopwoorden zijn,<br />

net als stemmingregels, zeer taalspecifiek. De stopwoordlijst die gebruikt werd voor de eer-<br />

ste metingen bestond uit 48 termen (1ste Keuze BV (2012)). Omdat deze stopwoordenlijst<br />

niet volstond voor de testen rond clustering is vanaf dan overgegaan op een langere lijst<br />

van 104 Nederlandse woorden (van Holten (2008)). Het opnemen van een Engelse stop-<br />

woordenlijst met 174 termen bleek eveneens een nuttige aanvulling. De stopwoordlijsten<br />

zijn opgenomen in de bijlages A.1 en A.2 (p. 61, 62). In verdere grafieken en tabellen wordt<br />

het filteren van stopwoorden aangeduid met de letters ‘sw’.<br />

Combinatie van stemming en stopwoorden<br />

Een combinatie van stemming en stopwoorden ligt voor de hand, maar levert daarom niet<br />

altijd betere resultaten op. Bij het evalueren van de verschillende text classifiers is de<br />

invloed van stemming en stopwoorden zowel apart als gecombineerd geëvalueerd.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!