Paper - Hogeschool Gent
Paper - Hogeschool Gent
Paper - Hogeschool Gent
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Hoofdstuk 2. Theoretische achtergrond 9<br />
1 en → ∅ M > 0 EK VK (-en, meervouden)<br />
2 e → ∅ M > 0 EK VK (-e, adjectieven)<br />
3 etj → ∅ EK VK (-etje, de eind-‘e’ werd al behandeld)<br />
4 tj → ∅ (-e, zelfde opmerking als hierboven)<br />
5 heid → ∅ M > 0 VK (-heid)<br />
6 ing → ∅ M > 0 (-ing)<br />
7 baar → ∅ M > 0 VK (-baar)<br />
8 ig → ∅ M > 0 (-ig)<br />
9 ge- → ∅ M > 0 (ge-)<br />
10 -ge- → ∅ (-ge-)<br />
11 v → f (-v → -f)<br />
12 pp → p (-pp → -p)<br />
Stopwoorden<br />
Tabel 2.1: Een Nederlandse versie van Porter’s Algorithm<br />
Om de definiëring van de klassen te verbeteren, kan het nuttig zijn om zeer frequente<br />
woorden niet op te nemen in de berekeningen. De hoge frequenties zorgen voor grote<br />
getallen bij de berekeningen en bovendien dragen de termen niet bij tot definiëring van<br />
een klasse. Manning et al. (2008) beschrijft de algemene trend in informatievergarende<br />
systemen, gaande van het gebruik van lange lijsten (200-300 termen) naar zeer kleine stop-<br />
woordlijsten (7-12 termen) naar helemaal geen stopwoordfiltering. Ook stopwoorden zijn,<br />
net als stemmingregels, zeer taalspecifiek. De stopwoordlijst die gebruikt werd voor de eer-<br />
ste metingen bestond uit 48 termen (1ste Keuze BV (2012)). Omdat deze stopwoordenlijst<br />
niet volstond voor de testen rond clustering is vanaf dan overgegaan op een langere lijst<br />
van 104 Nederlandse woorden (van Holten (2008)). Het opnemen van een Engelse stop-<br />
woordenlijst met 174 termen bleek eveneens een nuttige aanvulling. De stopwoordlijsten<br />
zijn opgenomen in de bijlages A.1 en A.2 (p. 61, 62). In verdere grafieken en tabellen wordt<br />
het filteren van stopwoorden aangeduid met de letters ‘sw’.<br />
Combinatie van stemming en stopwoorden<br />
Een combinatie van stemming en stopwoorden ligt voor de hand, maar levert daarom niet<br />
altijd betere resultaten op. Bij het evalueren van de verschillende text classifiers is de<br />
invloed van stemming en stopwoorden zowel apart als gecombineerd geëvalueerd.