03.05.2013 Views

Paper - Hogeschool Gent

Paper - Hogeschool Gent

Paper - Hogeschool Gent

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Hoofdstuk 2. Theoretische achtergrond 5<br />

2.2.2 Collection Frequency<br />

Deze vorm van feature selectie werkt eveneens met frequenties. Collection frequentie (CF)<br />

houdt bij hoe vaak een woord voorkomt in alle documenten samen.<br />

Net als bij DF zijn de berekeningen eenvoudig en beperkt het geheugengebruik zich tot<br />

een frequentietabel.<br />

2.2.3 Mutual information<br />

Deze laatste feature selection techniek is de meest complexe van de drie beschouwde tech-<br />

nieken. Mutual information (MI) meet hoeveel informatie het al dan niet voorkomen van<br />

een term bijdraagt aan het maken van een correcte classificatie.<br />

I(U, C) = <br />

<br />

et∈{1,0} ec∈{1,0}<br />

P (U = et, C = ec) log 2<br />

P (U = et, C = ec)<br />

P (U = et)P (C = ec)<br />

(2.1)<br />

Hierbij is U een random variabele die de waarden et = 1 (het document bevat term t) en<br />

et = 0 (het document bevat term t niet) kan aannemen. C is een random variabele die de<br />

waarden ec = 1 (het document zit in klasse c) en ec = 0 (het document zit niet in klasse c)<br />

kan aannemen. Ut en Cc worden gebruikt wanneer niet uit de context kan afgeleid worden<br />

over welke term t en welke klasse c het gaat.<br />

Bovenstaande formule is equivalent met de volgende:<br />

I(U, C) = N11<br />

N log 2<br />

+ N10<br />

N log 2<br />

N N11<br />

N1. N.1<br />

N N10<br />

N1. N.0<br />

+ N01<br />

N log 2<br />

+ N00<br />

N log 2<br />

N N01<br />

N0. N.1<br />

N N00<br />

N0. N.0<br />

(2.2)<br />

Hierin staan de verschillende termen N voor het aantal documenten die de waarden et<br />

en ec bevatten die worden aangeduid door de subscripts. Zo staat N10 voor het aantal<br />

documenten die term t (et = 1) bevatten en niet tot de klasse c (ec = 0) behoren. De<br />

termen N met een punt in de index zijn minder beperkend. Voorbeeld: N1. = N10 + N11 is<br />

het aantal documenten die term t (et = 1) bevatten onafhankelijk van de aanwezigheid van<br />

term t. De minst beperkende term N (zonder subscript) is het totaal aantal documenten<br />

en is dus gelijk aan N00 + N01 + N10 + N11. Het invullen van de waarden voor U en C zoals<br />

hieronder toont het verband met formule (2.1).<br />

P (U = 1, C = 1) = N11<br />

N<br />

(2.3)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!