Paper - Hogeschool Gent
Paper - Hogeschool Gent
Paper - Hogeschool Gent
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Hoofdstuk 2. Theoretische achtergrond 5<br />
2.2.2 Collection Frequency<br />
Deze vorm van feature selectie werkt eveneens met frequenties. Collection frequentie (CF)<br />
houdt bij hoe vaak een woord voorkomt in alle documenten samen.<br />
Net als bij DF zijn de berekeningen eenvoudig en beperkt het geheugengebruik zich tot<br />
een frequentietabel.<br />
2.2.3 Mutual information<br />
Deze laatste feature selection techniek is de meest complexe van de drie beschouwde tech-<br />
nieken. Mutual information (MI) meet hoeveel informatie het al dan niet voorkomen van<br />
een term bijdraagt aan het maken van een correcte classificatie.<br />
I(U, C) = <br />
<br />
et∈{1,0} ec∈{1,0}<br />
P (U = et, C = ec) log 2<br />
P (U = et, C = ec)<br />
P (U = et)P (C = ec)<br />
(2.1)<br />
Hierbij is U een random variabele die de waarden et = 1 (het document bevat term t) en<br />
et = 0 (het document bevat term t niet) kan aannemen. C is een random variabele die de<br />
waarden ec = 1 (het document zit in klasse c) en ec = 0 (het document zit niet in klasse c)<br />
kan aannemen. Ut en Cc worden gebruikt wanneer niet uit de context kan afgeleid worden<br />
over welke term t en welke klasse c het gaat.<br />
Bovenstaande formule is equivalent met de volgende:<br />
I(U, C) = N11<br />
N log 2<br />
+ N10<br />
N log 2<br />
N N11<br />
N1. N.1<br />
N N10<br />
N1. N.0<br />
+ N01<br />
N log 2<br />
+ N00<br />
N log 2<br />
N N01<br />
N0. N.1<br />
N N00<br />
N0. N.0<br />
(2.2)<br />
Hierin staan de verschillende termen N voor het aantal documenten die de waarden et<br />
en ec bevatten die worden aangeduid door de subscripts. Zo staat N10 voor het aantal<br />
documenten die term t (et = 1) bevatten en niet tot de klasse c (ec = 0) behoren. De<br />
termen N met een punt in de index zijn minder beperkend. Voorbeeld: N1. = N10 + N11 is<br />
het aantal documenten die term t (et = 1) bevatten onafhankelijk van de aanwezigheid van<br />
term t. De minst beperkende term N (zonder subscript) is het totaal aantal documenten<br />
en is dus gelijk aan N00 + N01 + N10 + N11. Het invullen van de waarden voor U en C zoals<br />
hieronder toont het verband met formule (2.1).<br />
P (U = 1, C = 1) = N11<br />
N<br />
(2.3)