Klassifikation - Database Systems Group - Ludwig-Maximilians ...
Klassifikation - Database Systems Group - Ludwig-Maximilians ...
Klassifikation - Database Systems Group - Ludwig-Maximilians ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
DATABASE<br />
SYSTEMS<br />
GROUP<br />
Splitstrategien<br />
Gini-Index<br />
Gini-Index für eine Menge T von Trainingsobjekten<br />
k<br />
∑<br />
gini( T)= 1−<br />
pj<br />
= 1<br />
j<br />
– kl kleiner i Gini-Index Gi i I d ⇔ geringe i UUnreinheit, i h i<br />
– großer Gini-Index ⇔ hohe Unreinheit<br />
2<br />
DDas AAttribut ib A hhabe b die di Partitionierung P i i i T T1, T T2, . . . , T Tm erzeugt.<br />
Gini-Index des Attributs A in Bezug auf T ist definiert als<br />
DATABASE<br />
SYSTEMS<br />
GROUP<br />
m<br />
| Ti<br />
|<br />
giniA( T)<br />
= ⋅gini(<br />
Ti<br />
)<br />
| T| ∑<br />
i=<br />
1<br />
Splitstrategien<br />
9 „ja“ 5 „nein“ Entropie = 0,940<br />
Feuchtigkeit g<br />
hoch normal<br />
Beispiel p<br />
9 „ja“ 5 „nein“ Entropie = 0,940<br />
Wind<br />
schwach stark<br />
3„ja“ 3 „ja 4„nein“ 4 „nein 6„ja“ 6 „ja 1„nein“ 1 „nein 6 „ja“ „j 2 „nein“ „<br />
3 „ja“ j 3 „nein“<br />
Entropie = 0,985 Entropie = 0,592 Entropie = 0,811 Entropie = 1,0<br />
7 7<br />
Informationsgewinn(<br />
T,<br />
Feuchtigkeit)<br />
= 0,<br />
94 − ⋅0,<br />
985 − ⋅0,<br />
592 = 0,<br />
151<br />
14 14<br />
8 6<br />
Informationsgewinn(<br />
T,<br />
Wind)<br />
= 0,<br />
94 − ⋅0,<br />
811−<br />
⋅1,<br />
0 = 0,<br />
048<br />
14 14<br />
⇒ Feuchtigkeit liefert den höheren Informationsgewinn<br />
67<br />
68