17.07.2013 Aufrufe

kombiniertes data mining – klassifikation unter verwendung von ...

kombiniertes data mining – klassifikation unter verwendung von ...

kombiniertes data mining – klassifikation unter verwendung von ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Kombiniertes Data Mining <strong>–</strong> Klassifikation anhand <strong>von</strong> Hilfsinformationen<br />

Die Entropie ist ein Maß für die Unreinheit einer Verteilung, d.h. z.B. für entropie(T) =<br />

0, dass eine Verteilung mit einem Splitwert S absolut rein ist und alle Objekte<br />

verschiedener Klassenzugehörigkeiten <strong>von</strong> einander getrennt wurden, während bei<br />

entropie(T) = 1 alle durch S erzeugten Partitionen die gleiche Menge an Objekten mit<br />

<strong>unter</strong>schiedlicher Klassenzugehörigkeit beinhalten.<br />

Der Informationsgewinn eines Attributs A in Bezug auf die Menge T ist nach [ES00]<br />

definiert als<br />

| Ti<br />

|<br />

informationsgewinn(T,A) = entropie ( T ) − ∑ ⋅ entropie(<br />

Ti<br />

),<br />

(2.7)<br />

| T |<br />

wobei das Attribut A jenes Attribut ist, dessen Attributausprägungen mittels eines<br />

Splitkriteriums in die vollständigen, disjunkten Partitionen T1, …, Ti geteilt wurden.<br />

Die Anwendung des Informationsgewinns auf eine Trainingsmenge T soll im nun<br />

folgenden Beispiel illustriert werden (vgl. Tabelle 3), wobei als Trainingmenge<br />

wiederum die Datensätze der Tabelle 2 aus Kapitel 2.3 verwendet wird.<br />

ID Alter Familienstand Kinder<br />

1 23 geschieden nein<br />

2 17 ledig nein<br />

3 43 ledig nein<br />

4 68 geschieden ja<br />

5 32 verheiratet ja<br />

Tabelle 3: Trainingstabelle für den Entscheidungsbaum-Klassifikator<br />

Zunächst muss die Gesamtentropie der Trainingsmenge (entropie(T)) berechnet<br />

werden. T enthält zwei Tupel mit „Kinder = ja“ und drei Tupel mit „Kinder = nein“.<br />

entropie(T) ergibt sich somit aus:<br />

2 2 3 3<br />

entropie ( T ) = ⋅ log 2 ( ) + ⋅ log 2 ( ) = 0,<br />

97095<br />

5 5 5 5<br />

Seite 30

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!