Methoden zur Klassifikation - OptiV
Methoden zur Klassifikation - OptiV
Methoden zur Klassifikation - OptiV
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Erweiterungen<br />
von C4.5<br />
Die Algorithmen <strong>zur</strong> Attributauswahl und Verzweigung wurden verbessert, so<br />
dass Merkmale mit vielen Ausprägungen nicht mehr bevorzugt als Knoten<br />
ausgewählt werden.<br />
Weiterhin wurden in C4.5 verschiedene <strong>Methoden</strong> des Pruning implementiert.<br />
Von Quinlan wurden zwei Ergänzungen zu C4.5 vorgestellt, welche aufgrund statistischer<br />
Tests entscheiden können, ob die Verzweigung nach einem Merkmal<br />
sinnvoll ist und ob bei widersprüchlichen Daten aufgrund stochastischer<br />
Überlegungen eine Zuordnung der fraglichen Daten zu einer Klasse vorgenommen<br />
werden kann.<br />
Liegen Trainingsdaten mit fehlenden Attributwerten vor, so wird der Algorithmus<br />
dahingehend abgeändert, dass die Verzweigung nach einem Merkmal<br />
mit vielen fehlenden Werten wenig wahrscheinlich ist.<br />
5.4.3 Nebenpfad:<br />
Partitionsalgorithmus Der CART-Algorithmus [1] (Classification and Regression Trees) ist ein rekursiver<br />
Partitionsalgorithmus, mit dem die Beispieldaten sukzessive nach<br />
einzelnen Merkmalsausprägungen jeweils in zwei Teilmengen zerlegt werden.<br />
Bei diskreten Merkmalswerten werden alle möglichen Verzweigungen erzeugt<br />
und untersucht.<br />
Bei stetigen Merkmalsausprägungen wird wie bei C4.5 eine Schranke berechnet,<br />
nach der die Beispielmenge in einem Knoten in zwei Untermengen zerlegt wird.<br />
” Reine“<br />
Untermengen<br />
Der CART-Algorithmus versucht die Zerlegung in zwei Teilmengen so vorzunehmen,<br />
dass die Untermengen bezüglich der Klassenzugehörigkeit ” reiner“ werden<br />
als die Ausgangsmenge.<br />
Hierzu wird ein Unreinheitsmaß definiert, welches angibt wie groß die Streuung<br />
der Verteilung über die Klassen in einem Knoten ist.<br />
Wenn beispielsweise in einem Knoten die Beispiele über alle Klassen gleichverteilt<br />
sind, dann ist die Unreinheit des Knotens am größten.<br />
Für den Fall einheitlicher bzw. variabler Fehlklassifikationskosten werden<br />
beim CART-Algorithmus das Gini- bzw. das Twoing-Kriterium als Verzweigungskriterien<br />
verwendet.<br />
Klassenwahrscheinlichkeit Falls bei CART ein Endknoten vorliegt, welcher nicht weiter verzweigt werden<br />
kann, aber Objekte unterschiedlicher Klassenzugehörigkeit enthält, so wird mit<br />
22