17.07.2013 Aufrufe

Methoden zur Klassifikation - OptiV

Methoden zur Klassifikation - OptiV

Methoden zur Klassifikation - OptiV

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Erweiterungen<br />

von C4.5<br />

Die Algorithmen <strong>zur</strong> Attributauswahl und Verzweigung wurden verbessert, so<br />

dass Merkmale mit vielen Ausprägungen nicht mehr bevorzugt als Knoten<br />

ausgewählt werden.<br />

Weiterhin wurden in C4.5 verschiedene <strong>Methoden</strong> des Pruning implementiert.<br />

Von Quinlan wurden zwei Ergänzungen zu C4.5 vorgestellt, welche aufgrund statistischer<br />

Tests entscheiden können, ob die Verzweigung nach einem Merkmal<br />

sinnvoll ist und ob bei widersprüchlichen Daten aufgrund stochastischer<br />

Überlegungen eine Zuordnung der fraglichen Daten zu einer Klasse vorgenommen<br />

werden kann.<br />

Liegen Trainingsdaten mit fehlenden Attributwerten vor, so wird der Algorithmus<br />

dahingehend abgeändert, dass die Verzweigung nach einem Merkmal<br />

mit vielen fehlenden Werten wenig wahrscheinlich ist.<br />

5.4.3 Nebenpfad:<br />

Partitionsalgorithmus Der CART-Algorithmus [1] (Classification and Regression Trees) ist ein rekursiver<br />

Partitionsalgorithmus, mit dem die Beispieldaten sukzessive nach<br />

einzelnen Merkmalsausprägungen jeweils in zwei Teilmengen zerlegt werden.<br />

Bei diskreten Merkmalswerten werden alle möglichen Verzweigungen erzeugt<br />

und untersucht.<br />

Bei stetigen Merkmalsausprägungen wird wie bei C4.5 eine Schranke berechnet,<br />

nach der die Beispielmenge in einem Knoten in zwei Untermengen zerlegt wird.<br />

” Reine“<br />

Untermengen<br />

Der CART-Algorithmus versucht die Zerlegung in zwei Teilmengen so vorzunehmen,<br />

dass die Untermengen bezüglich der Klassenzugehörigkeit ” reiner“ werden<br />

als die Ausgangsmenge.<br />

Hierzu wird ein Unreinheitsmaß definiert, welches angibt wie groß die Streuung<br />

der Verteilung über die Klassen in einem Knoten ist.<br />

Wenn beispielsweise in einem Knoten die Beispiele über alle Klassen gleichverteilt<br />

sind, dann ist die Unreinheit des Knotens am größten.<br />

Für den Fall einheitlicher bzw. variabler Fehlklassifikationskosten werden<br />

beim CART-Algorithmus das Gini- bzw. das Twoing-Kriterium als Verzweigungskriterien<br />

verwendet.<br />

Klassenwahrscheinlichkeit Falls bei CART ein Endknoten vorliegt, welcher nicht weiter verzweigt werden<br />

kann, aber Objekte unterschiedlicher Klassenzugehörigkeit enthält, so wird mit<br />

22

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!