kombiniertes data mining – klassifikation unter verwendung von ...
kombiniertes data mining – klassifikation unter verwendung von ...
kombiniertes data mining – klassifikation unter verwendung von ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Kombiniertes Data Mining <strong>–</strong> Klassifikation anhand <strong>von</strong> Hilfsinformationen<br />
Die Werte für precision und recall sind genau dann optimal, wenn alle relevanten<br />
Datensätze richtig klassifiziert wurden. Es ergibt sich für beide Kennzahlen ein Wert<br />
<strong>von</strong> 1. Die Maße für precision und recall sind in gewisser Weise gegenläufig. Wurden<br />
z.B. alle Tupel der Testmenge richtig klassifiziert, so wird der Wert für den recall 1<br />
entsprechen, natürlich <strong>unter</strong> der Voraussetzung, dass mindestens ein relevanter<br />
Datensatz existiert. Die precision hingegen wird sehr niedrig sein, wenn nicht<br />
zufälligerweise alle Datensätze relevant sind. Sollte im umgekehrten Fall nur ein<br />
einziger relevanter Datensatz richtig klassifiziert worden sein, so ist die precision<br />
gleich 1, der recall wird aber mit Sicherheit schlecht sein, sollten noch weitere<br />
relevante Datensätze vorhanden sein.<br />
In der Regel werden die Antwortmengen aber zwischen diesen beiden Extremen<br />
liegen. Dann ergibt sich im Allgemeinen bei einer Verkleinerung der Antwortmenge<br />
durch eine spezifischere Anfrage eine bessere Precision, aber ein schlechterer<br />
Recall; bei einer Vergrößerung der Antwortmenge durch eine allgemeinere Anfrage<br />
ergibt sich ein größerer Recall, aber eine kleinere Precision. Ähnliche Situationen<br />
können auftreten, wenn Precision- und Recall-Maße dazu verwendet werden,<br />
verschiedene Systeme zu vergleichen. Eindeutige Aussagen darüber, ob ein System<br />
besser ist als das andere, können nur gemacht werden, wenn für das eine System<br />
sowohl der Precision-Wert als auch der Recall-Wert besser ist als bei dem anderen<br />
System. Ist bei einem System z.B. die Precision besser, dafür aber der Recall<br />
schlechter, so eignen sich die Systeme zwar eventuell für <strong>unter</strong>schiedliche Aufgaben,<br />
es kann aber nicht allgemein gesagt werden, welches besser ist [FE03].<br />
Kompaktheit des Modells<br />
Ziel beim Generieren eines DT-Klassifikators ist es immer, diesen so kompakt als<br />
möglich zu halten, d.h. mit einem Minimum an Knoten ein Maximum an Qualität im<br />
Hinblick auf die Klassifikationsgenauigkeit zu erhalten. Zur Kompaktheit gehört<br />
außerdem die Höhe des Baumes. Es soll versucht werden, den Baum so „niedrig“<br />
wie möglich zu halten, d.h. dass die Pfade eines Baumes nicht unnötig viele Knoten<br />
bzw. Verzweigungen enthalten. Je kompakter ein Modell ist, desto leichter kann es<br />
<strong>von</strong> einem Benutzer interpretiert werden.<br />
Einerseits kann Kompaktheit während des Prozesses der Klassifikator-Konstruktion<br />
z.B. durch die Verwendung bestimmter Split-Strategien erreicht werden, andererseits<br />
Seite 42