17.07.2013 Aufrufe

kombiniertes data mining – klassifikation unter verwendung von ...

kombiniertes data mining – klassifikation unter verwendung von ...

kombiniertes data mining – klassifikation unter verwendung von ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Kombiniertes Data Mining <strong>–</strong> Klassifikation anhand <strong>von</strong> Hilfsinformationen<br />

Die Werte für precision und recall sind genau dann optimal, wenn alle relevanten<br />

Datensätze richtig klassifiziert wurden. Es ergibt sich für beide Kennzahlen ein Wert<br />

<strong>von</strong> 1. Die Maße für precision und recall sind in gewisser Weise gegenläufig. Wurden<br />

z.B. alle Tupel der Testmenge richtig klassifiziert, so wird der Wert für den recall 1<br />

entsprechen, natürlich <strong>unter</strong> der Voraussetzung, dass mindestens ein relevanter<br />

Datensatz existiert. Die precision hingegen wird sehr niedrig sein, wenn nicht<br />

zufälligerweise alle Datensätze relevant sind. Sollte im umgekehrten Fall nur ein<br />

einziger relevanter Datensatz richtig klassifiziert worden sein, so ist die precision<br />

gleich 1, der recall wird aber mit Sicherheit schlecht sein, sollten noch weitere<br />

relevante Datensätze vorhanden sein.<br />

In der Regel werden die Antwortmengen aber zwischen diesen beiden Extremen<br />

liegen. Dann ergibt sich im Allgemeinen bei einer Verkleinerung der Antwortmenge<br />

durch eine spezifischere Anfrage eine bessere Precision, aber ein schlechterer<br />

Recall; bei einer Vergrößerung der Antwortmenge durch eine allgemeinere Anfrage<br />

ergibt sich ein größerer Recall, aber eine kleinere Precision. Ähnliche Situationen<br />

können auftreten, wenn Precision- und Recall-Maße dazu verwendet werden,<br />

verschiedene Systeme zu vergleichen. Eindeutige Aussagen darüber, ob ein System<br />

besser ist als das andere, können nur gemacht werden, wenn für das eine System<br />

sowohl der Precision-Wert als auch der Recall-Wert besser ist als bei dem anderen<br />

System. Ist bei einem System z.B. die Precision besser, dafür aber der Recall<br />

schlechter, so eignen sich die Systeme zwar eventuell für <strong>unter</strong>schiedliche Aufgaben,<br />

es kann aber nicht allgemein gesagt werden, welches besser ist [FE03].<br />

Kompaktheit des Modells<br />

Ziel beim Generieren eines DT-Klassifikators ist es immer, diesen so kompakt als<br />

möglich zu halten, d.h. mit einem Minimum an Knoten ein Maximum an Qualität im<br />

Hinblick auf die Klassifikationsgenauigkeit zu erhalten. Zur Kompaktheit gehört<br />

außerdem die Höhe des Baumes. Es soll versucht werden, den Baum so „niedrig“<br />

wie möglich zu halten, d.h. dass die Pfade eines Baumes nicht unnötig viele Knoten<br />

bzw. Verzweigungen enthalten. Je kompakter ein Modell ist, desto leichter kann es<br />

<strong>von</strong> einem Benutzer interpretiert werden.<br />

Einerseits kann Kompaktheit während des Prozesses der Klassifikator-Konstruktion<br />

z.B. durch die Verwendung bestimmter Split-Strategien erreicht werden, andererseits<br />

Seite 42

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!