kombiniertes data mining – klassifikation unter verwendung von ...
kombiniertes data mining – klassifikation unter verwendung von ...
kombiniertes data mining – klassifikation unter verwendung von ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Kombiniertes Data Mining <strong>–</strong> Klassifikation anhand <strong>von</strong> Hilfsinformationen<br />
Klassifikationsgenauigkeit<br />
Das wichtigste Qualitätsmaß für DT-Klassifikatoren ist die Klassifikationsgenauigkeit.<br />
Sie trifft Aussagen darüber, welcher Anteil der klassifizierten Testdaten richtig<br />
eingeordnet wurde. Ein Klassifikator K mit einer Trainingsmenge TR und einer<br />
Testmenge TE (beide Mengen aus dem Objektraum O) erzeugt für ein Objekt o die<br />
zugehörige Klasse C(o). Die Klassifikationsgenauigkeit und die korrespondierenden<br />
Klassifikationsfehler berechnen sich folgendermaßen:<br />
• Klassifikationsgenauigkeit (classification accuracy) <strong>von</strong> K auf TE:<br />
G TE<br />
| { o ∈TE<br />
| K(<br />
o)<br />
= C(<br />
o)}<br />
|<br />
( K)<br />
=<br />
| TE |<br />
Die Klassifikationsgenauigkeit ist ein Maß für den Anteil der richtig<br />
klassifizierten Testdaten in Bezug auf eine unabhängige Testmenge.<br />
• Tatsächlicher Klassifikationsfehler (true classification error) <strong>von</strong> K auf TE:<br />
F TE<br />
| { o ∈TE<br />
| K(<br />
o)<br />
≠ C(<br />
o)}<br />
|<br />
( K)<br />
=<br />
| TE |<br />
Der tatsächliche Klassifikationsfehler ist ein Maß für den Anteil der falsch<br />
klassifizierten Testdaten in Bezug auf eine unabhängige Testmenge.<br />
• Beobachteter Klassifikationsfehler (apparent classification error) <strong>von</strong> K auf<br />
TR:<br />
F TR<br />
| { o ∈TR<br />
| K(<br />
o)<br />
≠ C(<br />
o)}<br />
|<br />
( K)<br />
=<br />
| TR |<br />
Der beobachtete Klassifikationsfehler ist ein Maß für die Fehl<strong>klassifikation</strong> der<br />
zur Konstruktion des Klassifikators verwendeten Trainingsdatensätze.<br />
Wird der Baum soweit verfeinert, dass jedes Blatt nur noch Datensätze einer Klasse<br />
enthält, so ist der beobachtete Klassifikationsfehler immer 0. Ein bin ins Äußerste<br />
Seite 39