kombiniertes data mining – klassifikation unter verwendung von ...

Weitere Magazine

Empfehlungen

Info

Kombiniertes Data Mining – Klassifikation anhand von Hilfsinformationen Eintrag wurde zu c klassifiziert Eintrag wurde zu ¬c klassifiziert Eintrag gehört zu c Eintrag gehört zu ¬c a b c d Tabelle 7: Klassifizierungsparameter Aus diesen vier Werten lassen sich nun die Qualitätskriterien für die Genauigkeit eines Klassifikators K bezüglich der Relevanz der Testdaten berechnen: • • • a precision( K) = a + b Die Präzision (precision) einer Testmenge T ist der Quotient aus allen relevanten richtig klassifizierten Tupeln und allen richtig klassifizierten Tupeln. a recall( K) = a + c Die Vollständigkeit (recall) einer Testmenge T ist der Quotient aus allen relevanten richtig klassifizierten Tupeln und allen relevanten Tupeln. a + d accuracy( K) = a + b + c + d Die Genauigkeit (accuracy) einer Testmenge T ist daher das Verhältnis aller im Sinne der Relevanz richtig klassifizierten Datensätze zu allen Sätzen der Testmenge. Ein Datensatz ist im Sinne der Relevanz richtig klassifiziert, wenn er der Klasse c angehört (relevant) und der Klasse c zugeordnet wurde oder wenn er nicht der Klasse c angehört (nicht relevant) und der Klasse c nicht zugeordnet wurde. Seite 41
Kombiniertes Data Mining – Klassifikation anhand von Hilfsinformationen Die Werte für precision und recall sind genau dann optimal, wenn alle relevanten Datensätze richtig klassifiziert wurden. Es ergibt sich für beide Kennzahlen ein Wert von 1. Die Maße für precision und recall sind in gewisser Weise gegenläufig. Wurden z.B. alle Tupel der Testmenge richtig klassifiziert, so wird der Wert für den recall 1 entsprechen, natürlich unter der Voraussetzung, dass mindestens ein relevanter Datensatz existiert. Die precision hingegen wird sehr niedrig sein, wenn nicht zufälligerweise alle Datensätze relevant sind. Sollte im umgekehrten Fall nur ein einziger relevanter Datensatz richtig klassifiziert worden sein, so ist die precision gleich 1, der recall wird aber mit Sicherheit schlecht sein, sollten noch weitere relevante Datensätze vorhanden sein. In der Regel werden die Antwortmengen aber zwischen diesen beiden Extremen liegen. Dann ergibt sich im Allgemeinen bei einer Verkleinerung der Antwortmenge durch eine spezifischere Anfrage eine bessere Precision, aber ein schlechterer Recall; bei einer Vergrößerung der Antwortmenge durch eine allgemeinere Anfrage ergibt sich ein größerer Recall, aber eine kleinere Precision. Ähnliche Situationen können auftreten, wenn Precision- und Recall-Maße dazu verwendet werden, verschiedene Systeme zu vergleichen. Eindeutige Aussagen darüber, ob ein System besser ist als das andere, können nur gemacht werden, wenn für das eine System sowohl der Precision-Wert als auch der Recall-Wert besser ist als bei dem anderen System. Ist bei einem System z.B. die Precision besser, dafür aber der Recall schlechter, so eignen sich die Systeme zwar eventuell für unterschiedliche Aufgaben, es kann aber nicht allgemein gesagt werden, welches besser ist [FE03]. Kompaktheit des Modells Ziel beim Generieren eines DT-Klassifikators ist es immer, diesen so kompakt als möglich zu halten, d.h. mit einem Minimum an Knoten ein Maximum an Qualität im Hinblick auf die Klassifikationsgenauigkeit zu erhalten. Zur Kompaktheit gehört außerdem die Höhe des Baumes. Es soll versucht werden, den Baum so „niedrig“ wie möglich zu halten, d.h. dass die Pfade eines Baumes nicht unnötig viele Knoten bzw. Verzweigungen enthalten. Je kompakter ein Modell ist, desto leichter kann es von einem Benutzer interpretiert werden. Einerseits kann Kompaktheit während des Prozesses der Klassifikator-Konstruktion z.B. durch die Verwendung bestimmter Split-Strategien erreicht werden, andererseits Seite 42
Seite 1 und 2: KOMBINIERTES DATA MINING - KLASSIFI
Seite 3 und 4: Abstract Die Aufgabenstellungen im
Seite 5 und 6: 5.2 SLIQ ..........................
Seite 7 und 8: Abbildung 31: Architektur..........
Seite 9 und 10: Tabelle 30: Testergebnisse - Entfer
Seite 11 und 12: Kombiniertes Data Mining - Klassifi
Seite 37 und 38: Familienstand = verheiratet ≠ ver
Seite 49: Kombiniertes Data Mining - Klassifi
Seite 101 und 102:
Kombiniertes Data Mining - Klassifi
Seite 103 und 104:
Seite 105 und 106:
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119 und 120:
Seite 121 und 122:
Seite 123 und 124:
Seite 125 und 126:
Seite 127 und 128:
Seite 129 und 130:
Seite 131 und 132:
Seite 133 und 134:
Seite 135 und 136:
Seite 137 und 138:
Seite 139 und 140:
Seite 141 und 142:
Seite 143 und 144:
Seite 145 und 146:
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167:
Alle anzeigen

kombiniertes data mining – klassifikation unter verwendung von ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?