kombiniertes data mining – klassifikation unter verwendung von ...

Weitere Magazine

Empfehlungen

Info

Kombiniertes Data Mining – Klassifikation anhand von Hilfsinformationen Klassifikationsgenauigkeit Das wichtigste Qualitätsmaß für DT-Klassifikatoren ist die Klassifikationsgenauigkeit. Sie trifft Aussagen darüber, welcher Anteil der klassifizierten Testdaten richtig eingeordnet wurde. Ein Klassifikator K mit einer Trainingsmenge TR und einer Testmenge TE (beide Mengen aus dem Objektraum O) erzeugt für ein Objekt o die zugehörige Klasse C(o). Die Klassifikationsgenauigkeit und die korrespondierenden Klassifikationsfehler berechnen sich folgendermaßen: • Klassifikationsgenauigkeit (classification accuracy) von K auf TE: G TE | { o ∈TE | K( o) = C( o)} | ( K) = | TE | Die Klassifikationsgenauigkeit ist ein Maß für den Anteil der richtig klassifizierten Testdaten in Bezug auf eine unabhängige Testmenge. • Tatsächlicher Klassifikationsfehler (true classification error) von K auf TE: F TE | { o ∈TE | K( o) ≠ C( o)} | ( K) = | TE | Der tatsächliche Klassifikationsfehler ist ein Maß für den Anteil der falsch klassifizierten Testdaten in Bezug auf eine unabhängige Testmenge. • Beobachteter Klassifikationsfehler (apparent classification error) von K auf TR: F TR | { o ∈TR | K( o) ≠ C( o)} | ( K) = | TR | Der beobachtete Klassifikationsfehler ist ein Maß für die Fehlklassifikation der zur Konstruktion des Klassifikators verwendeten Trainingsdatensätze. Wird der Baum soweit verfeinert, dass jedes Blatt nur noch Datensätze einer Klasse enthält, so ist der beobachtete Klassifikationsfehler immer 0. Ein bin ins Äußerste Seite 39
Kombiniertes Data Mining – Klassifikation anhand von Hilfsinformationen verfeinerte Baum ist auf die Trainingsdaten hin optimiert und wird mit großer Wahrscheinlichkeit auf die Grundgesamtheit ein schlechtes Ergebnis liefern. Diesen Effekt bezeichnet man als Overfitting [ES00]. Unter Berücksichtigung der Relevanz der Testdatensätze können weitere Kennzahlen (Qualitätskriterien) mittels Bestimmung verschiedener Klassifizierungsparameter aus den klassifizierten Ergebnisdaten bestimmt werden. Um die Aussagekraft und den Wert dieser Kennzahlen besser begreifen zu können, wird im Vorfeld der Begriff der Relevanz definiert: „Die Relevanz eines Dokuments für eine Anfrage ist eine Relation r: D×Q -> R , wobei D = {d1, ...,dm} die Menge der Dokumente, Q die Menge der Anfragen und R eine Menge von Wahrheitswerten, im Allgemeinen die Menge {0,1} , ist.“ [FE03] Die Relevanz von Dokumenten wird allgemein durch die Befragung von Experten ermittelt. Handelt es sich beim Klassifikationsgegenstand, so wie im Falle dieser Arbeit, nicht um Dokumente, sondern um Datensätze aus numerischen und kategorischen Werten, so ist die Bestimmung der Relevanz auf diesem Weg nicht möglich. Deshalb wird als Annahme der Relevanz folgende Vereinbarung getroffen: Ein vorklassifizierter Datensatz aus einer Testmenge T ist genau dann relevant, wenn die vom Testdatengenerator zugewiesene Klasse der durch das erste Verfahren des kombinierten Data-Mining-Prozesses ermittelten Klasse entspricht. Die Tabelle 7 enthält die Klassifizierungsparameter, die zur Berechnung der Qualitätskriterien bzgl. der Relevanz benötigt werden. Seite 40
Seite 1 und 2: KOMBINIERTES DATA MINING - KLASSIFI
Seite 3 und 4: Abstract Die Aufgabenstellungen im
Seite 5 und 6: 5.2 SLIQ ..........................
Seite 7 und 8: Abbildung 31: Architektur..........
Seite 9 und 10: Tabelle 30: Testergebnisse - Entfer
Seite 11 und 12: Kombiniertes Data Mining - Klassifi
Seite 37 und 38: Familienstand = verheiratet ≠ ver
Seite 47: Kombiniertes Data Mining - Klassifi
Seite 99 und 100:
Kombiniertes Data Mining - Klassifi
Seite 101 und 102:
Seite 103 und 104:
Seite 105 und 106:
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119 und 120:
Seite 121 und 122:
Seite 123 und 124:
Seite 125 und 126:
Seite 127 und 128:
Seite 129 und 130:
Seite 131 und 132:
Seite 133 und 134:
Seite 135 und 136:
Seite 137 und 138:
Seite 139 und 140:
Seite 141 und 142:
Seite 143 und 144:
Seite 145 und 146:
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167:
Alle anzeigen

kombiniertes data mining – klassifikation unter verwendung von ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?