kombiniertes data mining – klassifikation unter verwendung von ...

Weitere Magazine

Empfehlungen

Info

Kombiniertes Data Mining – Klassifikation anhand von Hilfsinformationen Klassifikationsgenauigkeit 0,89 0,88 0,87 0,86 0,85 0,84 0,83 0,82 0,81 0,8 0,79 0,78 0,77 0,76 0,75 0,74 0,73 0,72 0,71 0,7 0,69 0,68 0,67 0,66 0,65 0,64 0,63 0,62 0,61 100 200 300 500 1000 2000 3000 5000 Anzahl der Testtupel Standard (5num/5kat) Standard (10num) entfernte Punkte (5num/5kat) entfernte Punkte (10num) Abbildung 46: Klassifikationsgenauigkeit – entfernte Punkte Einsatz von Kombinationen der Hilfsinformationen Die Kombination von Verteilungsinformationen und Trainingsdaten mit Lageeigenschaften als Hilfsinformation bringt in der Hälfte der Fälle eine Qualitätssteigerung im Vergleich zu den Standardtestreihen. Die Kombination von entfernten Punkten als Trainingsmenge mit Verteilungsinformationen führt in keiner Testreihe zu einem positiven Qualitätsunterschied. Besonders die Kombination von entfernten Punkten mit der Min/Max-Strategie erzeugt eine drastische Erhöhung des tatsächlichen Klassifikationsfehlers. In Tabelle 30 sind die Testergebnisse über einen Baum dieser Hilfsinformations-Kombination dargestellt. Die Klassifikationsgenauigkeit liegt unter 50% und das Modell ist im Vergleich zur Standardtestreihe wenig kompakt. Seite 139
Kombiniertes Data Mining – Klassifikation anhand von Hilfsinformationen Anzahl der Testtupel Kennzahl 100 200 300 500 1000 2000 3000 5000 Trainingsdaten Anzahl der Knoten 27 Höhe des Baumes 11 Anzahl der Testtupel 100 200 300 500 1000 2000 3000 5000 1048 richtig klassifizierte Tupel 43 85 133 220 424 849 1270 2080 546 falsch klassifizierte Tupel 57 115 167 280 576 1151 1730 2920 502 Präzision 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 -1 Vollständigkeit 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 -1 Genauigkeit 0,33 0,32 0,33 0,32 0,32 0,34 0,33 0,33 -1 Klassifikationsgenauigkeit 0,43 0,43 0,44 0,44 0,42 0,42 0,42 0,42 0,52 Tatsächlicher Klassifikationsfehler Beobachteter Klassifikationsfehler 0,57 0,57 0,56 0,56 0,58 0,58 0,58 0,58 -1 -1 -1 -1 -1 -1 -1 -1 -1 0,48 Tabelle 30: Testergebnisse – Entfernte Trainingsdaten-Punkte und Min/Max-Strategie Der Einsatz von Trainingsdaten mit Lageeigenschaften alleine ist in den meisten Fällen der kombinierten Anwendung vorzuziehen. Die Kombination bringt keinen Qualitätsgewinn sondern oftmals einen Qualitätsverlust des Klassifikators. Trotzdem ist eine Kombination der Hilfsinformationen nicht völlig sinnlos. Die gemeinsame Anwendung von nahen Punkten und der Dichtefunktion-Strategie erzeugt einen Entscheidungsbaum, der annähernd die gleiche Klassifikationsgenauigkeit wie ein Baum, der alleine aus nahen Punkten konstruiert wurde, besitzt. Die Dichtefunktion-Strategie erzeugt außerdem Bäume, die zum Großteil kompaktere Modelle repräsentieren als das ohne die Verwendung von Hilfsinformation der Fall ist. Abbildung 47 zeigt die Klassifikationsgenauigkeit von Bäumen aus nahen Punkten und Bäumen, die aus der Kombination von nahen Punkten und der Dichtefunktion-Strategie entwickelt wurden. Seite 140
Seite 1 und 2:
KOMBINIERTES DATA MINING - KLASSIFI
Seite 3 und 4:
Abstract Die Aufgabenstellungen im
Seite 5 und 6:
5.2 SLIQ ..........................
Seite 7 und 8:
Abbildung 31: Architektur..........
Seite 9 und 10:
Tabelle 30: Testergebnisse - Entfer
Seite 11 und 12:
Kombiniertes Data Mining - Klassifi
Seite 13 und 14:
Seite 15 und 16:
Seite 17 und 18:
Seite 19 und 20:
Seite 21 und 22:
Seite 23 und 24:
Seite 25 und 26:
Seite 27 und 28:
Seite 29 und 30:
Seite 31 und 32:
Seite 33 und 34:
Seite 35 und 36:
Seite 37 und 38:
Familienstand = verheiratet ≠ ver
Seite 39 und 40:
Seite 41 und 42:
Seite 43 und 44:
Seite 45 und 46:
Seite 47 und 48:
Seite 49 und 50:
Seite 51 und 52:
Seite 53 und 54:
Seite 55 und 56:
Seite 57 und 58:
Seite 59 und 60:
Seite 61 und 62:
Seite 63 und 64:
Seite 65 und 66:
Seite 67 und 68:
Seite 69 und 70:
Seite 71 und 72:
Seite 73 und 74:
Seite 75 und 76:
Seite 77 und 78:
Seite 79 und 80:
Seite 81 und 82:
Seite 83 und 84:
Seite 85 und 86:
Seite 87 und 88:
Seite 89 und 90:
Seite 91 und 92:
Seite 93 und 94:
Seite 95 und 96:
Seite 97 und 98: Kombiniertes Data Mining - Klassifi
Seite 147: Kombiniertes Data Mining - Klassifi
Seite 167: Kombiniertes Data Mining - Klassifi
Alle anzeigen

kombiniertes data mining – klassifikation unter verwendung von ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?