Entscheidungsunterstützungssysteme - TU Chemnitz

Vorlesung 

Entscheidungsunterstützungssysteme 

WS 2013/2014 

Christian Schieder 

Professur Wirtschaftsinformatik II 

cschie@tu-chemnitz.eu

3 

Ausgewählte Methoden des Data Mining 

GLIEDERUNG 

1. Entscheidungsbaumverfahren 

2. Clusterverfahren 

3. Neuronale Netze 

4. Assoziationsanalyse

Entscheidungsbaumverfahren – Allgemein 

• Ziel: 

• Vorgehensweise: 

Zuordnung anhand von Regeln 

(Darstellung mit Klassifikationsbäumen) 

• Beispiel: 

Einteilung von Datensätzen mit Angaben über Kunden derart, dass 

damit die Käufergruppe erkannt werden kann, in die ein neuer Kunde 

voraussichtlich gehört 

• Voraussetzung: 


© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 3 | 26

Grundsätzliche Arbeitsweise 

• 

• Sukzessive Aufteilung der Trainingsmenge, so dass sich daraus 

homogenere Gruppen von Datensätzen bezüglich der 

Klassifikationsvariablen ergeben 

• Darstellung der Aufteilung der Datenmengen durch einen Baum, in dem 

jeder Knoten eine Datenmenge indiziert, dem ein Homogenitätsmaß 

zugeordnet wird 

• 

• 



Beispiel 

Es liege für eine Kreditwürdigkeitsprüfung eine Menge von Kundendatensätzen 

vor. Dabei werden 70 % der Kunden als kreditwürdig und 30 % der 

Kunden als nicht-kreditwürdig eingestuft. 

Durch eine Aufteilung des Gesamtdatenbestandes anhand eines 

Merkmales sollen zwei Teilmengen derart entstehen, dass sich in der 

einen Teilmenge mehr Kundendatensätze mit der Eigenschaft 

kreditwürdig und in der anderen Teilmenge mehr Kundendatensätze mit 

der Eigenschaft nicht-kreditwürdig befinden. Beide Teilmengen weisen 

damit eine bessere Homogenität bezüglich der Klassifikationsvariablen 

auf, als der Ausgangsdatenbestand. 



Beispiel 



Regeln 

Schrittfolge: 

1) 

2) 

Im Beispiel sind dies folgende Regeln: 

WENN Attribut A die Bedingung K1 erfüllt, DANN gehört das zugehörige 

Objekt der Klasse Y an. 

WENN Attribut A nicht die Bedingung K1 erfüllt und Attribut B nicht die 

Bedingung K2, DANN gehört das zugehörige Objekt der Klasse Y an. 

WENN Attribut A nicht die Bedingung K1 erfüllt und Attribut B die 

Bedingung K2, DANN gehört das zugehörige Objekt der Klasse X an. 



Regeln 

• Unterscheidung der Entscheidungsbaumverfahren durch die zugehörigen 

Splitkriterien (kurz: Split) 

• Splitkriterien basieren auf einem Homogenitätsmaß 

Beispiel: 

• Homogenitätsmaß wird definiert mit Hilfe der relativen Häufigkeit p i des Auftretens bestimmter 

Datensätze einer bestimmten Klasse i 

Von 1000 Datensätzen sind 700 der Klasse 1 und 300 der Klasse 2 zugeordnet. Damit 

gilt für den Datenbestand: 

Ziel: 

p 1 = 70 %, p 2 = 30 % 

• Datensätze einzelnen Knoten zuzuordnen und dabei möglichst ausgeprägte 

Klassenzugehörigkeiten erreichen 

• Je unterschiedlicher die knotenspezifischen Häufigkeiten sind, desto homogener ist der 

Knoten ideal wäre eine Verteilung (100%, 0 %) 

• Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten 

vorgegebenen Klassen zugeordnet werden können 



Entropie 

• Als Maß für die Homogenität des Knoten T kann die Entropie 

verwendet werden. 

k 

 

Entropie ( T) 

p i 

log 2 

p i mit( 

0log 

2 

0 0) 

i1 

• Gilt Entropie = 0, so ist der Knoten homogen. 

• Die Entropie nimmt ihren Maximalwert an (log 2 der Klassenanzahl), 

wenn eine Gleichverteilung vorliegt. 



Informationsgewinn 

• Es wird der Split gewählt, der den größten Informationsgewinn (IG) bringt. 

• Der IG beschreibt die erwartete Reduktion der Entropie, wenn der Wert des Attributs A 

bekannt ist. 

Informationsgewinn (IG) durch Split der Menge T in m Teilmengen T i (i=1,…,m): 

IG 

 

Entropie ( T) 

 

m 

 

i1 

| Ti 

| T 

| 

| 

Entropie ( T ) 

i 

• Ein neuer Knoten T a enthält alle Elemente, bei denen das Attribut A die Ausprägung a 

annimmt. 

• Der Informationsgewinn ergibt sich als Entropie des noch nicht weiter unterteilten 

Knotens T minus der Summe der Entropien der neuen Knoten T a , wobei als 

Gewichtung die relative Größe der neuen Knoten T a bezogen auf den Ausgangsknoten 

T gewählt wird. 



• Als weiteres Maß für die Homogenität des Knoten T kann der Gini-Index 

verwendet werden. 

Gini( 

T ) 

1 

 

i1 


© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 11 | 26 

k 

2 

p i 

• Gilt Gini (T) = 0, so ist der Knoten homogen. 

• Der Gini-Index nimmt seinen Maximalwert an, wenn eine 

Gleichverteilung vorliegt. 

• Es wird dann der Split gewählt, der den kleinsten Gini-Index für eine 

Partition des Knotens T mittels Attribut A bringt: 

| T 

 

a 

| 

Gini ( T, 

A) 

Gini( 

Ta 

) 

aA 

| T |

• Messung der Güte eines Entscheidungsbaumes anhand der Fehlklassifikationsquote 

a) Fehlklassifikationsquote als Anteil der durch das Modell fehlerhaft klassifizierten Datensätze zur 

Gesamtanzahl der klassifizierten Datensätze 

‣ sollte nicht auf dem Trainingsdatenbestand, sondern auf einer davon unabhängigen 

Testmenge ermittelt werden 

b) Fehlklassifikationsquote bezüglich des zur Modellierung eingesetzten Datenbestandes 

‣ ist in der Regel ungleich Null, da in einem Endknoten alle Datensätze derselben Klasse 

zugeordnet werden, unabhängig von der tatsächlich vorliegenden Klassenzugehörigkeit 

‣ in Aussagefähigkeit beschränkt, da sie durch weitere Aufteilungen der Endknoten in 

homogenere Knoten verringert werden kann 

‣ dient dennoch als erster Hinweis auf die Güte des Baums 



Overfitting 

• Overfitting 

‣ „auswendig lernen“ von Trainingsdaten 

‣ Modell enthält zusätzliche (zu viele und z. T. irrelevante) erklärende Variablen 

‣ Problem: Modell funktioniert nur auf den Trainingsdaten 

• Strategien zur Reduzierung des Overfitting-Problems 

‣ Entfernen von fehlerhaften Trainingsdaten 

‣ Reduzierung der Größe der Trainingsmenge 

‣ Transformation der Trainingsdaten, z. B. Dimensionsreduktion 

‣ Beschränkung der maximal erlaubte Homogenität in Knoten 

‣ Mindestanzahl von Datensätzen in den Knoten 

‣ Pruning 



Pruning 

• …ist das nachträgliche Modifizieren des Entscheidungsbaumes 

• mit dem Ziel die Fehlklassifikationsquote auf unbekannten 

Datensätzen zu verringern 

Eine Pruning-Strategie ist das Fehlerreduktions-Pruning: 

• Hierbei wird in jedem Pruning-Schritt derjenige Teilbaum T des 

Gesamtbaumes E bestimmt, durch dessen Entfernung der 

Klassifikationsfehler auf der Validierungsmenge am stärksten 

verringert wird. 

• Dieser Teilbaum wird anschließend entfernt. 



Beispiel Mailingaktion 

In einem Versandhaus sollen Spezialkataloge versendet werden. Für 

einige Kunden wurden bereits Entscheidungen über die zu versendenden 

Kataloge getroffen. 

Als Attribute der Kunden stehen die Anzahl der gekauften Artikel in den 

Gruppen Textilien und Geschenkartikel sowie der dabei angefallene 

Durchschnittsumsatz zur Verfügung. 

Die Ausprägungen sind qualitativer Natur. Es wird nur unterschieden 

zwischen wenig, mittel und viel bzw. niedrig, mittel und hoch. 

Für die Kataloge stehen die Varianten Textil (T)-Katalog, ein 

Geschenkartikel (G)-Katalog oder kein (N-)Katalog zur Verfügung. 




12 Kundenkaufprofile 

Kunden Textilien Geschenkartikel O-Preis Katalog 

X1 mittel wenig mittel T 

X2 wenig mittel niedrig N 

X3 mittel viel mittel T G 

X4 viel wenig hoch T 

X5 wenig mittel hoch G 

X6 viel mittel niedrig T G 

X7 wenig viel niedrig G 

X8 mittel wenig niedrig N 

X9 viel wenig niedrig T 

X10 wenig wenig hoch N 

X11 wenig viel mittel G 

X12 viel viel hoch T G 




Textilien 

1,..,12 

 

3 

12 

3 

12 

3 

12 

3 

 

12 

2, 5, 7, 10, 11 1, 3, 8 4, 6, 9, 12 

p 

3 2 

i 

0 0 

1 0 1 1 

2 2 

0 0 

3 3 3 

4 4 

5 

5 

T, G, TG, N T, G, TG, N T, G, TG, N 

Entropie 

0,9710 1,5850 1 

4 

IG(Textilien) = 

5 (0,9710) 

3 (1,5850) (1) 0, 8658 

2 

12 

12 

12 




Geschenkartikel 

1,..,12 

Textilien 

1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12 

Textilien 

Textilien 

N 

Preis 

10 1, 8 4, 9 

T, N 

2, 5 6 7, 11 3 12 

N, G ? TG G TG TG 

Preis 

8 1 2 5 

N T ? N ? G 




Beim Splitkriterium Gini-Koeffizient ergibt sich der gleiche Baum. 

Für den Split des Wurzelknotens gilt: 

Gini(Textil)= 0,53 ; Gini(Geschenk)=0,53 ; Gini(Preis)=0,72 

Die Splits in der zweiten Phase erfolgen gemäß der Werte 




Geschenkartikel 

wenig 

1,..,12 

1, 4, 8, 9, 10 

Textilien 

m 

Regel: 

Preis 

T 

1, 8 

m 

1 

IF Geschenkartikel: wenig AND 

Textilien: mittel AND Preis: mittel 

THEN T 



Fragen?

Entscheidungsunterstützungssysteme - TU Chemnitz

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?