07.10.2014 Aufrufe

Entscheidungsunterstützungssysteme - TU Chemnitz

Entscheidungsunterstützungssysteme - TU Chemnitz

Entscheidungsunterstützungssysteme - TU Chemnitz

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Vorlesung<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

WS 2013/2014<br />

Christian Schieder<br />

Professur Wirtschaftsinformatik II<br />

cschie@tu-chemnitz.eu


3<br />

Ausgewählte Methoden des Data Mining<br />

GLIEDERUNG<br />

1. Entscheidungsbaumverfahren<br />

2. Clusterverfahren<br />

3. Neuronale Netze<br />

4. Assoziationsanalyse


Entscheidungsbaumverfahren – Allgemein<br />

• Ziel:<br />

• Vorgehensweise:<br />

Zuordnung anhand von Regeln<br />

(Darstellung mit Klassifikationsbäumen)<br />

• Beispiel:<br />

Einteilung von Datensätzen mit Angaben über Kunden derart, dass<br />

damit die Käufergruppe erkannt werden kann, in die ein neuer Kunde<br />

voraussichtlich gehört<br />

• Voraussetzung:<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 3 | 26


Grundsätzliche Arbeitsweise<br />

•<br />

• Sukzessive Aufteilung der Trainingsmenge, so dass sich daraus<br />

homogenere Gruppen von Datensätzen bezüglich der<br />

Klassifikationsvariablen ergeben<br />

• Darstellung der Aufteilung der Datenmengen durch einen Baum, in dem<br />

jeder Knoten eine Datenmenge indiziert, dem ein Homogenitätsmaß<br />

zugeordnet wird<br />

•<br />

•<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 4 | 26


Beispiel<br />

Es liege für eine Kreditwürdigkeitsprüfung eine Menge von Kundendatensätzen<br />

vor. Dabei werden 70 % der Kunden als kreditwürdig und 30 % der<br />

Kunden als nicht-kreditwürdig eingestuft.<br />

Durch eine Aufteilung des Gesamtdatenbestandes anhand eines<br />

Merkmales sollen zwei Teilmengen derart entstehen, dass sich in der<br />

einen Teilmenge mehr Kundendatensätze mit der Eigenschaft<br />

kreditwürdig und in der anderen Teilmenge mehr Kundendatensätze mit<br />

der Eigenschaft nicht-kreditwürdig befinden. Beide Teilmengen weisen<br />

damit eine bessere Homogenität bezüglich der Klassifikationsvariablen<br />

auf, als der Ausgangsdatenbestand.<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 5 | 26


Beispiel<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 6 | 26


Regeln<br />

Schrittfolge:<br />

1)<br />

2)<br />

Im Beispiel sind dies folgende Regeln:<br />

WENN Attribut A die Bedingung K1 erfüllt, DANN gehört das zugehörige<br />

Objekt der Klasse Y an.<br />

WENN Attribut A nicht die Bedingung K1 erfüllt und Attribut B nicht die<br />

Bedingung K2, DANN gehört das zugehörige Objekt der Klasse Y an.<br />

WENN Attribut A nicht die Bedingung K1 erfüllt und Attribut B die<br />

Bedingung K2, DANN gehört das zugehörige Objekt der Klasse X an.<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 7 | 26


Regeln<br />

• Unterscheidung der Entscheidungsbaumverfahren durch die zugehörigen<br />

Splitkriterien (kurz: Split)<br />

• Splitkriterien basieren auf einem Homogenitätsmaß<br />

Beispiel:<br />

• Homogenitätsmaß wird definiert mit Hilfe der relativen Häufigkeit p i des Auftretens bestimmter<br />

Datensätze einer bestimmten Klasse i<br />

Von 1000 Datensätzen sind 700 der Klasse 1 und 300 der Klasse 2 zugeordnet. Damit<br />

gilt für den Datenbestand:<br />

Ziel:<br />

p 1 = 70 %, p 2 = 30 %<br />

• Datensätze einzelnen Knoten zuzuordnen und dabei möglichst ausgeprägte<br />

Klassenzugehörigkeiten erreichen<br />

• Je unterschiedlicher die knotenspezifischen Häufigkeiten sind, desto homogener ist der<br />

Knoten ideal wäre eine Verteilung (100%, 0 %)<br />

• Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten<br />

vorgegebenen Klassen zugeordnet werden können<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 8 | 26


Entropie<br />

• Als Maß für die Homogenität des Knoten T kann die Entropie<br />

verwendet werden.<br />

k<br />

<br />

Entropie ( T)<br />

p i<br />

log 2<br />

p i mit(<br />

0log<br />

2<br />

0 0)<br />

i1<br />

• Gilt Entropie = 0, so ist der Knoten homogen.<br />

• Die Entropie nimmt ihren Maximalwert an (log 2 der Klassenanzahl),<br />

wenn eine Gleichverteilung vorliegt.<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 9 | 26


Informationsgewinn<br />

• Es wird der Split gewählt, der den größten Informationsgewinn (IG) bringt.<br />

• Der IG beschreibt die erwartete Reduktion der Entropie, wenn der Wert des Attributs A<br />

bekannt ist.<br />

Informationsgewinn (IG) durch Split der Menge T in m Teilmengen T i (i=1,…,m):<br />

IG<br />

<br />

Entropie ( T)<br />

<br />

m<br />

<br />

i1<br />

| Ti<br />

| T<br />

|<br />

|<br />

Entropie ( T )<br />

i<br />

• Ein neuer Knoten T a enthält alle Elemente, bei denen das Attribut A die Ausprägung a<br />

annimmt.<br />

• Der Informationsgewinn ergibt sich als Entropie des noch nicht weiter unterteilten<br />

Knotens T minus der Summe der Entropien der neuen Knoten T a , wobei als<br />

Gewichtung die relative Größe der neuen Knoten T a bezogen auf den Ausgangsknoten<br />

T gewählt wird.<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 10 | 26


• Als weiteres Maß für die Homogenität des Knoten T kann der Gini-Index<br />

verwendet werden.<br />

Gini(<br />

T )<br />

1<br />

<br />

i1<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 11 | 26<br />

k<br />

2<br />

p i<br />

• Gilt Gini (T) = 0, so ist der Knoten homogen.<br />

• Der Gini-Index nimmt seinen Maximalwert an, wenn eine<br />

Gleichverteilung vorliegt.<br />

• Es wird dann der Split gewählt, der den kleinsten Gini-Index für eine<br />

Partition des Knotens T mittels Attribut A bringt:<br />

| T<br />

<br />

a<br />

|<br />

Gini ( T,<br />

A)<br />

Gini(<br />

Ta<br />

)<br />

aA<br />

| T |


• Messung der Güte eines Entscheidungsbaumes anhand der Fehlklassifikationsquote<br />

a) Fehlklassifikationsquote als Anteil der durch das Modell fehlerhaft klassifizierten Datensätze zur<br />

Gesamtanzahl der klassifizierten Datensätze<br />

‣ sollte nicht auf dem Trainingsdatenbestand, sondern auf einer davon unabhängigen<br />

Testmenge ermittelt werden<br />

b) Fehlklassifikationsquote bezüglich des zur Modellierung eingesetzten Datenbestandes<br />

‣ ist in der Regel ungleich Null, da in einem Endknoten alle Datensätze derselben Klasse<br />

zugeordnet werden, unabhängig von der tatsächlich vorliegenden Klassenzugehörigkeit<br />

‣ in Aussagefähigkeit beschränkt, da sie durch weitere Aufteilungen der Endknoten in<br />

homogenere Knoten verringert werden kann<br />

‣ dient dennoch als erster Hinweis auf die Güte des Baums<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 12 | 26


Overfitting<br />

• Overfitting<br />

‣ „auswendig lernen“ von Trainingsdaten<br />

‣ Modell enthält zusätzliche (zu viele und z. T. irrelevante) erklärende Variablen<br />

‣ Problem: Modell funktioniert nur auf den Trainingsdaten<br />

• Strategien zur Reduzierung des Overfitting-Problems<br />

‣ Entfernen von fehlerhaften Trainingsdaten<br />

‣ Reduzierung der Größe der Trainingsmenge<br />

‣ Transformation der Trainingsdaten, z. B. Dimensionsreduktion<br />

‣ Beschränkung der maximal erlaubte Homogenität in Knoten<br />

‣ Mindestanzahl von Datensätzen in den Knoten<br />

‣ Pruning<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 13 | 26


Pruning<br />

• …ist das nachträgliche Modifizieren des Entscheidungsbaumes<br />

• mit dem Ziel die Fehlklassifikationsquote auf unbekannten<br />

Datensätzen zu verringern<br />

Eine Pruning-Strategie ist das Fehlerreduktions-Pruning:<br />

• Hierbei wird in jedem Pruning-Schritt derjenige Teilbaum T des<br />

Gesamtbaumes E bestimmt, durch dessen Entfernung der<br />

Klassifikationsfehler auf der Validierungsmenge am stärksten<br />

verringert wird.<br />

• Dieser Teilbaum wird anschließend entfernt.<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 14 | 26


Beispiel Mailingaktion<br />

In einem Versandhaus sollen Spezialkataloge versendet werden. Für<br />

einige Kunden wurden bereits Entscheidungen über die zu versendenden<br />

Kataloge getroffen.<br />

Als Attribute der Kunden stehen die Anzahl der gekauften Artikel in den<br />

Gruppen Textilien und Geschenkartikel sowie der dabei angefallene<br />

Durchschnittsumsatz zur Verfügung.<br />

Die Ausprägungen sind qualitativer Natur. Es wird nur unterschieden<br />

zwischen wenig, mittel und viel bzw. niedrig, mittel und hoch.<br />

Für die Kataloge stehen die Varianten Textil (T)-Katalog, ein<br />

Geschenkartikel (G)-Katalog oder kein (N-)Katalog zur Verfügung.<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 15 | 26


Beispiel Mailingaktion<br />

12 Kundenkaufprofile<br />

Kunden Textilien Geschenkartikel O-Preis Katalog<br />

X1 mittel wenig mittel T<br />

X2 wenig mittel niedrig N<br />

X3 mittel viel mittel T G<br />

X4 viel wenig hoch T<br />

X5 wenig mittel hoch G<br />

X6 viel mittel niedrig T G<br />

X7 wenig viel niedrig G<br />

X8 mittel wenig niedrig N<br />

X9 viel wenig niedrig T<br />

X10 wenig wenig hoch N<br />

X11 wenig viel mittel G<br />

X12 viel viel hoch T G<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 16 | 26


Beispiel Mailingaktion<br />

Textilien<br />

1,..,12<br />

<br />

3<br />

12<br />

3<br />

12<br />

3<br />

12<br />

3<br />

<br />

12<br />

2, 5, 7, 10, 11 1, 3, 8 4, 6, 9, 12<br />

p <br />

3 2<br />

i<br />

0 0<br />

1 0 1 1<br />

2 2<br />

0 0 <br />

3 3 3<br />

4 4<br />

5<br />

5<br />

T, G, TG, N T, G, TG, N T, G, TG, N<br />

Entropie<br />

0,9710 1,5850 1<br />

4<br />

IG(Textilien) = <br />

5 (0,9710) <br />

3 (1,5850) (1) 0, 8658<br />

2<br />

12<br />

12<br />

12<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 17 | 26


Beispiel Mailingaktion<br />

Geschenkartikel<br />

1,..,12<br />

Textilien<br />

1, 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12<br />

Textilien<br />

Textilien<br />

N<br />

Preis<br />

10 1, 8 4, 9<br />

T, N<br />

2, 5 6 7, 11 3 12<br />

N, G ? TG G TG TG<br />

Preis<br />

8 1 2 5<br />

N T ? N ? G<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 18 | 26


Beispiel Mailingaktion<br />

Beim Splitkriterium Gini-Koeffizient ergibt sich der gleiche Baum.<br />

Für den Split des Wurzelknotens gilt:<br />

Gini(Textil)= 0,53 ; Gini(Geschenk)=0,53 ; Gini(Preis)=0,72<br />

Die Splits in der zweiten Phase erfolgen gemäß der Werte<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 19 | 26


Beispiel Mailingaktion<br />

Geschenkartikel<br />

wenig<br />

1,..,12<br />

1, 4, 8, 9, 10<br />

Textilien<br />

m<br />

Regel:<br />

Preis<br />

T<br />

1, 8<br />

m<br />

1<br />

IF Geschenkartikel: wenig AND<br />

Textilien: mittel AND Preis: mittel<br />

THEN T<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 20 | 26


Fragen?<br />

<strong>Entscheidungsunterstützungssysteme</strong><br />

© Christian Schieder | Professur Wirtschaftsinformatik II | Vorlesung WS 2013/2014 21 | 26

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!