Anwendung der Business Analytics

Anwendung der Business Analytics 

TDWI 2013 München 

Prof. Dr. Carsten Felden 

Dipl.-Wirt.-Inf. Claudia Koschtial 

Technische Universität Bergakademie Freiberg (Sachsen) 

Institut für Wirtschaftsinformatik 

Silbermannstraße 2, 09599 Freiberg (Sachsen), Deutschland

Die Dozenten 

Univ.-Prof. Dr. Carsten Felden 

• Institut für Wirtschaftsinformatik an der 

Technischen Universität Bergakademie Freiberg (Sachsen). 

• Geschäftsführer der Marmeladenbaum GmbH 

(www.marmeladenbaum.de) 

• Gutachter für internationale Journals und eingeladener Sprecher auf 

internationalen Veranstaltungen im Themengebiet der Business 

Intelligence. 

Dipl.-Wirt.-Inf. Claudia Koschtial 

• Institut für Wirtschaftsinformatik an der 

Technischen Universität Bergakademie Freiberg (Sachsen). 

• Geschäftsführerin der Marmeladenbaum GmbH 

Carsten Felden | Claudia Koschtial 

2

Agenda 

• Einführung und Einordnung Business Analytics 

– Begriffe 

– Analytische Fähigkeiten 

– Hype Cycle 

– Analytischer Prozess 

• Anwendungsfelder und Verfahren 

– Assoziationsanalyse 

– Entscheidungsbaum 

– Neuronale Netze 

– Clusterverfahren 

• Praktischer Teil 


3

Eine kurze Geschichte der Business Analytics 

• Business Analytics beschreibt den Prozess der so genannten 

Datenveredelung. Es ist ein strategisches Werkzeug für 

Entscheidungsträger in Unternehmen. Analyticslösungen kommen 

branchenübergreifend zum Einsatz. 

• Ziel ist es, Antworten nicht nur auf die Frage: 

„Was war?“, 

sondern auch: 

„Was wird sein?“ zu finden. 

[Felden, 2009] 


4

Vier Typen der analytischen Fähigkeit nach Gartner 


5

Hype Cycle für Business Intelligence (2007) 

http://www.gartner.com/id=509936 


6

Hype Cycle für Business Intelligence (2011) 

http://softwarestrategiesblog.com/2011/08/13/saas-based-analytics-and-business-intelligence-marketupdate-august-2011/ 


7

Daten und Datenhaltung 

Komponenten eines 

Entscheidungsunterstützungssystems 


[Hansen/Neumann (2005), S. 785] 

8

Statistische Grundlagen 

Maschinelles Lernen und Data Mining I 

Knowledge Discovery in Databases (KDD) beschreibt den 

“.. non-trivial process of identifying valid, novel, potentially useful, and 

ultimately understandable patterns in data ..” 

[Fayyad et al. 1996] 

• Prozess, 

• umfangreiche Datenbestände 

• implizit vorhandenes Wissen 

• entdecken 

• Knowledge Extraction 

• Data Archaeology 

• Data Analysis 


9


Prozessmodelle Knowledge 

Discovery in Databases I 

Data Mining 

Interpretation 

“Wissen” 

Transformation 

Muster 

Vorverarbeitung 

Auswahl 

Transformierte 

Daten 

Vorverarbeitete 

Daten 

Datenbank 

Zieldatenbestand 


10


Klassische Aufgabenstellungen 

Aufgaben 

Verfahren 

Klassifikation/ 

Regression 

Clusterung 

Abhängigkeitsanalyse 

Entscheidungsbäume 

Künstliche Neuronale 

Netze 

Clusterverfahren 

Assoziationsanalyse 


11


Datenbereinigung 

Name Alter Region Stadt Kinder 

Meier 56 Sachsen Freiberg 3 

Schulz 32 Sachsen Freiberg Yes 

Muster Sachsen Dresden 2 

Müller 18 Sachsen Freiburg 4 

fehlende 

Werte 

fehlerhafte 

Werte 

Redundanz 


12

Agenda 


– Begriffe 











13

Analyse des Kundenverhaltens 

Assoziationsanalyse 

• Ziel der Assoziationsanalyse ist das Erkennen und Bewerten von 

gemeinsam auftretenden Datenelementen (Items). 

• Items können Elemente von Mengen oder einzelne Attributwerte von 

Datensätzen sein. Eine Menge von Items wird als Itemset oder auch 

Itemmenge bezeichnet. 

• Beispiel: 

Items in Mengen: Warenkorb {Artikel A, Artikel B} 

Items im Datensatz: (PLZ=47057, ..., Käufergruppe=A) 

• Voraussetzung: Vorhandensein einer Datenbasis bestehend aus einzelnen 

Transaktionen (z. B. Menge von Kassenbons) 


14


Ergebnisse der Assoziationsanalyse 

•Assoziationsregel: 

allgemeiner: 

WENN Item a DANN Item b 

Kurz: {a} → {b} 

WENN Itemset X DANN Itemset Y 

Kurz: X →Y 

•Beispiel: 

WENN Artikel a und Artikel b gekauft 

werden, DANN wird auch 

Artikel c gekauft. 


15


Einsatzgebiete der Assoziationsanalyse 

Warenkorbanalyse 

Gesundheitswesen 

Banken 

Telekommunikation 

Technik 

Text-Mining 

Web-Log-Mining 

Welche Verbundkäufe werden getätigt? 

Welche Behandlungsmethoden werden 

nacheinander verwendet? 

Welche Kunden sind abwanderungsgefährdet? 

Optimierung von Prozessabläufen bei telefonischen 

Serviceanforderungen 

Fehlerentdeckung in Fertigungsprozessen 

Finden von Begriffszusammenhängen 

Auffinden von Zugriffsmustern auf Web-Sites 


16


Bewertung von Assoziationsregeln 

Einfache Regeln: WENN Itemset X DANN Itemset Y 

Die Aussagekraft der Regeln soll bewertet werden, etwa so: 

Wird Produkt a gekauft, so wird in 75% der Fälle auch Produkt b gekauft! Dies 

ist im gesamten Datenbestand bei 10% aller Transaktionen zu beobachten. 

Diese Größen bezeichnet man als Support und Konfidenz. 

Zu ihrer Definition benötigt man einen Datenbestand D, der aus einzelnen 

Transaktionen t 1 , ..., t n besteht. 

Also D = {t 1 , ..., t n } mit | D | = n (Anzahl der Elemente) 


17


Grundstruktur der Algorithmen 

1. Bestimme alle Regeln, deren Support größer oder gleich einer 

vorgegebenen Schranke (MinSup) ist. 

2. Bestimme von diesen Regeln diejenigen, deren Konfidenz größer oder 

gleich einer vorgegebenen Schranke (MinKonf) ist. 

• Die beiden Schranken MinSup und MinKonf müssen vom Anwender 

vorgegeben werden. 

• Bekannteste Vertreter: 

Apriori und Apriori-Tid Algorithmus (Agrawal und Srikant (1994)) 


18


Erweiterungen der Assoziationsanalyse – Taxonomien 

• Ziel: Betrachtung von Zusatzwissen (Strukturen) in der Menge der Items 

• Taxonomie: 

Getränke 

alkoholische 

Getränke 

nicht-alkoholische 

Getränke 

Backwaren 

Bier Wein Spirituosen Kaffee Saft Milch Zucker Mehl 

• Ergebnis: Neue, verallgemeinerte Regeln auf Basis der Taxonomie. 


19

Neukundengewinnung 

Data Mining im Beziehungslebenszyklus 


20


Entscheidungsbaumverfahren 

• Ziel der Anwendung von Entscheidungsbaumverfahren ist die Erzeugung 

eines Modells, durch welches unbekannte Datenobjekte bestimmten 

vorgegebenen Klassen zugeordnet werden können. 

• Diese Zuordnung geschieht anhand von Regeln, die durch einen 

Klassifikationsbaum dargestellt werden können. 

• Beispiel 

Einteilung von Datensätzen, die Angaben über Kunden enthalten, so dass 

damit die Käufergruppe erkannt werden kann, in die der Kunde 

voraussichtlich gehört. 

• Voraussetzung: Datenbestand bei dem für jeden Datensatz die zugehörige 

Klasse bereits bekannt ist. 


21


Grundstruktur der Algorithmen zum Entscheidungsbaumverfahren 

• Der Gesamtdatenbestand wird in eine Trainingsmenge und eine 

Testmenge aufgeteilt. 

• Dann wird die Trainingsmenge sukzessive aufgeteilt, so dass daraus 

homogenere Gruppen von Datensätzen bezüglich der 

Klassifikationsvariablen entstehen. 

• Die Aufteilung der Datenmengen kann durch einen Baum dargestellt 

werden, in dem jeder Knoten eine Datenmenge indiziert, dem ein 

Homogenitätsmaß zugeordnet wird. 

• Erreicht dieses Homogenitätsmaß einen vorgegebenen Wert, so wird der 

Knoten einer bestimmten Klasse zugeordnet. 


22


Allgemeiner Aufbau eines Entscheidungsbaum 

Datensätze gesamt: 1000 

kreditwürdig: 500 

nicht-kreditwürdig: 500 

Attribut A erfüllt Bedingung K 1 

Attribut A erfüllt nicht Bedingung K 1 







Attribut B erfüllt 

Bedingung K 2 

Attribut B erfüllt nicht Bedingung K 2 








23


Modellevaluation – Overfitting 

• Empirische Studien zeigen, dass eine Verbesserung der 

Fehlklassifikationsquote auf der Trainingsmenge zunächst einhergeht mit 

einer Verbesserung auf der Testmenge. 

• Ab einem gewissen Punkt steigt die Fehlklassifikationsquote auf der 

Testmenge dann wieder an. 

• Dieses Phänomen bezeichnet man als Overfitting. 

• Mögliche Gründe 

– prinzipielles Problem 

– fehlerhafte Testdaten (noise) 

– geringe Aussagekraft der Regeln bei zu kleiner Datenbasis 


24


Neuronale Netze 

• Bei der Erstellung Künstlicher Neuronaler Netze wird versucht, die 

Arbeitsweise des menschlichen Gehirns nachzubilden. 

• Ein Netz besteht aus künstlichen Neuronen und deren Verknüpfungen. 

• Wesentliches Merkmal der Netze ist ihre Lernfähigkeit. 


25


McCulloch-Pitts-Neuron 

Gesamtinput: ergibt sich als gewichtete 

Summe der Eingangssignale (Inputwerte) x 1 , 

…, x j , …, x n 

Aktivierung: Die Aktivierung des Neurons 

geschieht über die Aktivierungsfunktion f, 

deren Wert von der Differenz aus Gesamtinput 

und Schwellenwert θ abhängt. 

Je nach Aktivierung entsteht ein Outputwert y. 


26


Vorwärts gerichtete Neuronale Netze – Multilayer-Perzeptron 

• Das Multilayer-Perzeptron (MLP) ist ein Spezialfall eines vorwärts 

gerichteten KNNs, das zur Klassifikation eingesetzt werden kann. 

• Es können drei Schichttypen differenziert werden: Inputschicht, Versteckte 

Schicht, Outputschicht. 

• Es sind nur Neuronen verschiedener Schichten miteinander verbunden. 

• Die Outputwerte vorgelagerter Neuronen werden über gewichtete 

Verbindungen an nachgelagerte Neuronen gesendet. 

• Beim vorwärts gerichteten Netz werden Impulse nur in eine Richtung 

weitergegeben, es gibt keine Schleifen. 


27


Beispiel – Multilayer-Perzeptron 


28


Lernparadigmen 

• Überwachtes Lernen (supervised learning) → Klassifizierung 

[z.B. Back-Propagation] 

• Bestärkendes Lernen (reinforcement learning) 

• Unüberwachtes Lernen (unsupervised learning) → Clusterung 

[z.B. Self-Organizing-Maps] 


29


Back-Propagation 

• Die Werte eines Datensatzes werden in die Neuronen der Inputschicht 

eingegeben. Anschließend über die Neuronen und deren Verbindungen 

weitergeleitet, bis ein Wert in der Outputschicht erzeugt wurde, der die 

durch das Netz berechnete Klasse des Datensatzes angibt. (Forward Pass) 

• Dieser Wert wird mit der tatsächlichen Klassenzugehörigkeit verglichen. 

(Fehlerbestimmung) 

• Bei einer Abweichung von „Soll“- und „Ist“-Wert werden ausgehend von 

den Outputneuronen die zugehörigen Verbindungsgewichte sowie die 

Verbindungsgewichte der Neuronen vorgelagerter Schichten derart 

geändert, dass die Abweichung minimiert wird. (Backward Pass) 


30


Kritische Betrachtung 

• Vorteile 

– Vorwärts gerichtete Künstliche Neuronale Netze können sehr gute 

Ergebnisse bei der Klassifikation und Prognose erzeugen. 

– Die offene Struktur macht das Modell sehr flexibel. 

• Nachteile 

– Es werden keine expliziten Regeln angegeben. 

– Das Adaptieren der Gewichte geschieht mitunter sehr langsam. 

– Netzstruktur & Gewichtsinitialisierung sind nicht vorgegeben. 


31

Cluster-Verfahren 

Idee der Cluster-Verfahren 


32


Anwendungsbeispiele 

• Kundensegmentierung Welche Kundenprofile existieren? 

(Analyse von Kundenattributen) 

• Kaufverhalten Welche Gruppen bzgl. des Kaufverhaltens 

bestehen? (Analyse von 

Kaufähnlichkeiten) 

• Technik Finden ähnlicher Oberflächen 

• Text-Mining Finden ähnlicher Texte 

• Web-Log-Mining Auffinden von Benutzergruppen auf Web- 

Sites 


33


Ähnlichkeitsmaße vs. Distanzmaße 

• Um die Ähnlichkeit zweier Datensätze zu bestimmen, werden oftmals 

geometrische Distanzmaße d herangezogen. 

Es gilt: kleine Distanz ↔ große Ähnlichkeit 

große Distanz ↔ kleine Ähnlichkeit 

• Dabei ist für die Anwendbarkeit der Maße zu beachten, welche 

Definitionsbereiche die Attribute haben. Unterschieden werden muss 

zwischen numerischen und nominalen Attributen. 


34


Distanzfunktion zweier Datensätze mit nominalen Merkmalen 

• Gegeben seien zwei Datensätze, die Objekte anhand von n nominalen 

Merkmalen unterscheiden 

x = (x1, x2, ..., xn) und y = (y1, y2, ..., yn) 

• Distanz: Anzahl der Attribute, deren Ausprägungen nicht übereinstimmen. 

• Ähnlichkeit: Anzahl der Attribute, deren Ausprägungen übereinstimmen 

• x = (blau, hoch, dick, süß, Mainz) 

y = (grün, hoch, dick, süß, Essen) 

d(x, y) = 2 

sim(x, y) = 3 


35


Dendrogramm zur Darstellung hierarchischer Verfahren 

1 

2 

1, 2 

3 

3,4 

1, 2, 3, 4, 5 

4 

3, 4, 5 

5 

agglomerative 

Methode 

divisive 

Methode 

0 1 2 3 4 

4 3 2 1 0 

Schritt 


36


Single-Linkage 

Complete-Linkage 

Average-Linkage 

x 

x 

x 

x 

o 

o 

x 

x 

x 

x 


37


Algorithmus für ein agglomeratives Verfahren 

• Erstelle die Distanzmatrix. 

• Bilde einen neuen Cluster aus den zwei Objekten bzw. Clustern, die den 

geringsten Abstand zueinander haben. 

• Bestimme die Distanz zwischen dem neuen Cluster und allen anderen 

Objekten bzw. Clustern. 

• Wiederhole ab Schritt 2, bis sich alle Objekte in einem einzigen Cluster 

befinden. 


38


Partitionierendes Cluster-Verfahren – k-Means 

• Wähle K Objekte zufällig als initiale Clustercentroide. 

• Ordne die Objekte jeweils dem Cluster zu, zu dessen Centroid der 

geringste Abstand vom Objekt besteht. 

• Bestimme in den Clustern die aktuellen Centroide. 

• Prüfe, ob alle Objekte den Clustern mit dem geringsten Abstand zum 

Centroiden zugeordnet sind, wenn nein, springe zu 2. 

• Problem: Abhängigkeit von der Auswahl der initialen Centroide und der 

Reihenfolge der Werte. 


39

Text Mining 

• Das Data Mining, als eine Phase im KDD-Prozess, dient der 

Erkenntnisgewinnung aus umfangreichen Datenbeständen, wobei diese auf 

Grundlage strukturierter Daten durchgeführt wird. Die Methoden des Data 

Mining wurden nicht entwickelt, um unstrukturierte Daten zu verarbeiten. 

• Liegen Textdokumente als Basis zur inhaltlichen Entdeckung bisher 

unbekannter Informationen vor, wird daher das Text Mining angewendet. 

Im Gegensatz zum Data Mining sind die durch das Text Mining 

aufgespürten, unbekannten Informationen nicht für jeden unbekannt. Der 

Autor des Dokumentes kannte die Information und legte sie schriftlich 

nieder. Wichtig ist, dass die ermittelten Informationen für den Rezipienten 

neu sind. 


40

Text Mining 

• Das Vektormodell, oft auch als algebraisches Modell bezeichnet, erzeugt 

einen Vektor im mehrdimensionalen Raum. 

• Jeder Deskriptor eines Index stellt eine Dimension dieses Vektors dar. Dieser 

spannt einen Dokumentenraum auf. 

• Hierbei wird die Termhäufigkeit als Stärke der Ausprägung einer Dimension 

genutzt und durch den Begriff Gewicht ausgedrückt. 


41

Text Mining 

Dokument 

Vektor 

Mr Brown, the former 

Agriculture Secretary, 

told the BBC he would be 

prepared to oppose the 

government on the issue 

of variable fees. 

He is among the Labour 

backbenchers and several 

former ministers who fear 

the fees may deter 

students from poorer 

backgrounds from going 

to the best institutions. 

They claim the variable 

rate charged for different 

courses could cause a 

"two-tier" system. 

1 

0 

1 

0 

2 

1 

. 

. 

1 

1 

0 

0 

agriculture 

market 

government 

freedom 

fees 

students 

rate 

system 

country 

policy 

Dimension 

Gewicht 

d j 

freq ij 

t i 


42

Text Mining und Intelligente Software Agenten 

• Das Probabilistische Modell integriert die Beziehungen der Deskriptoren in 

die Bewertung und geht nicht von der Annahme der Unabhängigkeit 

zwischen den Deskriptoren aus. 

• Im Ergebnis werden Wahrscheinlichkeiten ermittelt, welche die Relevanz 

von Dokumenten für den Nutzer aufzeigen. 

• Um Aussagen über die Wahrscheinlichkeit treffen zu können, ist zumindest 

für eine Teilmenge der Dokumente die Relevanz zu bestimmen. 


43

Text Mining und Intelligente Software Agenten 

• Beispiele: 

• Entscheidungsbaum; 

• Support Vector Machines; 

• Rocchio Algorithmus; 

• k-NN Algorithmus; 

• Multilayer Perceptron; 

• HyperPipes. 


44

Text Mining 

Zulässigkeit 

beschränkt 

auf 

deutsche 

Zeichen 

Anwendung 

einer 

Stoppwortliste 

Eliminierung 

bei 

einer 

Wortlänge 

< 3 

Eliminierung 

bei Termfrequenz 

#1 pro 

Text 

Anwendung 

von Wortstämmen 

Eliminierung 

der 

oberen 5 

Prozent 

der Verteilungskurve 

Anzahl 

der 

verbleibenden 

Worte 

Nr. 

10.511 1 

10.343 2 

15.676 3 

31.602 4 

33.247 5 

33.392 6 

10 Prozent 32.854 7 

Sonderzeichen 33.602 8 

33.776 9 


45

Text Mining 

80,0000 

75,0000 

70,0000 

SVM 

65,0000 

Voted Perceptron 

k-NN (k=1) 

J48 

60,0000 

55,0000 

50,0000 

naive Bayes 

HyperPipes 

AdaBoost M1 

SimpleLogistic 

MLP 

Rocchio 

45,0000 

40,0000 

1 2 3 4 5 6 7 8 9 


46

Agenda 


– Begriffe 











47

Fragen? 


48

Anwendung der Business Analytics

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?