Anwendung der Business Analytics
Anwendung der Business Analytics
Anwendung der Business Analytics
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Anwendung</strong> <strong>der</strong> <strong>Business</strong> <strong>Analytics</strong><br />
TDWI 2013 München<br />
Prof. Dr. Carsten Felden<br />
Dipl.-Wirt.-Inf. Claudia Koschtial<br />
Technische Universität Bergakademie Freiberg (Sachsen)<br />
Institut für Wirtschaftsinformatik<br />
Silbermannstraße 2, 09599 Freiberg (Sachsen), Deutschland
Die Dozenten<br />
Univ.-Prof. Dr. Carsten Felden<br />
• Institut für Wirtschaftsinformatik an <strong>der</strong><br />
Technischen Universität Bergakademie Freiberg (Sachsen).<br />
• Geschäftsführer <strong>der</strong> Marmeladenbaum GmbH<br />
(www.marmeladenbaum.de)<br />
• Gutachter für internationale Journals und eingeladener Sprecher auf<br />
internationalen Veranstaltungen im Themengebiet <strong>der</strong> <strong>Business</strong><br />
Intelligence.<br />
Dipl.-Wirt.-Inf. Claudia Koschtial<br />
• Institut für Wirtschaftsinformatik an <strong>der</strong><br />
Technischen Universität Bergakademie Freiberg (Sachsen).<br />
• Geschäftsführerin <strong>der</strong> Marmeladenbaum GmbH<br />
Carsten Felden | Claudia Koschtial<br />
2
Agenda<br />
• Einführung und Einordnung <strong>Business</strong> <strong>Analytics</strong><br />
– Begriffe<br />
– Analytische Fähigkeiten<br />
– Hype Cycle<br />
– Analytischer Prozess<br />
• <strong>Anwendung</strong>sfel<strong>der</strong> und Verfahren<br />
– Assoziationsanalyse<br />
– Entscheidungsbaum<br />
– Neuronale Netze<br />
– Clusterverfahren<br />
• Praktischer Teil<br />
Carsten Felden | Claudia Koschtial<br />
3
Eine kurze Geschichte <strong>der</strong> <strong>Business</strong> <strong>Analytics</strong><br />
• <strong>Business</strong> <strong>Analytics</strong> beschreibt den Prozess <strong>der</strong> so genannten<br />
Datenveredelung. Es ist ein strategisches Werkzeug für<br />
Entscheidungsträger in Unternehmen. <strong>Analytics</strong>lösungen kommen<br />
branchenübergreifend zum Einsatz.<br />
• Ziel ist es, Antworten nicht nur auf die Frage:<br />
„Was war?“,<br />
son<strong>der</strong>n auch:<br />
„Was wird sein?“ zu finden.<br />
[Felden, 2009]<br />
Carsten Felden | Claudia Koschtial<br />
4
Vier Typen <strong>der</strong> analytischen Fähigkeit nach Gartner<br />
Carsten Felden | Claudia Koschtial<br />
5
Hype Cycle für <strong>Business</strong> Intelligence (2007)<br />
http://www.gartner.com/id=509936<br />
Carsten Felden | Claudia Koschtial<br />
6
Hype Cycle für <strong>Business</strong> Intelligence (2011)<br />
http://softwarestrategiesblog.com/2011/08/13/saas-based-analytics-and-business-intelligence-marketupdate-august-2011/<br />
Carsten Felden | Claudia Koschtial<br />
7
Daten und Datenhaltung<br />
Komponenten eines<br />
Entscheidungsunterstützungssystems<br />
Carsten Felden | Claudia Koschtial<br />
[Hansen/Neumann (2005), S. 785]<br />
8
Statistische Grundlagen<br />
Maschinelles Lernen und Data Mining I<br />
Knowledge Discovery in Databases (KDD) beschreibt den<br />
“.. non-trivial process of identifying valid, novel, potentially useful, and<br />
ultimately un<strong>der</strong>standable patterns in data ..”<br />
[Fayyad et al. 1996]<br />
• Prozess,<br />
• umfangreiche Datenbestände<br />
• implizit vorhandenes Wissen<br />
• entdecken<br />
• Knowledge Extraction<br />
• Data Archaeology<br />
• Data Analysis<br />
Carsten Felden | Claudia Koschtial<br />
9
Statistische Grundlagen<br />
Prozessmodelle Knowledge<br />
Discovery in Databases I<br />
Data Mining<br />
Interpretation<br />
“Wissen”<br />
Transformation<br />
Muster<br />
Vorverarbeitung<br />
Auswahl<br />
Transformierte<br />
Daten<br />
Vorverarbeitete<br />
Daten<br />
Datenbank<br />
Zieldatenbestand<br />
Carsten Felden | Claudia Koschtial<br />
10
Statistische Grundlagen<br />
Klassische Aufgabenstellungen<br />
Aufgaben<br />
Verfahren<br />
Klassifikation/<br />
Regression<br />
Clusterung<br />
Abhängigkeitsanalyse<br />
Entscheidungsbäume<br />
Künstliche Neuronale<br />
Netze<br />
Clusterverfahren<br />
Assoziationsanalyse<br />
Carsten Felden | Claudia Koschtial<br />
11
Statistische Grundlagen<br />
Datenbereinigung<br />
Name Alter Region Stadt Kin<strong>der</strong><br />
Meier 56 Sachsen Freiberg 3<br />
Schulz 32 Sachsen Freiberg Yes<br />
Muster Sachsen Dresden 2<br />
Müller 18 Sachsen Freiburg 4<br />
fehlende<br />
Werte<br />
fehlerhafte<br />
Werte<br />
Redundanz<br />
Carsten Felden | Claudia Koschtial<br />
12
Agenda<br />
• Einführung und Einordnung <strong>Business</strong> <strong>Analytics</strong><br />
– Begriffe<br />
– Analytische Fähigkeiten<br />
– Hype Cycle<br />
– Analytischer Prozess<br />
• <strong>Anwendung</strong>sfel<strong>der</strong> und Verfahren<br />
– Assoziationsanalyse<br />
– Entscheidungsbaum<br />
– Neuronale Netze<br />
– Clusterverfahren<br />
• Praktischer Teil<br />
Carsten Felden | Claudia Koschtial<br />
13
Analyse des Kundenverhaltens<br />
Assoziationsanalyse<br />
• Ziel <strong>der</strong> Assoziationsanalyse ist das Erkennen und Bewerten von<br />
gemeinsam auftretenden Datenelementen (Items).<br />
• Items können Elemente von Mengen o<strong>der</strong> einzelne Attributwerte von<br />
Datensätzen sein. Eine Menge von Items wird als Itemset o<strong>der</strong> auch<br />
Itemmenge bezeichnet.<br />
• Beispiel:<br />
Items in Mengen: Warenkorb {Artikel A, Artikel B}<br />
Items im Datensatz: (PLZ=47057, ..., Käufergruppe=A)<br />
• Voraussetzung: Vorhandensein einer Datenbasis bestehend aus einzelnen<br />
Transaktionen (z. B. Menge von Kassenbons)<br />
Carsten Felden | Claudia Koschtial<br />
14
Analyse des Kundenverhaltens<br />
Ergebnisse <strong>der</strong> Assoziationsanalyse<br />
•Assoziationsregel:<br />
allgemeiner:<br />
WENN Item a DANN Item b<br />
Kurz: {a} → {b}<br />
WENN Itemset X DANN Itemset Y<br />
Kurz: X →Y<br />
•Beispiel:<br />
WENN Artikel a und Artikel b gekauft<br />
werden, DANN wird auch<br />
Artikel c gekauft.<br />
Carsten Felden | Claudia Koschtial<br />
15
Analyse des Kundenverhaltens<br />
Einsatzgebiete <strong>der</strong> Assoziationsanalyse<br />
Warenkorbanalyse<br />
Gesundheitswesen<br />
Banken<br />
Telekommunikation<br />
Technik<br />
Text-Mining<br />
Web-Log-Mining<br />
Welche Verbundkäufe werden getätigt?<br />
Welche Behandlungsmethoden werden<br />
nacheinan<strong>der</strong> verwendet?<br />
Welche Kunden sind abwan<strong>der</strong>ungsgefährdet?<br />
Optimierung von Prozessabläufen bei telefonischen<br />
Serviceanfor<strong>der</strong>ungen<br />
Fehlerentdeckung in Fertigungsprozessen<br />
Finden von Begriffszusammenhängen<br />
Auffinden von Zugriffsmustern auf Web-Sites<br />
Carsten Felden | Claudia Koschtial<br />
16
Analyse des Kundenverhaltens<br />
Bewertung von Assoziationsregeln<br />
Einfache Regeln: WENN Itemset X DANN Itemset Y<br />
Die Aussagekraft <strong>der</strong> Regeln soll bewertet werden, etwa so:<br />
Wird Produkt a gekauft, so wird in 75% <strong>der</strong> Fälle auch Produkt b gekauft! Dies<br />
ist im gesamten Datenbestand bei 10% aller Transaktionen zu beobachten.<br />
Diese Größen bezeichnet man als Support und Konfidenz.<br />
Zu ihrer Definition benötigt man einen Datenbestand D, <strong>der</strong> aus einzelnen<br />
Transaktionen t 1 , ..., t n besteht.<br />
Also D = {t 1 , ..., t n } mit | D | = n (Anzahl <strong>der</strong> Elemente)<br />
Carsten Felden | Claudia Koschtial<br />
17
Analyse des Kundenverhaltens<br />
Grundstruktur <strong>der</strong> Algorithmen<br />
1. Bestimme alle Regeln, <strong>der</strong>en Support größer o<strong>der</strong> gleich einer<br />
vorgegebenen Schranke (MinSup) ist.<br />
2. Bestimme von diesen Regeln diejenigen, <strong>der</strong>en Konfidenz größer o<strong>der</strong><br />
gleich einer vorgegebenen Schranke (MinKonf) ist.<br />
• Die beiden Schranken MinSup und MinKonf müssen vom Anwen<strong>der</strong><br />
vorgegeben werden.<br />
• Bekannteste Vertreter:<br />
Apriori und Apriori-Tid Algorithmus (Agrawal und Srikant (1994))<br />
Carsten Felden | Claudia Koschtial<br />
18
Analyse des Kundenverhaltens<br />
Erweiterungen <strong>der</strong> Assoziationsanalyse – Taxonomien<br />
• Ziel: Betrachtung von Zusatzwissen (Strukturen) in <strong>der</strong> Menge <strong>der</strong> Items<br />
• Taxonomie:<br />
Getränke<br />
alkoholische<br />
Getränke<br />
nicht-alkoholische<br />
Getränke<br />
Backwaren<br />
Bier Wein Spirituosen Kaffee Saft Milch Zucker Mehl<br />
• Ergebnis: Neue, verallgemeinerte Regeln auf Basis <strong>der</strong> Taxonomie.<br />
Carsten Felden | Claudia Koschtial<br />
19
Neukundengewinnung<br />
Data Mining im Beziehungslebenszyklus<br />
Carsten Felden | Claudia Koschtial<br />
20
Neukundengewinnung<br />
Entscheidungsbaumverfahren<br />
• Ziel <strong>der</strong> <strong>Anwendung</strong> von Entscheidungsbaumverfahren ist die Erzeugung<br />
eines Modells, durch welches unbekannte Datenobjekte bestimmten<br />
vorgegebenen Klassen zugeordnet werden können.<br />
• Diese Zuordnung geschieht anhand von Regeln, die durch einen<br />
Klassifikationsbaum dargestellt werden können.<br />
• Beispiel<br />
Einteilung von Datensätzen, die Angaben über Kunden enthalten, so dass<br />
damit die Käufergruppe erkannt werden kann, in die <strong>der</strong> Kunde<br />
voraussichtlich gehört.<br />
• Voraussetzung: Datenbestand bei dem für jeden Datensatz die zugehörige<br />
Klasse bereits bekannt ist.<br />
Carsten Felden | Claudia Koschtial<br />
21
Neukundengewinnung<br />
Grundstruktur <strong>der</strong> Algorithmen zum Entscheidungsbaumverfahren<br />
• Der Gesamtdatenbestand wird in eine Trainingsmenge und eine<br />
Testmenge aufgeteilt.<br />
• Dann wird die Trainingsmenge sukzessive aufgeteilt, so dass daraus<br />
homogenere Gruppen von Datensätzen bezüglich <strong>der</strong><br />
Klassifikationsvariablen entstehen.<br />
• Die Aufteilung <strong>der</strong> Datenmengen kann durch einen Baum dargestellt<br />
werden, in dem je<strong>der</strong> Knoten eine Datenmenge indiziert, dem ein<br />
Homogenitätsmaß zugeordnet wird.<br />
• Erreicht dieses Homogenitätsmaß einen vorgegebenen Wert, so wird <strong>der</strong><br />
Knoten einer bestimmten Klasse zugeordnet.<br />
Carsten Felden | Claudia Koschtial<br />
22
Neukundengewinnung<br />
Allgemeiner Aufbau eines Entscheidungsbaum<br />
Datensätze gesamt: 1000<br />
kreditwürdig: 500<br />
nicht-kreditwürdig: 500<br />
Attribut A erfüllt Bedingung K 1<br />
Attribut A erfüllt nicht Bedingung K 1<br />
Datensätze gesamt: 700<br />
kreditwürdig: 480<br />
nicht-kreditwürdig: 220<br />
Datensätze gesamt: 300<br />
kreditwürdig: 20<br />
nicht-kreditwürdig: 280<br />
Attribut B erfüllt<br />
Bedingung K 2<br />
Attribut B erfüllt nicht Bedingung K 2<br />
Datensätze gesamt: 400<br />
kreditwürdig: 390<br />
nicht-kreditwürdig: 10<br />
Datensätze gesamt: 300<br />
kreditwürdig: 90<br />
nicht-kreditwürdig: 210<br />
Carsten Felden | Claudia Koschtial<br />
23
Neukundengewinnung<br />
Modellevaluation – Overfitting<br />
• Empirische Studien zeigen, dass eine Verbesserung <strong>der</strong><br />
Fehlklassifikationsquote auf <strong>der</strong> Trainingsmenge zunächst einhergeht mit<br />
einer Verbesserung auf <strong>der</strong> Testmenge.<br />
• Ab einem gewissen Punkt steigt die Fehlklassifikationsquote auf <strong>der</strong><br />
Testmenge dann wie<strong>der</strong> an.<br />
• Dieses Phänomen bezeichnet man als Overfitting.<br />
• Mögliche Gründe<br />
– prinzipielles Problem<br />
– fehlerhafte Testdaten (noise)<br />
– geringe Aussagekraft <strong>der</strong> Regeln bei zu kleiner Datenbasis<br />
Carsten Felden | Claudia Koschtial<br />
24
Neukundengewinnung<br />
Neuronale Netze<br />
• Bei <strong>der</strong> Erstellung Künstlicher Neuronaler Netze wird versucht, die<br />
Arbeitsweise des menschlichen Gehirns nachzubilden.<br />
• Ein Netz besteht aus künstlichen Neuronen und <strong>der</strong>en Verknüpfungen.<br />
• Wesentliches Merkmal <strong>der</strong> Netze ist ihre Lernfähigkeit.<br />
Carsten Felden | Claudia Koschtial<br />
25
Neukundengewinnung<br />
McCulloch-Pitts-Neuron<br />
Gesamtinput: ergibt sich als gewichtete<br />
Summe <strong>der</strong> Eingangssignale (Inputwerte) x 1 ,<br />
…, x j , …, x n<br />
Aktivierung: Die Aktivierung des Neurons<br />
geschieht über die Aktivierungsfunktion f,<br />
<strong>der</strong>en Wert von <strong>der</strong> Differenz aus Gesamtinput<br />
und Schwellenwert θ abhängt.<br />
Je nach Aktivierung entsteht ein Outputwert y.<br />
Carsten Felden | Claudia Koschtial<br />
26
Neukundengewinnung<br />
Vorwärts gerichtete Neuronale Netze – Multilayer-Perzeptron<br />
• Das Multilayer-Perzeptron (MLP) ist ein Spezialfall eines vorwärts<br />
gerichteten KNNs, das zur Klassifikation eingesetzt werden kann.<br />
• Es können drei Schichttypen differenziert werden: Inputschicht, Versteckte<br />
Schicht, Outputschicht.<br />
• Es sind nur Neuronen verschiedener Schichten miteinan<strong>der</strong> verbunden.<br />
• Die Outputwerte vorgelagerter Neuronen werden über gewichtete<br />
Verbindungen an nachgelagerte Neuronen gesendet.<br />
• Beim vorwärts gerichteten Netz werden Impulse nur in eine Richtung<br />
weitergegeben, es gibt keine Schleifen.<br />
Carsten Felden | Claudia Koschtial<br />
27
Neukundengewinnung<br />
Beispiel – Multilayer-Perzeptron<br />
Carsten Felden | Claudia Koschtial<br />
28
Neukundengewinnung<br />
Lernparadigmen<br />
• Überwachtes Lernen (supervised learning) → Klassifizierung<br />
[z.B. Back-Propagation]<br />
• Bestärkendes Lernen (reinforcement learning)<br />
• Unüberwachtes Lernen (unsupervised learning) → Clusterung<br />
[z.B. Self-Organizing-Maps]<br />
Carsten Felden | Claudia Koschtial<br />
29
Neukundengewinnung<br />
Back-Propagation<br />
• Die Werte eines Datensatzes werden in die Neuronen <strong>der</strong> Inputschicht<br />
eingegeben. Anschließend über die Neuronen und <strong>der</strong>en Verbindungen<br />
weitergeleitet, bis ein Wert in <strong>der</strong> Outputschicht erzeugt wurde, <strong>der</strong> die<br />
durch das Netz berechnete Klasse des Datensatzes angibt. (Forward Pass)<br />
• Dieser Wert wird mit <strong>der</strong> tatsächlichen Klassenzugehörigkeit verglichen.<br />
(Fehlerbestimmung)<br />
• Bei einer Abweichung von „Soll“- und „Ist“-Wert werden ausgehend von<br />
den Outputneuronen die zugehörigen Verbindungsgewichte sowie die<br />
Verbindungsgewichte <strong>der</strong> Neuronen vorgelagerter Schichten <strong>der</strong>art<br />
geän<strong>der</strong>t, dass die Abweichung minimiert wird. (Backward Pass)<br />
Carsten Felden | Claudia Koschtial<br />
30
Neukundengewinnung<br />
Kritische Betrachtung<br />
• Vorteile<br />
– Vorwärts gerichtete Künstliche Neuronale Netze können sehr gute<br />
Ergebnisse bei <strong>der</strong> Klassifikation und Prognose erzeugen.<br />
– Die offene Struktur macht das Modell sehr flexibel.<br />
• Nachteile<br />
– Es werden keine expliziten Regeln angegeben.<br />
– Das Adaptieren <strong>der</strong> Gewichte geschieht mitunter sehr langsam.<br />
– Netzstruktur & Gewichtsinitialisierung sind nicht vorgegeben.<br />
Carsten Felden | Claudia Koschtial<br />
31
Cluster-Verfahren<br />
Idee <strong>der</strong> Cluster-Verfahren<br />
Carsten Felden | Claudia Koschtial<br />
32
Cluster-Verfahren<br />
<strong>Anwendung</strong>sbeispiele<br />
• Kundensegmentierung Welche Kundenprofile existieren?<br />
(Analyse von Kundenattributen)<br />
• Kaufverhalten Welche Gruppen bzgl. des Kaufverhaltens<br />
bestehen? (Analyse von<br />
Kaufähnlichkeiten)<br />
• Technik Finden ähnlicher Oberflächen<br />
• Text-Mining Finden ähnlicher Texte<br />
• Web-Log-Mining Auffinden von Benutzergruppen auf Web-<br />
Sites<br />
Carsten Felden | Claudia Koschtial<br />
33
Cluster-Verfahren<br />
Ähnlichkeitsmaße vs. Distanzmaße<br />
• Um die Ähnlichkeit zweier Datensätze zu bestimmen, werden oftmals<br />
geometrische Distanzmaße d herangezogen.<br />
Es gilt: kleine Distanz ↔ große Ähnlichkeit<br />
große Distanz ↔ kleine Ähnlichkeit<br />
• Dabei ist für die Anwendbarkeit <strong>der</strong> Maße zu beachten, welche<br />
Definitionsbereiche die Attribute haben. Unterschieden werden muss<br />
zwischen numerischen und nominalen Attributen.<br />
Carsten Felden | Claudia Koschtial<br />
34
Cluster-Verfahren<br />
Distanzfunktion zweier Datensätze mit nominalen Merkmalen<br />
• Gegeben seien zwei Datensätze, die Objekte anhand von n nominalen<br />
Merkmalen unterscheiden<br />
x = (x1, x2, ..., xn) und y = (y1, y2, ..., yn)<br />
• Distanz: Anzahl <strong>der</strong> Attribute, <strong>der</strong>en Ausprägungen nicht übereinstimmen.<br />
• Ähnlichkeit: Anzahl <strong>der</strong> Attribute, <strong>der</strong>en Ausprägungen übereinstimmen<br />
• x = (blau, hoch, dick, süß, Mainz)<br />
y = (grün, hoch, dick, süß, Essen)<br />
d(x, y) = 2<br />
sim(x, y) = 3<br />
Carsten Felden | Claudia Koschtial<br />
35
Cluster-Verfahren<br />
Dendrogramm zur Darstellung hierarchischer Verfahren<br />
1<br />
2<br />
1, 2<br />
3<br />
3,4<br />
1, 2, 3, 4, 5<br />
4<br />
3, 4, 5<br />
5<br />
agglomerative<br />
Methode<br />
divisive<br />
Methode<br />
0 1 2 3 4<br />
4 3 2 1 0<br />
Schritt<br />
Carsten Felden | Claudia Koschtial<br />
36
Cluster-Verfahren<br />
Single-Linkage<br />
Complete-Linkage<br />
Average-Linkage<br />
x<br />
x<br />
x<br />
x<br />
o<br />
o<br />
x<br />
x<br />
x<br />
x<br />
Carsten Felden | Claudia Koschtial<br />
37
Cluster-Verfahren<br />
Algorithmus für ein agglomeratives Verfahren<br />
• Erstelle die Distanzmatrix.<br />
• Bilde einen neuen Cluster aus den zwei Objekten bzw. Clustern, die den<br />
geringsten Abstand zueinan<strong>der</strong> haben.<br />
• Bestimme die Distanz zwischen dem neuen Cluster und allen an<strong>der</strong>en<br />
Objekten bzw. Clustern.<br />
• Wie<strong>der</strong>hole ab Schritt 2, bis sich alle Objekte in einem einzigen Cluster<br />
befinden.<br />
Carsten Felden | Claudia Koschtial<br />
38
Cluster-Verfahren<br />
Partitionierendes Cluster-Verfahren – k-Means<br />
• Wähle K Objekte zufällig als initiale Clustercentroide.<br />
• Ordne die Objekte jeweils dem Cluster zu, zu dessen Centroid <strong>der</strong><br />
geringste Abstand vom Objekt besteht.<br />
• Bestimme in den Clustern die aktuellen Centroide.<br />
• Prüfe, ob alle Objekte den Clustern mit dem geringsten Abstand zum<br />
Centroiden zugeordnet sind, wenn nein, springe zu 2.<br />
• Problem: Abhängigkeit von <strong>der</strong> Auswahl <strong>der</strong> initialen Centroide und <strong>der</strong><br />
Reihenfolge <strong>der</strong> Werte.<br />
Carsten Felden | Claudia Koschtial<br />
39
Text Mining<br />
• Das Data Mining, als eine Phase im KDD-Prozess, dient <strong>der</strong><br />
Erkenntnisgewinnung aus umfangreichen Datenbeständen, wobei diese auf<br />
Grundlage strukturierter Daten durchgeführt wird. Die Methoden des Data<br />
Mining wurden nicht entwickelt, um unstrukturierte Daten zu verarbeiten.<br />
• Liegen Textdokumente als Basis zur inhaltlichen Entdeckung bisher<br />
unbekannter Informationen vor, wird daher das Text Mining angewendet.<br />
Im Gegensatz zum Data Mining sind die durch das Text Mining<br />
aufgespürten, unbekannten Informationen nicht für jeden unbekannt. Der<br />
Autor des Dokumentes kannte die Information und legte sie schriftlich<br />
nie<strong>der</strong>. Wichtig ist, dass die ermittelten Informationen für den Rezipienten<br />
neu sind.<br />
Carsten Felden | Claudia Koschtial<br />
40
Text Mining<br />
• Das Vektormodell, oft auch als algebraisches Modell bezeichnet, erzeugt<br />
einen Vektor im mehrdimensionalen Raum.<br />
• Je<strong>der</strong> Deskriptor eines Index stellt eine Dimension dieses Vektors dar. Dieser<br />
spannt einen Dokumentenraum auf.<br />
• Hierbei wird die Termhäufigkeit als Stärke <strong>der</strong> Ausprägung einer Dimension<br />
genutzt und durch den Begriff Gewicht ausgedrückt.<br />
Carsten Felden | Claudia Koschtial<br />
41
Text Mining<br />
Dokument<br />
Vektor<br />
Mr Brown, the former<br />
Agriculture Secretary,<br />
told the BBC he would be<br />
prepared to oppose the<br />
government on the issue<br />
of variable fees.<br />
He is among the Labour<br />
backbenchers and several<br />
former ministers who fear<br />
the fees may deter<br />
students from poorer<br />
backgrounds from going<br />
to the best institutions.<br />
They claim the variable<br />
rate charged for different<br />
courses could cause a<br />
"two-tier" system.<br />
1<br />
0<br />
1<br />
0<br />
2<br />
1<br />
.<br />
.<br />
1<br />
1<br />
0<br />
0<br />
agriculture<br />
market<br />
government<br />
freedom<br />
fees<br />
students<br />
rate<br />
system<br />
country<br />
policy<br />
Dimension<br />
Gewicht<br />
d j<br />
freq ij<br />
t i<br />
Carsten Felden | Claudia Koschtial<br />
42
Text Mining und Intelligente Software Agenten<br />
• Das Probabilistische Modell integriert die Beziehungen <strong>der</strong> Deskriptoren in<br />
die Bewertung und geht nicht von <strong>der</strong> Annahme <strong>der</strong> Unabhängigkeit<br />
zwischen den Deskriptoren aus.<br />
• Im Ergebnis werden Wahrscheinlichkeiten ermittelt, welche die Relevanz<br />
von Dokumenten für den Nutzer aufzeigen.<br />
• Um Aussagen über die Wahrscheinlichkeit treffen zu können, ist zumindest<br />
für eine Teilmenge <strong>der</strong> Dokumente die Relevanz zu bestimmen.<br />
Carsten Felden | Claudia Koschtial<br />
43
Text Mining und Intelligente Software Agenten<br />
• Beispiele:<br />
• Entscheidungsbaum;<br />
• Support Vector Machines;<br />
• Rocchio Algorithmus;<br />
• k-NN Algorithmus;<br />
• Multilayer Perceptron;<br />
• HyperPipes.<br />
Carsten Felden | Claudia Koschtial<br />
44
Text Mining<br />
Zulässigkeit<br />
beschränkt<br />
auf<br />
deutsche<br />
Zeichen<br />
<strong>Anwendung</strong><br />
einer<br />
Stoppwortliste<br />
Eliminierung<br />
bei<br />
einer<br />
Wortlänge<br />
< 3<br />
Eliminierung<br />
bei Termfrequenz<br />
#1 pro<br />
Text<br />
<strong>Anwendung</strong><br />
von Wortstämmen<br />
Eliminierung<br />
<strong>der</strong><br />
oberen 5<br />
Prozent<br />
<strong>der</strong> Verteilungskurve<br />
Anzahl<br />
<strong>der</strong><br />
verbleibenden<br />
Worte<br />
Nr.<br />
10.511 1<br />
10.343 2<br />
15.676 3<br />
31.602 4<br />
33.247 5<br />
33.392 6<br />
10 Prozent 32.854 7<br />
Son<strong>der</strong>zeichen 33.602 8<br />
33.776 9<br />
Carsten Felden | Claudia Koschtial<br />
45
Text Mining<br />
80,0000<br />
75,0000<br />
70,0000<br />
SVM<br />
65,0000<br />
Voted Perceptron<br />
k-NN (k=1)<br />
J48<br />
60,0000<br />
55,0000<br />
50,0000<br />
naive Bayes<br />
HyperPipes<br />
AdaBoost M1<br />
SimpleLogistic<br />
MLP<br />
Rocchio<br />
45,0000<br />
40,0000<br />
1 2 3 4 5 6 7 8 9<br />
Carsten Felden | Claudia Koschtial<br />
46
Agenda<br />
• Einführung und Einordnung <strong>Business</strong> <strong>Analytics</strong><br />
– Begriffe<br />
– Analytische Fähigkeiten<br />
– Hype Cycle<br />
– Analytischer Prozess<br />
• <strong>Anwendung</strong>sfel<strong>der</strong> und Verfahren<br />
– Assoziationsanalyse<br />
– Entscheidungsbaum<br />
– Neuronale Netze<br />
– Clusterverfahren<br />
• Praktischer Teil<br />
Carsten Felden | Claudia Koschtial<br />
47
Fragen?<br />
Carsten Felden | Claudia Koschtial<br />
48