04.11.2013 Aufrufe

Anwendung der Business Analytics

Anwendung der Business Analytics

Anwendung der Business Analytics

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Anwendung</strong> <strong>der</strong> <strong>Business</strong> <strong>Analytics</strong><br />

TDWI 2013 München<br />

Prof. Dr. Carsten Felden<br />

Dipl.-Wirt.-Inf. Claudia Koschtial<br />

Technische Universität Bergakademie Freiberg (Sachsen)<br />

Institut für Wirtschaftsinformatik<br />

Silbermannstraße 2, 09599 Freiberg (Sachsen), Deutschland


Die Dozenten<br />

Univ.-Prof. Dr. Carsten Felden<br />

• Institut für Wirtschaftsinformatik an <strong>der</strong><br />

Technischen Universität Bergakademie Freiberg (Sachsen).<br />

• Geschäftsführer <strong>der</strong> Marmeladenbaum GmbH<br />

(www.marmeladenbaum.de)<br />

• Gutachter für internationale Journals und eingeladener Sprecher auf<br />

internationalen Veranstaltungen im Themengebiet <strong>der</strong> <strong>Business</strong><br />

Intelligence.<br />

Dipl.-Wirt.-Inf. Claudia Koschtial<br />

• Institut für Wirtschaftsinformatik an <strong>der</strong><br />

Technischen Universität Bergakademie Freiberg (Sachsen).<br />

• Geschäftsführerin <strong>der</strong> Marmeladenbaum GmbH<br />

Carsten Felden | Claudia Koschtial<br />

2


Agenda<br />

• Einführung und Einordnung <strong>Business</strong> <strong>Analytics</strong><br />

– Begriffe<br />

– Analytische Fähigkeiten<br />

– Hype Cycle<br />

– Analytischer Prozess<br />

• <strong>Anwendung</strong>sfel<strong>der</strong> und Verfahren<br />

– Assoziationsanalyse<br />

– Entscheidungsbaum<br />

– Neuronale Netze<br />

– Clusterverfahren<br />

• Praktischer Teil<br />

Carsten Felden | Claudia Koschtial<br />

3


Eine kurze Geschichte <strong>der</strong> <strong>Business</strong> <strong>Analytics</strong><br />

• <strong>Business</strong> <strong>Analytics</strong> beschreibt den Prozess <strong>der</strong> so genannten<br />

Datenveredelung. Es ist ein strategisches Werkzeug für<br />

Entscheidungsträger in Unternehmen. <strong>Analytics</strong>lösungen kommen<br />

branchenübergreifend zum Einsatz.<br />

• Ziel ist es, Antworten nicht nur auf die Frage:<br />

„Was war?“,<br />

son<strong>der</strong>n auch:<br />

„Was wird sein?“ zu finden.<br />

[Felden, 2009]<br />

Carsten Felden | Claudia Koschtial<br />

4


Vier Typen <strong>der</strong> analytischen Fähigkeit nach Gartner<br />

Carsten Felden | Claudia Koschtial<br />

5


Hype Cycle für <strong>Business</strong> Intelligence (2007)<br />

http://www.gartner.com/id=509936<br />

Carsten Felden | Claudia Koschtial<br />

6


Hype Cycle für <strong>Business</strong> Intelligence (2011)<br />

http://softwarestrategiesblog.com/2011/08/13/saas-based-analytics-and-business-intelligence-marketupdate-august-2011/<br />

Carsten Felden | Claudia Koschtial<br />

7


Daten und Datenhaltung<br />

Komponenten eines<br />

Entscheidungsunterstützungssystems<br />

Carsten Felden | Claudia Koschtial<br />

[Hansen/Neumann (2005), S. 785]<br />

8


Statistische Grundlagen<br />

Maschinelles Lernen und Data Mining I<br />

Knowledge Discovery in Databases (KDD) beschreibt den<br />

“.. non-trivial process of identifying valid, novel, potentially useful, and<br />

ultimately un<strong>der</strong>standable patterns in data ..”<br />

[Fayyad et al. 1996]<br />

• Prozess,<br />

• umfangreiche Datenbestände<br />

• implizit vorhandenes Wissen<br />

• entdecken<br />

• Knowledge Extraction<br />

• Data Archaeology<br />

• Data Analysis<br />

Carsten Felden | Claudia Koschtial<br />

9


Statistische Grundlagen<br />

Prozessmodelle Knowledge<br />

Discovery in Databases I<br />

Data Mining<br />

Interpretation<br />

“Wissen”<br />

Transformation<br />

Muster<br />

Vorverarbeitung<br />

Auswahl<br />

Transformierte<br />

Daten<br />

Vorverarbeitete<br />

Daten<br />

Datenbank<br />

Zieldatenbestand<br />

Carsten Felden | Claudia Koschtial<br />

10


Statistische Grundlagen<br />

Klassische Aufgabenstellungen<br />

Aufgaben<br />

Verfahren<br />

Klassifikation/<br />

Regression<br />

Clusterung<br />

Abhängigkeitsanalyse<br />

Entscheidungsbäume<br />

Künstliche Neuronale<br />

Netze<br />

Clusterverfahren<br />

Assoziationsanalyse<br />

Carsten Felden | Claudia Koschtial<br />

11


Statistische Grundlagen<br />

Datenbereinigung<br />

Name Alter Region Stadt Kin<strong>der</strong><br />

Meier 56 Sachsen Freiberg 3<br />

Schulz 32 Sachsen Freiberg Yes<br />

Muster Sachsen Dresden 2<br />

Müller 18 Sachsen Freiburg 4<br />

fehlende<br />

Werte<br />

fehlerhafte<br />

Werte<br />

Redundanz<br />

Carsten Felden | Claudia Koschtial<br />

12


Agenda<br />

• Einführung und Einordnung <strong>Business</strong> <strong>Analytics</strong><br />

– Begriffe<br />

– Analytische Fähigkeiten<br />

– Hype Cycle<br />

– Analytischer Prozess<br />

• <strong>Anwendung</strong>sfel<strong>der</strong> und Verfahren<br />

– Assoziationsanalyse<br />

– Entscheidungsbaum<br />

– Neuronale Netze<br />

– Clusterverfahren<br />

• Praktischer Teil<br />

Carsten Felden | Claudia Koschtial<br />

13


Analyse des Kundenverhaltens<br />

Assoziationsanalyse<br />

• Ziel <strong>der</strong> Assoziationsanalyse ist das Erkennen und Bewerten von<br />

gemeinsam auftretenden Datenelementen (Items).<br />

• Items können Elemente von Mengen o<strong>der</strong> einzelne Attributwerte von<br />

Datensätzen sein. Eine Menge von Items wird als Itemset o<strong>der</strong> auch<br />

Itemmenge bezeichnet.<br />

• Beispiel:<br />

Items in Mengen: Warenkorb {Artikel A, Artikel B}<br />

Items im Datensatz: (PLZ=47057, ..., Käufergruppe=A)<br />

• Voraussetzung: Vorhandensein einer Datenbasis bestehend aus einzelnen<br />

Transaktionen (z. B. Menge von Kassenbons)<br />

Carsten Felden | Claudia Koschtial<br />

14


Analyse des Kundenverhaltens<br />

Ergebnisse <strong>der</strong> Assoziationsanalyse<br />

•Assoziationsregel:<br />

allgemeiner:<br />

WENN Item a DANN Item b<br />

Kurz: {a} → {b}<br />

WENN Itemset X DANN Itemset Y<br />

Kurz: X →Y<br />

•Beispiel:<br />

WENN Artikel a und Artikel b gekauft<br />

werden, DANN wird auch<br />

Artikel c gekauft.<br />

Carsten Felden | Claudia Koschtial<br />

15


Analyse des Kundenverhaltens<br />

Einsatzgebiete <strong>der</strong> Assoziationsanalyse<br />

Warenkorbanalyse<br />

Gesundheitswesen<br />

Banken<br />

Telekommunikation<br />

Technik<br />

Text-Mining<br />

Web-Log-Mining<br />

Welche Verbundkäufe werden getätigt?<br />

Welche Behandlungsmethoden werden<br />

nacheinan<strong>der</strong> verwendet?<br />

Welche Kunden sind abwan<strong>der</strong>ungsgefährdet?<br />

Optimierung von Prozessabläufen bei telefonischen<br />

Serviceanfor<strong>der</strong>ungen<br />

Fehlerentdeckung in Fertigungsprozessen<br />

Finden von Begriffszusammenhängen<br />

Auffinden von Zugriffsmustern auf Web-Sites<br />

Carsten Felden | Claudia Koschtial<br />

16


Analyse des Kundenverhaltens<br />

Bewertung von Assoziationsregeln<br />

Einfache Regeln: WENN Itemset X DANN Itemset Y<br />

Die Aussagekraft <strong>der</strong> Regeln soll bewertet werden, etwa so:<br />

Wird Produkt a gekauft, so wird in 75% <strong>der</strong> Fälle auch Produkt b gekauft! Dies<br />

ist im gesamten Datenbestand bei 10% aller Transaktionen zu beobachten.<br />

Diese Größen bezeichnet man als Support und Konfidenz.<br />

Zu ihrer Definition benötigt man einen Datenbestand D, <strong>der</strong> aus einzelnen<br />

Transaktionen t 1 , ..., t n besteht.<br />

Also D = {t 1 , ..., t n } mit | D | = n (Anzahl <strong>der</strong> Elemente)<br />

Carsten Felden | Claudia Koschtial<br />

17


Analyse des Kundenverhaltens<br />

Grundstruktur <strong>der</strong> Algorithmen<br />

1. Bestimme alle Regeln, <strong>der</strong>en Support größer o<strong>der</strong> gleich einer<br />

vorgegebenen Schranke (MinSup) ist.<br />

2. Bestimme von diesen Regeln diejenigen, <strong>der</strong>en Konfidenz größer o<strong>der</strong><br />

gleich einer vorgegebenen Schranke (MinKonf) ist.<br />

• Die beiden Schranken MinSup und MinKonf müssen vom Anwen<strong>der</strong><br />

vorgegeben werden.<br />

• Bekannteste Vertreter:<br />

Apriori und Apriori-Tid Algorithmus (Agrawal und Srikant (1994))<br />

Carsten Felden | Claudia Koschtial<br />

18


Analyse des Kundenverhaltens<br />

Erweiterungen <strong>der</strong> Assoziationsanalyse – Taxonomien<br />

• Ziel: Betrachtung von Zusatzwissen (Strukturen) in <strong>der</strong> Menge <strong>der</strong> Items<br />

• Taxonomie:<br />

Getränke<br />

alkoholische<br />

Getränke<br />

nicht-alkoholische<br />

Getränke<br />

Backwaren<br />

Bier Wein Spirituosen Kaffee Saft Milch Zucker Mehl<br />

• Ergebnis: Neue, verallgemeinerte Regeln auf Basis <strong>der</strong> Taxonomie.<br />

Carsten Felden | Claudia Koschtial<br />

19


Neukundengewinnung<br />

Data Mining im Beziehungslebenszyklus<br />

Carsten Felden | Claudia Koschtial<br />

20


Neukundengewinnung<br />

Entscheidungsbaumverfahren<br />

• Ziel <strong>der</strong> <strong>Anwendung</strong> von Entscheidungsbaumverfahren ist die Erzeugung<br />

eines Modells, durch welches unbekannte Datenobjekte bestimmten<br />

vorgegebenen Klassen zugeordnet werden können.<br />

• Diese Zuordnung geschieht anhand von Regeln, die durch einen<br />

Klassifikationsbaum dargestellt werden können.<br />

• Beispiel<br />

Einteilung von Datensätzen, die Angaben über Kunden enthalten, so dass<br />

damit die Käufergruppe erkannt werden kann, in die <strong>der</strong> Kunde<br />

voraussichtlich gehört.<br />

• Voraussetzung: Datenbestand bei dem für jeden Datensatz die zugehörige<br />

Klasse bereits bekannt ist.<br />

Carsten Felden | Claudia Koschtial<br />

21


Neukundengewinnung<br />

Grundstruktur <strong>der</strong> Algorithmen zum Entscheidungsbaumverfahren<br />

• Der Gesamtdatenbestand wird in eine Trainingsmenge und eine<br />

Testmenge aufgeteilt.<br />

• Dann wird die Trainingsmenge sukzessive aufgeteilt, so dass daraus<br />

homogenere Gruppen von Datensätzen bezüglich <strong>der</strong><br />

Klassifikationsvariablen entstehen.<br />

• Die Aufteilung <strong>der</strong> Datenmengen kann durch einen Baum dargestellt<br />

werden, in dem je<strong>der</strong> Knoten eine Datenmenge indiziert, dem ein<br />

Homogenitätsmaß zugeordnet wird.<br />

• Erreicht dieses Homogenitätsmaß einen vorgegebenen Wert, so wird <strong>der</strong><br />

Knoten einer bestimmten Klasse zugeordnet.<br />

Carsten Felden | Claudia Koschtial<br />

22


Neukundengewinnung<br />

Allgemeiner Aufbau eines Entscheidungsbaum<br />

Datensätze gesamt: 1000<br />

kreditwürdig: 500<br />

nicht-kreditwürdig: 500<br />

Attribut A erfüllt Bedingung K 1<br />

Attribut A erfüllt nicht Bedingung K 1<br />

Datensätze gesamt: 700<br />

kreditwürdig: 480<br />

nicht-kreditwürdig: 220<br />

Datensätze gesamt: 300<br />

kreditwürdig: 20<br />

nicht-kreditwürdig: 280<br />

Attribut B erfüllt<br />

Bedingung K 2<br />

Attribut B erfüllt nicht Bedingung K 2<br />

Datensätze gesamt: 400<br />

kreditwürdig: 390<br />

nicht-kreditwürdig: 10<br />

Datensätze gesamt: 300<br />

kreditwürdig: 90<br />

nicht-kreditwürdig: 210<br />

Carsten Felden | Claudia Koschtial<br />

23


Neukundengewinnung<br />

Modellevaluation – Overfitting<br />

• Empirische Studien zeigen, dass eine Verbesserung <strong>der</strong><br />

Fehlklassifikationsquote auf <strong>der</strong> Trainingsmenge zunächst einhergeht mit<br />

einer Verbesserung auf <strong>der</strong> Testmenge.<br />

• Ab einem gewissen Punkt steigt die Fehlklassifikationsquote auf <strong>der</strong><br />

Testmenge dann wie<strong>der</strong> an.<br />

• Dieses Phänomen bezeichnet man als Overfitting.<br />

• Mögliche Gründe<br />

– prinzipielles Problem<br />

– fehlerhafte Testdaten (noise)<br />

– geringe Aussagekraft <strong>der</strong> Regeln bei zu kleiner Datenbasis<br />

Carsten Felden | Claudia Koschtial<br />

24


Neukundengewinnung<br />

Neuronale Netze<br />

• Bei <strong>der</strong> Erstellung Künstlicher Neuronaler Netze wird versucht, die<br />

Arbeitsweise des menschlichen Gehirns nachzubilden.<br />

• Ein Netz besteht aus künstlichen Neuronen und <strong>der</strong>en Verknüpfungen.<br />

• Wesentliches Merkmal <strong>der</strong> Netze ist ihre Lernfähigkeit.<br />

Carsten Felden | Claudia Koschtial<br />

25


Neukundengewinnung<br />

McCulloch-Pitts-Neuron<br />

Gesamtinput: ergibt sich als gewichtete<br />

Summe <strong>der</strong> Eingangssignale (Inputwerte) x 1 ,<br />

…, x j , …, x n<br />

Aktivierung: Die Aktivierung des Neurons<br />

geschieht über die Aktivierungsfunktion f,<br />

<strong>der</strong>en Wert von <strong>der</strong> Differenz aus Gesamtinput<br />

und Schwellenwert θ abhängt.<br />

Je nach Aktivierung entsteht ein Outputwert y.<br />

Carsten Felden | Claudia Koschtial<br />

26


Neukundengewinnung<br />

Vorwärts gerichtete Neuronale Netze – Multilayer-Perzeptron<br />

• Das Multilayer-Perzeptron (MLP) ist ein Spezialfall eines vorwärts<br />

gerichteten KNNs, das zur Klassifikation eingesetzt werden kann.<br />

• Es können drei Schichttypen differenziert werden: Inputschicht, Versteckte<br />

Schicht, Outputschicht.<br />

• Es sind nur Neuronen verschiedener Schichten miteinan<strong>der</strong> verbunden.<br />

• Die Outputwerte vorgelagerter Neuronen werden über gewichtete<br />

Verbindungen an nachgelagerte Neuronen gesendet.<br />

• Beim vorwärts gerichteten Netz werden Impulse nur in eine Richtung<br />

weitergegeben, es gibt keine Schleifen.<br />

Carsten Felden | Claudia Koschtial<br />

27


Neukundengewinnung<br />

Beispiel – Multilayer-Perzeptron<br />

Carsten Felden | Claudia Koschtial<br />

28


Neukundengewinnung<br />

Lernparadigmen<br />

• Überwachtes Lernen (supervised learning) → Klassifizierung<br />

[z.B. Back-Propagation]<br />

• Bestärkendes Lernen (reinforcement learning)<br />

• Unüberwachtes Lernen (unsupervised learning) → Clusterung<br />

[z.B. Self-Organizing-Maps]<br />

Carsten Felden | Claudia Koschtial<br />

29


Neukundengewinnung<br />

Back-Propagation<br />

• Die Werte eines Datensatzes werden in die Neuronen <strong>der</strong> Inputschicht<br />

eingegeben. Anschließend über die Neuronen und <strong>der</strong>en Verbindungen<br />

weitergeleitet, bis ein Wert in <strong>der</strong> Outputschicht erzeugt wurde, <strong>der</strong> die<br />

durch das Netz berechnete Klasse des Datensatzes angibt. (Forward Pass)<br />

• Dieser Wert wird mit <strong>der</strong> tatsächlichen Klassenzugehörigkeit verglichen.<br />

(Fehlerbestimmung)<br />

• Bei einer Abweichung von „Soll“- und „Ist“-Wert werden ausgehend von<br />

den Outputneuronen die zugehörigen Verbindungsgewichte sowie die<br />

Verbindungsgewichte <strong>der</strong> Neuronen vorgelagerter Schichten <strong>der</strong>art<br />

geän<strong>der</strong>t, dass die Abweichung minimiert wird. (Backward Pass)<br />

Carsten Felden | Claudia Koschtial<br />

30


Neukundengewinnung<br />

Kritische Betrachtung<br />

• Vorteile<br />

– Vorwärts gerichtete Künstliche Neuronale Netze können sehr gute<br />

Ergebnisse bei <strong>der</strong> Klassifikation und Prognose erzeugen.<br />

– Die offene Struktur macht das Modell sehr flexibel.<br />

• Nachteile<br />

– Es werden keine expliziten Regeln angegeben.<br />

– Das Adaptieren <strong>der</strong> Gewichte geschieht mitunter sehr langsam.<br />

– Netzstruktur & Gewichtsinitialisierung sind nicht vorgegeben.<br />

Carsten Felden | Claudia Koschtial<br />

31


Cluster-Verfahren<br />

Idee <strong>der</strong> Cluster-Verfahren<br />

Carsten Felden | Claudia Koschtial<br />

32


Cluster-Verfahren<br />

<strong>Anwendung</strong>sbeispiele<br />

• Kundensegmentierung Welche Kundenprofile existieren?<br />

(Analyse von Kundenattributen)<br />

• Kaufverhalten Welche Gruppen bzgl. des Kaufverhaltens<br />

bestehen? (Analyse von<br />

Kaufähnlichkeiten)<br />

• Technik Finden ähnlicher Oberflächen<br />

• Text-Mining Finden ähnlicher Texte<br />

• Web-Log-Mining Auffinden von Benutzergruppen auf Web-<br />

Sites<br />

Carsten Felden | Claudia Koschtial<br />

33


Cluster-Verfahren<br />

Ähnlichkeitsmaße vs. Distanzmaße<br />

• Um die Ähnlichkeit zweier Datensätze zu bestimmen, werden oftmals<br />

geometrische Distanzmaße d herangezogen.<br />

Es gilt: kleine Distanz ↔ große Ähnlichkeit<br />

große Distanz ↔ kleine Ähnlichkeit<br />

• Dabei ist für die Anwendbarkeit <strong>der</strong> Maße zu beachten, welche<br />

Definitionsbereiche die Attribute haben. Unterschieden werden muss<br />

zwischen numerischen und nominalen Attributen.<br />

Carsten Felden | Claudia Koschtial<br />

34


Cluster-Verfahren<br />

Distanzfunktion zweier Datensätze mit nominalen Merkmalen<br />

• Gegeben seien zwei Datensätze, die Objekte anhand von n nominalen<br />

Merkmalen unterscheiden<br />

x = (x1, x2, ..., xn) und y = (y1, y2, ..., yn)<br />

• Distanz: Anzahl <strong>der</strong> Attribute, <strong>der</strong>en Ausprägungen nicht übereinstimmen.<br />

• Ähnlichkeit: Anzahl <strong>der</strong> Attribute, <strong>der</strong>en Ausprägungen übereinstimmen<br />

• x = (blau, hoch, dick, süß, Mainz)<br />

y = (grün, hoch, dick, süß, Essen)<br />

d(x, y) = 2<br />

sim(x, y) = 3<br />

Carsten Felden | Claudia Koschtial<br />

35


Cluster-Verfahren<br />

Dendrogramm zur Darstellung hierarchischer Verfahren<br />

1<br />

2<br />

1, 2<br />

3<br />

3,4<br />

1, 2, 3, 4, 5<br />

4<br />

3, 4, 5<br />

5<br />

agglomerative<br />

Methode<br />

divisive<br />

Methode<br />

0 1 2 3 4<br />

4 3 2 1 0<br />

Schritt<br />

Carsten Felden | Claudia Koschtial<br />

36


Cluster-Verfahren<br />

Single-Linkage<br />

Complete-Linkage<br />

Average-Linkage<br />

x<br />

x<br />

x<br />

x<br />

o<br />

o<br />

x<br />

x<br />

x<br />

x<br />

Carsten Felden | Claudia Koschtial<br />

37


Cluster-Verfahren<br />

Algorithmus für ein agglomeratives Verfahren<br />

• Erstelle die Distanzmatrix.<br />

• Bilde einen neuen Cluster aus den zwei Objekten bzw. Clustern, die den<br />

geringsten Abstand zueinan<strong>der</strong> haben.<br />

• Bestimme die Distanz zwischen dem neuen Cluster und allen an<strong>der</strong>en<br />

Objekten bzw. Clustern.<br />

• Wie<strong>der</strong>hole ab Schritt 2, bis sich alle Objekte in einem einzigen Cluster<br />

befinden.<br />

Carsten Felden | Claudia Koschtial<br />

38


Cluster-Verfahren<br />

Partitionierendes Cluster-Verfahren – k-Means<br />

• Wähle K Objekte zufällig als initiale Clustercentroide.<br />

• Ordne die Objekte jeweils dem Cluster zu, zu dessen Centroid <strong>der</strong><br />

geringste Abstand vom Objekt besteht.<br />

• Bestimme in den Clustern die aktuellen Centroide.<br />

• Prüfe, ob alle Objekte den Clustern mit dem geringsten Abstand zum<br />

Centroiden zugeordnet sind, wenn nein, springe zu 2.<br />

• Problem: Abhängigkeit von <strong>der</strong> Auswahl <strong>der</strong> initialen Centroide und <strong>der</strong><br />

Reihenfolge <strong>der</strong> Werte.<br />

Carsten Felden | Claudia Koschtial<br />

39


Text Mining<br />

• Das Data Mining, als eine Phase im KDD-Prozess, dient <strong>der</strong><br />

Erkenntnisgewinnung aus umfangreichen Datenbeständen, wobei diese auf<br />

Grundlage strukturierter Daten durchgeführt wird. Die Methoden des Data<br />

Mining wurden nicht entwickelt, um unstrukturierte Daten zu verarbeiten.<br />

• Liegen Textdokumente als Basis zur inhaltlichen Entdeckung bisher<br />

unbekannter Informationen vor, wird daher das Text Mining angewendet.<br />

Im Gegensatz zum Data Mining sind die durch das Text Mining<br />

aufgespürten, unbekannten Informationen nicht für jeden unbekannt. Der<br />

Autor des Dokumentes kannte die Information und legte sie schriftlich<br />

nie<strong>der</strong>. Wichtig ist, dass die ermittelten Informationen für den Rezipienten<br />

neu sind.<br />

Carsten Felden | Claudia Koschtial<br />

40


Text Mining<br />

• Das Vektormodell, oft auch als algebraisches Modell bezeichnet, erzeugt<br />

einen Vektor im mehrdimensionalen Raum.<br />

• Je<strong>der</strong> Deskriptor eines Index stellt eine Dimension dieses Vektors dar. Dieser<br />

spannt einen Dokumentenraum auf.<br />

• Hierbei wird die Termhäufigkeit als Stärke <strong>der</strong> Ausprägung einer Dimension<br />

genutzt und durch den Begriff Gewicht ausgedrückt.<br />

Carsten Felden | Claudia Koschtial<br />

41


Text Mining<br />

Dokument<br />

Vektor<br />

Mr Brown, the former<br />

Agriculture Secretary,<br />

told the BBC he would be<br />

prepared to oppose the<br />

government on the issue<br />

of variable fees.<br />

He is among the Labour<br />

backbenchers and several<br />

former ministers who fear<br />

the fees may deter<br />

students from poorer<br />

backgrounds from going<br />

to the best institutions.<br />

They claim the variable<br />

rate charged for different<br />

courses could cause a<br />

"two-tier" system.<br />

1<br />

0<br />

1<br />

0<br />

2<br />

1<br />

.<br />

.<br />

1<br />

1<br />

0<br />

0<br />

agriculture<br />

market<br />

government<br />

freedom<br />

fees<br />

students<br />

rate<br />

system<br />

country<br />

policy<br />

Dimension<br />

Gewicht<br />

d j<br />

freq ij<br />

t i<br />

Carsten Felden | Claudia Koschtial<br />

42


Text Mining und Intelligente Software Agenten<br />

• Das Probabilistische Modell integriert die Beziehungen <strong>der</strong> Deskriptoren in<br />

die Bewertung und geht nicht von <strong>der</strong> Annahme <strong>der</strong> Unabhängigkeit<br />

zwischen den Deskriptoren aus.<br />

• Im Ergebnis werden Wahrscheinlichkeiten ermittelt, welche die Relevanz<br />

von Dokumenten für den Nutzer aufzeigen.<br />

• Um Aussagen über die Wahrscheinlichkeit treffen zu können, ist zumindest<br />

für eine Teilmenge <strong>der</strong> Dokumente die Relevanz zu bestimmen.<br />

Carsten Felden | Claudia Koschtial<br />

43


Text Mining und Intelligente Software Agenten<br />

• Beispiele:<br />

• Entscheidungsbaum;<br />

• Support Vector Machines;<br />

• Rocchio Algorithmus;<br />

• k-NN Algorithmus;<br />

• Multilayer Perceptron;<br />

• HyperPipes.<br />

Carsten Felden | Claudia Koschtial<br />

44


Text Mining<br />

Zulässigkeit<br />

beschränkt<br />

auf<br />

deutsche<br />

Zeichen<br />

<strong>Anwendung</strong><br />

einer<br />

Stoppwortliste<br />

Eliminierung<br />

bei<br />

einer<br />

Wortlänge<br />

< 3<br />

Eliminierung<br />

bei Termfrequenz<br />

#1 pro<br />

Text<br />

<strong>Anwendung</strong><br />

von Wortstämmen<br />

Eliminierung<br />

<strong>der</strong><br />

oberen 5<br />

Prozent<br />

<strong>der</strong> Verteilungskurve<br />

Anzahl<br />

<strong>der</strong><br />

verbleibenden<br />

Worte<br />

Nr.<br />

10.511 1<br />

10.343 2<br />

15.676 3<br />

31.602 4<br />

33.247 5<br />

33.392 6<br />

10 Prozent 32.854 7<br />

Son<strong>der</strong>zeichen 33.602 8<br />

33.776 9<br />

Carsten Felden | Claudia Koschtial<br />

45


Text Mining<br />

80,0000<br />

75,0000<br />

70,0000<br />

SVM<br />

65,0000<br />

Voted Perceptron<br />

k-NN (k=1)<br />

J48<br />

60,0000<br />

55,0000<br />

50,0000<br />

naive Bayes<br />

HyperPipes<br />

AdaBoost M1<br />

SimpleLogistic<br />

MLP<br />

Rocchio<br />

45,0000<br />

40,0000<br />

1 2 3 4 5 6 7 8 9<br />

Carsten Felden | Claudia Koschtial<br />

46


Agenda<br />

• Einführung und Einordnung <strong>Business</strong> <strong>Analytics</strong><br />

– Begriffe<br />

– Analytische Fähigkeiten<br />

– Hype Cycle<br />

– Analytischer Prozess<br />

• <strong>Anwendung</strong>sfel<strong>der</strong> und Verfahren<br />

– Assoziationsanalyse<br />

– Entscheidungsbaum<br />

– Neuronale Netze<br />

– Clusterverfahren<br />

• Praktischer Teil<br />

Carsten Felden | Claudia Koschtial<br />

47


Fragen?<br />

Carsten Felden | Claudia Koschtial<br />

48

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!