Methoden zur Klassifikation - OptiV

Inhaltsverzeichnis 

Methoden zur Klassifikation 

Mike Hüftle 

31. Juli 2006 

1 Einleitung 2 

1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 

2 Diskriminanzanalyse 3 

2.1 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 

2.2 Methodenbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . 4 


2.3.1 Nebenpfad: Klassifizierung von Objekten . . . . . . . . . 6 

2.4 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

3 Naive Bayes-Klassifikatoren 8 


3.2 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

3.2.1 Nebenpfad: Bedingte Wahrscheinlichkeiten für das Beispiel 9 

3.3 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

4 Bayes-Netzwerke 12 


4.2 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

5 Entscheidungsbäume 14 

5.1 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

5.2 ID3-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

5.2.1 Nebenpfad: Window-Technik des ID3 . . . . . . . . . . . 15 

5.2.2 Nebenpfad: Informationskriterium . . . . . . . . . . . . . 16 

5.3 Anwendung von ID3 . . . . . . . . . . . . . . . . . . . . . . . . . 17 

5.4 Weitere Entscheidungsbäume . . . . . . . . . . . . . . . . . . . . 19 

5.4.1 Nebenpfad: Pruning-Verfahren . . . . . . . . . . . . . . . 19 

5.4.2 Nebenpfad: . . . . . . . . . . . . . . . . . . . . . . . . . . 20 

5.4.3 Nebenpfad: . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

5.4.4 Nebenpfad: GID3-IV-Algorithmus . . . . . . . . . . . . . 22 

5.4.5 Nebenpfad: SLIQ-Algorithmus . . . . . . . . . . . . . . . 22 

5.4.6 Nebenpfad: Chaid-Algorithmus . . . . . . . . . . . . . . . 23 

1

6 Weitere Klassifikationsmethoden 24 

6.1 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . 24 

6.2 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . 25 

6.3 Regelgenerierungsverfahren . . . . . . . . . . . . . . . . . . . . . 26 

6.4 Logistische Regression . . . . . . . . . . . . . . . . . . . . . . . . 27 

7 Literatur und Methodenverzeichnis 28 

7.1 Literatur zur Diskriminanzanalyse . . . . . . . . . . . . . . . . . 28 

7.1 Literatur zu Naiven-Bayes-Klassifikatoren und Bayes-Netzwerken 28 

7.1 Literatur zu Entscheidungsbäumen . . . . . . . . . . . . . . . . . 29 

7.1 Literatur zu weiteren Verfahren . . . . . . . . . . . . . . . . . . . 30 

7.1 Methodenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . 30 

2

Klassifikation 

vs. 

Segmentierung 

Vorgehensweise 

bei der 


1 Einleitung 

1.1 

Neben der Segmentierung ist die Klassifikation die zweite Möglichkeit, um Objekte 

in verschiedene Gruppen oder Klassen einzuteilen. Im Gegensatz 

zur Segmentierung setzt die Klassifikation jedoch die Kenntnis des Kriteriums 

voraus, nach dem die Gruppierung durchgeführt wird. Es werden also Objekte 

mit unbekannter Gruppenzugehörigkeit der richtigen Gruppe zugeordnet. 

Um eine Zuordnung zu ermöglichen wird bei allen Methoden der Klassifikation 

eine Entscheidungsfunktion oder Regel vorausgesetzt, nach der die Daten 

in Gruppen eingeteilt werden. 

Diese Funktion oder Regel wird aus einer Menge von Trainingsdaten erlernt, 

von denen die Einteilung in die verschiedenen, im voraus festgelegten Gruppen 

bekannt ist. Die so abgeleiteten Klassifizierungsmodelle können beispisweise die 

Form von Klassifikationsregeln der Form ” wenn-dann“ oder von Neuronalen 

Netzen haben. 

Anwendungsbereiche Typische Beispiele für die Anwendung der Klassifikation sind die medizinische 

der Diagnose anhand von Krankheitssymptomen, die Überprüfung der Korrektheit 

Klassifikation von Steuererklärungen oder das Filtern von Spam-Emails. 

3

2 Diskriminanzanalyse 

2.1 Allgemeines 

Die Diskriminanzanalyse ist ein multivariates statistisches Verfahren zur 

Analyse von Gruppenunterschieden und zur Prognose der Gruppenzugehörigkeit 

von Objekten. 

Die Diskriminanzanalyse gehört wie auch die Regresionsanalyse oder die Varianzanalyse 

zur Gruppe der strukturprüfenden statistischen Verfahren. 

Während die Merkmalsvariablen der Objekte metrisch skaliert sein müssen, wird 

die Gruppenzugehörigkeit durch eine nominal skalierte Variable ausgedrückt. 

Mittels der Diskriminanzanalyse werden Objekte, die bestimmte Kombinationen 

von Merkmalsausprägungen haben, in vorher bekannte Gruppen eingeordnet. 

Dabei wird versucht, aus einer Trainingsmenge, deren Klassenzugehörigkeit 

bekannt ist, eine Diskriminanzfunktion zu schätzen, welche die Objekte der 

Stichprobe richtig klassifiziert. 

Weitere Objekte, deren Klassenzugehörigkeit unbekannt ist, können anhand 

dieser Funktion mit einer gewissen Wahrscheinlichkeit einer Klasse zugeordnet 

werden. 

4

2.2 Methodenbeschreibung 

Methodenbeschreibung Das Ziel der Diskriminanzanalyse ist, die Werte eines abhängigen Merkmals 

durch die Werte von einem oder mehreren unabhängigen Merkmalen zu erklären. 

Dazu müssen zunächst anhand von Objekten, für welche die Merkmalsausprägungen 

bekannt sind, eine oder mehrere Diskriminanzfunktion(en) geschätzt 

werden. Diese dienen dann zur Klassifikation des abhängigen Merkmals, wenn 

nur die unabhängigen Merkmale eines Objektes beobachtet wurden. 

Der Ablauf der Diskriminanzanalyse lässt sich in zwei Schritte gliedern. 

1. Im ersten Schritt werden die Gruppen definiert sowie eine Diskriminanzfunktion 

geschätzt und geprüft (die Definition der Gruppen kann sich unmittelbar 

aus dem realen Problem ergeben oder das Ergebnis einer vorgeschalteten 

Clusteranalyse sein). 

2. Im zweiten Schritt werden neue Objekte klassifiziert. 

Die Vorgehensweise der Diskriminanzanalyse ist ähnlich der Regressionsanalyse, 

jedoch hat das abhängige Merkmal nominalesoder ordinales Skalenniveau 

und drückt somit eine Gruppenzugehörigkeit aus (vgl. Tabachnik/ Fidell 1996, 

S. 507 ff.). 

Eine zu schätzende Diskriminanzfunktion hat die Form 

D = b0 + b1 · X1 + b2 · X2 + ... + bn · Xn 

mit den unabhängigen Merkmalen Xi und den zu schätzenden Koeffizienten bi, 

mit denen die Merkmale in die Diskriminanzfunktion eingehen. D ist der so 

genannte Diskriminanzwert. 

5

Schätzung der 

Diskriminanzfunktion 

Überprüfung 

der Güte der 

Diskriminanzfunktion 


Es gibt eine Reihe von Verfahren zur Schätzung der Diskriminanzfunktion. 

Das bekannteste ist der Ansatz von Fisher, welcher die Koeffizienten bi so 

wählt, dass die Funktionswerte der Diskriminanzfunktion für verschiedene Gruppen 

möglichst weit auseinanderliegen bzw. das Verhältnis von erklärter Streuung 

(zwischen den Gruppen) zu nicht erklärter Streuung (innerhalb der Gruppen) 

möglichst groß ist. 

max 

G 

G 

g=1 

g=1 ng · ( ¯ Dg − ¯ D) 2 

ng 

i=1 (Dgi − ¯ Dg) 

Streuung zwischen den Gruppen 

= 

2 Streuung innerhalb der Gruppen 

Hierbei ist ng die Anzahl der Fälle in einer Klasse g, ¯ D das gesamte Mittel aller 

Diskriminanzwerte D, ¯ Dg das Mittel aller Diskriminanzwerte in einer Klasse g 

und Dgi der Diskriminanzwert des i-ten Falles in der Klasse g (vgl. Tabachnik/Fidell 

1996, S. 514 f.). 

Dieses Maximierungsproblem wird über ein Eigenwertproblem gelöst. Weitere 

Diskriminanzfunktionen werden so ermittelt, dass diese einen maximalen Anteil 

der bis dahin nicht erklärten Streuung erklären können. 

Die gebräuchlichsten Kriterien zur Überprüfung der Güte der Diskriminanzfunktion 

sind der kanonische Korrelationskoeffizient und Wilks Lambda 

im Falle zweier Gruppen sowie das multivariate Wilks Lambda bei mehreren 

Gruppen. Mit der Anwendung von Wilks Lambda sind Wahrscheinlichkeitsaussagen 

über die Unterschiedlichkeit der Gruppen möglich. Hierdurch kann die 

statistische Signifikanz ermittelt werden. 

Der Kanonische Korrelationskoeffizient misst den Anteil der Streuung zwischen 

den Klassen an der gesamten Streuung der Daten. Je größer der Wert des Koeffizienten 

ist, desto größer ist die Streuung der Merkmalsausprägungen zwischen 

den Gruppen, im Verhältnis zur Streuung innerhalb der Gruppen. 

Klassifizierung Die Klassifizierung von Objekten mit unbekannter Klassenzugehörigkeit 

lässt sich nach verschiedenen Methoden durchführen. Zu den bekanntesten gehören 

die Distanzmethode, das Wahrscheinlichkeitskonzept und die Klassifizierungsfunktionen 

von Fischer. 

6

2.3.1 Nebenpfad: Klassifizierung von Objekten 

Distanzmethode Gemäß der Distanzmethode wird ein neues Objekt derjenigen Gruppe g zugeordnet 

deren mittlerer Distanzwert ¯ Dg dem Distanzwert Dgi des zu klassifizierenden 

Objektes am nächsten liegt. 

Bei mehreren Diskriminanzfunktionen reicht die Berücksichtigung der signifikanten 

Funktionen aus. Die Distanzmethode setzt gleiche Streuungenin den 

verschiedenen Gruppen voraus. Ist dies nicht der Fall, so müssen modifizierte 

Distanzen verwendet werden. 

Wahrscheinlichkeitskonzept Das Wahrscheinlichkeitskonzept ist die flexibelste Methode zur Klassifizierung. 

Es ermöglicht die Berücksichtigung von A-priori-Wahrscheinlichkeiten 

Pi(g), die vor der Durchführung der Diskriminanzanalyse bekannt sind oder 

geschätzt werden. 

Diese geben an, mit welcher Wahrscheinlichkeit ein Objekt i einer bestimmten 

Gruppe g angehört. Hieraus wird mittels des Satzes von Bayes die Wahrscheinlichkeit 

P (g|Di) berechnet, mit der ein Objekt mit einem bestimmten Distanzwert 

Di zu einer Gruppe g gehört. 

Fischer’s Klassifizierungsfunktionen 

P (g|Di) = G P (Di|g)·Pi(g) 

; g = 1, ..., G 

P (Di|g)·Pi(g) 

g=1 

P (Di|g) sind bedingte Wahrscheinlichkeiten, die angeben wie wahrscheinlich ein 

Diskriminanzwert Di für Objekt i wäre, wenn es zur Gruppe g gehören würde. 

Zusätzlich können Fehlklassifikationskosten berücksichtigt werden, die falsche 

Klassifikationen in bestimmte Gruppen bestrafen. 

Fischers Klassifizierungsfunktionen sind ein Hilfsmittel, um eine Klassifizierung 

ohne Anwendung der Diskriminanzfunktion vornehmen zu können. Die 

Methode ist nur durchführbar wenn gleiche Streuung innerhalb der Gruppen 

unterstellt werden kann. 

Für jede Gruppe ist eine Klassifizierungsfunktion zu bestimmen. Zur Klassifizierung 

eines Objektes sind dessen Funktionswerte für jede Klassifizierungsfunktion, 

also jede Gruppe, zu berechnen. Das Objekt wird der Gruppe zugeordnet, 

für die der berechnete Funktionswert maximal ist. Auch hier können A-priori- 

Wahrscheinlichkeiten berücksichtigt werden. 

7

2.4 Anwendung 

Anwendungsvoraussetzungen 

Vor der Durchführung einer Diskriminanzanalyse sollte sichergestellt werden, 

dass die Trainingsdaten keine Objekte enthalten, welche gleichzeitig zu 

mehr als einer Klasse gehören. 

Außerdem sollte der Umfang der Trainingsdaten mindestens doppelt so 

groß sein wie die Anzahl der Merkmale und deren Anzahl sollte auf jeden Fall 

größer sein als die Anzahl der vorgegebenen Klassen. Andernfalls werden Testdatensätze 

erheblich schlechter klassifiziert als die Trainingsdaten. 

Die Schätzung der Diskriminanzfunktion sollte zunächst nach Wilks Lambda 

erfolgen und die Interpretation graphisch überprüft werden. Bei der eigentlichen 

Klassifzierung sollten nur die signifikantesten Diskriminanzfunktionen in 

die Analyse einbezogen werden. 

FehlklassifikationenDen Fehlern der Diskriminanzanalyse, die in falschen Gruppenzuordnungen 

zum Ausdruck kommen, muss nicht unbedingt eine falsche Parameterwahl 

zugrunde liegen. Vielmehr ist oft das dahinter liegende Modell fehlerhaft. Nur 

selten ist es möglich, eine abhängige Variable vollständig durch unabhängige 

Variablen zu beschreiben, da häufig nicht erfassbare oder quantifizierbare Einflussfaktoren 

existieren. 

Sind alle Objekte richtig zugeordnet worden, besagt dies lediglich, dass die Zusammenhänge 

in den Trainingsdaten richtig dargestellt wurden. Daraus folgt 

jedoch nicht automatisch, dass dies auch für eine Klassifikation von Objekten 

mit unbekannter Klassenzugehörigkeit gilt. Dies ist lediglich dann der Fall, wenn 

die Trainingsdaten die Grundgesamtheit aller Objekte sehr gut repräsentiert und 

die neu zu klassifizierenden Objekte ebenfalls dieser Grundgesamtheit entstammen. 

Gibt es Unterschiede zwischen der Struktur der Grundgesamtheit und der 

Trainingsdaten, so ergeben sich systematische Verzerrungen. 

8

3 Naive Bayes-Klassifikatoren 


Allgemeines Die Bayes-Klassifikation ist eine statistische Klassifikationsmethode, welche 

die Wahrscheinlichkeit vorhersagt, mit der ein Objekt zu einer bestimmten 

Gruppe gehört. 

Die Bayes-Klassifikation basiert auf der Formel von Bayes, mit der die bedingte 

Wahrscheinlichkeit eines Ereignisses unter einer Bedingungen berechnet 

werden kann. Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie 

die Gültigkeit der Unabhängigkeitsannahme voraussetzen. 

Diese besagt, dass die Auswirkung eines Merkmales auf die Klassifizierung unabhängig 

von den Ausprägungen anderer Attributwerte ist. Diese Annahme ist 

in gewissem Sinne naiv, da sie in der Realität selten gültig ist. Sie reduziert die 

Komplexität des Problems jedoch erheblich.[5] 

Methodenbeschreibung Naive Bayes-Klassifikatoren repräsentieren jedes Objekt durch einen n-dimensionalen 

Vektor, wobei n die Anzahl der Merkmale aj eines Objektes ist. Danach wird 

ein Objekt derjenigen Klasse ci ∈ C zugeordnet, zu der es mit der höchsten 

Wahrscheinlichkeit gehört: 

c = arg max 

ci∈C P (a1, 

n 

a2, ..., an)P (ci) = arg max P (ci) 

ci∈C 

P (aj|ci) 

Die bedingten Wahrscheinlichkeiten P (aj|ci) werden aus den Trainingsbeispielen 

geschätzt. 

Der naive Bayes-Klassifikator ist im Vergleich mit anderen Klassifikationsmethoden 

theoretisch der genaueste Klassifikator. In der Praxis ist dies jedoch 

oftmals aufgrund von Verletzungen der Unabhängigkeitsannahme und aufgrund 

fehlender oder fehlerhafter Daten über die bedingten Wahrscheinlichkeiten nicht 

der Fall. 

9 

j=0

3.2 Beispiel 

Beispiel Der Naive Bayes-Klassifikator wird im folgenden an einem Beispiel erläutert. 

Berechnung 

der bedingten 

Wahrscheinlichkeiten 

für 

das Beispiel 

Es soll die Kreditwürdigkeit eines potentiellen Kreditnehmers überprüft werden. 

Hierzu baut die Bank anhand einer Kundendatenbank einen Klassifikator 

für das Kreditrisiko eines Kunden auf. Die Abbildung zeigt die Kundendatenbank. 

Der Klassifikator wird mit den Daten aus der Kundendatenbank folgenermaßen 

aufgebaut: Zuerst werden die bedingten Wahrscheinlichkeiten P (aj|ci) aus den 

Daten geschätzt: 

P(Alter¡30 — Kreditw.= ” schlecht“) = 2/3; P(Alter¡30 — Kreditw.= ” gut“) = 

2/7; P(Alter¡30 — Kreditw.= ” sehr gut“)= 1/4; P(Alter=30-40 — Kreditw.= ” schlecht“) 

= 0; P(Alter=30-40 — Kreditw.= ” gut“) = 1/7; P(Alter=30-40 — Kreditw.= ” sehr 

gut“)=3/4; usw. 

Die vollständige Berechnung aller bedingten Wahrscheinlichkeiten des Beispiels 

finden SIe hier. 

Es soll ein potenzieller Kreditnehmer X auf seine Kreditwürdigkeit beurteilt werden. 

X hat die Attributausprägungen Alter¡30, Einkommen=2.000-5.000 eund 

Beruf= ” Angestellter“. 

Dann wird die Wahrscheinlichkeit, dass X eine schlechte Kreditwürdigkeit besitzt 

folgendermaßen berechnet: 

P(ci) n 

j=0 P (aj|ci) = P (Kreditw. = schlecht) · P (Alter < 30|Kreditw. = 

schlecht) · P (Einkommen 

=2.000-5.000—Kreditw.=schlecht) 

·P (Beruf = Angestellter|Kreditw. = schlecht) 

=3/14 ·2/3 · 0 · 2/3 = 0 

Ebenso berechnen sich die Wahrscheinlichkeit, dass seine Kreditwürdigkeit ” gut“ 

ist zu 0,10 bzw. dass seine Kreditwürdigkeit ” sehr gut“ ist zu 0,03. Der Kunde 

wird somit mit der Kreditwürdigkeit ” gut“ klassifiziert. 

3.2.1 Nebenpfad: Bedingte Wahrscheinlichkeiten für das Beispiel 

P(Alter¡30 — Kreditw.= ” schlecht“) = 2/3; 

P(Alter¡30 — Kreditw.= ” gut“) = 2/7; 

10

P(Alter¡30 — Kreditw.= ” sehr gut“) = 1/4; 

P(Alter=30-40 — Kreditw.= ” schlecht“) = 0; 

P(Alter=30-40 — Kreditw.= ” gut“) = 1/7; 

P(Alter=30-40 — Kreditw.= ” sehr gut“) =3/4; 

P(Alter¿40 — Kreditw.= ” schlecht“) = 1/3; 

P(Alter¿40 — Kreditw.= ” gut“) = 4/7; 

P(Alter¿40 — Kreditw.= ” sehr gut“) =0; 

P(Einkommen¡2000 — Kreditw.= ” schlecht“) = 1; 

P(Einkommen¡2000 — Kreditw.= ” gut“) = 1/7; 

P(Einkommen¡2000 — Kreditw.= ” sehr gut“) = 1/4; 

P(Einkommen=2000-5000 — Kreditw.= ” schlecht“) = 0; 

P(Einkommen=2000-5000 — Kreditw.= ” gut“) = 5/7; 

P(Einkommen=2000-5000 — Kreditw.= ” sehr gut“) =2/4; 

P(Einkommen¿5000 — Kreditw.= ” schlecht“) = 0; 

P(Einkommen¿5000 — Kreditw.= ” gut“) = 1/7; 

P(Einkommen¿5000 — Kreditw.= ” sehr gut“) =1/4; 

P(Beruf= ” Arbeiter“ — Kreditw.= ” schlecht“) = 1/3; 

P(Beruf= ” Arbeiter“ — Kreditw.= ” gut“) = 4/7; 

P(Beruf= ” Arbeiter“ — Kreditw.= ” sehr gut“) = 1/4; 

P(Beruf= ” Angestellter“ — Kreditw.= ” schlecht“) = 2/3; 

P(Beruf= ” Angestellter“ — Kreditw.= ” gut“) = 2/7; 

P(Beruf= ” Angestellter“ — Kreditw.= ” sehr gut“) =3/4; 

P(Beruf= ” Manager“ — Kreditw.= ” schlecht“) = 0; 

P(Beruf= ” Manager“ — Kreditw.= ” gut“) = 1/7; 

P(Beruf= ” Manager“ — Kreditw.= ” sehr gut“) =0; 

11

3.3 Anwendung 

Anwendungsbereiche Naive Bayes-Klassifikatoren sind in der Textanalyse weit verbreitet. Da sie hohe 

Trainings- und Klassifizierungsgeschwindigkeit besitzen und mit jedem neu 

klassifizierten Objekt den Klassifikator verbessern, werden sie häufig zur Klassifikation 

von E-Mails eingesetzt. 

Ihre guten Klassifizierungseigenschaften machen sie insbesondere beim Einsatz 

in Spam-Filtern sehr beliebt. Dort wurden sie z.B. von Sahami et al. [] oder 

Katirai [] eingesetzt. 

Vorteile 

Naiver Bayes- 

Klassifikatoren 

Nachteile 

Naiver Bayes- 

Klassifikatoren 

Die wichtigsten Vorteile der Anwendung von Naiven Bayes-Klassifikatoren sind: 

• Sie sind einfach zu implementieren. 

• Sie erzielen in vielen Fällen gute bis sehr gute Klassifkationsergebnisse. 

• Naive Bayes-Klassifikatoren lernen inkrementell, d.h. mit jedem neu 

klassifizierten Datensatz wird der Klassifikator genauer. 

Die Verwendung Naiver Bayes-Verfahren bei der Klassifikation bringt folgende 

Nachteile mit sich: 

• Abhängigkeiten zwischen den Merkmalen können nicht berücksichtigt 

werden. 

• Durch diese Unabhängigkeitsannahme ist die theoretisch mögliche Klassifikationsgenauigkeit 

eingeschränkt. 

• Bei hochdimensionalen Problemen (sehr viele Attribute) sind Bayes-Klassifikatoren 

nicht mehr effizient. 

12

4 Bayes-Netzwerke 


Allgemeines Bayessche Netzwerke sind eine Klassifikationsmethode, die -wie auch die 

Naiven Bayes-Klassifikatoren- auf dem Satz von Bayes basieren. Im Gegensatz 

zu den Naiven Bayes-Klassifikatoren berücksichtigen die Bayes-Netze auch 

Abhängigkeiten zwischen den Attributen. modellieren. 

Methodenbeschreibung Ein bayessches Netzwerk kann als ein azyklischer,gerichteter Graph dargestellt 

werden, dessen Knoten Merkmale und dessen Kanten Abhängigkeiten zwischen 

Merkmalen darstellen. 

Die Knoten können Wahrscheinlichkeitswerte zwischen 0 und 1 annehmen. 

Mit diesen Wahrscheinlichkeiten werden neue Wahrscheinlichkeiten in den Nachfolgerknoten 

im Graphen berechnet. Dazu besitzt jeder Knoten eine Tabelle mit 

bedingten Wahrscheinlichkeiten oder eine Funktion, die aus den Wahrscheinlichkeiten 

seiner Vorgängerknoten, eine neue bedingte Wahrscheinlichkeit berechnet. 

Wenn es zu einem Knoten nur einen Vorgängerknoten gibt, kann das die 

einfache bedingte Wahrscheinlichkeit sein. 

Die Tabelle der bedingten Wahrscheinlichkeiten enthält für jede mögliche Kombination 

von direkten Vorgängermerkmalen V (Zi) die bedingten Wahrscheinlichkeiten 

für die Merkmalsausprägungen zi als P (zi|V (Zi)). 

Damit kann die Wahrscheinlichkeit für einen bestimmten Pfad von Merkmalsausprägungen 

berechnet werden: 

P (z1, ..., zn) = 

n 

P (zi|V (Zi)) 

ı=1 

Zur Klassifikation werden einer oder mehrere Knoten im Graphen als Zielknoten 

ausgewählt. Diese repräsentieren die Gruppen, nach denen die Objekte 

klassifiziert werden sollen. Um ein Objekt zu klassifizieren werden die Wahrscheinlichkeiten 

der Pfade zu den gewählten Zielknoten verglichen und der Pfad 

bzw. der Zielknoten mit der höchsten Wahrscheinlichkeit ausgewählt. 

13

Erweiterungen 

und Varianten 

4.2 Anwendung 

Es existieren zahlreiche Erweiterungen und Varianten von Bayes-Netzen, beispielsweise 

zur Klassifikation von fehlerhaften oder unvollständigen Daten 

mit Monte-Carlo-Methoden []. Einenguten Überblick bietet Heckermann []. 

Anwendung Bayes-Netzwerke werden hauptsächlich in Bereichen eingesetzt, in denen es auf 

die Abhängigkeiten zwischen den verschiedenen Merkmalen ankommt, 

wie z.B. bei der Fehlerdiagnose in komplexen Systemen []. 

Vorteile von 

Bayes- 

Netzwerken 

Nachteile von 

Bayes- 

Netzwerken 

• Bayes-Netzwerke können Abhängigkeiten zwischen den verschiedenen 

Attributen modellieren. 

• Sie sind für den Benutzer sehr anschaulich und gut nachvollziehbar. 

• Sie sind relativ einfach zu implementieren. 

• Bayes-Netzwerke erfordern bei vielen Merkmalen und komplexen Abhängigkeiten 

einen hohen Rechenaufwand. 

• Die Abhängigkeiten zwischen den Merkmalen können bei vielen Merkmalen 

schnell unübersichtlich werden. 

• Die Abhängigkeiten werden nur dann modelliert, wenn sie als solche identifiziert 

werden. Die Struktur des Netzwerkes und somit die Klassifikationsergebnisse 

sind stark vom Benutzer abhängig. 

14

5 Entscheidungsbäume 

5.1 Allgemeines 

Ein Entscheidungsbaum ist ein Graph mit Baumstruktur, bei dem jeder innere 

Knoten ein Merkmal eines zu klassifizierenden Objektes auf die Erfüllung 

einer Bedingung testet. Die von diesem Knoten ausgehenden Verzweigungen 

entsprechen den Werten oder Wertebereichen, die diese Bedingung überprüft. 

Jedes Blatt des Entscheidungsbaumes repräsentiert eine Klasse bzw. die Zuordnung 

zu einer Klasse von Objekten. 

Um ein nicht-klassifiziertes Objekt einzugruppieren werden die Merkmalswerte 

dieses Objektes gegen die inneren Knoten des Entscheidungsbaumes getestet. 

Somit wird ein Pfad über alle Stufen des Baumes durchlaufen, der in einem 

Blatt endet und so das analysierte Objekt eingruppiert. 

Die Abbildung zeigt einen einfachen Entscheidungsbaum, der einen bestimmten 

Tag danach klassifizieren soll, ob es sich lohnt einen Ausflug zu machen 

oder nicht. Dies wird anhand der Attribute Wetterlage, Temperatur und Windverhältnisse 

geprüft. Ist z.B. die Wetterlage bewölkt und der Wind schwach, so 

lohnt es sich einen Ausflug zu unternehmen. 

Zur Generierung solcher Entscheidungsbäume wurden verschiedene Algorithmen 

entwickelt, von denen hier eine Auswahl vorgestellt wird. 

15

ID3- 

Algorithmus 

Ablauf des 

ID3- 

Algorithmus 

Window- 

Technik 

5.2 ID3-Algorithmus 

Der ID3-Algorithmus (Iterative Dichotomiser 3) von Ross Quinlan [3] ist ein 

im wissenschaftlichen und kommerziellen Bereich weit verbreitetes Klassifikationsverfahren. 

ID3 ist ein rekursiver Top-Down-Algorithmus zur Konstruktion 

eines Entscheidungsbaumes. Das größte Problem des Algorithmus ist die hohe 

Sensibilität für fehlerhafte und widersprüchliche Daten, welche Fehlklassifikationen 

zur Folge hat. 

Der ID3-Algorithmus kann generell wie folgt dargestellt werden: 

Nachdem zunächst gemäß der ” window-Technik“ ein erster Entscheidungsbaum 

erstellt wurde, wird überprüft, ob alle Beispiele eines Knotens zur gleichen 

Klasse gehören. Ist dies der Fall, so ist der Entscheidungsbaum fertig. 

Wenn nicht, so wird das informativste Merkmalausgewählt und nach diesem 

verzweigt. Das heißt mit Hilfe dieses Merkmals werden die Beispiele des 

betrachteten Knotens in Untergruppen aufgeteilt, wobei in jeder dieser Untergruppen 

nur Beispiele mit gleichen Merkmalswerten vorkommen. Dies wird so 

lange wiederholt, bis alle Beispiele in den verschiedenen Untergruppen richtig 

klassifiziert wurden. 

Das informativste Merkmal wird ermittelt, in dem für jedes Merkmal der Beispieldaten 

(nach dem noch nicht verzweigt wurde) berechnet wird, wie gut es 

die Daten klassifizieren würde. Diese Klassifikationsgüte wird von ID3 über das 

Informationskriterium gemessen. Dieses Kriterium quantifiziert die zur Klassifikation 

benötigte Information, d.h. die Anzahl der Tests, die nötig sind um ein 

nicht klassifiziertes Objekt einer Klasse zuzuordnen. Ziel von ID3 ist es, die zur 

Klassifikation benötigte Information im Entscheidungsbaum zu minimieren. 

5.2.1 Nebenpfad: Window-Technik des ID3 

Um die Klassifikation großer Datenmengen zu ermöglichen wurde beim ID3- 

Algorithmus die so genannte ” window-Technik“ verwendet. Dies ist ein iteratives 

Verfahren, welches mit einem gewissen Anteil der verfügbaren Beispieldaten 

(z.B. 10%) einen Entscheidungsbaum generiert. Dieser Anteil wird in das ” window“ 

aufgenommen. Anhand dieses ersten Baumes werden die restlichen Daten 

klassifiziert. 

Gibt es Objekte, welche nicht richtig klassifiziert wurden, so werden diese zusätzlich 

dem ” window“ hinzugefügt und der Entscheidungsbaum wird neu generiert. 

Dies wird so lange wiederholt, bis alle Beispieldaten korrekt klassifiziert wurden. 

16

Vorteil der 

Window- 

Terchnik 

Zur 


eines Objektes 

benötigte 

Information 

Nach einer 

Verzweigung 

benötigte 

Information 

Auswahl des 

informativsten 

Attributs 

Der Vorteil eines so gewonnenen Entscheidungsbaumes ist, dass zunächst eine 

repräsentative Auswahl aus allen Beispielen gefunden wird und somit eine 

schnellere Klassifikation möglich ist, als mit Bäumen, die alle Beispieldaten verwenden. 

5.2.2 Nebenpfad: Informationskriterium 

Die benötigte Information I um ein Objekt zu klassifizieren berechnet 

sich zu: 

I(s1, s2, ..., sm) = − m 

i=1 pi · log2(pi) 

wobei si die Anzahl von Objekten in der Klasse Ci und pi die Wahrscheinlichkeit, 

dass ein zufälliges Beispiel zu einer Klasse Ci gehört. 

Wenn in einem Knoten anhand eines Attributes A in s1, s2, ..., sv Teilbäume 

verzweigt wird, misst EA die nach der Verzweigung noch benötigte Information 

um ein Objekt zu klassifizieren. Sei sij die Anzahl von Beispielen der 

Klasse Ci im Teilbaum Sj, dann berechnet sich die zur Klassifizierung benötigte 

Information zu: 

EA = v s1j+ ... +smj 

j=1 s · I(s1j, ... , smj) 

Zur Auswahl des informativsten Attributs verwendet ID3 den Informationsgewinn 

G. GA misst hierbei den Gewinn, den eine Klassifikation mit Verzweigung 

nach Attribut A im Vergleich zu einer Klassifikation ohne das Attribut erzielt. 

GA = |(s1, ... , sm) − EA| 

GAist also die erwartete Verringerung an benötigter Information wenn der Wert 

des Attributs A bekannt ist. Nachdem der Informationsgewinn für jedes Attribut 

eines Knotens, nach dem noch nicht verzweigt wurde berechnet ist, wird das 

Attribut mit dem höchsten Informationsgewinn als dasjenige ausgewählt, 

nach dem als nächstes zu verzweigen ist. 

17

5.3 Anwendung von ID3 

Anwendungsvoraussetzungen 

Der ID3-Algorithmus kann unter folgenden Voraussetzungen einen Entschei- 

von ID3 dungsbaum generieren: 

Vorteile von 

ID3 

Nachteile von 

ID3 

• Die Daten müssen fehlerfrei und unverrauscht sein. 

• Die Merkmale müssen diskrete Werte besitzen oder bei reellen Werten 

müssen Intervallgrenzen festsetzbar sein. Diese Festlegung ist jedoch oft 

problematisch, da sie Einfluss auf die Klassifikationsgüte des Entscheidungsbaumes 

hat. 

Der ID3-Algorithmus ist insbesondere für die schnelle Klassifikation großer Datenmengen 

gut geeignet. 

Der ID3-Algorithmus bietet folgende Vorteile: 

• Der Lernprozess ist auch bei großen Datenmengen recheneffizient. 

• Die Repräsentation als Baumstruktur ist für den Anwender gut überschaubar 

und verständlich. 

• Aus dem Entscheidungsbaum können gut handhabbare Entscheidungsregeln 

gebildet werden. 

• Die Entscheidungsregeln können zum Zugriff auf Datenbanken in SQL- 

Abfragen übersetzt werden. 

Der ID3-Algorithmus hat eine Reihe von Nachteilen: 

• Da der Algorithmus auf eine vollständige Klassifikation aller Daten eingerichtet 

ist, reagiert er sehr empfindlich auf verrauschte und fehlerhafte 

Daten, da schon bei kleinen Änderungen der Merkmalswerte der 

Entscheidungsbaum entsprechend geändert wird und zu falschen Klassifikationen 

führt. 

• Da der Baum nur vorwärts aufgebaut wird und kein rückschreitendes Verbessern 

möglich ist, handelt es sich bei dem so gewonnenen Baum oft um 

ein lokales Optimum. 

18

• Bei ID3 kann an jedem Knoten immer nur ein Merkmal betrachtet werden 

kann. Es darf also kein zu klassifizierendes Objekt mehreren 

Klassen angehören, wie dies in der Realität oft der Fall ist. 

• Der Algorithmus verzweigt bevorzugt an Merkmalen mit vielen Merkmalswerten. 

19

Prune- 

Verfahren 

C4.5- 

Algorithmus 

CART- 

Algorithmus 

GID, SLIQ 

und CHAID 

5.4 Weitere Entscheidungsbäume 

Um den ID3-Algorithmus auch auf fehlerhafte, verrauschte und widersprüchliche 

Daten anwenden zu können wurden die so genannten Prune-Verfahren 

entwickelt. 

Der C4.5-Algorithmus behebt die Einschränkungen von ID3 in Bezug auf 

fehlerfreie und vollständige Daten sowie diskrete Merkmalswerte. 

Der CART-Algorithmus ist ein rekursiver Partitionsalgorithmus, mit dem 

die Beispieldaten sukzessive nach einzelnen Merkmalsausprägungen jeweils in 

zwei Teilmengen zerlegt werden. 

Zur Klassifizierung von Elementen mit fehlenden Attributwerten wurde von 

Quinlan der GID3-IV-Algorithmus entwickelt. SLIQ eignet sich für 

die Generierung von Entscheidungsbäumen aus großen Datenbanken. 

Der CHAID-Algorithmus wurde 1964 von Sonquist und Morgan publiziert 

und ist somit der Älteste der gängigen Entscheidungsbaum-Algorithmen. 

5.4.1 Nebenpfad: Pruning-Verfahren 

Pruning Da der ID3-Algorithmus den Entscheidungsbaum bis zu den Endknoten erzeugt, 

welche nur noch aus Beispielen einer Klasse bestehen, können die resultierenden 

Bäume sehr tief werden. Insbesondere bei verrauschten, fehlerhaften 

Daten werden Bäume erzeugt, welche zwar die Testbeispiele richtig klassifizieren, 

aber bei unbekannten Beispielen viele Fehler erzeugen. 

Um den Entscheidungsbaum nicht übermäßig stark wachsen zu lassen, wird 

dieser an manchen Stellen beschnitten (pruning).[2] 

Pre-Pruning Beim Vor-Prunen (pre-pruning) wird vor der Entwicklung des Entscheidungsbaumes 

mittels statistischer Analysen überprüft, ob Datensätze eliminiert 

werden können, die zu einem starken Wachstum des Baumes führen. 

Dies kann jedoch dazu führen, dass wichtige Beispiele und somit Besonderheiten 

der Klassifizierung nicht in den Baum aufgenommen werden. 

20

Aufbauendes 

Prunen 

Beim Prunen während des Aufbaus eines Entscheidungsbaumes wird 

bei der Generierung jedes Knotens überprüft, ob der Informationsgewinn durch 

eine weitere Verzweigung größer als ein festgelegter minimaler Informationsgewinn 

ist (Schwellenwert). 

Ist dies nicht der Fall, so wird nicht weiter Verzweigt. Das Festlegen dieses 

Schwellenwertes ist jedoch problematisch, da bei einem zu niedrigen Wert der 

Baum zu groß wird und bei einem zu hohen Schwellenwert zu viel Information 

verloren geht. 

Post-Pruning Beim nachträglichen Prunen (post-pruning) wird zuerst der komplette 

Entscheidungsbaum wie oben beschrieben aufgebaut und erst in einem zweiten 

Schritt werden Teilbäume durch einzelne Knoten ersetzt. 

Regelbasiertes 

Pruning 

C4.5- 

Algorithmus 

Vor allem das regelbasierte Pruning ist in der Praxis sehr verbreitet. Hier 

werden alle Beispieldaten zur Generierung eines ersten Entscheidungsbaumes 

herangezogen. Anschließend wird dieser als Regelmenge in die disjunktive 

Normalform (DNF) umgeformt. 

Dabei wird jeder mögliche Pfad von der Wurzel zu den Blättern ” oder“-verknüpft 

und die in einem solchen Pfad vorkommenden Attributwerte ” und“-verknüpft. 

Dann wird bei jeder Regel überprüft, ob Teile der Regel für die richtige Klassifikation 

relevant sind. 

Falls Attribute irrelevant sind, so werden sie aus der Regel entfernt. 

Anschließend werden die Regeln auf ihre Relevanz für die Klassifikationsergebnisse 

getestet. Sind Regeln irrelevant, so werden sie weggelassen. 

Der Vorteil dieser Umformung in einzelne Regeln besteht darin, dass beim Streichen 

einzelner Regelteile Unterbäume zwar abgeschnitten werden, jedoch in anderen 

Regeln weiterhin vorkommen, so dass die hierin enthaltene Information 

weiterhin verfügbar ist. 

5.4.2 Nebenpfad: 

Der C4.5-Algorithmus wurde wie auch ID3 von Ross Quinlan [3] entwickelt 

und ist eine Erweiterung von ID3. Er behebt die Einschränkungen von ID3 in 

Bezug auf fehlerfreie und vollständige Daten sowie diskrete Merkmalswerte. 

C4.5 enthält außerdem eine erweiterte ” window-Technik“, welche den Vorgang 

des Baumerzeugens und -beschneidens mehrfach wiederholt. 

21

Erweiterungen 

von C4.5 

Die Algorithmen zur Attributauswahl und Verzweigung wurden verbessert, so 

dass Merkmale mit vielen Ausprägungen nicht mehr bevorzugt als Knoten 

ausgewählt werden. 

Weiterhin wurden in C4.5 verschiedene Methoden des Pruning implementiert. 

Von Quinlan wurden zwei Ergänzungen zu C4.5 vorgestellt, welche aufgrund statistischer 

Tests entscheiden können, ob die Verzweigung nach einem Merkmal 

sinnvoll ist und ob bei widersprüchlichen Daten aufgrund stochastischer 

Überlegungen eine Zuordnung der fraglichen Daten zu einer Klasse vorgenommen 

werden kann. 

Liegen Trainingsdaten mit fehlenden Attributwerten vor, so wird der Algorithmus 

dahingehend abgeändert, dass die Verzweigung nach einem Merkmal 

mit vielen fehlenden Werten wenig wahrscheinlich ist. 

5.4.3 Nebenpfad: 

Partitionsalgorithmus Der CART-Algorithmus [1] (Classification and Regression Trees) ist ein rekursiver 

Partitionsalgorithmus, mit dem die Beispieldaten sukzessive nach 

einzelnen Merkmalsausprägungen jeweils in zwei Teilmengen zerlegt werden. 

Bei diskreten Merkmalswerten werden alle möglichen Verzweigungen erzeugt 

und untersucht. 

Bei stetigen Merkmalsausprägungen wird wie bei C4.5 eine Schranke berechnet, 

nach der die Beispielmenge in einem Knoten in zwei Untermengen zerlegt wird. 

” Reine“ 

Untermengen 

Der CART-Algorithmus versucht die Zerlegung in zwei Teilmengen so vorzunehmen, 

dass die Untermengen bezüglich der Klassenzugehörigkeit ” reiner“ werden 

als die Ausgangsmenge. 

Hierzu wird ein Unreinheitsmaß definiert, welches angibt wie groß die Streuung 

der Verteilung über die Klassen in einem Knoten ist. 

Wenn beispielsweise in einem Knoten die Beispiele über alle Klassen gleichverteilt 

sind, dann ist die Unreinheit des Knotens am größten. 

Für den Fall einheitlicher bzw. variabler Fehlklassifikationskosten werden 

beim CART-Algorithmus das Gini- bzw. das Twoing-Kriterium als Verzweigungskriterien 

verwendet. 

Klassenwahrscheinlichkeit Falls bei CART ein Endknoten vorliegt, welcher nicht weiter verzweigt werden 

kann, aber Objekte unterschiedlicher Klassenzugehörigkeit enthält, so wird mit 

22

GID3-IV- 

Algorithmus 

dem Kriterium der Klassenwahrscheinlichkeit oder der Klassenhäufigkeit 

festgelegt, welcher Klasse ein solcher Knoten zugewiesen wird. 

5.4.4 Nebenpfad: GID3-IV-Algorithmus 

Zur Klassifizierung von Elementen mit fehlenden Merkmalswerten 

wurde von Quinlan der GID3-IV-Algorithmus entwickelt. Durch eine Änderung 

der Merkmalsauswahl- und Verzweigungsregel des ID3 werden bei einer 

Verzweigung nicht alle Werte eines Merkmals erzeugt, sondern nur diese, die für 

die Klassifizierung wichtig sind. 

Somit werden mehrere Werte zu einem gemeinsamen Zweig zusammengefasst, 

wobei nicht auftretende Merkmalswerte auch in einen solchen gemeinsamen 

Zweig fallen und somit klassifiziert werden können. 

5.4.5 Nebenpfad: SLIQ-Algorithmus 

Entscheidungsbäume Der SLIQ-Algorithmus [4] wurde für die Generierung von Entscheidungsbäum- 

in großen en aus großen Datenbanken entwickelt. 

Datenbanken Algorithmen wie ID3 sind bei größeren Datenbanken ineffizient, da sie in jedem 

Knoten für jedes zu testende Attribut über die gesamten Trainingsbeispiele 

iterieren. SLIQ umgeht dies, indem die Werte für jedes Merkmal vorsortiert 

werden. 

Vorsortierung Zur Vorsortierung wird für jedes Merkmal eine Liste angelegt, welche die in 

der Datenbank vorhandenen Merkmalswerte und die IDs der Trainingsbeipiele 

enthält, die diese Merkmalswerte annehmen. 

Außerdem wird eine Klassenliste angelegt, in welcher gespeichert ist, welcher 

Baumknoten welche Klasse(n) enthält und welche Trainingsbeispiele zu diesen 

Klassen gehören. 

Verzweigung Für jede Verzweigungsentscheidung in einem Knoten kann somit in Form 

eines Histogramms evaluiert werden, wieviele Beispiele einer Klasse sich vor und 

nach einer möglichen Verzweigung in einem Knoten befinden. Nach der Verzweigungsentscheidung 

müssen die Klassenlisten aktualisiert werden. 

Für einen Verzweigungsentscheidung müssen in einem Knoten somit nur noch 

alle Attribute durchlaufen werden, nicht mehr die gesamte Trainingsmenge. 

23

Chaid- 

Algorithmus 

5.4.6 Nebenpfad: Chaid-Algorithmus 

Der CHAID-Algorithmus (Chi-square Automatic Interaction Detectors) wurde 

1964 von Sonquist und Morgan [5] publiziert. 

Der Hauptunterschied von CHAID zu CART und C4.5 besteht darin, dass 

der CHAID-Algorithmus den Entscheidungsbaum während seines Aufbaus beschneidet. 

Um die Merkmale, nach denen verzweigt wird auszuwählen wird der 

Chi-Quadrat-Unabhängigkeitstest verwendet. 

Dieser prüft die Stärke der Abhängigkeit zweier Merkmale. Je geringer die 

Abhängigkeit zwischen zwei Merkmalen ist, desto größer ist die Wahrscheinlichkeit, 

dass der Algorithmus nach diesen Merkmalen verzweigt. 

MIt dem CHAID-Algorithmus können kompaktere Bäume erzeugt werden als 

z.B. mit dem CART-Algorithmus. Da jedoch für alle möglichen Attributkombinationen 

die Abhängigkeiten geprüft werden müssen ist CHAID bei großen 

Problemen nicht mehr recheneffizient. 

24

Konstruktion 

trennender 

Ebenen 

Weiche 

Ränder 

6 Weitere Klassifikationsmethoden 

6.1 Support Vector Machines 

Support Vector Machines (SVM) [] stellen die zu analysierenden Objekte mittels 

ihrer Merkmalswerte in einem Merkmalsraum dar, wobei ähnliche Objekte 

nahe beieinander liegen. 

Sie 

konstruieren trennende Ebenen zwischen den Daten. Dabei werden die Daten 

auf einer Seite der Ebene einer Klasse und die auf der anderen Seite einer anderen 

Klasse zugeordnet. Solch eine trennende Ebene wird Entscheidungsoberfläche 

genannt und durch Vektoren konstruiert, die an der Grenze zwischen 

zwei Klassen liegen. Diese Vektoren werden Support-Vektoren genannt. 

Falls die Konstruktion mehrerer solcher Ebenen zwischen zwei Klassen möglich 

ist, so wird diejenige ausgewählt, welche die eindeutigste Trennung ergibt. 

Meist ist jedoch eine eindeutige Trennung der Klassen nicht möglich. Dann werden 

so genannte weiche Ränder verwendet, bei denen sich auch noch jenseits 

einer gewissen Entfernung von der Ebene Daten der anderen Klasse befinden 

dürfen. 

Eine neu zu klassifizierendes Objekt wird in den Merkmalsraum eingeordnet. 

Dann kann bestimmt werden, in welcher Beziehung sie zu den Trennungsebenen 

steht und zu welcher Klasse sie hiermit gehört. 

25

6.2 Support Vector Machines 

Klassifizierung Einer der Vorteile der SVM gegenüber anderen Klassifikationsverfahren ist, dass 

ein Objekt zur Klassifikation nicht mit vielen anderen verglichen werden muss, 

sondern lediglich mit den Support-Vektoren. Dadurch ist das Verfahren bei 

der Klassifizierung sehr schnell. Dafür ist jedoch die Trainingsphase sehr 

langsam, da das Auffinden der Hyperebenen aufwändig ist (vgl. Yang 1999). 

Anwendung Die Anwendung von SVM in Spam-Filtern wird von Drucker (1999) ausführlich 

beschrieben. Brutlag und Meek (2000) verglichen die Ergebnisse der Klassifizierung 

von Ham-E-Mails mit einer linearen SVM und einem Unigram-Sprachmodell, 

wobei ihre Klassifikationsergebnisse eher von den verwendeten Klassen als von 

dem Klassifikator abhängen. 

26

Disjunkte 

Regeln als 

Klassifikator 

Ripper- 

Algorithmus 

6.3 Regelgenerierungsverfahren 

Regelgenerierungsverfahren, auch als regelbasierte Lernverfahren bezeichnet, 

lernen eine Menge von disjunktiven Regeln als Klassifikator. 

Die Regeln aus dieser Menge müssen hierfür die Trainingsdaten vollständig abdecken. 

Im ungünstigsten Fall muss also für jeden Fall eine eigene Regel gelernt 

werden. 

Der Ripper-Algorithmus ist einer der bekanntesten Algorithmen zur Regelgenerierung 

[]. Er erzeugt Regeln der Form 

(F AC53 − 1 >= 2.13625) and (F AC1 − 1 topic = ink 

Solche Regeln sind relativ einfach zu verstehen. Die Konstruktion der Regeln 

verläuft ähnlich wie die Konstruktion von Entscheidungsbäumen. Im Unterschied 

zu diesen wird jedoch nicht ein Kriterium gesucht, das alle Objekte 

möglichst gut ihrer Klasse zuordnet, sondern es werden beim Erzeugen der Regeln 

nur Instanzen einer Klasse betrachtet. 

Die so erstellten Regeln sind im allgemeinen genauer als Entscheidungsbäume 

der gleichen Komplexität. Das Ergebnis des Algorithmus ist eine Liste von 

Regeln, mittels derer die Objekte klassifiziert werden können. 

27

6.4 Logistische Regression 

Die logistische Regression ist ein statistisches Verfahren zur Klassifikation kategorialer 

abhängiger Merkmale []. 

Im Gegensatz zur Regressionsanalyse erfordert sie weit weniger Voraussetzungen 

zu ihrer Anwendung (keine Normalverteilung der Residuen, keine Homogenität 

der Varianz). 

Die logistische Regression geht ähnlich wie die Diskriminanzanalyse vor. Sie 

ist jedoch flexibler und deshalb vielfältiger einsetzbar. 

28

7 Literatur und Methodenverzeichnis 

7.1 Literatur zur Diskriminanzanalyse 

Literaturverzeichnis 

[] Bortz, J.: Statistik für Sozialwissenschaftler, Berlin 1989, S. 736ff. 

[] Backhaus, K., B. Erichson, W. Plinke u. R. Weiber: Multivariate Analysemethoden. 

Eine anwendungsorientierte Einführung, 9. Auflage, Berlin 

2000, S. 145ff. 

[] Cooley, W.F./Lohnes, P.R. : Mulivariate Data Analysis, New York 1971. 

[] Lachenbruch, P.A.: Discriminant Analysis, 2nd edition, London 1975. 

[] Morrison, D.F.: Multivariate Statistical Methods, 3rd edition, New York 

1990. 

7.1 Literatur zu Naiven-Bayes-Klassifikatoren und Bayes- 

Netzwerken 


Einführende Literatur zu Naiven Bayes-KlassifikatorenMitchell, 

T.: Machine Learning. MacGraw-Hill 1997, Kap. 6, pp 154-184. 

Weiterführende Literatur zu Naiven Bayes-Klassifikatoren 

Domingo, P./Pazzani, M.: On the optimality of the simple Bayesian 

classifier under zero-one loss, in: Machine Learning, Vol. 29, 1997, pp. 

103-130. Katirai, H.: Filtering Junk E-Mail-A Performance Comparison 

between Genetic Programming & Naive Bayes, University of Waterloo 

1999, auf URL: web.mit.edu/ hooman/www/papers/katirai99filtering.pdf 

(10.09.2005) Sahami, M./Dumais, S./Heckermann, D./Horvitz, E.: A 

Bayesian approach to filtering junk e-mail, in: AAAI-98 Workshop on 

Learning for Text Categorization, 1998. Sahami, M.: Learning limited 

dependence Bayesian classifiers, in: KDD-96: Proceedings of the Second 

International Conference on Knowledge Discovery and Data Mining, 

AAAI Press, 1996, pp. 335-338. Upal, M.A./Neufeld, E.M.: Comparison of 

Bayesian and Neural Net Unsupervised Classifiers, in: Proceedings of the 

Information, Statistics and Induction in Science, World Scientific, 1996, 

pp. 342-353, auf URL: http://citeseer.ist.psu.edu/upal96comparison.html 

(10.09.2005) 

29


Einführende Literatur zu Bayes-Netzwerken 

Han, J./Kamber, M.: Data Mining: Concepts and Techniques. Morgan 

Kaufmann, 2000, p. 300. Jensen, F.: An Introduction to Bayesian 

Networks. Springer, Heidelberg New York 1996. 

Weiterführende Literatur zu Bayes-Netzwerken 

Friedman, N./Geiger, D./Goldszmidt, M: Bayesian network 

classifiers, in: Machine Learning, 1997, auf URL: 

http://citeseer.ist.psu.edu/article/friedman97bayesian.html (9.9.2005) 

Geman, S./Geman, D.: Stochastic relaxation, Gibbs distributions 

and the Bayesian restoration of images, in: IEEE Transactions on 

Pattern Analysis and Machine Intelligence, Vol. 6, 1984, pp. 721- 

742. Heckerman, D.: Bayesian networks for data mining, auf URL: 

http://research.microsoft.com/research/pubs/view.aspx?msr tr id=MSR- 

TR-95-06 (12.09.2005) Robers, U.: Modellbasierte Fehlerdiagnose komplexer 

Systeme mit Hilfe Bayesscher Netze, Jahresbericht 1998 des 

Zentrums für Beratungssysteme in der Technik, Dortmund e.V., auf 

URL: http://www.zedo.fuedo.de/zedo/jb98/robers.htm (15.9.2005) 

7.1 Literatur zu Entscheidungsbäumen 


Einführende Literatur 

Ester M., Sander J. : Knowledge Discovery in Databases: Techniken 

und Anwendungen, Springer, Heidelberg New York 2000. Han, 

J./Kamber, M.: Data Mining: Concepts and Techniques, Morgan Kaufmann, 

San Mateo 2000. Quinlan, J.R.: Induction of Decision Trees, in: 

Machine Learning, Vol. 1, 1986, pp. 81-106. Quinlan, J.R.: Generating 

production rules from decision trees, International Joint Conference 

on Artifical Intelligence, 1987, pp. 304-307 Mitchell T. M. : Machine 

Learning, McGraw-Hill, 1997. 


Weiterführende Literatur 

Breimann, L./Friedman, J.H./Olshen, R.A./Stone, C.J.: Classification 

and Regression Trees. Wadsworth International Group 1984. 

30

Quinlan, J.R.: Simplifying Decision Trees, in: International Man-Machine 

Studies, 1987, pp. 221-234. Quinlan, J.R.: C4.5: Programs for Machine 

Learning, Morgan Kaufmann, San Mateo, California 1993. Mehta, 

M./Agrawal, R./Rissanen, J.: SLIQ: A Fast Scalable Classifier for Data 

Mining, IBM Almaden Research Center, San Jose 1996, auf URL: 

www.almaden.ibm.com/u/ragrawal/papers/edbt96 sliq.ps Sonquist, J.A. 

and Morgan, J.N.: The Detection of Interaction Effects. Survey Research 

Center, Institute for Social Research, University of Michigan 1964. 

Wallace, C./Patrick, J.: Coding decision trees, in: Macine Learning, Vol. 

11, 1993, pp. 7-22. Witten I. H., Frank E . : Data Mining: Practical 

Machine Learning Tools and Techniques with Java Implementations, 

Morgan Kaufmann Publishers, 2000 

7.1 Literatur zu weiteren Verfahren 


[] [] [1] [2] [3] [4] [5] [1] [2] [3] [4] [5] [6] [7] Backhaus, K., B. Erichson, W. Plinke u. R. Weiber (2000): Multivariate 

Analysemethoden. Eine anwendungsorientierte Einführung, 9. Auflage, 

Berlin. 

[] Burgess, C.: A Tutorial on Support Vector Machines for Pattern Recognition, 

in: Data Mining and Knowledge Discovery, Vol. 2, 1989, pp.121-167. 

[] Cohen, William W.: Fast Effective Rule Induction, from: Machine Learning: 

Proceedings of the Twelfth International Conference, 1995. 

[] Joachims, T.: A Statistical Learning Model of Text Classification for Support 

Vector Machines. In: Proceedings of SIGIR’01, New Orleans 2001. 

[] Mitchell, T.: Machine Learning. McGraw-Hill, 1997. 

7.1 Methodenverzeichnis 

Verzeichnis der erläuterten Methoden 

Bayes-Netzwerke 

C4.5-Algorithmus 

CART-Algorithmus 

CHAID-Algorithmus 

Diskriminanzanalyse 

GID3-Algorithmus 

ID3-Algorithmus 

Logistische Regression 

Naive-Bayes-Klassifikation 

31

Prune-Verfahren 

Regelgenerierung 

Ripper-Algorithmus 

SLIQ-Algorithmus 

Support Vector Machines (SVM) 

Window-Technik 

32

Methoden zur Klassifikation - OptiV

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?