Generative oversampling for mining imbalanced data sets

Westfälische Wilhelms-Universität Münster 

Thema: 

Generative oversampling for mining imbalanced data sets 

Ausarbeitung 

im Rahmen des Seminars: 

Ausgewählte Kapitel aus dem Bereich Softcomputing 

im Fachgebiet Informatik 

Themensteller: 

Betreuer: 

vorgelegt von: 

Prof. Dr. Wolfram-M. Lippe 

Dr. Dietmar Lammers 

Marcel Heddier 

Hollandtstraße 42 

48161 Münster 

m.heddier@uni-muenster.de 

Abgabetermin: 2008-01-31

- II - 

Inhaltsverzeichnis 

Inhaltsverzeichnis ............................................................................................................. II 

1 Einleitung ...................................................................................................................... 1 

2 Grundlagen .................................................................................................................... 2 

2.1 Klassifikationsproblem .......................................................................................... 2 

2.2 Imbalanced data sets / Nicht-balancierte Datensätze ............................................. 2 

3 Resampling ................................................................................................................... 5 

3.1 Undersampling ....................................................................................................... 5 

3.1.1 Random Undersampling ............................................................................... 6 

3.1.2 NearMiss ...................................................................................................... 6 

3.1.3 Cost-proportionate rejection sampling ......................................................... 6 

3.2 Oversampling ......................................................................................................... 7 

3.2.1 Random Oversampling ................................................................................. 8 

3.2.2 Synthetic Minority Oversampling TEchnique (SMOTE) ............................ 8 

4 Generative Oversampling ........................................................................................... 10 

4.1 Motivation ............................................................................................................ 10 

4.2 Algorithmus ......................................................................................................... 10 

4.3 Empirische Forschungsergebnisse ....................................................................... 12 

5 Zusammenfassung ...................................................................................................... 14 

Literaturverzeichnis ......................................................................................................... 15

Westfälische Wilhelms-Universität Münster 

1 Einleitung 

Wenn im Bereich des Data-Mining mithilfe von Klassifikationsalgorithmen Datensätze 

klassiert werden sollen, deren A-Priori-Verteilung auf die Klassen oder deren Fehlklassifizierungskosten 

sehr unausgeglichen sind, dann entstehen Probleme beim überwachten Anlernen 

der Klassifikationsalgorithmen. Eine Art diesen Problemen zu begegnen ist das Resampling 

der Trainingsdaten. Dabei werden Daten dem Trainingsdatensatz auf bestimmte 

Art und Weise hinzugefügt oder aus diesem entfernt, um so die A-Priori-Verteilung auf die 

Klassen auszugleichen. Es existiert eine Reihe von Resampling Algorithmen, die diesen 

Ansatz verfolgen. Einer dieser Ansätze ist das Generative Oversampling, das in dieser Arbeit 

beschrieben wird. 

Die Arbeit ordnet den Resampling-Algorithmus Generative Oversampling in den Kontext 

der bereits vorhandenen Resampling-Algorithmen ein. Es werden zunächst die Grundlagen 

eines Klassifikationsproblems und des Problems der nicht-balancierten Datensätze vermittelt. 

Anschließend wird in Kapitel 3 ein Überblick über eine Auswahl von Resampling Algorithmen 

und deren Funktionsweise gegeben. Dabei werden die Vor- und Nachteile der 

jeweiligen Algorithmen aufgezeigt. 

Darauf folgend wird in Kapitel 4 der Resampling Algorithmus Generative Oversampling 

detailliert betrachtet. Es wird zunächst die Motivation zur Entwicklung dieses Algorithmus 

erläutert. Anschließend wird auf die Funktionsweise und die Restriktionen des Algorithmus 

eingegangen. Die Effektivität des Generative Oversampling im Vergleich zu anderen 

Resampling Algorithmen wird im letzten Teil durch die Ergebnisse einer empirischen Studie 

belegt.

- 2 - 

2 Grundlagen 

2.1 Klassifikationsproblem 

Im Data Mining stellt sich häufig das Problem der Klassierung von Daten. Hierbei soll eine 

Menge von N Daten einer Menge von M Klassen eindeutig zugeordnet werden. Die Zuordnung 

der Daten erfolgt dabei anhand der Merkmalsausprägungen der einzelnen Datensätze. 

Daten innerhalb einer Klasse sollen möglichst homogen sein, während Daten aus unterschiedlichen 

Klassen möglichst heterogen sein sollen. 

Es existiert eine Reihe von Klassifikationsalgorithmen, die in der Lage sind, eine solche 

Zuordnung vorzunehmen. Zu nennen sind in diesem Zusammenhang das k-Nearest- 

Neighbor-Verfahren (kNN), die Support-Vector-Machines (SVM), der Multinomiale Naive 

Bayes-Algorithmus und künstliche Neuronale Netze (KNN). 

Diese Algorithmen werden mithilfe von Trainingsdaten angelernt. Dafür unterteilt man die 

zu klassierenden Daten in einen Trainings- und einen Testdatensatz. Der Trainingsdatensatz 

dient zur Anpassung der Parameter eines Klassifikationsalgorithmus, während der 

Testdatensatz zur Kontrolle und zur Messung der Güte eines Klassifikationsalgorithmus 

herangezogen wird. 

Oft wird eine Einteilung in lediglich zwei Klassen vorgenommen. Bei diesem sogenannten 

Zwei-Klassen-Klassifikationsproblem werden also alle Daten entweder der einen oder der 

anderen Klasse zugeordnet. Im Folgenden wird ausschließlich das Zwei-Klassen- 

Klassifikationsproblem betrachtet. 

2.2 Imbalanced data sets / Nicht-balancierte Datensätze 

Von einem nicht-balancierten Datensatz spricht man, wenn die Verteilung der Daten auf 

die Klassen in einem Zwei-Klassen Klassifikationsproblem ungleichmäßig geschieht. Dabei 

wird ein Großteil der Daten nur einer Klasse zugeordnet, der sogenannten Majority 

Class. Der verbleibende Rest wird der anderen Klasse, der sogenannten Minority Class, 

zugeordnet. 

Eine solche nicht-balancierte Verteilung der Daten auf die beiden Klassen findet sich in 

der Praxis in zahlreichen Anwendungskontexten wieder. Es ist z. B. sehr schwer bei der 

automatisierten Erkennung von Ölteppichen nach einen Tankerunglück anhand von Satelli-

- 3 - 

tenbildern die wenigen Pixel (Daten) korrekt zu erkennen, die nicht den Ozean, sondern 

ausgelaufenes Öl darstellen. 1 

Ein weiterer Anwendungsbereich ist die automatisierte Textklassierung. Hierbei möchte 

man eine Vielzahl von Texten und Dokumenten jeweils einer bestimmten Textkategorie 

(z. B. Wissenschaftlicher Text, Zeitungsartikel, Sportartikel, etc.) zuordnen. Um aus diesem 

Multi-Klassen Klassierungsproblem ein Zwei-Klassen Klassierungsproblem zu machen 

deklariert man die am wenigsten vorkommende Klasse als Minority Class während 

man alle anderen Klassen zur Majority Class zusammenfasst. So entsteht ein nichtbalanciertes 

Klassierungsproblem, bei dem ein Großteil der Daten der Majority Class und 

der kleine Rest der Minority Class zugeordnet wird. 2 

Auch im Bereich der medizinischen Diagnose finden sich Klassierungsprobleme mit nichtbalancierten 

Datensätzen. Das automatisierte Erkennen von Krebszellen auf Mammographiebildern 

ist ein solches Problem. Ein Großteil der Zellen auf den Bildern ist gesund und 

fällt somit in die Majority Class. Die wenigen kranken Krebszellen werden in die Minority 

Class eingeordnet. Hier wird klar, von welcher Relevanz eine korrekte Klassierung der 

Minority Class Daten ist. Eine Fehldiagnose in der Krebserkennung kann zu fatalen Folgen 

für die Gesundheit des Patienten führen. 3 

Wie durch die Beispiele klar wurde, ist es in vielen Anwendungsbereichen enorm wichtig, 

die Daten, die in die Minority Class gehören, mit den Klassifikationsalgorithmen auch korrekt 

zu klassieren. Die ungleiche Verteilung der Daten führt allerdings zu einer Reihe von 

Problemen für die korrekte Klassierung der Daten: 

• Genauigkeit 

Die meisten Klassifikationsalgorithmen basieren auf der Minimierung eines Gesamtfehlers 

im Modell. Die wenigen Daten der Minority Class steuern zum Gesamtfehler 

relativ wenig Informationen bei und dadurch kann es vorkommen, dass 

ein Klassifikationsalgorithmus so trainiert wird, dass er bspw. alle Daten in die Majority 

Class einordnet. Da es aber wichtig ist, die wenigen Daten der Minority Class 

korrekt zu erkennen, wird ein so trainierter Algorithmus unbrauchbar für die Klassierung 

nicht-balancierter Datensätze. 4 

1 Vgl. Brekke, Solberg (2005). 

2 Vgl. Liu, Ghosh, Martin (2007). 

3 Vgl. Böhm et. Al. (2007). 

4 Vgl. Visa, Ralescu (2005).

- 4 - 

• Verteilung der Daten 

Ein Klassifikationsalgorithmus geht implizit davon aus, dass die Trainings- und 

Testdaten derselben Verteilung unterliegen. Es kann jedoch vorkommen, dass die 

Trainingsdaten nicht-balanciert und die Testdaten balanciert sind oder umgekehrt. 

Das hängt ganz davon ab, nach welchem Verfahren die Test- und Trainingsdaten 

ausgewählt werden. 5 

Wählt man beispielsweise die Trainingsdaten so aus, dass gleichviele Elemente aus 

der Minority Class und aus der Majority Class zum Training des Klassifikationsalgorithmus 

verwendet werden, so umgeht man zwar einige Probleme, die nichtbalancierte 

Datensätze mit sich bringen, jedoch wird so auch ein Unterschied in der 

Verteilung von Test- und Trainingsdaten erreicht der unerwünscht ist und bei der 

Klassierung zu fehlerhaften Ergebnissen führen kann. 

Es hat sich bei experimentellen Studien gezeigt, dass eine balancierte Verteilung 

der Trainingsdaten nicht zwangsläufig zum besten Ergebnis führt. 6 

• Fehlerkosten 

Die Kosten (finanziell oder in Form von Nutzenverlust) für eine fehlerhafte Prognose 

von Daten der Minority Class sind i.d.R. sehr hoch. Das Beispiel der Krebszellenerkennung 

zeigt deutlich, dass eine Fehldiagnose bei einem krebskranken Patienten 

zu schwerwiegenden Folgen führen kann. 

Es ist jedoch selbst für Experten auf dem entsprechenden Gebiet nicht immer einfach, 

die Kosten einer solchen fehlerhaften Prognose korrekt zu quantifizieren und 

sie so in ein entsprechendes Modell einfließen zu lassen. Dennoch gibt es einige 

Ansätze die versuchen, die unterschiedlichen Fehlerkosten zu berücksichtigen 7 

(Vgl. Kapitel 3.1.3). 

5 Vgl. Visa, Ralescu (2005). 

6 Vgl. Weiss, Provost (2003). 

Vgl. Visa, Ralescu (2005). 

7 Vgl. Visa, Ralescu (2005).

- 5 - 

3 Resampling 

Um den in Kapitel 2.2 genannten Problemen entgegenzuwirken, bedient man sich einer 

Methode, welche das ungleiche Verhältnis von Minority und Majority Class relativiert, 

dem sogenannten Resampling der Daten. 

Dabei unterscheidet man zwei verschiedene Arten des Resamplings. Zum einen lässt sich 

durch das Entfernen von Datensätzen aus der Majority Class eine Verschiebung der A- 

Priori-Wahrscheinlichkeit zugunsten der Minority Class erreichen. Dieses Vorgehen heißt 

Undersampling. Dabei gibt es verschiedene Strategien auf welche Art und Weise Daten 

aus der Majority Class entfernt werden (Vgl. Kap. 3.1). 

Zum anderen erreicht man durch das Hinzufügen neuer Datensätze zur Minority Class 

ebenfalls eine Verschiebung der A-Priori-Wahrscheinlichkeit zugunsten der Minority 

Class. Dieses Vorgehen nennt sich Oversampling. Auch hier existiert eine Reihe von verschiedenen 

Methoden, die die Daten auf unterschiedliche Weise generieren (Vgl. Kap. 

3.2). Zu dieser Klasse der Resampling Algorithmen gehört auch das Generative Oversampling. 

3.1 Undersampling 

Durch das Undersampling wird die Anzahl der Elemente in der Majority Class mithilfe 

einer vorher festgelegten Reduktionsstrategie verringert. Dieses Vorgehen hat sowohl Vorals 

auch Nachteile: 

Durch die kleinere Datenmenge ergeben sich Vorteile im Bereich Performance und Speicherbedarf 

der verwendeten Klassifikationsalgorithmen. Das kann vor allem bei sehr großen 

Datenmengen einen erheblichen Unterschied ausmachen. 

Jedoch gehen durch das wahllose Entfernen von Daten gegebenenfalls auch wichtige Informationen 

über die Entscheidungsgrenze verloren. 8 Diesem Problem versucht man durch 

spezielle Heuristiken entgegenzuwirken. Einige der populärsten Undersampling Algorithmen 

werden im Folgenden vorgestellt. 

8 Vgl. Liu (2004).

- 6 - 

3.1.1 Random Undersampling 

Durch das Anwenden des Random Undersampling Algorithmus werden zufällig ausgewählte 

Elemente der Majority Class entfernt. Durch die Willkür dieses Verfahrens steht 

man vor dem o.g. Problem des nicht-steuerbaren Verlustes von relevanten Informationen. 

Dennoch hat sich in der Praxis gezeigt, dass das Random Undersampling bis zu einer gewissen 

Rate des Resamplings durchaus sehr gute Ergebnisse liefert. 9 

Der Vorteil des Random Undersamplings liegt in der einfachen Implementierung des Algorithmus. 

Er lässt sich durch einen einfachen Zufallszahlengenerator realisieren und erzielt 

so eine gute Performance. 

3.1.2 NearMiss 

Der NearMiss Algorithmus 10 versucht den Informationsverlust beim Löschen von Daten so 

zu steuern, dass relevante Informationen über die Entscheidungsgrenze erhalten bleiben. 

Es werden diejenigen Elemente der Majority Class in den neuen Trainingsdatensatz übernommen, 

deren durchschnittlicher Abstand zu den drei nächstgelegenen Elementen der 

Minority Class am kleinsten ist. Für die Berechnung des Abstands zwischen den Elementen 

kann ein beliebiges Distanzmaß, z. B. der euklidische Abstand, verwendet werden. Das 

hat zur Folge, dass die Elemente der Majority Class, die denen aus der Minority Class am 

ähnlichsten sind, erhalten bleiben. Es kann davon ausgegangen werden, dass gerade diese 

Elemente wichtige Informationen über die Entscheidungsgrenze liefern. 

Es existieren noch einige Variationen des NearMiss Algorithmus, welche alle darauf abzielen, 

Informationen über die Entscheidungsgrenze im neuen Trainingsdatensatz zu erhalten. 

11 

3.1.3 Cost-proportionate rejection sampling 

Dieser Undersampling Algorithmus versucht die in Kap. 2.2 beschriebenen Fehlklassifizierungskosten 

in das Resampling mit einzubringen. Dafür werden jedem Element der Majority 

Class Fehlklassifizierungskosten in Höhe von c zugeordnet. Anschließend werden 

Elemente zufällig aus der Majority Class gezogen. Jedes gezogene Element wird nun mit 

einer Wahrscheinlichkeit von c/z in den neuen Trainingsdatensatz übernommen. Der Pa- 

9 Vgl. Liu (2004). 

10 Vgl. Zhang, Mani (2003). 

11 Vgl. Zhang, Mani (2003).

- 7 - 

rameter z ist dabei frei wählbar. Wählt man beispielsweise z so, dass es den Kosten des 

Elements der Majority Class entspricht, welches die höchsten Kosten hat, also z = max(c), 

so wird gerade dieses Element, sofern es denn gezogen wurde, mit einer Wahrscheinlichkeit 

von 1 in den neuen Trainingsdatensatz übernommen. 12 

Das hat zur Folge, dass Elemente mit hohen Fehlklassifizierungskosten mit größerer Wahrscheinlichkeit 

im neuen Trainingsdatensatz vorhanden sind. Dahinter steht die Annahme, 

dass gerade diese Elemente einen hohen Informationsgehalt für die Klassifizierung beinhalten. 

Das Problem dieses Vorgehens liegt allerdings darin, die passenden Kosten für die Elemente 

zu ermitteln. Eine Quantifizierung von Nutzenverlust ist in der Praxis oftmals sehr 

schwierig. 

3.2 Oversampling 

Im Gegensatz zum Undersampling wird beim Oversampling versucht, die A-Priori- 

Wahrscheinlichkeiten zugunsten der Minority Class zu verschieben, indem neue Elemente 

in diese Klasse eingefügt werden. 

Dabei unterteilen sich die hierfür entwickelten Oversampling Algorithmen in zwei grundlegende 

Klassen. Zum einen werden Elemente durch Duplikation bereits vorhandener Minority 

Class Elemente erzeugt. Zum anderen werden aufgrund verschiedener Strategien 

völlig neue Elemente generiert und der Minority Class hinzugefügt. Das Generative Oversampling 

fällt unter die Klasse der Algorithmen, die neue Elemente generieren. 

Durch das künstliche Aufblähen der Minority Class erhöht sich die Datenmenge des Trainingsdatensatzes. 

Das hat zur Folge, dass Klassifikationsalgorithmen weniger performant 

arbeiten und einen höheren Speicherbedarf haben. Allerdings gehen so, anders als beim 

Undersampling, eventuell relevante Informationen über die Entscheidungsgrenze nicht 

verloren. 13 

Im Folgenden werden einige Oversampling Algorithmen vorgestellt und verdeutlicht inwieweit 

sich die Duplikation und die Generierung neuer Elemente voneinander unterscheiden. 

12 Vgl. Zadrozny, Langford, Abe (2003). 

13 Vgl. Liu (2004).

- 8 - 

3.2.1 Random Oversampling 

Beim Random Oversampling werden zufällig Elemente aus der Minority Class ausgewählt 

und dupliziert. Das geschieht solange, bis ein gewünschtes Verhältnis von Minority und 

Majority Class erreicht wurde. Dabei bleibt ein gezogenes Element weiterhin in dem ursprünglichen 

Datensatz vorhanden und kann mehrmals gezogen werden. 14 

Die Vorteile liegen ähnlich wie beim Random Undersampling in der einfachen Implementierung 

des Algorithmus. Durch die bloße Duplikation der Elemente werden hier jedoch 

nur vorhandene Informationen dupliziert und keine zusätzlichen generiert. Die künstliche 

Gewinnung neuer Informationen aus den bestehenden Daten kann jedoch dafür sorgen, 

dass ein Klassifikationsalgorithmus besser angelernt wird. 

3.2.2 Synthetic Minority Oversampling TEchnique (SMOTE) 

Der SMOTE Algorithmus dupliziert nicht nur einfach die Daten der Minority Class, sondern 

er generiert neue Datenpunkte und fügt diese in die Minority Class ein. Dabei geht er 

wie folgt vor: 

Für ein Element der Minority Class werden die n nächstgelegenen Elemente innerhalb der 

Minority Class ausgewählt. Die Konstante n ist dabei ein vorher festzulegender Wert, mit 

dem sich die Streuung der neu zu generierenden Datenpunkte beeinflussen lässt. Aus diesen 

n Nachbarn werden nun m Elemente zufällig ausgewählt. 

Nun wird zwischen dem ausgewählten Minority Class Element und jedem der ausgewählten 

m Nachbarn ein Distanzmaß, z. B. der euklidische Abstand, ermittelt. Anschließend 

werden neue Datenpunkte generiert, die jeweils zwischen dem Minority Class Element und 

einem der m Nachbarn liegen. Dafür wird der ermittelte Abstand mit einer Zufallszahl zwischen 

0 und 1 multipliziert und anschließend auf den Merkmalsvektor des Minority Class 

Elementes addiert. So entsteht ein neuer Datenpunkt, der auf der Strecke zwischen dem 

Minority Class Element und dem Nachbarn liegt. 15 

Das geschieht für jedes Element der Minority Class m Mal. Der Wert m legt also fest mit 

welcher Rate die Minority Class gesampelt werden soll. Ein Wert von 2 bedeutet bspw. 

dass die Minority Class auf 300% der ursprünglichen Größe anwächst. 16 

14 Vgl. Liu (2004). 

15 Vgl. Chawla et. Al. (2002). 

16 Vgl. Chawla et. Al. (2002).

- 9 - 

Durch dieses Vorgehen werden der Minority Class künstlich generierte zusätzliche Informationen 

hinzugefügt. Dadurch erreicht man eine bessere Anpassung eines Klassifikationsalgorithmus 

an den Trainingsdatensatz. 

Der Nachteil des SMOTE-Algorithmus liegt darin, dass die neuen Elemente immer zwischen 

zwei vorhandenen Elementen der Minority Class liegen und so keine Elemente außerhalb 

der konvexen Hülle generiert werden, die durch die Elemente der Minority Class 

beschrieben wird. 17 Das hat zur Folge, dass sich die Entscheidungsgrenze in Richtung der 

Minority Class verschiebt. Genau dieser Effekt ist aber unerwünscht, da so weniger Daten 

in die Minority Class klassiert werden. 

Um diesem Effekt entgegenzuwirken, bedarf es der Generierung von Elementen auch außerhalb 

der konvexen Hülle der Minority Class-Daten. Im Folgenden wird beschrieben, 

wie diese Anforderung durch das Generative Oversampling erfüllt wird. 

17 Vgl. Liu, Ghosh, Martin (2007).

- 10 - 

4 Generative Oversampling 

Das Generative Oversampling ist ein von LIU, GHOSH und MARTIN entwickelter Oversampling 

Algorithmus, der versucht die Probleme bei der Klassierung von nichtbalancierten 

Datensätzen zu lösen, indem er neue Datenpunkte aufgrund der vorhandenen 

Daten generiert. Die neuen Datenpunkte werden anschließend der Minority Class zugeordnet 

und verschieben so die A-Priori-Wahrscheinlichkeit zugunsten der Minority Class. 

4.1 Motivation 

Die verschiedenen Oversampling Algorithmen unterscheiden sich in der Art und Weise, 

wie zusätzliche Datenpunkte erstellt und dem Trainingsdatensatz hinzugefügt werden. 

Geht man davon aus, dass die Daten in der Minority Class einer bestimmten aber unbekannten 

Verteilung unterliegen, dann sollten die neuen Datenpunkte idealerweise aufgrund 

dieser Verteilung generiert werden. Da jedoch diese ursprüngliche Verteilung unbekannt 

ist, lässt sich dieses Vorgehen nicht realisieren. Aus diesem Grund werden Heuristiken 

verwendet (z. B. Random Oversampling und SMOTE), die versuchen ein ähnliches Ergebnis 

zu erzielen. 

Das Generative Oversampling versucht nun, die natürliche Verteilung der Daten aus der 

Minority Class näherungsweise zu modellieren und anschließend anhand dieser Verteilungsannahme 

neue Datenpunkte zu generieren. 18 

4.2 Algorithmus 

Der Algorithmus des Generative Oversampling lässt sich in drei Schritte unterteilen. 

• Schritt 1 

Da die natürliche Verteilung der Daten unbekannt ist, muss ein Verteilungsmodell 

gefunden werden, das die Daten in einer geeigneten Art und Weise abbildet. Dabei 

macht sich der Algorithmus zunutze, dass in vielen Anwendungsbereichen eine solche 

Verteilungsannahme bereits bekannt ist. So lassen sich bspw. viele niedrigdimensionale 

Datensätze mit der Normalverteilung und Text-Datensätze mit einer 

Multinomialverteilung modellieren. 19 

18 Vgl. Liu, Ghosh, Martin (2007). 


- 11 - 

Falls jedoch keine geeignete Verteilungsannahme getroffen werden kann, lässt sich 

das Generative Oversampling nicht anwenden. In diesem Fall muss auf einen anderen 

Resampling Algorithmus zurückgegriffen werden. 

• Schritt 2 

Wurde eine geeignete Verteilung gefunden, so müssen nun die Parameter dieser 

Verteilung mithilfe des Trainingsdatensatzes angelernt werden. Unterstellt man 

bspw., dass die Daten normalverteilt sind, so sind die Parameter µ und σ aus den 

vorhandenen Daten zu berechnen. 

Das setzt voraus, dass in der Minority Class absolut gesehen ausreichend Daten 

vorhanden sind, denn das Erlernen von Parametern, die die Daten näherungsweise 

beschreiben sollen, benötigt aufgrund des zentralen Grenzwertsatzes eine ausreichende 

Anzahl Eingabedaten. Bei normalverteilten Daten kann bereits eine Anzahl 

von 12 Daten ausreichen (Zwölferregel 20 ). Je mehr Eingabedaten vorhanden sind, 

desto besser lassen sich jedoch die Parameter einer Verteilung bestimmen. Bei dem 

Problem der nicht-balancierten Datensätze enthält die Minority Class im Verhältnis 

zur Majority Class jedoch definitionsgemäß wenige Daten. 

Generative Oversampling lässt sich also nur anwenden, wenn die Minority Class 

lediglich im Verhältnis zur Majority Class klein ist, jedoch absolut gesehen immer 

noch ausreichend Daten enthält. 

• Schritt 3 

Wurde eine geeignete Verteilung gefunden und deren Parameter mithilfe der vorhanden 

Daten aus dem Trainingsdatensatz bestimmt, so können nun zufällig Punkte 

aus dieser Verteilung gezogen werden und als neue Datenpunkte in die Minority 

Class eingefügt werden. Dies geschieht solange, bis das gewünschte Verhältnis von 

Minority und Majority Class erreicht wurde. 

Der Vorteil dieses Verfahrens gegenüber den anderen Oversampling Algorithmen liegt 

darin, dass nun auch Datenpunkte generiert werden können, die außerhalb der konvexen 

Hülle liegen, die durch die Daten der Minority Class beschrieben wird. Das hat zur Folge, 

dass sich die Entscheidungsgrenze nicht ungewollt zur Minority Class hin verschiebt. Die 

Entscheidungsgrenze wird sogar von der Minority Class wegbewegt. 21 

20 Vgl. http://de.wikipedia.org/wiki/Zw%C3%B6lferregel – Stand: 26.01.2008 


- 12 - 

Ein weiterer Vorteil dieser Methode liegt darin, dass durch die Erzeugung von Datenpunkten, 

die bislang noch nicht im Trainingsdatensatz vorhanden waren, die Gefahr des Overfitting 

beim Anlernen eines Klassifikationsalgorithmus verringert wird. 

4.3 Empirische Forschungsergebnisse 

In einer Studie haben LIU, GHOSH und MARTIN das Generative Oversampling mit den Resampling 

Algorithmen Random Oversampling, Random Undersampling und SMOTE in 

der Domäne Textklassifizierung verglichen. Dabei wurden Textdatensätze 22 mit den jeweiligen 

Resampling Algorithmen bearbeitet und anschließend klassiert. Der dafür verwendete 

Klassifikationsalgorithmus ist der SVM 23 (Support Vector Machines) Algorithmus. Als 

Gütekriterium wurde der F-Measure Wert 24 verwendet. 25 

Abbildung 1 steht exemplarisch für das Ergebnis der Studie. Hier wurde ein Textdatensatz 

aus dem Bereich Sport klassiert und anschließend die Güte mithilfe des F-Measure Werts 

bestimmt. 

Quelle: Liu, Ghosh, Martin (2007). 

Abb. 1: Klassierung eines Sport-Datensatzes 

Auf der Ordinate wurde der F-Wert und auf der Abszisse der Grad des Resamplings, also 

das Verhältnis von Minority Class und Majority Class nach dem Resampling, abgetragen. 

Das Generative Oversampling (rote Kurve) erzielte durchgehend die besten Gütewerte. 

Desweiteren zeigte sich der Algorithmus robust gegenüber einem hohen Grad des 

Resamplings. Der starke Abfall des Random Undersampling (grüne Kurve) bei steigender 

22 Die verwendeten Datensätze finden sich unter http://www.ideal.ece.utexas.edu/data/docdata.tar.gz 

23 Vgl. http://de.wikipedia.org/wiki/Support_Vector_Machine - Stand: 16.01.2008 

24 Vgl. http://en.wikipedia.org/wiki/Sensitivity_(tests) – Stand: 16.01.2008 


- 13 - 

Resamplingrate erklärt sich durch den hohen Informationsverlust, der bei so starkem Undersampling 

entsteht. Das Generative Oversampling wies ähnliche Gütewerte bei anderen 

Textarten auf und hat somit bewiesen, das es im Vergleich zu anderen Resampling Algorithmen 

gleichauf bzw. überlegen ist.

- 14 - 

5 Zusammenfassung 

Die Arbeit hat einen Überblick über das Problem der Klassierung von nicht-balancierten 

Datensätzen und die daraus resultierenden Gefahren für das Anlernen eines Klassifikationsalgorithmus 

gegeben. Desweiteren wurde eine Reihe von Resampling Algorithmen 

vorgestellt und deren Vor- und Nachteile verdeutlicht. 

Es wurde gezeigt, dass das Generative Oversampling ein relativ einfach zu implementierender 

Resampling Algorithmus ist und im Vergleich zu anderen Resampling Algorithmen 

gute bzw. bessere Gütewerte erzielt. Dabei ist deutlich geworden, dass sich das Generative 

Oversampling nur unter bestimmten Voraussetzungen anwenden lässt. Es muss eine geeignete 

Verteilungsannahme für die Daten der Minority Class existieren und dabei darf die 

Minority Class absolut gesehen nicht zu wenige Daten enthalten. Sind diese Voraussetzungen 

gegeben, dann lässt sich das Generative Oversampling anwenden. 

Anhand einer empirischen Studie zur Performanz des Generative Oversamplings wurde 

gezeigt, dass der Algorithmus, zumindest in der Domäne der Textklassifizierung durch den 

Klassifikationsalgorithmus SVM, sehr gute Werte erzielt. 

Die Vorteile des Generative Oversamplings liegen in der Generierung neuer Datenpunkte 

anhand einer Verteilungsannahme. Dadurch werden Punkte auch außerhalb der, durch die 

Trainingsdaten beschriebenen konvexen Hülle erzeugt und verhindern so eine unerwünschte 

Verschiebung der Entscheidungsgrenze in Richtung der Minority Class. Die Erzeugung 

völlig neuer Datenpunkte vermindert außerdem die Gefahr des Overfitting beim Anlernen 

der Klassifikationsalgorithmen.

- 15 - 

Literaturverzeichnis 

Böhm, H., Britsch, S., Fischer, T., Reiser, M. F.: Digitale Mammographie: Klassifikation 

der Textur des Brustdrüsengewebes durch topologische Analyse der 

Grauwertverteilung mit Minkowski-Funktionalen, In: RöFo - Fortschritte auf dem 

Gebiet der Röntgenstrahlen und der bildgebenden Verfahren, Heft S1, 2007. 

Brekke, C., Solberg, A. H.: Oil spill detection by satellite remote sensing, In: Remote 

Sensing of Environment, Vol. 95, 1/2005, S. 1-13. 

Chawla, N., Bowyer, K. W., Hall, L. O., Kegelmeyer, W. P.: SMOTE: Synthetic Minority 

Oversampling Technique, In: Journal of Artificial Intelligence Research 16/2002, 

S. 341-378. 

Liu, A., Ghosh, J., Martin, C.: Generative Oversampling for Mining Imbalanced Datasets, 

In: Proceedings of the 2007 International Conference on Data 

Mining, DMIN 2007, June 25-28, 2007, Las Vegas, Nevada, 

USA, S. 66-72. 

Liu, A.: The Effect of Oversampling and Undersampling on Classifying Imbalanced Text 

Datasets, Thesis 2004 Austin, Texas. 

Visa, S., Ralescu, A.: Issues in Mining Imbalanced Data Sets - A Review Paper, In: 

Proceedings of the Sixteen Midwest Artificial Intelligence and Cognitive Science 

Conference, MAICS-2005, Dayton, April 16-17, 2005, S. 67-73. 

Weiss, G., Provost, F.: Learning when training data are costly: The effect of class 

distribution on tree induction, In: Journal of Artificial Intelligence Research 

19/2003, S. 315-354. 

Zadrozny, B., Langford, J., Abe, N.: Cost-sensitive learning by cost-proportionate example 

weighting, In: ICDM 2003, Proceeding of the 3 rd IEEE International Conference 

on Data Mining, 2003. 

Zhang, J., Mani, I.: kNN Approach to Unbalanced Data Distributions: A Case Study 

involving Information Extraction, In: Proceedings of the Workshop on Learning 

from Imbalanced Datasets II, ICML, Washington DC, 2003.

- 16 - 

Abschließende Erklärung 

Ich versichere hiermit, dass ich meine Ausarbeitung Generative Oversampling for mining 

imbalanced data sets selbstständig und ohne fremde Hilfe angefertigt habe, und dass ich 

alle von anderen Autoren wörtlich übernommenen Stellen wie auch die sich an die Gedankengänge 

anderer Autoren eng anlehnenden Ausführungen meiner Arbeit besonders gekennzeichnet 

und die Quellen zitiert habe. 

Münster, den 26. Januar 2008

Generative oversampling for mining imbalanced data sets

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?