RapidMiner im akademischen Einsatz - Documentation - Rapid

Sebastian Land, Simon Fischer 

RapidMiner 5 

RapidMiner im akademischen 

Einsatz

Sebastian Land, Simon Fischer 

RapidMiner 5 

RapidMiner im akademischen Einsatz 

27. August 2012 

Rapid-I 

www.rapid-i.com

Dieses Werk ist urheberreichtlich geschützt. Alle Rechte, auch die der Übersetzung, 

des Nachdrucks und der Vervielfältigung des Buches, oder Teilen daraus, 

vorbehalten. Kein Teil des Werkes darf ohne schriftliche Genehmigung in irgendeiner 

Form reproduziert oder unter Verwendung elektronischer Systeme verarbeitet, 

vervielfältigt oder verbreitet werden. 

Copyright © 2012 Rapid-I

Vorwort 

RapidMiner ist eine der weltweit meistverbreiteten eingesetzten Open-Source 

Data-Mining-Lösungen. Im Jahr 2001 entstand das Projekt an der Universität 

Dortmund und wird seit 2007 von der Rapid-I GmbH weitergeführt. Mit diesem 

akademischen Hintergrund richtet sich RapidMiner auch heute nicht nur an 

Geschäftskunden, sondern auch weiterhin an Universitäten und Forscherinnen 

und Forscher aus den verschiedensten Disziplinen. 

Dazu zählen auf der einen Seite Informatiker, Statistiker und Mathematiker, die 

an den Techniken von Data Mining, maschinellem Lernen und statistischen Verfahren 

interessiert sind. Durch RapidMiner ist es auf einfache Art und Weise 

möglich, neue Analyseverfahren und Ansätze zu implementieren und mit anderen 

zu vergleichen. 

Auf der anderen Seite findet RapidMiner auch in vielen Anwendungsdisziplinen 

wie Physik, Maschinenbau, Medizin, Chemie, Linguistik und Gesellschaftswissenschaften 

Verwendung. Viele Wissenschaftszweige sind heute datengetrieben 

und verlangen nach flexiblen Analysewerkzeugen. RapidMiner bietet sich als eine 

solche an, da es von einfachen statistischen Auswertungen wie Korrelationsanalyse 

über Regressions-, Klassifikations- und Clusteringverfahren bis zu Dimensionsreduktion 

und Parameteroptimierung ein breites Spektrum an Methoden 

bereitstellt, die für vielfältige Anwendungsdomänen wie Text-, Bild-, Audio- und 

Zeitreihenanalyse genutzt werden können. All diese Analysen können voll automatisiert 

und ihre Ergebnisse auf vielfältige Art visualisiert werden. 

In diesem Papier zeigen wir, wie RapidMiner optimal für diese Aufgaben ein- 

V

gesetzt werden kann. Wir setzen dabei keine Kenntnisse über RapidMiner oder 

Data Mining voraus. Auch ist dieser Text kein Lehrbuch, der es Ihnen ermöglicht, 

die Verwendung von RapidMiner zu erlernen. Stattdessen erfahren Sie, welche 

grundsätzlichen Einsatzmöglichkeiten sich für RapidMiner in der Forschung bieten. 

Als weiterführende Lektüre empfehlen wir das RapidMiner Benutzerhandbuch 

[3, 5], das sich auch zum Einstieg ins Data Mining eignet sowie das Whitepaper 

“How to Extend RapidMiner” [6] wenn Sie eigene Verfahren in RapidMiner 

implementieren möchten. 

Des Weiteren freut sich das Rapid-I-Team über jeden Kontakt und hilft gerne 

bei der Umsetzung von Projekten im akademischen Umfeld. Rapid-I beteiligt 

sich an Forschungsprojekten und richtet jährlich die RapidMiner Benutzerkonferenz 

RCOMM (RapidMiner Community Meeting and Conference) aus. Sollten 

Sie also mit RapidMiner oder RapidAnalytics Ergebnisse erzielen, die Sie einem 

interessierten Publikum vorstellen möchten, denken Sie doch über die Einreichung 

eines Papiers nach. 

VI

Inhaltsverzeichnis 

1 Einführung 1 

1.1 Das Programm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 

1.2 Das Umfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

1.3 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

2 Die Anwendungsfälle 9 

2.1 Evaluierung von Lernverfahren . . . . . . . . . . . . . . . . . . . . 10 

2.1.1 Performance-Evaluation und Kreuzvalidierung . . . . . . . 10 

2.1.2 Vorverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . 11 

2.1.3 Parameteroptimierung . . . . . . . . . . . . . . . . . . . . . 12 

2.2 Implementierung neuer Algorithmen . . . . . . . . . . . . . . . . . 17 

2.2.1 Der Operator . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

2.2.2 Das Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

2.2.3 Die Integration in RapidMiner . . . . . . . . . . . . . . . . 21 

2.3 RapidMiner für die deskriptive Analyse . . . . . . . . . . . . . . . 21 

2.3.1 Datentransformationen . . . . . . . . . . . . . . . . . . . . . 22 

2.3.2 Reporting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 

3 Transparenz von Veröffenlichungen 33 

3.1 Rapid-I Marketplace: App Store für RapidMiner-Erweiterungen . . 34 

3.2 Prozesse veröffentlichen auf myExperiment . . . . . . . . . . . . . 35 

3.3 Verfügbarmachen der Daten . . . . . . . . . . . . . . . . . . . . . . 38 

4 RapidMiner in der Lehre 41 

VII

Inhaltsverzeichnis 

5 Forschungsprojekte 43 

VIII

1 Einführung 

Wir möchten an dieser Stelle nicht voraussetzen, dass der Leser bereits mit RapidMiner 

vertraut ist oder es bereits verwendet hat. Daher wird in diesem ersten 

Teil genauer auf das Programm, seine Funktionen und die Art und Weise, wie 

diese eingesetzt werden können, eingegangen. Außerdem beschreiben wir kurz, 

welche Möglichkeiten es gibt, mit der Community in Kontakt zu treten um Hilfe 

zu bekommen oder selbst beizutragen. Abschließend erwähnen wir einige der 

wichtigsten Begriffe aus dem Bereich Data Mining, die in späteren Kapiteln vorausgesetzt 

werden. 

1.1 Das Programm 

RapidMiner ist unter der GNU Affero General Public License Version 3 lizensiert 

und mittlerweile in der Version 5.2 verfügbar. Ursprünglich wurde es seit 

2001 am Lehrstuhl für künstliche Intelligenz an der Universität Dortmund unter 

dem Namen ” 

Yale“ entwickelt. Seit 2007 wird das Programm von der Rapid- 

I GmbH, gegründet von ehemaligen Lehrstuhlmitarbeitern, fortgeführt und hat 

sich seitdem rasant entwickelt. Mit RapidAnalytics steht seit 2010 eine entsprechende 

Serverversion bereit, die die Kollaboration und das effiziente Nutzen von 

Rechnerresourcen ermöglicht. 

RapidMiner verfügt über ein komfortables Benutzerinterface, in dem Analysen 

in einer Prozessansicht konfiguriert werden. RapidMiner verwendet dazu ein modulares 

Konzept, bei dem jeder Schritt einer Analyse, z.B. ein Vorverarbeitungs- 

1

1. Einführung 

Abbildung 1.1: Ein einfacher Prozess mit exemplarischen Operatoren zum Laden, 

Vorverarbeiten und Modellerzeugung 

schritt oder ein Lernverfahren, durch einen Operator im Analyseprozess abgebildet 

wird. Diese Operatoren besitzen Ein- und Ausgabeports, über die sie mit den 

anderen Operatoren kommunizieren können, um Eingabedaten zu erhalten oder 

die veränderten Daten und generierte Modelle an nachfolgende Operatoren weiterzureichen. 

So ergibt sich ein Datenfluss durch den gesamten Analyseprozess, 

wie beispielhaft in Abbildung 1.1 zu sehen ist. Dabei gibt es neben Datentabellen 

und Modellen zahlreiche anwendungsspezifische Objekte, die durch den 

Prozess fließen können. In der Textanalyse werden ganze Dokumente weitergeleitet, 

Zeitreihen können durch spezielle Transformationsoperatoren geführt werden 

oder es werden einfach Vorverarbeitungsmodelle, wie eine Normalisierung, 

an einen Speicheroperator weitergereicht, um dieselbe Transformation später auf 

anderen Daten reproduzieren zu können. 

Durch sogenannte Super-Operatoren, die ihrerseits wieder einen kompletten Subprozess 

enthalten können, lassen sich so auch komplexeste Analysesituationen 

und -bedürfnise bedienen. Ein bekanntes Beispiel ist die Kreuzvalidierung, die 

zwei Subprozesse beinhaltet. Ein Subprozess ist dafür zuständig, ein Modell aus 

den jeweiligen Trainingsdaten zu erzeugen, während der zweite Subprozess dieses 

Modell und etwaige andere generierte Ergebnisse übergeben bekommt, um sie auf 

die Testdaten anzuwenden und die jeweilige Güte des Modells zu messen. Eine 

typische Anwendung sehen wir in Abbildung 1.2, in der ein Entscheidungsbaum 

auf den Trainingsdaten generiert wird, im Testsubprozess ein Operator das Mo- 

2

1.1. Das Programm 

Abbildung 1.2: Die inneren Subprozesse einer Kreuzvalidierung 

del anwendet und ein weiterer die Güte anhand der Vorhersage und der wahren 

Klasse bestimmt. 

Repositories erlauben es dem Benutzer, Analyseprozesse, Daten und Ergebnisse 

projektspezifisch zu speichern und sie gleichzeitig immer im Blick zu haben (siehe 

dazu Abbildung 1.3). So lässt sich ein bereits erstellter Prozess bei einem ähnlichen 

Problem schnell wiederverwenden, ein einmal generiertes Model laden und 

anweden oder einfach nur ein Blick auf die erzielten Analyseergebnisse werfen, 

um die erfolgsversprechendste Methode zu finden. Per Drag and Drop lassen sich 

die Ergebnisse auf Prozesse ziehen, in denen sie von speziellen Operatoren wieder 

geladen und dem Prozess zur Verfügung gestellt werden. 

Neben den lokalen Repositories, die im Dateisystem des Computers abgelegt werden, 

können auch RapidAnalytics-Instanzen als Repository benutzt werden. Da 

der Server RapidAnalytics über ein umfangreiches Benutzerrechtemanagement 

verfügt, können hierüber Prozesse und Ergebnisse geteilt oder der Zugriff für 

Personen oder Personengruppen beschränkt werden. 

Die von RapidAnalytics bereitgestellten Repositories stellen eine weitere Funktion 

bereit, die das Durchführen von Analysen deutlich erleichtert. Der Benutzer 

kann die Prozesse dort nicht nur speichern, sondern sie auch von der Rapid- 

Analytics-Instanz mit dem gewohnten Komfort ausführen lassen. Dadurch wird 

die Analyse vollständig im Hintergrund ausgeführt und der Benutzer kann sich 

durch eine Statusanzeige über den Analyseverlauf informieren. Im Vordergrund 

3


Abbildung 1.3: Ein gut gefülltes Repository 

4

1.1. Das Programm 

Abbildung 1.4: Ein Prozess, der mehrfach auf einer RapidAnalytics-Instanz gestartet 

wurde. Einige durchläufe sind bereits beendet und haben 

Ergebnisse produziert. 

kann der Benutzer gleichzeitig weiterarbeiten, ohne dass sein Computer durch 

rechen -und speicherintensive Berechnungen belastet wird. Alle Berechnungen 

erfolgen jetzt auf dem möglicherweise deutlich leistungsfähigeren Server im Hintergrund, 

wie in Abbildung 1.4 zu sehen. Dies ermöglicht auch den effizienteren 

Einsatz der Hardwareresourcen, da nur noch ein von allen Analysten gemeinsam 

genutzter, potenter Server benötigt wird, um speicherintensive Berechnungen 

durchzuführen. 

Neben den Kernkomponenten von RapidMiner existieren zahlreiche Erweiterungen, 

sogenannte Extensions, die weitere Funktionen nachrüsten, wie das Verarbeiten 

von Texten, Zeitreihen oder eine Anbindung an das Statistikpaket R [1] oder 

an Weka [2]. Alle diese Erweiterungen nutzen die umfangreichen Möglichkeiten, 

die RapidMiner bietet, und ergänzen diese: Sie ergänzen nicht nur Operatoren 

und neue Datenobjekte, sondern stellen auch neue Ansichten zur Verfügung, die 

sich frei in die Benutzeroberfläche integrieren lassen, oder ergänzen gar ganze 

Perspektiven, in denen sie ihre Ansichten bündeln können wie die R Erweiterung 

in Abbildung 1.5. 

5


Abbildung 1.5: Die R Perspektive in RapidMiner 

1.2 Das Umfeld 

RapidMiner und RapidAnalytics stehen natürlich nicht alleine. Keine Software 

existiert ohne ihre Entwickler und kein Open-Source Projekt wird Erfolg haben 

ohne eine lebendige Community. Die wichtigste Anlaufstelle für Communitymitglieder 

und solche, die es werden wollen, ist das Forum unter http: 

//forum.rapid-i.com, das von Rapid-I bereitgestellt und moderiert wird. Hier 

finden sowohl Anfänger als auch Fortgeschrittene und Entwickler, die RapidMiner 

in ihre eigenen Open-Source-Projekte integrieren möchten oder eigene Erweiterungen 

bereit stellen wollen, Antworten auf ihre Fragen. Jeder ist herzlich 

eingeladen an diesem internationalen Austausch teilzunehmen. 

Für alle, die sich auf einem Themengebiet speziell engagieren wollen, eigenen 

Code zur Verfügung stellen wollen, oder eigene Erweiterungen veröffentlichen 

möchten, bietet es sich an, Mitglied in einer der Special Interest-Gruppen zu 

werden, die sich jeweils auf ein Thema wie Textanalyse, Informationsextraction 

oder Zeitreihenanalyse konzentrieren. Da auch Rapid-I-Entwickler an diesem Aus- 

6

1.3. Terminologie 

tausch teilnehmen, fließen hier diskutierte Themen direkt in die weitere Entwicklungsplanung 

mit ein. Möchte jemand seine eigene Erweiterung einer größeren 

Öffentlichkeit zugänglich machen, existiert mit dem Marketplace die notwendige 

Plattform dafür (siehe Abschnitt 3.1). Hier können Benutzer ihre Erweiterungen 

anbieten und aus den angebotenen Erweiterungen anderer Benutzer auswählen. 

RapidMiner wird, falls gewünscht, beim nächsten Start die ausgewählten Erweiterungen 

automatisch nachinstallieren. 

Ergänzend dazu bietet Rapid-I natürlich auch professionelle Dienstleistungen im 

Umfeld von RapidMiner und RapidAnalytics an. Neben Support für RapidMiner 

und RapidAnalytics werden auch Schulungen, Beratung und individuelle Entwicklung 

rund um das Thema Datenanalyse angeboten. 

1.3 Terminologie 

Bevor wir mit dem technischen Teil beginnen, ist es hilfreich einige Begriffe zu 

klären. RapidMiner verwendet eine Terminologie, die dem Bereich des maschinellen 

Lernens entspringt. Dort ist eine typische Zielstellung, auf Grund einer 

Reihe von Beobachtungen, für die eine gewisse Zielgröße bekannt ist, Vorhersagen 

für Beobachtungen zu machen, bei denen diese Zielgröße nicht bekannt ist. 

Jede Beobachtung bezeichnen wir als Beispiel, englisch example. Jedes Beispiel 

hat mehrere Attribute, in der Regel Zahlenwerte oder kategorische Werte wie 

z.B. Alter oder Geschlecht. Eines dieser Attribute ist die Zielgröße, auf die sich 

unsere Analyse bezieht. Oft wird dieses Attribut englisch als label bezeichnet. Alle 

Beispiele zusammen bilden eine Beispielmenge, englisch example set. Schreibt 

man alle Beispiele mit Ihren Attributen untereinander, erhält man nichts anderes 

als eine Tabelle. Statt ” 

Beispielmenge“ könnten wir also ” 

Tabelle“ sagen, 

statt ” 

Beispiel“ ” 

Zeile“ und statt ” 

Attribut“ ” 

Spalte“. Für das Verständnis der 

in RapidMiner verwendeten Operatornamen ist die Kenntnis der oben genannten 

Begriffe allerdings hilfreich. 

7

2 Die Anwendungsfälle 

Nach der Lektüre des ersten Abschnitts haben Sie vielleicht schon die eine oder 

andere Idee bekommen, warum sich der Einsatz von RapidMiner für Sie lohnen 

könnte. Hier soll nun genauer auf die Möglichkeiten eingegangen werden, die 

RapidMiner in verschiedenen Anwendungsfällen bietet. Es sollen an dieser Stelle 

zwei mögliche Anwendungen im akademischen Umfeld vorgestellt werden: Die 

erste bezieht sich speziell auf Forscher, die Data-Mining-Verfahren evaluieren 

wollen. In Abschnitt 2.1 zeigen wir, wie dies mit bereits vorhandenen Algorithmen 

in RapidMiner realisiert werden kann. Im Anschluss zeigen wir in Abschnitt 2.2, 

wie selbst entwickelte Algorithmen in RapidMiner integriert werden können und 

so als Teil dieser Analyse genutzt werden können. 

Natürlich dient Data Mining nicht nur als Selbstzweck, sondern kann auch angewendet 

werden. In Abschnitt 2.3 zeigen wir, wie sich mit RapidMiner Daten aus 

Anwendungsdisziplinen analysieren lassen. 

Alle hier erwähnten Prozesse befinden sich in einem Beispielrepository, das unter 

http://rapid-i.com/downloads/documentation/academia/repository_de.zip 

zum Download bereitsteht. Um es zu verwenden, muss die ZIP-Datei extrahiert 

werden und das so entstandene Verzeichnis als lokales Repository zu RapidMiner 

hinzugefügt werden. Klicken Sie dazu in der Werkzeugleiste der Ansicht Repositories 

auf die erste Schaltfläche und wählen Sie “New local repository”. Anschließend 

geben Sie den Namen des Verzeichnisses an. Alle Beispielprozesse finden Sie 

nun im Repository-Baum, der in dieser Ansicht angezeigt wird. 

Bei der Lektüre dieses Kapitels empfiehlt es sich, die in diesem Repository enthal- 

9

2. Die Anwendungsfälle 

tenen Prozesse in RapidMiner zu öffnen um ihre Funktionsweise nachzuvollziehen. 

RapidMiner kann dazu unter http://www.rapidminer.com heruntergeladen 

werden. Als Einstieg empfiehlt sich außerdem das RapidMiner Benutzerhandbuch 

[3]. 

2.1 Evaluierung von Lernverfahren 

Eine typische und wiederkehrende Aufgabe im Bereich des maschinellen Lernens 

ist es, zwei oder mehr Lernverfahren miteinander zu vergleichen. Dies kann erfolgen, 

um zu untersuchen, welche Verbesserungen sich durch neue Verfahren 

erzielen lassen, kann aber auch einfach dazu dienen, für einen Anwendungsfall 

ein geeignetes Verfahren auszuwählen. In diesem Abschnitt zeigen wir, wie dies 

mit RapidMiner möglich ist. 

2.1.1 Performance-Evaluation und Kreuzvalidierung 

Die zahlreichen Operatoren, die maschinelle Lernverfahren auf Datensätze anwenden, 

lassen sich einfach im Zusammenspiel mit anderen Operatoren nutzen. Typische 

Beispiele von Operatoren, die bei der Evaluierung von Lernverfahren zum 

Einsatz kommen, sind Kreuzvalidierung, Operatoren zur Berechnung von Standardgütemaßen, 

Parameteroptimierungen und nicht zuletzt Logging-Operatoren, 

um Profile der Leistung des Verfahrens zu erstellen. Da RapidMiner Schleifen 

unterstützt, können auch Prozesse erstellt werden, die das neue Verfahren an 

mehreren Datensätzen anwenden und mit anderen Verfahren vergleichen. Ein 

Prozess, der eine solche Validierung des eigenen Verfahrens ermöglicht, befindet 

sich im Beispielrepository. 

Wenn man den Prozess 00.1 - Loop Datasets betrachtet, besteht er vor allem aus 

drei Blöcken: Im ersten Block laden einige Operatoren eine Auswahl von Datensätzen, 

die dann mit dem Collect-Operator zu einer Collection zusammengefasst 

werden. Hier können natürlich beliebige eigene Datensätze geladen werden. 

Im zweiten Block wird über die Datensätze iteriert: Dazu wird der innere Prozess 

10

2.1. Evaluierung von Lernverfahren 

vom Loop Collection-Operator für jeden einzelnen Datensatz der Collection durchgeführt. 

Im Subprozess der Schleife wird der Datensatz direkt kopiert und zu drei 

Kreuzvalidierungen geführt. In jeder Kreuzvalidierung befindet sich ein anderes 

Lernverfahren. So wird die Performance aller drei Lernverfahren gegeneinander 

verglichen. 

Innerhalb der Schleife protokolliert ein Log-Operator die jeweiligen Ergebnisse 

der Verfahren. Dieses Protokoll wird im dritten Block in einen Datensatz umgewandelt, 

in dem alle Ergebnisse zusammengefasst werden. Er kann nun wie jeder 

andere Datensatz gespeichert, exportiert und betrachtet werden. 

Ganz ähnlich arbeitet der zweite Prozess 00.2 - Loop Files. Statt die Datensätze 

einzeln aus dem Repository zu laden, werden sie hier automatisch aus einer 

Sammlung von CSV-Dateien geladen. Liegen mehrere Datensätze vor, lassen sie 

sich so einfach und automatisiert zum Testen verwenden. Der Rest des Prozesses 

kann hierbei unverändert bleiben. Natürlich können so auch andere Aufgaben 

erledigt werden, wie zum Beispiel das Überführen der Datensätze in das Repository. 

2.1.2 Vorverarbeitung 

In vielen Fällen benötigen Verfahren zunächst Vorverarbeitungsschritte, um mit 

den Daten überhaupt umgehen zu können. Wollen wir den Operator k-NN für das 

k-Nächste-Nachbarn-Verfahren verwenden, müssen wir zum Beispiel beachten, 

dass Skalenunterschiede in den einzelnen Attributen dafür sorgen können, dass ein 

einziges Attribut wichtiger wird als alle anderen und die Nachbarschaftsrelation 

im euklidischen Raum dominiert. Daher müssen wir in diesem Fall die Daten 

durch das Hinzufügen eines Normalize-Operators zunächst normalisieren. 

Fügen wir den Normalize Operator allerdings vor der Kreuzvalidierung hinzu, werden 

alle Daten zur Bestimmung des Mittelwerts und der Standardabweichung benutzt. 

Dadurch steckt im Trainingsteil des normalisierten Datensatzes innerhalb 

der Kreuzvalidierung allerdings implizit schon Wissen über den Testteil. Eventuelle 

Ausreißer, die lediglich im Testteil des Datensatzes vorhanden sind, haben ja 

bereits die Skalierung beeinflusst, weshalb die Attribute anders gewichtet werden. 

11


Dies ist ein häufiger Fehler, der zu statistisch invaliden Güteabschätzungen führt. 

Um das zu verhindern, müssen wir sämtliche Vorverarbeitungsschritte mit in die 

Kreuzvalidierung hereinziehen und im Trainingssubprozess durchführen. Führen 

wir keine weitere Anpassung im Prozess durch, wird das im Trainingsprozess generierte 

Modell im Testprozess natürlich mit den noch nicht normalisierten Daten 

konfrontiert. Deshalb bieten alle Vorverarbeitungsoperatoren, deren Ergebnisse 

von den verarbeiteten Daten abhängen, sogenannte Vorverarbeitungsmodelle 

(Preprocessing Model) an. Diese können verwendet werden, um eine identische 

Transformation erneut auszuführen. Bei der Normalisierung wird also mit den 

gleichen Mittelwerten und Standardabweichungen transformiert, statt diese auf 

den aktuellen Daten neu zu berechnen. 

Um diese Modelle zu verwenden, müssen sie lediglich aus dem Trainings- in den 

Testsubprozess der Kreuzvalidierung übergeben werden. Dort können sie mit einem 

gewöhnlichen Apply Model-Operator, wie im Prozess 00.3 - Include Preprocessing 

in Validation, angewendet werden, bevor das eigentliche Modell angewendet 

wird. 

2.1.3 Parameteroptimierung 

Es ist also insgesamt sehr einfach, in RapidMiner eine echte Validierung eines 

Verfahrens durchzuführen. Allerdings besitzt fast jedes Verfahren bestimmte Parameter, 

anhand derer sich die Qualität der Modelle beeinflussen lässt. Je nach 

Einstellung werden die Ergebnisse besser oder schlechter sein. Soll also gezeigt 

werden, dass ein neues Verfahren einem existierenden überlegen ist, darf man 

nicht einfach nur die Parameter des eigenen Verfahrens optimieren oder gar die 

Parameter willkürlich setzen. Gerade die Leistung von Verfahren wie der Support 

Vector Machine oder einem neuronalen Netz hängen sehr stark von den 

Parametereinstellungen ab. 

Deswegen bietet RapidMiner die Möglichkeit, automatisiert nach den besten Parametereinstellungen 

zu suchen. Dazu verwendet man einen der Optimize Parameters-Operatoren. 

Am einfachsten lässt sich der Operator Optimize Parameters 

(Grid) kontrollieren. Dieser iteriert über eine zuvor vom Benutzer definierte An- 

12


zahl von Kombinationen der zu optimierenden Parameter. Für jede Parameterkombination 

führt er seinen inneren Subprozess aus. Entsprechend können auch 

nur Parameter von Operatoren dieses Subprozesses optimiert werden. Der Subprozess 

muss dabei einen Performance Vector (z.B. die Accuracy) zurückliefern, 

anhand dessen Optimize Parameters die Güte der aktuellen Kombination erkennen 

kann. Der Optimize Parameters-Operator liefert, nachdem er alle Parameterkombinationen 

getetst hat, diejenige zurück, in deren Durchlauf die gemessene 

Performanz maximal war. 

Ist man nicht nur an dem Ergebnis der besten Kombination interessiert, sondern 

zum Beispiel am generellen Verlauf, dann lohnt sich der Einsatz eines Log- 

Operators. Wird dieser ausgeführt, schreibt er eine neue Zeile in sein Protokoll, 

das alle Werte enthält, die vom Benutzer angegeben werden. Diese Werte können 

entweder die aktuellen Werte beliebiger Parameter beliebiger Operatoren im Prozess 

sein oder spezielle Werte, die von Operator zu Operator variieren. Alle Operatoren 

geben beispielsweise an, wie häufig sie bereits ausgeführt wurden, die 

Ausführungszeit und Ähnliches. Darüber hinaus geben einige Operatoren zusätzliche 

Informationen. Beispielsweise liefert die Kreuzvalidierung die Güte und deren 

Standardabweichung, die bei der letzten Ausführung erreicht wurden. Ein 

Beispiel, das eine solche Optimierung vornimmt und dabei alle Kombinationen 

protokolliert, findet sich im Prozess 00.4 - Optimize Parameters. 

Eine weitere Anwendung für den Log-Operator findet sich im Prozess 00.5 - Create 

Learning Curve. Dieser untersucht, wie sich ein Lernverfahren bei unterschiedlichen 

Größen des Trainingsdatensatzes verhält. Dazu wird mit einem Sample- 

Operator eine Stichprobe einer bestimmten Größe des gesamten Datensatzes gebildet. 

Auf dieser Stichprobe kann nun die Güte des Verfahrens mit Hilfe der 

Kreuzvalidierung bestimmt werden. Da die Güte dadurch sehr stark von der 

gezogenen Stichprobe abhängt, müssen wir dieses mehrmals durchführen, um 

zufällige Abweichungen in einer Stichprobe auszugleichen. Dabei gilt: Je kleiner 

der Ursprungsdatensatz, desto mehr Wiederholungen sind notwendig. Um einen 

Teil eines Prozesses mehrmals auszuführen, kann der Loop-Operator verwendet 

werden. Er bietet mit dem Parameter iterations die Möglichkeit, anzugeben, wie 

häufig sein Subprozess ausgeführt werden soll. 

13


Dieser ganze Vorgang muss natürlich für alle verschiedenen Stichprobengrößen 

durchgeführt werden. Dafür verwenden wir den Loop Parameters-Operator, mit 

dem wir konfigurieren können, mit welchen Parameterkombinationen sein Subprozess 

ausgeführt werden soll. In diesem Fall variieren wir schrittweise den Parameter 

sample ratio des Sample-Operators im Subprozess zwischen einem und 

hundert Prozent. Wir erhalten also eine sehr feine Kurve. Falls die Untersuchung 

zu lange dauert, lässt sich die Schrittanzahl reduzieren, so dass der Subprozess 

weniger häufig ausgeführt werden muss. 

Innerhalb des Subprozesses des Loop-Operators müssen wir jetzt nur noch die 

jeweils aktuelle sample ratio und die erzielte Accuracy messen. Da wir für jede 

sample ratio aber mehrere Ergebnisse erhalten, müssen wir noch einen Nachverarbeitungsschritt 

einführen, um den Durchschnitt und die Standardabweichung 

der Güte über die verschiedenen Samples zu bestimmen. Dazu wird in diesem 

Prozess mit dem Operator Log to Data das Protokoll in ein Example Set verwandelt, 

so dass wir anschließend über die Samplegrößen aggregieren und den 

Durchschnitt und die Standardabweichung bestimmen können. Dadurch ergibt 

sich ein Datensatz, von dem wir die Güte in Abhängigkeit von der Größe des 

Trainingsdatensatzes ablesen können. Um diesen für eine Veröffentlichung zu visualisieren, 

können wir die Advanced Charts-Ansicht verwenden. Ein mögliches 

Ergebnis könnte dann aussehen wie in Abbildung 2.1. 

Wollen wir nicht nur die binäre Entscheidung eines Modells begutachten, sondern 

auch, wie die Konfidenzen verteilt werden, lohnt sich ein Blick auf den ROC- 

Plot, der die sogenannte Receiver Operator Characteristic visuell darstellt. Dabei 

gilt, dass Kurven, die weiter oben links verlaufen, besser sind, als Kurven weiter 

unten. Der perfekte Klassifikator würde eine Kurve erzeugen, die vom Ursprung 

aus senkrecht nach oben bis zur 1 verläuft und von dort waagerecht nach rechts. 

In RapidMiner lässt sich eine solche Kurve sehr einfach erzeugen und auch sehr 

einfach mit anderen Verfahren vergleichen. Dazu muss lediglich der Testdatensatz 

geladen werden und an den Eingansport eines Compare ROCs-Operators gelegt 

werden. Alle zu testenden Lernverfahren können daraufhin in den Subprozess 

eingefügt werden. Die Ergebnisse der Verfahren werden gemeinsam in einem Plot 

dargestellt, wie in Abbildung 2.2 gezeigt. Die halbtransparenten Bereiche geben 

14


Abbildung 2.1: Eine Grafik, die die Güte der Ergebnisse visualisiert 

15


Abbildung 2.2: Ein ROCChart zum Vergleich dreier Modelle 

die Standardabweichung an, die sich über die verschiedenen Durchläufe der intern 

verwendeten Kreuzvalidierung ergibt. Ein Beispiel für den Vergleich von Naive 

Bayes, Decision Tree und einem Rule Set finden sich im Prozess 00.6 - Comparing 

ROCs. 

Zu guter Letzt sollte man beachten, dass alle Plots und Ergebnisse von zufälligen 

Schwankungen abhängen können. Daher sollte man sich nicht alleine auf ein Vergleich 

der Gütekriterien verlassen, sondern auch testen, ob Unterschiede signifikant 

sind. In RapidMiner können dafür die Ergebnisse mehrerer Kreuzvalidierung 

einfach an einen T-Test oder Anova-Operator angelegt werden. Man erhält dann 

eine Tabelle, die die jeweiligen Testresultate anzeigt. Das Signifikanzniveau kann 

dabei als Parameter angegeben werden. Ein Prozess, der diese Tests beispielhaft 

auf mehreren Datensätzen durchführt findet sich in 00.7 - Significance Test. 

16

2.2. Implementierung neuer Algorithmen 

2.2 Implementierung neuer Algorithmen 

Wir haben nun gesehen, wie sich Algorithmen vergleichen lassen. Um allerdings 

neue, d.h. selbst entwickelte, Algorithmen auf diese Weise evaluieren zu können, 

müssen diese natürlich in RapidMiner integriert werden. Ursprünglich wurde RapidMiner 

genau für diese Anwendung entwickelt: Neue Algorithmen sollten komfortabel, 

schnell und einfach mit anderen Algorithmen verglichen werden können. 

Das Implementieren neuer Lernverfahren in RapidMiner ist denkbar einfach. Es 

ist lediglich notwendig, zwei Java-Klassen zu erstellen, von denen eine das Lernen 

auf dem Trainingsdatensatz durchführt, also das Schätzen der Modellparameter 

übernimmt. Die andere Klasse muss diese Parameter speichern das Modell auf 

neuen Daten anwenden. Im Folgenden wird dies kurz anhand eines fiktiven Lernverfahrens 

vorgestellt. 

Dieser Abschnitt soll keine vollständige Einführung in die Programmierung mit 

RapidMiner sein. Sie soll nur kurz einige Prinzipien anreißen und zeigen, wie einfach 

sich neue Operatoren in das Framework integrieren lassen, so dass Sie die im 

vorhergehenden Abschnitt beschriebenen Evaluierungsverfahren auf Ihre eigenen 

Algorithmen anwenden können. Eine vollständige Dokumentation für Entwickler 

von RapidMiner-Erweiterungen findet sich im White Paper “How to extend 

RapidMiner” [6] und in der API-Dokumentation [4]. Sind Sie kein Entwickler, 

sondern wollen RapidMiner aus Anwendersicht kennen lernen, können Sie diesen 

Abschnitt getrost überspringen. 

2.2.1 Der Operator 

Um ein Lernverfahren in RapidMiner anwenden zu können, muss es wie jeder 

andere Analyseschritt von einem Operator bereit gestellt werden. Dazu müssen 

wir lediglich eine neue Subklasse von Operator erstellen. Für viele Arten von 

Operatoren existieren spezialisierte Unterklassen, die bereits diverse Funktionen 

bereitstellen. In unserem Fall ist dies die Klasse AbstractLearner, von der alle 

überwachten Lernverfahren erben. Eine beispielhafte Implementierung eines 

solchen Verfahrens ist in Abbildung 2.3 zu sehen. 

17


1 public class MyLearner extends AbstractLearner { 

2 

3 public s t a t i c void S t r i n g PARAMETER ALPHA = ” alpha ” ; 

4 

5 /** Constructor called via reflection . */ 

6 public MyLearner ( O p e r a t o r D e s c r i p t i o n d e s c r i p t i o n ) { 

7 super ( d e s c r i p t i o n ) ; 

8 } 

9 

10 /** Main method generating the prediction model . */ 

11 @Override 

12 public Model l e a r n ( ExampleSet data ) throws OperatorException { 

13 // Obtain user - specified parameter 

14 int alpha = getParameterAsInt (PARAMETER ALPHA) ; 

15 MyPredictionModel model ; 

16 // use data to create prediction model here 

17 return model ; 

18 } 

19 

20 /** Define user - configurable parameters here . */ 

21 @Override 

22 public L i s t getParameterTypes ( ) { 

23 L i s t parameterTypes = super . getParameterTypes ( ) ; 

24 parameterTypes . add (new ParameterTypeInt ( ” alpha ” , 

25 ”The parameter alpha ” , 0 , 100 , 10) ) ; 

26 return parameterTypes ; 

27 } 

28 

29 /** Tell the user what kind of input the algorithm supports . */ 

30 @Override 

31 public boolean s u p p o r t s C a p a b i l i t y ( O p e r a t o r C a p a b i l i t y c a p a b i l i t y ) { 

32 switch ( c a p a b i l i t y ) { 

33 case NUMERICAL ATTRIBUTES: 

34 case BINOMINAL LABEL: 

35 return true ; 

36 } 

37 return f a l s e ; 

38 } 

39 } 

Abbildung 2.3: Eine beispielhafte Implementierung eines Lernverfahrens in 

RapidMiner 

18

2.2. Implementierung neuer Algorithmen 

Im Wesentlichen muss nur eine einzige Methode implementiert werden, die das 

Training durchführt und anschließend ein Modell mit den geschätzten Modellparametern 

zurückliefert, learn(). Als Eingabe erhält sie eine Datentabelle in 

Form eines ExampleSets. 

In der Regel wird ein Lernverfahren dem Benutzer verschiedene Optionen bieten, 

um sein Verhalten zu konfigurieren. Im Falle eines k-Nächste-Nachbarn- 

Verfahrens wäre die Anzahl der Nachbarn k eine solche Option. Diese heißen 

in RapidMiner Parameter und sollten nicht mit den Modellparametern (beispielsweise 

die Koeffizientenmatrix einer linearen Regression) verwechselt werden. 

Jeder Operator kann diese Parameter durch Überschreiben der Methode 

getParameterTypes() spezifizieren. Dabei kann der Wertebereich (Zahl aus einem 

bestimmten Intervall, Zeichenkette, Auswahl aus einer Menge möglicher 

Werte, usw.) festgelegt werden. Das Benutzerinterface von RapidMiner stellt 

dann für die Konfiguration des Operators automatisch geeignete Eingabefelder 

zur Verfügung. Die vom Benutzer gewählten Parameterwerte können dann beispielsweise 

in der Methode learn() abgefragt und verwendet werden. In unserem 

Beispiel definiert der Operator einen Parameter mit dem Namen alpha. 

Die RapidMiner-API bietet zahlreiche Möglichkeiten, den Benutzer beim Prozessdesign 

zu unterstützen, beispielsweise durch frühzeitige und hilfreiche Fehlermelungen. 

Beispielsweise kann man durch Überschreiben der Methode supportsCapability() 

spezifizieren, mit welchen Daten das Lernverfahren umgehen kann. 

Liegen unpassende Daten vor, wird automatisch eine passende Fehlermeldung geliefert 

und entsprechende Lösungsvorschläge unterbreitet. Dies kann bereits zur 

Prozessdesign-Zeit erfolgen und erfordert nicht das testweise Ausführen des Prozesses. 

In unserem Beispiel kann der Algorithmus nur mit einem Zwei-Klassen- 

Problem und numerischen Einflussgrößen umgehen. 

2.2.2 Das Modell 

Nun muss nur noch das Modell implementiert werden, welches die geschätzten 

Modellparameter speichert und diese benutzt, um Vorhersagen mit dem Modell 

machen zu können. In der Klassenhierarchie muss die neue Klasse unterhalb von 

19


1 public class MyPredictionModel extends PredictionModel { 

2 

3 private int alpha ; 

4 private double [ ] estimatedModelParameters ; 

5 

6 protected MyFancyPredictionModel ( ExampleSet trainingExampleSet , 

7 int alpha , 

8 double [ ] estimatedModelParameters ) { 

9 super ( trainingExampleSet ) ; 

10 this . alpha = alpha ; 

11 this . estimatedModelParameters = estimatedModelParameters ; 

12 } 

13 

14 @Override 

15 public ExampleSet p e r f o r m P r e d i c t i o n ( ExampleSet exampleSet , 

A t t r i b u t e p r e d i c t e d L a b e l ) throws OperatorException { 

16 // iterate over examples and perform prediction 

17 return exampleSet ; 

18 } 

19 } 

Abbildung 2.4: Eie beispielhafte Implementierung eines Vorhersagemodells 

Model angeordnet werden. Für ein Vorhersagemodell bietet es sich an, entweder 

PredictionModel oder SimplePredictionModel zu erweitern, die ein vereinfachtes 

Interface bereitstellen. Eine solche Klasse ist in Abbildung 2.4 skizziert. 

Im Wesentlichen muss die Methode learn() implementiert werden, indem über 

das ExampleSet iteriert wird und mittels der geschätzten Modellparameter ein 

Vorhersageattribut generiert wird. In unserer learn()-Methode könnten wir ein 

solches Modell instanziieren und zurückgeben. 

Über die Möglichkeit der Anwendung zur Vorhersage hinaus bieten viele Modelle 

einen für den Benutzer interpretierbaren Erkenntnisgewinn. Dazu sollte das 

Modell auf geeignete Weise visualisiert werden, was über einen Renderer erfolgen 

kann. Details dazu befinden sich in der API-Dokumentation [4] der Klasse 

RendererService und im WhitePaper “How to extend RapidMiner” [6]. 

20

2.3. RapidMiner für die deskriptive Analyse 

2.2.3 Die Integration in RapidMiner 

Um den Operator in RapidMiner verfügbar zu machen, müssen die Klassen in 

eine Extension eingebunden werden. Dazu werden die implementierten Operatoren 

in einer XML-Konfigurationsdatei gelistet, so dass sie von RapidMiner an 

der richtigen Stelle im Operatorbaum eingehängt werden können. Es existiert zu 

diesem Zweck ein Template-Projekt, das sich beispielsweise in Eclipse importieren 

lässt und ein entsprechendes Ant-Skript zum Bauen der Extension enthält. 

Es stellt auch zahlreiche Möglichkeiten zur Verfügung, um komfortabel Dokumentation 

und andere Elemente zu erstellen. Die erzeugte Jar-Datei kopieren Sie 

einfach in das Plugins-Verzeichnis von RapidMiner, und schon steht Ihre Erweiterung 

zur Verfügung. Auch dies ist ausführlich im WhitePaper “How to extend 

RapidMiner” [6] beschrieben 

2.3 RapidMiner für die deskriptive Analyse 

Obwohl die Hauptanwendung von RapidMiner im Bereich der schließenden Statistik 

liegt, können die zahlreichen Möglichkeiten in der Vorverarbeitung auch in 

der deskriptiven Statistik sehr nützlich sein. Die Herangehensweise der Prozessmetapher 

bietet dabei ganz andere Möglichkeiten, komplexere Datenstrukturen 

zu bearbeiten, als dies bei herkömmlichen Statistiklösungen der Fall ist. Handelt 

es sich zum Beispiel um regelmäßig erhobene Daten, kann so der Verabeitungsprozess 

ohne Analyseaufwand weitestgehend automatisiert werden. 

Ist man vom Erstellen von Skripten nicht abgeschreckt, bietet die R Extension 

von RapidMiner Zugriff auf alle statistischen Funktionen, die das weltweit verbreitetste 

Statistiktool bietet. Diese können auch direkt in den Prozess integriert 

werden, um die komplette Verarbeitung vollständig zu automatisieren. 

Im Weiteren werden wir einen Datensatz betrachten, der Angaben aus einem Fragebogen 

beinhaltet. Die Fragen wurden an verschiedenen Schulen verschiedener 

Schulformen erhoben, sowie an einer Universität. Uns stehen hier Angaben über 

das Geschlecht und das Alter der Befragten zur Verfügung, ansonsten bleiben 

21


Abbildung 2.5: Ein Ausschnitt der Beispieldaten 

die Daten anonymisiert. Alle Angaben wurden in einer Excel-Tabelle eingegeben, 

und wir haben diese Daten bereits über das File-Menü und den Eintrag 

Import Data im Repository als 01 - Questionare Results gespeichert. Jede Frage 

des Bogens hatte unterschiedlich viele Antworten, wobei nur jeweils eine Antwort 

angekreuzt werden durfte. Um Zeit während der manuellen Eingabe zu sparen, 

wurden die Antworten durchnummeriert und lediglich die Nummer der angekreuzten 

Antwort in der Tabelle angegeben. Eine 0 bezeichnet eine falsche oder 

fehlende Antwort. Einen Ausschnitt aus der Tabelle zeigt Abbildung 2.5. 

2.3.1 Datentransformationen 

In einer ersten Analyse wollen wir zunächst einmal nur eine grobe Übersicht 

über das allgemeine Antwortverhalten erlangen. Wir möchten hier zunächst alle 

22


Gruppen gemeinsam betrachten, d.h. keine Aufteilung nach Geschlecht oder Alter 

vornehmen. Unsere Ziel ist es, eine Tabelle zu erzeugen, in der jede Zeile eine Frage 

repräsentiert und jede Spalte eine Antwort. In den Zellen der Tabellen sollen die 

relativen Häufigkeiten der Antworten der jeweiligen Fragen angegeben werden. 

Da wir zunächst nicht gruppieren wollen, entfernen wir alle Spalten bis auf diejenigen, 

die die Antworten enthalten. Dazu verwenden wir den Operator Select 

Attributes, wie im Prozess 01.1.1 - Count Answers demonstriert. 

Während des Importierens haben wir die Spalten als numerischen Datentyp deklariert. 

Zwar handelt es sich um Ziffern, aber dennoch repräsentieren diese keinen 

numerischen Wert in dem Sinne, dass man mit ihnen Abstände bestimmen oder 

allgemeine Rechenoperationen ausführen könnte. Wir wollen daher zunächst den 

Datentypen der Spalte in einen kategorischen Typ verwandeln. In RapidMiner 

werden Attribute, die mehrere kategorische Ausprägungen annehmen können, 

als polynominal bezeichnet. Dazu verwenden wir den Operator Numerical to Polynominal. 

Um für jede Antwort eine eigene Spalte zu bekommen, können wir jetzt die polynominale 

Spalte in ein sogenanntes Dummy Encoding überführen. Diese Standardtechnik, 

die man häufig anwendet, wenn man nominale Werte numerisch repräsentieren 

möchte, führt für jeden nominalen Wert eine neue Spalte ein, die die 

Werte null oder eins annehmen kann. Eine Eins zeigt an, dass die ursprüngliche 

Spalte den nominalen Wert enthielt, den die neue Spalte repräsentiert. Entsprechend 

gibt es in jeder Zeile immer genau eine eins in den so erzeugten Spalten, 

wie man leicht an dem Ergebnis der Transformation in Abbildung 2.6 sieht. 

Sind wir an den durchschnittlichen Antworthäufigkeiten interessiert, müssen wir 

jetzt noch den Durchschnitt über alle abgegebenen Fragebögen berechnen, wozu 

das Anwenden des Aggregate-Operators mit der voreingestellten Aggregationsfunktion 

average genügt. Da wir den Durchschnitt über alle Zeilen berechnen 

wollen, wählen wir keine Attribute zur Gruppierung aus. So fallen jetzt alle Zeilen 

in eine Gruppe. Als Ergebnis erhalten wir eine Tabelle mit einer Zeile pro 

Gruppe, hier also nur einer einzigen Zeile, die die relative Antworthäufigkeit angibt. 

23


(a) Vor der Transformation 

(b) Nach der Transformation 

Abbildung 2.6: Dummycodierung des Antwortverhaltens 

Der Ablauf des Prozesses wird dabei durch Haltepunkte (Breakpoints) unterbrochen, 

so dass man wichtige Zwischenergebnisse, wie den Ausgangsdatensatz 

und die dummy-codierten Daten betrachten kann. Sie können durch wiederholtes 

Drücken der, nun grün dargestellten, Ausführen-Schaltfläche in der Hauptwerkzeugleiste 

die Ausführung des Prozesses fortsetzen. 

Weder für das menschliche Auge, noch für den Abdruck in einer Arbeit lässt sich 

dieses Ergebnis bisher verwenden. Natürlich könnte man jetzt diese Werte alle 

in eine Excel-Tabelle kopieren und sie sinnvoll manuell anordnen, aber da wir 

dieselben Zahlen noch für Subgruppen berechnen wollen, wäre es an dieser Stelle 

besser, direkt eine automatisierte Variante zu finden, da sie uns später viel Arbeit 

ersparen wird. 

Dazu wollen wir zunächst das überflüssige average aus den Spaltennamen entfernen. 

Dazu verwenden wir den Operator Rename by Replacing, wie im Prozess 

01.1.2 - Count Answers gezeigt. Wir fügen hier die Änderungen einfach an unseren 

Prozess an. Dieser Operator verwendet für die Umbenennung von Attributen 

sogenannte regulären Ausdrücke. Dabei handelt es sich um ein auch an anderer 

Stelle häufig verwendetes Werkzeug. Da im Internet zu diesem Thema zahlreiche 

gute Einführungen leicht zu finden sind, wird hier auf eine tiefergehende Erläuterung 

verzichtet. Sie können für ihre Experimente den Assistenten verwenden, der 

über die Schaltfläche neben dem Eingabefeld für den regulären Ausdruck zu er- 

24


reichen ist. Hier kann man einen Ausdruck auf eine Testzeichenkette anwenden 

und bekommt sofort Rückmeldung, ob und auf welchen Teil der Ausdruck passt. 

In unserem Beispiel ersetzen wir mittels einer sogenannten Capturing Group den 

Attributnamen durch den Inhalt der runden Klammern im Attributnamen. Aus 

average(Frage1) wird so Frage1. 

Im nächsten Schritt kommen wir zum Transpose-Operator, der die Datentabelle 

transponiert. Aus allen Spalten werden Zeilen, während jede Zeile eine Spalte 

wird. Da der Datensatz nach der Aggregation nur noch eine Zeile hatte, bekommen 

wir jetzt genau eine reguläre Spalte, während die neu erzeugte id-Spalte den 

Namen der Attribute beinhaltet, aus denen die Zeile gebaut wurde. 

Anhand des id-Attributs können wir jetzt erkennen, von welcher Antwort zu 

welcher Frage der berechnete Häufigkeitswert im regulären Attribut att 1 stammt. 

Die Werte in der id-Spalte haben die Form ” 

Frage X = Y“, wobei X die Nummer 

der Frage und Y die Nummmer der Antwort kennzeichnet. Wir wollen diese 

Information etwas klarer strukturiert in zwei zusätzliche neue Attribute speichern. 

Dazu werden wir einfach das id-Attribut zweimal kopieren und anschließend die 

Werte durch einen Replace Operator so ändern, dass sie zum einen eindeutig die 

Frage identifizieren und zum anderen die Antwort. Auch der Replace-Operator 

verwendet wieder reguläre Ausdrücke. Auch hier werden wir den Mechanismus 

der Capturing Group benutzen um zu spezifizieren, welcher Wert übernommen 

werden soll. Das Ergebnis nach diesen beiden Operatoren sieht schon viel lesbarer 

aus, allerdings ist es noch immer ungeeignet zum Abdrucken. Ein breites Format, 

in dem jede Frage eine Zeile belegt und die Antworten in den Spalten angeordnet 

werden, wäre deutlich praktischer und kompakter. 

Wir werden jetzt zum letzten großen Schritt ansetzen, um die Daten entsprechend 

zu transformieren. Dazu hängen wir wie im Prozess 01.1.3 - Count Answers einen 

Pivot-Operator an unsere bisherige Prozesskette. Dieser wird dafür sorgen, dass 

alle Zeilen, die in dem durch den Parameter group attribute bezeichneten Attribut 

denselben Wert haben, zu einer Zeile zusammengefasst werden. Da wir jede Frage 

mit einer Zeile beschreiben wollen, wählen wir das Attribut Frage zur Gruppierung 

aus. Damit wir für jede Antwortalternative eine Spalte erhalten, wählen wir 

das Attribut Antwort als Indexattribut aus. Jetzt wird für jede mögliche Antwort 

25


eine neue Spalte angelegt. Kommt die Kombination Frage / Antwort im Datensatz 

vor, wird die entsprechende Zelle in der Zeile der Frage und der Spalte der 

Antwort eingetragen. Kommt eine Kombination nicht vor, wird dies mit einem 

fehlenden Wert gekennzeichnet. Dies können wir gut im Ergebnis beobachten, 

da überhaupt nur eine Frage, nämlich Frage 1, fünf Antwortalternativen besitzt, 

alle anderen Werte in der entsprechenden Spalte sind entsprechend als fehlend 

gekennzeichnet. Einige Antworten, wie zum Beispiel Antwort 1 von Frage 17, 

wurde niemals gegeben. Entsprechend ist auch dieser Wert fehlend. 

Wir schließen den Prozess ab mit einigen Schönheitskorrekturen, indem wir fehlende 

Werte durch eine Null ersetzen und die generierten Namen der Spalten, die 

aus der Pivotisierung hervorgegangen sind, mittels Rename by Replacing in die 

Form ” 

Antwort X“ bringen. 

2.3.2 Reporting 

Dieses Vorgehen unterscheidet sich deutlich von dem gewohnten Manipulieren von 

Tabellen, wie es von Tabellenkalkulationen und ähnlicher Software bekannt ist. 

Warum lohnt sich der Umstieg auf eine solche prozessorientierte Vorgehensweise? 

Dies sehen wir, sobald wir wiederkehrende Aufgaben mehrfach ausführen wollen. 

Wir illustrieren dies wieder anhand unseres Beispiels. Wir hatten die erstellte 

Tabelle bisher nur für alle Teilnehmer ausgewertet und wollen nun verschiedene 

Gruppierungen betrachten, beispielsweise nach Schulform, Jahrgangsstufe oder 

Geschlecht. 

Dabei lernen wir eine Möglichkeit kennen, Ergebnisse automatisiert aus Rapid- 

Miner zu exportieren. Dabei hilft uns die Reporting Extension. Wir können Sie 

komfortabel über das Help-Menü mit dem Eintrag Update RapidMiner nachinstallieren, 

falls das noch nicht geschehen ist. (Ein Hinweis: Die Reporting Extension 

für RapidMiner erlaubt es, statische Berichte zu erzeugen. Mit dem Server 

RapidAnalytics ist es möglich, dynamische Web-basierte Berichte zu erstellen. 

Dies soll hier jedoch nicht diskutiert werden.) 

Nach der Installation steht uns in der Operators-Ansicht eine neue Gruppe von 

Operatoren zur Verfügung, mit denen wir jetzt automatisiert Prozessergebnisse 

26


Abbildung 2.7: Die Reporting-Operatoren 

in einen Bericht schreiben können, beispielsweise im PDF-, HTML-, oder Excel- 

Format. Wenn wir die Gruppe aufklappen, wie in Abbildung 2.7 dargestellt, sehen 

wir sechs neue Operatoren. Für jeden Bericht benötigt werden davon Generate 

Report, der einen neuen Bericht unter einem bestimmten Namen beginnt, und 

Report, der Daten aus dem Prozess entgegen nimmt und diese in einem anzugebenden 

Format an den Bericht anhängt. 

Damit ist bereits klar, das der Operator Generate Report vor dem Report-Operator 

ausgeführt werden muss. Auch die anderen relevanten Operatoren wie Add Text, 

Add Section und Add Pagebreak greifen jeweils auf einen geöffneten Bericht zurück. 

Add Text fügt an der aktuellen Position des Berichts einen Text hinzu, Add Section 

beginnt eine neue Gliederungsebene und Add Pagebreak eine neue Seite. Je 

nach Format kann das Ergebnis unterschiedlich aussehen. Im Fall von Excel- 

Dateien entsprechen Seitenumbrüche beispielsweise dem Wechsel auf ein neues 

Tabellenblatt. 

Um einen ersten Bericht zu erstellen, öffnen wir direkt nach dem Laden der Daten 

einen neuen Bericht. Beachten Sie, dass der Bericht in eine Datei geschrieben 

27


Abbildung 2.8: Ein einfacher Reporting Prozess 

wird, sie müssen also den Pfad anpassen, wenn Sie den Prozess 01.2 - Report 

Counts benutzen. Ein Add Section-Operator erzeugt ein neues Excel-Sheet, dem 

wir mit dem Parameter report section name einen Namen geben können. Danach 

führen wir die bisherigen Verarbeitungsschritte aus, die man zur besseren Trennung 

in einen Subprozess verschieben kann. Sind die Ergebnisse berechnet, fehlt 

nur noch der Report-Operator. Mit der Schaltfläche Configure Report kann man 

auswählen, welche Darstellung des entsprechenden Objekts man in den Bericht 

einfügen möchte. Da wir hier an den Daten interessiert sind, wählen wir unter 

Data Table die Darstellung Data View. Danach kann noch konfiguriert werden, 

welche Spalten und welche Zeilen man in den Bericht übernehmen will, wir wählen 

hier jeweils alle. Unser Prozess sollte jetzt ungefähr aussehen wie in Abbildung 2.8 

gezeigt. 

Wie wir sehen, fügt sich das Reporting nahtlos in die Prozesslogik ein. Aber 

natürlich sind wir nicht nur an dem Gesamtantwortverhalten interessiert, sondern 

wollen vor allem Unterschiede zwischen den Subgruppen der Teilnehmer 

entdecken. Dazu werden wir folgenden Trick verwenden: Wir benutzen einen 

Loop Values-Operator, der seinen inneren Subprozess für jeden vorkommenden 

Wert eines bestimmten Attributs durchführt. In diesem Subprozess werden wir 

den Datensatz auf die Zeilen mit dem aktuellen Wert reduzieren, dann wie gehabt 

aggregieren und schließlich als Berichtselement anfügen. 

Da wir an verschiedenen Gruppierungen interessiert sind, verwenden wir einen 

Multiply-Operator, um den ursprünglichen Datensatz mehrfach zu verarbeiten 

und unterschiedliche Darstellungen in den Bericht einzufügen. In Abbildung 2.9 

28


Abbildung 2.9: Ein Reporting-Prozess 

erkennt man die verzweigung des Prozesses am Multiply-Operator. 

Um Schleifen effektiv verwenden zu können, lernen wir eine weitere Facette der 

RapidMiner Prozesssprache kennen, und zwar die der Makros. Diese Prozessvariablen 

können überall dort verwendet werden, wo Parameter definiert werden. 

Ein Makro hat ein bestimmten Wert und wird zur Laufzeit durch diesen Wert 

ersetzt. In diesem Fall definiert der Operator Loop Values ein Makro, das den 

aktuellen Wert des Attributs zugewiesen wird. Das Makro wird hier also als 

Schleifenvariable verwendet und erhält in jedem Schleifendurchlauf einen neuen 

Wert. Makros können im Prozess auch explizt über einen Set Macro oder Generate 

Macro-Operator gesetzt werden oder in der Context-Ansicht für den Prozess 

definiert werden. 

Man kann in beliebigen Parametern auf den Wert eines Makros zugreifen, indem 

man seinen Namen mit %{ und } einschließt. In der Standardeinstellung wird 

der Operator Loop Values ein Makro mit dem Namen loop value setzen. Dann 

29


greift man auf seinen Wert über %{loop value} zu. Dies läßt sich im Prozess 

01.3 - Report Counts with groups zum Beispiel im ersten Loop Values-Operator 

sehen, der Geschlecht genannt wurde, da dieser über die beiden Ausprägungen 

des Attributs ” 

Geschlecht“ iteriert. Öffnet man per Doppelklick den Subprozess, 

sieht man als ersten Operator einen Filter Examples-Operator, der nur Zeilen 

behält, deren Attribut Geschlecht gleich dem Wert des Makros loop value ist. 

Führen wir den Prozess durch, sehen wir, dass in der generierten Excel-Datei 

für jede Gruppierung ein eigenes Tabellenblatt angelegt wird, während die einzelnen 

Gruppen untereinander aufgeführt werden. Einziger Schönheitsfehler ist 

die Gruppe der Studenten, die in der Gruppierung nach Jahrgangsstufe als Jahrgangsstufe 

“0” erscheint. Obwohl das natürlich schnell manuell beseitigt ist, wollen 

wir das direkt im Prozess bereinigen. 

Um dies zu beheben, müssen wir eigentlich weniger tun als bisher, wir müssen 

eben das Schreiben in den Bericht unterlassen, wenn wir bei Jahrgangsstufe den 

Wert 0 erreichen. Glücklicherweise stehen uns nicht nur Operatoren für Schleifen 

zur Verfügung, sondern auch eine bedingte Verzweigung. Dazu können wir den 

Operator Branch verwenden, der zwei Subprozesse hat. Einer wird ausgeführt, 

wenn die angegebene Bedingung erfüllt ist, der andere wenn sie nicht erfüllt 

ist. Die Bedingung lässt sich dabei in den Parametern einstellen. Neben datenabhängigen 

Bedingungen, wie zum Beispiel einer minimalen Größe der Eingabetabelle 

oder ähnlichem, lässt sich auch ein einfacher Ausdruck evaluieren. Ein 

Ausdruck wie ”%{loop value}”==”0” ist genau dann wahr, wenn der aktuelle 

Wert 0 ist. In unserem Beispiel wollen wir den inneren Subprozess genau dann 

ausführen, wenn diese Bedingung nicht erfüllt ist. Entsprechend brauchen wir unseren 

bisherigen Prozess für die Jahrgangsstufe also nur in den Else-Subprozess 

zu verschieben, wie in Abbildung 2.10 zu sehen. 

Das Ergebnis dieser Änderung kann in Prozess 01.04 - Report Counts with groups 

and exceptions betrachtet werden. Nach der Durchführung steht uns die bereinigte 

Excel-Datei zur Verfügung. Das einzig Ärgerliche bei der Erstellung unseres 

Berichts ist die Tatsache, dass wir jeweils exakt die gleiche Funktionalität immer 

wieder und wieder in den Subprozessen eingefügt haben, einmal für jede Art von 

Gruppierung. Natürlich lassen sich die kompletten Subprozesse einfach kopieren, 

30


Abbildung 2.10: Die Fallunterscheidung im Branch Operator 

aber will man später ein Detail ergänzen oder modifizieren, muss man dies in 

jedem einzelnen Subprozess wiederholen. 

Um diese Arbeit zu vermeiden, kann man die gesamte Logik in einen eigenständigen 

Prozess auslagern und diesen mehrmals von einem anderen Prozess aus aufrufen. 

Will man etwas ändern, muss man dies jetzt nur noch an einer zentralen 

Stelle tun. Dazu können wir einfach die Logik des Subprozesses in einen neuen 

Prozess kopieren, wie in 0.1.5 - Counting Process gesehen. Dieser Prozess ist 

vollständig in Abbildung 2.11 gezeigt. Diesen Prozess kann man nun einfach per 

Drag and Drop in einen anderen Prozess befördern. Dort wird er dann durch 

einen Execute Process-Operator repräsentiert. Dessen Eingangs- und Ausgangsports 

repräsentieren die Eingangsports des Prozesses, wenn der Parameter use 

inputs des Operators eingeschaltet wurde. Nun können wir also alle Subprozesse 

einfach durch ein Aufruf dieses Prozesses ersetzen und von da an Änderungen 

zentral vornehmen. Das Ergebnis kann man in 01.5 - Reusing Processes betrachten. 

Wenn Sie den Prozess durchführen, werden Sie keinen Unterschied in den 

Ergebnissen bemerken. 

Wir haben also gesehen, wie Sie mit RapidMiner einen Bericht mit statistischen 

Auswertungen auf einfache Art und Weise erzeugen können. Ändern sich die 

31


Abbildung 2.11: Die gesamte Verarbeitungslogik als eigener Prozess 

unterliegenden Daten oder werden diese ergänzt, können Sie den Bericht durch 

erneutes Ausführen des Prozesses schnell aktualisieren, insbesondere bei vollautomatischer 

Ausführung in RapidAnalytics. 

Selbstverständlich ist es auch möglich, Prognosemodelle, wie sie in Abschnitt 2.1 

verwendet wurden, auf diese Daten anzuwenden. So wäre es im vorliegenden Anwendungsfall 

beispielsweise sinnvoll, mittels einer linearen Regression den Einfluss 

der Jahrgangsstufe auf die gewählten Antworten zu ermitteln oder ähnliche 

Zusammenhänge mit Hilfe von bayesschen Verfahren zu extrahieren. Wie sie sehen, 

sind die Möglichkeiten praktisch unbegrenzt. Wenn Sie RapidMiner ausprobieren, 

werden Sie sicher schnell eigene Ideen entwickeln und umsetzen können. 

32

3 Transparenz von Veröffenlichungen 

In Abschnitt 2.1 haben wir RapidMiner eingesetzt, um mit wenig Aufwand eine 

möglichst vollständige Evaluierung eines neuen Verfahrens durchzuführen. Wir 

haben gesehen, wie wir die Evaluierung auf eine breite Datenbasis stellen können, 

die Parameter fair für alle Verfahren optimieren und wie wir die Ergebnisse auswerten 

können. Wenn die Ergebnisse Sie zufrieden stellen, werden Sie nun möglicherweise 

Ihre Ergebnisse in einer Zeitschrift, auf einer Konferenz oder in einem 

Buch veröffentlichen wollen. Eine gute Veröffentlichung sollte den Leser in die 

Lage versetzen, die erzielten Ergebnisse nachzuvollziehen, zu vegleichen, weiterzuentwickeln 

und auf Ihnen aufbauend weitere Analysen durchzuführen. 

Um dies zu gewährleisten, sind drei Komponenten nötig: Die implementierten 

neuen Algorithmen, die durchgeführten Prozesse und die verwendeten Daten. 

Diese können selbstverständlich nicht oder nur unzureichend im Rahmen der 

Veröffentlichung abgedruckt werden, könnten aber leicht durch Verweis auf Internetquellen 

zugänglich gemacht werden. 

Die Erfahrung zeigt hier leider, dass dies oft nicht der Fall ist. Dies führt dazu, 

dass ein großer Teil der wissenschaftlichen Arbeit darauf verwendet wird, bereits 

geleistete Arbeit zu Vergleichszwecken zu reproduzieren, statt Ergebnisse 

wiederzuverwenden. 

In diesem Kapitel zeigen wir, wie mit Hilfe geeigneter Portale im Internet Algorithmen, 

Prozesse und Daten auf einfache Weise veröffentlicht und der akademi- 

33

3. Transparenz von Veröffenlichungen 

schen Welt sowie möglichen Anwendern zugänglich gemacht werden können. 

Dadurch erhöhen Sie signifikant die Qualität Ihrer Veröffentlichung und die Sichtbarkeit 

und Zitierbarkeit Ihrer Ergebnisse. 

3.1 Rapid-I Marketplace: App Store für 

RapidMiner-Erweiterungen 

Um selbstimplementierte Verfahren für die Allgemeinheit zugänglich zu machen, 

bietet es sich an, sie auf dem Marketplace für RapidMiner anzubieten. Dieser ist 

unter http://marketplace.rapid-i.com erreichbar. Auf dieser Plattform kann 

jeder Entwickler seine RapidMiner-Erweiterungen anbieten und von anderen Entwicklern 

bereitgestellte Erweiterungen nutzen. Die Nutzung ist für RapidMiner- 

Anwender und für Anbieter von Erweiterungen kostenlos möglich. Erweiterungen, 

die im Marketplace angeboten werden, können direkt aus dem Benutzerinterface 

von RapidMiner installiert und aktualisiert werden. Dazu steht die Funktion Update 

RapidMiner im Help-Menü zur Verfügung. Es stellt damit für den Benutzer 

die einfachste Art der Installation dar. 

Gegenüber einer Veröffentlichung auf internen Institutsseiten bietet der Marketplace 

einige Vorteile: Dazu zählen die bestmögliche Sichtbarkeit in der RapidMiner- 

Community, die einfache Installation sowie Kommentar- und Bewertungsfunktionen. 

Öffnet ein Benutzer einen Prozess, der Ihre Erweiterung benötigt, hat diese 

aber nicht insalliert, schlägt RapidMiner automatisch die Installation vor. 

Auch wenn Sie sich für eine Veröffentlichung auf dem Marketplcae entscheiden, 

spricht nichts dagegen, weiterhin eine eigene Seite zu betreiben, in der Sie Dokumentation, 

Beispiele, Hintergrundinformationen und eventuell Sourcecode anbieten. 

Dies wird sogar explizit empfohlen, und ein Verweis auf diese Seite kann im 

Marketplace plaziert werden. 

Um eine Erweiterung anzubieten, registrieren Sie sich einfach auf http://marketplace. 

rapid-i.com und senden dann über das Kontakt-Menü eine Hostinganfrage ab. 

Diese wird von Rapid-I kurz auf Plausibiltät und Konflikte mit anderen Erwei- 

34

3.2. Prozesse veröffentlichen auf myExperiment 

terungen überprüft und innerhalb kürzester Zeit bestätigt. 

Bitte beachten Sie, dass es natürlich umso wichtiger wird, sich an die allgemeinen 

Namenskonventionen, Schreibweisen und Dokumentationsrichtlinien zu halten, 

wenn man die Erweiterung anderen Nutzern zugänglich machen will. Dies 

sollte man unbedingt von Anfang an beachten, da zum Beispiel die Änderung von 

Parameternamen oder Operatorschlüsseln bis dahin erstellte Prozesse unbrauchbar 

macht. Auch sollten für andere Benutzer die Parameter möglichst sprechend 

benannt und mit guten Kommentaren versehen werden. Eine ausführliche Dokumentation 

und Beispielprozesse bilden dann natürlich das i-Tüpfelchen an Komfort. 

3.2 Prozesse veröffentlichen auf myExperiment 

Unabhängig davon, ob Sie in Ihren Prozessen eine selbst implementierte RapidMiner-Erweiterung 

verwenden oder nicht, ist es oft wünschenswert, eigene Prozesse 

auf einfache Art mit der Gemeinschaft von Wissenschaftlern und Datenanalysten 

zu teilen. Das Portal myExperiment.org ist ein soziales Netzwerk, das sich an 

Wissenschaftler richtet und die Möglichkeit bietet, Datenanalyseprozesse auszutauschen 

und darüber zu diskutieren. 

Indem Sie Ihre RapidMiner-Prozesse auf dieser Seite zur Verfügung stellen, erreichen 

Sie eine höhere Verbreitung Ihrer Ergebnisse und stellen gleichzeitig eine 

eindeutige und dauerhafte Zitierbarkeit sicher. Weiterhin profitieren Sie von 

der Gelegenheit, in Austausch mit anderen Wissenschaftlern zu treten und neue 

Forschungskontakte zu knüpfen. Nicht zuletzt kann myExperiment eine hervorragende 

Quelle sein, wenn Sie für die Lösung eines Datenanalyseproblems nach 

Inspiration suchen – bestimmt haben sich auch schon Andere mit ähnlichen Problemen 

auseinandergesetzt. 

Um myExperiment zu benutzen, müssen Sie die Prozesse nicht umständlich über 

einen Web-Browser hoch- oder herunterladen. Dies können Sie stattdessen mithilfe 

der Community Extension direkt aus der Benutzeroberfläche von RapidMiner 

heraus tun. Diese können Sie ebenfalls über den Marketplace (und den RapidMi- 

35


Abbildung 3.1: Die Beschreibung von RapidMiner-Erweiterungen können im 

Marketplace bearbeitet werden (hier die Community-Extension, 

die weiter unten bechrieben wird). 

36

3.2. Prozesse veröffentlichen auf myExperiment 

Abbildung 3.2: Die Community-Extension von RapidMiner zum Zugriff auf 

myExperiment 

ner Update-Server) installieren. Sobald Sie dies getan haben, verfügt RapidMiner 

über einen neue Ansicht namens MyExperiment Browser. Sie können diese über 

das View-Menü und den Eintrag Show View aktivieren. Sie können diese Ansicht 

in jeder Perspektive an einem beliebigen Ort einsortieren und natürlich auch wieder 

ausblenden. 

Der Browser erlaubt es Ihnen, sich mit einem existierenden Benutzeraccount einzuloggen, 

oder sich bei MyExperiment zu registrieren um einen Benuzteraccount 

anzulegen. Sie werden diesen Account benötigen, um Prozesse hochzuladen. In 

der Liste werden alle auf MyExperiment gespeicherten Prozesse angezeigt. Wenn 

Sie in der Liste einen Eintrag auswählen, erscheint im rechten Fenster das Bild 

des entsprechenden Prozesses sowie die Beschreibung und Metadaten wie Autor 

und Erstellungsdatum. Dieser Prozess lässt sich dann einfach mit der Open- 

Schaltfläche herunterladen und in RapidMiner öffnen und direkt ausführen. Alternativ 

können Sie den Prozess auch über die myExperiment-Webseite im Browser 

betrachten. Klicken Sie dazu einfach auf die Browse-Schaltfläche. Mit der URL, 

37


die hier geöffnet wird, lässt sich ein Prozess auch eindeutig identifizieren, wodurch 

sie zum Zitieren verwendet werden kann. 

Um einen eigenen Prozess auf myExperiment hochzuladen, öffnen Sie den gewünschten 

Prozess und arrangieren ihn in der gewünschten Weise. Der aktuell angezeigte 

Subprozess wird als Bild auf myExperiment hochgeladen und erscheint 

beim Browsen. Eine hübsche und übersichtliche Anordnung macht sich hier also 

bezahlt. Danach können Sie in der Browse MyExperiment-Ansicht auf Upload 

klicken. Das in Abbildung 3.2 dargestellte Fenster öffnet sich und bietet Ihnen 

Felder zum Eingeben eines Titels und einer Beschreibung an. Die allgemeine Umgangssprache 

auf myExperiment ist Englisch. 

3.3 Verfügbarmachen der Daten 

Da myExperiment das Speichern von Daten aus Kapazitätsgründen nicht übernimmt, 

müssen wir für die Veröffentlichung der verwendeten Daten einen anderen 

Weg beschreiten, sofern die Daten überhaupt veröffentlicht werden dürfen und 

keiner Beschränkung aufgrund von Urheberrecht oder Vertraulichkeit unterliegen. 

Hierbei kommt uns die Fähigkeit von RapidMiner sehr entgegen, mit Daten 

von fast beliebigen Quellen umzugehen. 

Der häufig wohl einfachste Weg wäre, die Daten zunächst als CSV-Datei zu exportieren 

und die exportierte Datei auf einem beliebigen Webserver abzulegen. In 

RapidMiner können wir jetzt diese Adresse mit einem Open File-Operator öffnen, 

der auch Daten aus Internetquellen verarbeiten kann. Dieser Operator interpretiert 

die Daten zunächst nicht, sondern liefert ein File-Objekt für diese Datei. Wir 

können dann dieses Objekt an den file Eingang des Read CSV-Operators legen, 

um die Datei als CSV zu interpretieren und den Datensatz zu laden. Den Read 

CSV-Operator kann man dabei mit dem Wizard einfach konfigurieren, wobei der 

Wizard bequemlichkeitshalber auf einer lokalen Kopie der Datei ausgeführt werden 

kann. Denkt man jetzt noch daran, beim Export als CSV und beim Import 

dasselbe Encoding zu setzen, steht der Veröffentlichung kein Problem mehr im 

Weg. 

38

3.3. Verfügbarmachen der Daten 

Führt man Experimente auf großen Datensätzen oder Datensätzen, die viel Text 

enthalten, aus, kann man die Datensätze auch komprimiert in einer Zip-Datei ablegen 

und diese von RapidMiner extrahieren lassen. Dieses vermeidet überflüssige 

Wartezeiten beim Download und hohe Auslastung des Servers. Beide Fälle werden 

im Prozess 00.8 - Load Data from URL demonstriert. 

39

4 RapidMiner in der Lehre 

Auch in der Lehre bietet sich ein Einsatz von RapidMiner an. Dies bietet mehrere 

Vorteile. 

Einer der größten Vorteile ist sicherlich die Tatsache, dass RapidMiner in der 

Community Edition frei zum Download verfügbar steht. Studierende können es 

somit auf ihren privaten Rechnern genauso installieren wie die Hochschule die 

Möglichkeit hat, RapidMiner-Installationen auf Institutsrechnern zur Verfügung 

zu stellen. Der Einstieg ist somit schnell und kostenlos möglich. Aufgrund der 

hohen Verbreitung haben die Studierenden weiterhin die Gelegenheit, bereits 

im Studium mit einem Werkzeug zu arbeiten, dass sie im späteren Berufsleben 

tatsächlich einsetzen können. 

Die zahlreichen im Kern und in den Erweiterungen enthalten Lernverfahren decken 

den größten Teil typischer Lehrveranstaltungen im Bereich des Data Mining, 

maschinellen Lernens und schließender Statistik ab. Somit ist es für die Studierenden 

möglich, die erlernten Verfahren ohne großen Aufwand direkt einzusetzen 

und zu vergleichen, wodurch ein nachhaltigerer Lerneffekt erzielt wird als durch 

eine rein theoretische Betrachtung der Algorithmen und ihrer Eigenschaften. 

Es ist nicht ungewöhnlich, dass Studierende im Rahmen von Praktika, Seminaren, 

Studienarbeiten oder Übungen selbst eigene Algorithmen und Lernverfahren 

entwickeln. Geschieht dies im Rahmen des RapidMiner-Frameworks, kann dabei 

vorhandene Infrastruktur wiederverwendet werden. Beispielsweise ist die Evaluierung 

des Verfahrens oder die Anbindung an Datenquellen erheblich erleichtert. 

Somit können sich die Studierenden auf die Implementierung des eigentlichen 

41

4. RapidMiner in der Lehre 

Algorithmus konzentrieren. Außerdem ist es für die Studierenden eine große Motivation, 

wenn das Ergebnis einer solchen Arbeit auch nach deren Abschluss noch 

weiter verwendet werden kann. Bei einer Verbreitung als RapidMiner-Erweiterung 

ist dies erheblich wahrscheinlicher als bei einer Einzellösung, die in kein Framework 

eingebunden ist. Dies wird noch verstärkt durch die erhöhte Sichtbarkeit 

bei Verwendung des Rapid-I Marketplace. 

Da bereits viele Hochschulen RapidMiner in der Lehre einsetzen, existiert bereits 

ein Erfahrungsschatz sowie Unterrichtsmaterialien, die wiederverwendet werden 

können. 

Zum Austausch von Erfahrungen, Materialien und Ideen für die Lehre mit Rapid- 

Miner bietet sich die Teilnahme an der Mailingliste https://lists.sourceforge. 

net/lists/listinfo/rapidminer-sig-teaching an. 

42

5 Forschungsprojekte 

Abschließend wollen wir hier noch einmal einen Überblick darüber geben, wie 

RapidMiner eigentlich bei Rapid-I zu Forschungszwecken eingesetzt wird. Dieses 

Kapitel gibt einen Überblick darüber, in welch vielfältiger Weise Data Mining 

Techniken in verschiedenen Disziplinen eingesetzt werden können und kann 

möglicherweise auch eine Anregung für zukünftige Projekte sein. 

e-LICO. (http://www.e-lico.eu) In diesem EU-Projekt, an dem außer Rapid- 

I acht Universitäten und Forschungseinrichtungen beteiligt waren, wurde von 

2009 bis 2012 eine Platform entwickelt, die es auch Fachwissenschaftlern ohne statistischen 

oder technischen Hintergrund ermöglicht, Data-Mining-Technologien 

zu verwenden. Unter anderem entstand ein Assistent, der Data-Mining-Prozesse 

vollautomatisch generiert, nachdem der Benutzer mit wenigen Klicks Eingabedaten 

und Analyseziel spezifiziert hat. Im Rahmen dieses Projektes begann auch 

die Entwicklung der Server-Lösung RapidAnalytics. 

ViSTA-TV. (http://vista-tv.eu/) Dieses ebenfalls von der EU im siebten 

Rahmenprogramm geförderte Projekt beschäftigt sich mit der Analyse von Datenströmen, 

wie sie von IPTV und klassischen Fernsehanbietern generiert werden. 

Ziel ist die Verbesserung des Benutzererlebnisses beispielsweise durch Anbieten 

geeigneter Empfehlungen sowie eine Auswertung zu Marktforschungszwecken. 

SustainHub. (http://www.sustainhub-research.eu/) Im Gegensatz zu den 

beiden erstgenannten Projekten ist das SustainHub-Projekt nicht in einem IT- 

43

5. Forschungsprojekte 

orientierten, sondern in einem anwendungsorientierten EU-Förderprogramm angesiedelt. 

Es geht dabei um die Nutzbarmachung von Nachhaltigkeitsinformationen 

in Zulieferketten und die Erkennung von Auffälligkeiten zum Zweck der 

Risikominimierung. Auch Methoden der statistischen Textanalyse kommen zum 

Einsatz, um automatisiert Nachrichten auf Ihren Bezug zu dieser Thematik zu 

untersuchen. 

ProMondi. Ziel des vom BMBF geförderten Projekts ProMondi ist die Optimierung 

des Produktenstehungsprozesses in der produzierenden Industrie. Beispielsweise 

sollen mit Hilfe von Data-Mining-Techniken bereits zur Konstruktionszeit 

die Einflüsse auf die Montagezeit erkannt und geeignete Alternativen bestimmt 

werden. 

Healthy Greenhouse. (http://www.gezondekas.eu) Das Projekt Gezonde ” 

Kas“ ist ein Interreg IV A EU-Programm, in dessen Rahmen zehn Forschungseinrichtungen 

und 22 Unternehmen aus dem deutsch-niederländischen Grenzgebiet 

ein neuartiges integriertes Pflanzenschutzsystem entwickeln, das ein nachhaltiges 

Management moderner Gartenbauunternehmen ermöglichen soll. Data Mining 

Techniken werden hier beispielsweise angewendet, um frühzeitig mögliche Krankheiten 

und Schädlinge zu erkennen und mit weniger Pestiziden auszukommen 

oder um den Einfluss von Umweltgrößen auf Pflanzenwachstum und -gesundheit 

zu analysieren. 

Diese Übersicht kann vielleicht eine Anregung für eigene Forschungsideen sein. 

Rapid-I wird auch weiterhin sowohl anwendungsorientierte Projekte als auch Projekte 

im Bereich Data Mining auf nationaler und internationaler Ebene durchführen. 

Falls Sie Interesse an einer Forschungspartnerschaft haben, melden Sie sich bei 

research@rapid-i.com. 

44

Literaturverzeichnis 

[1] The R project for statistical computing. http://www.r-project.org/. 

[2] Weka 3: Data mining software in Java. http://www.cs.waikato.ac.nz/ml/ 

weka/. 

[3] Rapid-I GmbH. RapidMiner Benutzerhandbuch, 2010. http://rapid-i. 

com/content/view/26/84/. 

[4] Rapid-I GmbH. RapidMiner API documentation. http://rapid-i.com/ 

api/rapidminer-5.1/index.html, July 2012. 

[5] Marius Helf and Nils Wöhler. RapidMiner: Advanced Charts, 2011. Rapid-I 

GmbH. 

[6] Sebastian Land. How to extend RapidMiner 5. http://rapid-i. 

com/component/page,shop.product_details/flypage,flypage.tpl/ 

product_id,52/category_id,5/option,com_virtuemart/Itemid,180/, 

2012. Rapid-I GmbH. 

45

RapidMiner im akademischen Einsatz - Documentation - Rapid

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?