RapidMiner im akademischen Einsatz - Documentation - Rapid

Empfehlungen

Info

2. Die Anwendungsfälle Dies ist ein häufiger Fehler, der zu statistisch invaliden Güteabschätzungen führt. Um das zu verhindern, müssen wir sämtliche Vorverarbeitungsschritte mit in die Kreuzvalidierung hereinziehen und im Trainingssubprozess durchführen. Führen wir keine weitere Anpassung im Prozess durch, wird das im Trainingsprozess generierte Modell im Testprozess natürlich mit den noch nicht normalisierten Daten konfrontiert. Deshalb bieten alle Vorverarbeitungsoperatoren, deren Ergebnisse von den verarbeiteten Daten abhängen, sogenannte Vorverarbeitungsmodelle (Preprocessing Model) an. Diese können verwendet werden, um eine identische Transformation erneut auszuführen. Bei der Normalisierung wird also mit den gleichen Mittelwerten und Standardabweichungen transformiert, statt diese auf den aktuellen Daten neu zu berechnen. Um diese Modelle zu verwenden, müssen sie lediglich aus dem Trainings- in den Testsubprozess der Kreuzvalidierung übergeben werden. Dort können sie mit einem gewöhnlichen Apply Model-Operator, wie im Prozess 00.3 - Include Preprocessing in Validation, angewendet werden, bevor das eigentliche Modell angewendet wird. 2.1.3 Parameteroptimierung Es ist also insgesamt sehr einfach, in RapidMiner eine echte Validierung eines Verfahrens durchzuführen. Allerdings besitzt fast jedes Verfahren bestimmte Parameter, anhand derer sich die Qualität der Modelle beeinflussen lässt. Je nach Einstellung werden die Ergebnisse besser oder schlechter sein. Soll also gezeigt werden, dass ein neues Verfahren einem existierenden überlegen ist, darf man nicht einfach nur die Parameter des eigenen Verfahrens optimieren oder gar die Parameter willkürlich setzen. Gerade die Leistung von Verfahren wie der Support Vector Machine oder einem neuronalen Netz hängen sehr stark von den Parametereinstellungen ab. Deswegen bietet RapidMiner die Möglichkeit, automatisiert nach den besten Parametereinstellungen zu suchen. Dazu verwendet man einen der Optimize Parameters-Operatoren. Am einfachsten lässt sich der Operator Optimize Parameters (Grid) kontrollieren. Dieser iteriert über eine zuvor vom Benutzer definierte An- 12
2.1. Evaluierung von Lernverfahren zahl von Kombinationen der zu optimierenden Parameter. Für jede Parameterkombination führt er seinen inneren Subprozess aus. Entsprechend können auch nur Parameter von Operatoren dieses Subprozesses optimiert werden. Der Subprozess muss dabei einen Performance Vector (z.B. die Accuracy) zurückliefern, anhand dessen Optimize Parameters die Güte der aktuellen Kombination erkennen kann. Der Optimize Parameters-Operator liefert, nachdem er alle Parameterkombinationen getetst hat, diejenige zurück, in deren Durchlauf die gemessene Performanz maximal war. Ist man nicht nur an dem Ergebnis der besten Kombination interessiert, sondern zum Beispiel am generellen Verlauf, dann lohnt sich der Einsatz eines Log- Operators. Wird dieser ausgeführt, schreibt er eine neue Zeile in sein Protokoll, das alle Werte enthält, die vom Benutzer angegeben werden. Diese Werte können entweder die aktuellen Werte beliebiger Parameter beliebiger Operatoren im Prozess sein oder spezielle Werte, die von Operator zu Operator variieren. Alle Operatoren geben beispielsweise an, wie häufig sie bereits ausgeführt wurden, die Ausführungszeit und Ähnliches. Darüber hinaus geben einige Operatoren zusätzliche Informationen. Beispielsweise liefert die Kreuzvalidierung die Güte und deren Standardabweichung, die bei der letzten Ausführung erreicht wurden. Ein Beispiel, das eine solche Optimierung vornimmt und dabei alle Kombinationen protokolliert, findet sich im Prozess 00.4 - Optimize Parameters. Eine weitere Anwendung für den Log-Operator findet sich im Prozess 00.5 - Create Learning Curve. Dieser untersucht, wie sich ein Lernverfahren bei unterschiedlichen Größen des Trainingsdatensatzes verhält. Dazu wird mit einem Sample- Operator eine Stichprobe einer bestimmten Größe des gesamten Datensatzes gebildet. Auf dieser Stichprobe kann nun die Güte des Verfahrens mit Hilfe der Kreuzvalidierung bestimmt werden. Da die Güte dadurch sehr stark von der gezogenen Stichprobe abhängt, müssen wir dieses mehrmals durchführen, um zufällige Abweichungen in einer Stichprobe auszugleichen. Dabei gilt: Je kleiner der Ursprungsdatensatz, desto mehr Wiederholungen sind notwendig. Um einen Teil eines Prozesses mehrmals auszuführen, kann der Loop-Operator verwendet werden. Er bietet mit dem Parameter iterations die Möglichkeit, anzugeben, wie häufig sein Subprozess ausgeführt werden soll. 13
Seite 1: Sebastian Land, Simon Fischer Rapid
Seite 4 und 5: Dieses Werk ist urheberreichtlich g
Seite 6 und 7: gesetzt werden kann. Wir setzen dab
Seite 8 und 9: Inhaltsverzeichnis 5 Forschungsproj
Seite 10 und 11: 1. Einführung Abbildung 1.1: Ein e
Seite 12 und 13: 1. Einführung Abbildung 1.3: Ein g
Seite 14 und 15: 1. Einführung Abbildung 1.5: Die R
Seite 17 und 18: 2 Die Anwendungsfälle Nach der Lek
Seite 19: 2.1. Evaluierung von Lernverfahren
Seite 23 und 24: 2.1. Evaluierung von Lernverfahren
Seite 25 und 26: 2.2. Implementierung neuer Algorith
Seite 27 und 28: 2.2. Implementierung neuer Algorith
Seite 29 und 30: 2.3. RapidMiner für die deskriptiv
Seite 41 und 42: 3 Transparenz von Veröffenlichunge
Seite 43 und 44: 3.2. Prozesse veröffentlichen auf
Seite 45 und 46: 3.2. Prozesse veröffentlichen auf
Seite 47: 3.3. Verfügbarmachen der Daten Fü
Seite 50 und 51: 4. RapidMiner in der Lehre Algorith
Seite 52 und 53: 5. Forschungsprojekte orientierten,

RapidMiner im akademischen Einsatz - Documentation - Rapid

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?