RapidMiner im akademischen Einsatz - Documentation - Rapid
RapidMiner im akademischen Einsatz - Documentation - Rapid
RapidMiner im akademischen Einsatz - Documentation - Rapid
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
2. Die Anwendungsfälle<br />
Dies ist ein häufiger Fehler, der zu statistisch invaliden Güteabschätzungen führt.<br />
Um das zu verhindern, müssen wir sämtliche Vorverarbeitungsschritte mit in die<br />
Kreuzvalidierung hereinziehen und <strong>im</strong> Trainingssubprozess durchführen. Führen<br />
wir keine weitere Anpassung <strong>im</strong> Prozess durch, wird das <strong>im</strong> Trainingsprozess generierte<br />
Modell <strong>im</strong> Testprozess natürlich mit den noch nicht normalisierten Daten<br />
konfrontiert. Deshalb bieten alle Vorverarbeitungsoperatoren, deren Ergebnisse<br />
von den verarbeiteten Daten abhängen, sogenannte Vorverarbeitungsmodelle<br />
(Preprocessing Model) an. Diese können verwendet werden, um eine identische<br />
Transformation erneut auszuführen. Bei der Normalisierung wird also mit den<br />
gleichen Mittelwerten und Standardabweichungen transformiert, statt diese auf<br />
den aktuellen Daten neu zu berechnen.<br />
Um diese Modelle zu verwenden, müssen sie lediglich aus dem Trainings- in den<br />
Testsubprozess der Kreuzvalidierung übergeben werden. Dort können sie mit einem<br />
gewöhnlichen Apply Model-Operator, wie <strong>im</strong> Prozess 00.3 - Include Preprocessing<br />
in Validation, angewendet werden, bevor das eigentliche Modell angewendet<br />
wird.<br />
2.1.3 Parameteropt<strong>im</strong>ierung<br />
Es ist also insgesamt sehr einfach, in <strong><strong>Rapid</strong>Miner</strong> eine echte Validierung eines<br />
Verfahrens durchzuführen. Allerdings besitzt fast jedes Verfahren best<strong>im</strong>mte Parameter,<br />
anhand derer sich die Qualität der Modelle beeinflussen lässt. Je nach<br />
Einstellung werden die Ergebnisse besser oder schlechter sein. Soll also gezeigt<br />
werden, dass ein neues Verfahren einem existierenden überlegen ist, darf man<br />
nicht einfach nur die Parameter des eigenen Verfahrens opt<strong>im</strong>ieren oder gar die<br />
Parameter willkürlich setzen. Gerade die Leistung von Verfahren wie der Support<br />
Vector Machine oder einem neuronalen Netz hängen sehr stark von den<br />
Parametereinstellungen ab.<br />
Deswegen bietet <strong><strong>Rapid</strong>Miner</strong> die Möglichkeit, automatisiert nach den besten Parametereinstellungen<br />
zu suchen. Dazu verwendet man einen der Opt<strong>im</strong>ize Parameters-Operatoren.<br />
Am einfachsten lässt sich der Operator Opt<strong>im</strong>ize Parameters<br />
(Grid) kontrollieren. Dieser iteriert über eine zuvor vom Benutzer definierte An-<br />
12