06.11.2013 Aufrufe

RapidMiner im akademischen Einsatz - Documentation - Rapid

RapidMiner im akademischen Einsatz - Documentation - Rapid

RapidMiner im akademischen Einsatz - Documentation - Rapid

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

2. Die Anwendungsfälle<br />

Dies ist ein häufiger Fehler, der zu statistisch invaliden Güteabschätzungen führt.<br />

Um das zu verhindern, müssen wir sämtliche Vorverarbeitungsschritte mit in die<br />

Kreuzvalidierung hereinziehen und <strong>im</strong> Trainingssubprozess durchführen. Führen<br />

wir keine weitere Anpassung <strong>im</strong> Prozess durch, wird das <strong>im</strong> Trainingsprozess generierte<br />

Modell <strong>im</strong> Testprozess natürlich mit den noch nicht normalisierten Daten<br />

konfrontiert. Deshalb bieten alle Vorverarbeitungsoperatoren, deren Ergebnisse<br />

von den verarbeiteten Daten abhängen, sogenannte Vorverarbeitungsmodelle<br />

(Preprocessing Model) an. Diese können verwendet werden, um eine identische<br />

Transformation erneut auszuführen. Bei der Normalisierung wird also mit den<br />

gleichen Mittelwerten und Standardabweichungen transformiert, statt diese auf<br />

den aktuellen Daten neu zu berechnen.<br />

Um diese Modelle zu verwenden, müssen sie lediglich aus dem Trainings- in den<br />

Testsubprozess der Kreuzvalidierung übergeben werden. Dort können sie mit einem<br />

gewöhnlichen Apply Model-Operator, wie <strong>im</strong> Prozess 00.3 - Include Preprocessing<br />

in Validation, angewendet werden, bevor das eigentliche Modell angewendet<br />

wird.<br />

2.1.3 Parameteropt<strong>im</strong>ierung<br />

Es ist also insgesamt sehr einfach, in <strong><strong>Rapid</strong>Miner</strong> eine echte Validierung eines<br />

Verfahrens durchzuführen. Allerdings besitzt fast jedes Verfahren best<strong>im</strong>mte Parameter,<br />

anhand derer sich die Qualität der Modelle beeinflussen lässt. Je nach<br />

Einstellung werden die Ergebnisse besser oder schlechter sein. Soll also gezeigt<br />

werden, dass ein neues Verfahren einem existierenden überlegen ist, darf man<br />

nicht einfach nur die Parameter des eigenen Verfahrens opt<strong>im</strong>ieren oder gar die<br />

Parameter willkürlich setzen. Gerade die Leistung von Verfahren wie der Support<br />

Vector Machine oder einem neuronalen Netz hängen sehr stark von den<br />

Parametereinstellungen ab.<br />

Deswegen bietet <strong><strong>Rapid</strong>Miner</strong> die Möglichkeit, automatisiert nach den besten Parametereinstellungen<br />

zu suchen. Dazu verwendet man einen der Opt<strong>im</strong>ize Parameters-Operatoren.<br />

Am einfachsten lässt sich der Operator Opt<strong>im</strong>ize Parameters<br />

(Grid) kontrollieren. Dieser iteriert über eine zuvor vom Benutzer definierte An-<br />

12

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!