RapidMiner im akademischen Einsatz - Documentation - Rapid
RapidMiner im akademischen Einsatz - Documentation - Rapid
RapidMiner im akademischen Einsatz - Documentation - Rapid
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
2. Die Anwendungsfälle<br />
Dieser ganze Vorgang muss natürlich für alle verschiedenen Stichprobengrößen<br />
durchgeführt werden. Dafür verwenden wir den Loop Parameters-Operator, mit<br />
dem wir konfigurieren können, mit welchen Parameterkombinationen sein Subprozess<br />
ausgeführt werden soll. In diesem Fall variieren wir schrittweise den Parameter<br />
sample ratio des Sample-Operators <strong>im</strong> Subprozess zwischen einem und<br />
hundert Prozent. Wir erhalten also eine sehr feine Kurve. Falls die Untersuchung<br />
zu lange dauert, lässt sich die Schrittanzahl reduzieren, so dass der Subprozess<br />
weniger häufig ausgeführt werden muss.<br />
Innerhalb des Subprozesses des Loop-Operators müssen wir jetzt nur noch die<br />
jeweils aktuelle sample ratio und die erzielte Accuracy messen. Da wir für jede<br />
sample ratio aber mehrere Ergebnisse erhalten, müssen wir noch einen Nachverarbeitungsschritt<br />
einführen, um den Durchschnitt und die Standardabweichung<br />
der Güte über die verschiedenen Samples zu best<strong>im</strong>men. Dazu wird in diesem<br />
Prozess mit dem Operator Log to Data das Protokoll in ein Example Set verwandelt,<br />
so dass wir anschließend über die Samplegrößen aggregieren und den<br />
Durchschnitt und die Standardabweichung best<strong>im</strong>men können. Dadurch ergibt<br />
sich ein Datensatz, von dem wir die Güte in Abhängigkeit von der Größe des<br />
Trainingsdatensatzes ablesen können. Um diesen für eine Veröffentlichung zu visualisieren,<br />
können wir die Advanced Charts-Ansicht verwenden. Ein mögliches<br />
Ergebnis könnte dann aussehen wie in Abbildung 2.1.<br />
Wollen wir nicht nur die binäre Entscheidung eines Modells begutachten, sondern<br />
auch, wie die Konfidenzen verteilt werden, lohnt sich ein Blick auf den ROC-<br />
Plot, der die sogenannte Receiver Operator Characteristic visuell darstellt. Dabei<br />
gilt, dass Kurven, die weiter oben links verlaufen, besser sind, als Kurven weiter<br />
unten. Der perfekte Klassifikator würde eine Kurve erzeugen, die vom Ursprung<br />
aus senkrecht nach oben bis zur 1 verläuft und von dort waagerecht nach rechts.<br />
In <strong><strong>Rapid</strong>Miner</strong> lässt sich eine solche Kurve sehr einfach erzeugen und auch sehr<br />
einfach mit anderen Verfahren vergleichen. Dazu muss lediglich der Testdatensatz<br />
geladen werden und an den Eingansport eines Compare ROCs-Operators gelegt<br />
werden. Alle zu testenden Lernverfahren können daraufhin in den Subprozess<br />
eingefügt werden. Die Ergebnisse der Verfahren werden gemeinsam in einem Plot<br />
dargestellt, wie in Abbildung 2.2 gezeigt. Die halbtransparenten Bereiche geben<br />
14