06.11.2013 Aufrufe

RapidMiner im akademischen Einsatz - Documentation - Rapid

RapidMiner im akademischen Einsatz - Documentation - Rapid

RapidMiner im akademischen Einsatz - Documentation - Rapid

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

2. Die Anwendungsfälle<br />

Dieser ganze Vorgang muss natürlich für alle verschiedenen Stichprobengrößen<br />

durchgeführt werden. Dafür verwenden wir den Loop Parameters-Operator, mit<br />

dem wir konfigurieren können, mit welchen Parameterkombinationen sein Subprozess<br />

ausgeführt werden soll. In diesem Fall variieren wir schrittweise den Parameter<br />

sample ratio des Sample-Operators <strong>im</strong> Subprozess zwischen einem und<br />

hundert Prozent. Wir erhalten also eine sehr feine Kurve. Falls die Untersuchung<br />

zu lange dauert, lässt sich die Schrittanzahl reduzieren, so dass der Subprozess<br />

weniger häufig ausgeführt werden muss.<br />

Innerhalb des Subprozesses des Loop-Operators müssen wir jetzt nur noch die<br />

jeweils aktuelle sample ratio und die erzielte Accuracy messen. Da wir für jede<br />

sample ratio aber mehrere Ergebnisse erhalten, müssen wir noch einen Nachverarbeitungsschritt<br />

einführen, um den Durchschnitt und die Standardabweichung<br />

der Güte über die verschiedenen Samples zu best<strong>im</strong>men. Dazu wird in diesem<br />

Prozess mit dem Operator Log to Data das Protokoll in ein Example Set verwandelt,<br />

so dass wir anschließend über die Samplegrößen aggregieren und den<br />

Durchschnitt und die Standardabweichung best<strong>im</strong>men können. Dadurch ergibt<br />

sich ein Datensatz, von dem wir die Güte in Abhängigkeit von der Größe des<br />

Trainingsdatensatzes ablesen können. Um diesen für eine Veröffentlichung zu visualisieren,<br />

können wir die Advanced Charts-Ansicht verwenden. Ein mögliches<br />

Ergebnis könnte dann aussehen wie in Abbildung 2.1.<br />

Wollen wir nicht nur die binäre Entscheidung eines Modells begutachten, sondern<br />

auch, wie die Konfidenzen verteilt werden, lohnt sich ein Blick auf den ROC-<br />

Plot, der die sogenannte Receiver Operator Characteristic visuell darstellt. Dabei<br />

gilt, dass Kurven, die weiter oben links verlaufen, besser sind, als Kurven weiter<br />

unten. Der perfekte Klassifikator würde eine Kurve erzeugen, die vom Ursprung<br />

aus senkrecht nach oben bis zur 1 verläuft und von dort waagerecht nach rechts.<br />

In <strong><strong>Rapid</strong>Miner</strong> lässt sich eine solche Kurve sehr einfach erzeugen und auch sehr<br />

einfach mit anderen Verfahren vergleichen. Dazu muss lediglich der Testdatensatz<br />

geladen werden und an den Eingansport eines Compare ROCs-Operators gelegt<br />

werden. Alle zu testenden Lernverfahren können daraufhin in den Subprozess<br />

eingefügt werden. Die Ergebnisse der Verfahren werden gemeinsam in einem Plot<br />

dargestellt, wie in Abbildung 2.2 gezeigt. Die halbtransparenten Bereiche geben<br />

14

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!