RapidMiner im akademischen Einsatz - Documentation - Rapid

2. Die Anwendungsfälle 

Dieser ganze Vorgang muss natürlich für alle verschiedenen Stichprobengrößen 

durchgeführt werden. Dafür verwenden wir den Loop Parameters-Operator, mit 

dem wir konfigurieren können, mit welchen Parameterkombinationen sein Subprozess 

ausgeführt werden soll. In diesem Fall variieren wir schrittweise den Parameter 

sample ratio des Sample-Operators im Subprozess zwischen einem und 

hundert Prozent. Wir erhalten also eine sehr feine Kurve. Falls die Untersuchung 

zu lange dauert, lässt sich die Schrittanzahl reduzieren, so dass der Subprozess 

weniger häufig ausgeführt werden muss. 

Innerhalb des Subprozesses des Loop-Operators müssen wir jetzt nur noch die 

jeweils aktuelle sample ratio und die erzielte Accuracy messen. Da wir für jede 

sample ratio aber mehrere Ergebnisse erhalten, müssen wir noch einen Nachverarbeitungsschritt 

einführen, um den Durchschnitt und die Standardabweichung 

der Güte über die verschiedenen Samples zu bestimmen. Dazu wird in diesem 

Prozess mit dem Operator Log to Data das Protokoll in ein Example Set verwandelt, 

so dass wir anschließend über die Samplegrößen aggregieren und den 

Durchschnitt und die Standardabweichung bestimmen können. Dadurch ergibt 

sich ein Datensatz, von dem wir die Güte in Abhängigkeit von der Größe des 

Trainingsdatensatzes ablesen können. Um diesen für eine Veröffentlichung zu visualisieren, 

können wir die Advanced Charts-Ansicht verwenden. Ein mögliches 

Ergebnis könnte dann aussehen wie in Abbildung 2.1. 

Wollen wir nicht nur die binäre Entscheidung eines Modells begutachten, sondern 

auch, wie die Konfidenzen verteilt werden, lohnt sich ein Blick auf den ROC- 

Plot, der die sogenannte Receiver Operator Characteristic visuell darstellt. Dabei 

gilt, dass Kurven, die weiter oben links verlaufen, besser sind, als Kurven weiter 

unten. Der perfekte Klassifikator würde eine Kurve erzeugen, die vom Ursprung 

aus senkrecht nach oben bis zur 1 verläuft und von dort waagerecht nach rechts. 

In RapidMiner lässt sich eine solche Kurve sehr einfach erzeugen und auch sehr 

einfach mit anderen Verfahren vergleichen. Dazu muss lediglich der Testdatensatz 

geladen werden und an den Eingansport eines Compare ROCs-Operators gelegt 

werden. Alle zu testenden Lernverfahren können daraufhin in den Subprozess 

eingefügt werden. Die Ergebnisse der Verfahren werden gemeinsam in einem Plot 

dargestellt, wie in Abbildung 2.2 gezeigt. Die halbtransparenten Bereiche geben 

14

Vorherige Seite

Nächste Seite

1

3

4

5

6

7

8

9

10

11

12

13

14

15

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

49

50

51

52

53

RapidMiner im akademischen Einsatz - Documentation - Rapid

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?