RapidMiner im akademischen Einsatz - Documentation - Rapid
RapidMiner im akademischen Einsatz - Documentation - Rapid
RapidMiner im akademischen Einsatz - Documentation - Rapid
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
2. Die Anwendungsfälle<br />
tenen Prozesse in <strong><strong>Rapid</strong>Miner</strong> zu öffnen um ihre Funktionsweise nachzuvollziehen.<br />
<strong><strong>Rapid</strong>Miner</strong> kann dazu unter http://www.rapidminer.com heruntergeladen<br />
werden. Als Einstieg empfiehlt sich außerdem das <strong><strong>Rapid</strong>Miner</strong> Benutzerhandbuch<br />
[3].<br />
2.1 Evaluierung von Lernverfahren<br />
Eine typische und wiederkehrende Aufgabe <strong>im</strong> Bereich des maschinellen Lernens<br />
ist es, zwei oder mehr Lernverfahren miteinander zu vergleichen. Dies kann erfolgen,<br />
um zu untersuchen, welche Verbesserungen sich durch neue Verfahren<br />
erzielen lassen, kann aber auch einfach dazu dienen, für einen Anwendungsfall<br />
ein geeignetes Verfahren auszuwählen. In diesem Abschnitt zeigen wir, wie dies<br />
mit <strong><strong>Rapid</strong>Miner</strong> möglich ist.<br />
2.1.1 Performance-Evaluation und Kreuzvalidierung<br />
Die zahlreichen Operatoren, die maschinelle Lernverfahren auf Datensätze anwenden,<br />
lassen sich einfach <strong>im</strong> Zusammenspiel mit anderen Operatoren nutzen. Typische<br />
Beispiele von Operatoren, die bei der Evaluierung von Lernverfahren zum<br />
<strong>Einsatz</strong> kommen, sind Kreuzvalidierung, Operatoren zur Berechnung von Standardgütemaßen,<br />
Parameteropt<strong>im</strong>ierungen und nicht zuletzt Logging-Operatoren,<br />
um Profile der Leistung des Verfahrens zu erstellen. Da <strong><strong>Rapid</strong>Miner</strong> Schleifen<br />
unterstützt, können auch Prozesse erstellt werden, die das neue Verfahren an<br />
mehreren Datensätzen anwenden und mit anderen Verfahren vergleichen. Ein<br />
Prozess, der eine solche Validierung des eigenen Verfahrens ermöglicht, befindet<br />
sich <strong>im</strong> Beispielrepository.<br />
Wenn man den Prozess 00.1 - Loop Datasets betrachtet, besteht er vor allem aus<br />
drei Blöcken: Im ersten Block laden einige Operatoren eine Auswahl von Datensätzen,<br />
die dann mit dem Collect-Operator zu einer Collection zusammengefasst<br />
werden. Hier können natürlich beliebige eigene Datensätze geladen werden.<br />
Im zweiten Block wird über die Datensätze iteriert: Dazu wird der innere Prozess<br />
10