w26M2
w26M2
w26M2
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Im dritten Schritt müssen Empfehlungen ausgearbeitet<br />
werden, die das System bei einem bestimmten Trend in<br />
eine gewünschte Richting beeinflussen oder ein vorhergesagtes<br />
Ereigniss verhindern 79 .<br />
Der Einsatz von Predictive Analytics ist ein kontinuierlicher,<br />
iterativer Prozess. Durch den fortschreitenden<br />
Einsatz werden die eingesetzten Modelle immer weiter<br />
verbessert und angepasst, und damit werden auch die<br />
Vorhersagen immer präziser.<br />
In-Database Analytics<br />
Müssen größere Datenmengen verarbeitet werden, so<br />
kann es auch sinnvoll sein, die Analysen direkt in der<br />
Datenbank auszuführen. Das bedeutet, dass die Berechnungen<br />
dort durchgeführt werden, wo die Daten gespeichert<br />
sind und nicht, wie sonst üblich, die Daten erst zu<br />
einem Berechnungsserver transferiert werden, der dann<br />
die Analysen berechnet. Das hat den Vorteil, dass weniger<br />
Daten über das Netzwerk transportiert werden müssen<br />
und die Last des Berechnungsservers reduziert wird.<br />
Dieses Vorgehen nennt sich In-Database Analytics. Dabei<br />
wird der für die Berechnung notwendige Programmcode<br />
in der Datenbank abgelegt und durch SQL oder eine<br />
andere Datenbankanweisungen ausgeführt. Gerade im<br />
Big-Data-Umfeld werden durch diese Herangehensweise<br />
Datenmengen handhabbar, die vorher nicht verarbeitet<br />
werden konnten. Die Hersteller analytischer Datenbanksysteme<br />
bieten daher ein breites Spektrum unterschiedlicher<br />
Werkzeuge und Methoden an, die es erlauben,<br />
komplexe statistische Berechnungen in der Datenbank<br />
auszuführen.<br />
4.3.6 Data Mining und R<br />
und Techniken, der die Intention zusammenfasst – geradezu<br />
im Sinne eines »Daten-Bergbaus« – Schätze, also<br />
verwertbares Wissen, aus den Daten des Unternehmens<br />
zu fördern. Insbesondere bezeichnet Data Mining im<br />
Kontext dieses Leitfadens das intelligente, größtenteils<br />
automatisierte Aufspüren und die Extraktion von<br />
interessanten, d.h. wirtschaftlich nutzbaren Mustern und<br />
Zusammenhängen in großen Datenbeständen. Dabei<br />
sind die eingesetzten Methoden, Verfahren und Techniken<br />
interdisziplinär und stammen aus klassischen Bereichen<br />
der Mathematik, Statistik und Informatik sowie der Biologie<br />
und Physik.<br />
Da es keine einzige Methode gibt, die für alle möglichen<br />
Problemstellungen geeignet ist bzw. alle anderen Methoden<br />
dominiert, hängt damit die Entscheidung bezüglich<br />
der zu verwendenden Methodik von der jeweiligen<br />
Problemstellung sowie – auch dies ist wichtig – von dem<br />
Erfahrungshorizont des Data-Mining-Experten ab. Insbesondere<br />
wichtig ist, dass die Arbeit von einer mächtigen<br />
und leistungsfähigen Plattform unterstützt wird, die<br />
zudem noch eine große Verbreitung haben soll, um nicht<br />
an dieser Stelle in Engpässe zu laufen.<br />
Da die Behandlung aller am Markt verfügbaren möglichen<br />
Plattformen diesen Leitfaden bei Weitem sprengen<br />
würde, soll nur eine mögliche Plattform hier einmal näher<br />
demonstriert werden. Damit das durchgängige Beispiel<br />
dieses Abschnitts bei Interesse auch praktisch nachvollziehbar<br />
ist, wurde die kostenlose und frei verfügbare<br />
Plattform R gewählt.<br />
Plattform R – De-facto-Standard-Tool für Data<br />
Mining<br />
Data Mining – Extraktion wirtschaftlich nutzbarer<br />
Muster<br />
Der Begriff Data Mining ist ein sehr bildlicher Oberbegriff<br />
für eine Vielzahl von verschiedenen Methoden, Verfahren<br />
R ist eine freie Programmiersprache für statistisches Rechnen<br />
und statistische Grafiken. R ist Teil des GNU-Projekts,<br />
auf vielen Plattformen verfügbar 80 und gilt zunehmend<br />
als die statistische Standardsprache sowohl im kommerziellen<br />
als auch im wissenschaftlichen Bereich 81 .<br />
79<br />
z. B. eine Reparatur an einer Pumpe bevor diese ausfällt<br />
80<br />
http://www.r-project.org/<br />
81<br />
http://r4stats.com/articles/popularity/<br />
62