22.01.2015 Aufrufe

w26M2

w26M2

w26M2

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Im dritten Schritt müssen Empfehlungen ausgearbeitet<br />

werden, die das System bei einem bestimmten Trend in<br />

eine gewünschte Richting beeinflussen oder ein vorhergesagtes<br />

Ereigniss verhindern 79 .<br />

Der Einsatz von Predictive Analytics ist ein kontinuierlicher,<br />

iterativer Prozess. Durch den fortschreitenden<br />

Einsatz werden die eingesetzten Modelle immer weiter<br />

verbessert und angepasst, und damit werden auch die<br />

Vorhersagen immer präziser.<br />

In-Database Analytics<br />

Müssen größere Datenmengen verarbeitet werden, so<br />

kann es auch sinnvoll sein, die Analysen direkt in der<br />

Datenbank auszuführen. Das bedeutet, dass die Berechnungen<br />

dort durchgeführt werden, wo die Daten gespeichert<br />

sind und nicht, wie sonst üblich, die Daten erst zu<br />

einem Berechnungsserver transferiert werden, der dann<br />

die Analysen berechnet. Das hat den Vorteil, dass weniger<br />

Daten über das Netzwerk transportiert werden müssen<br />

und die Last des Berechnungsservers reduziert wird.<br />

Dieses Vorgehen nennt sich In-Database Analytics. Dabei<br />

wird der für die Berechnung notwendige Programmcode<br />

in der Datenbank abgelegt und durch SQL oder eine<br />

andere Datenbankanweisungen ausgeführt. Gerade im<br />

Big-Data-Umfeld werden durch diese Herangehensweise<br />

Datenmengen handhabbar, die vorher nicht verarbeitet<br />

werden konnten. Die Hersteller analytischer Datenbanksysteme<br />

bieten daher ein breites Spektrum unterschiedlicher<br />

Werkzeuge und Methoden an, die es erlauben,<br />

komplexe statistische Berechnungen in der Datenbank<br />

auszuführen.<br />

4.3.6 Data Mining und R<br />

und Techniken, der die Intention zusammenfasst – geradezu<br />

im Sinne eines »Daten-Bergbaus« – Schätze, also<br />

verwertbares Wissen, aus den Daten des Unternehmens<br />

zu fördern. Insbesondere bezeichnet Data Mining im<br />

Kontext dieses Leitfadens das intelligente, größtenteils<br />

automatisierte Aufspüren und die Extraktion von<br />

interessanten, d.h. wirtschaftlich nutzbaren Mustern und<br />

Zusammenhängen in großen Datenbeständen. Dabei<br />

sind die eingesetzten Methoden, Verfahren und Techniken<br />

interdisziplinär und stammen aus klassischen Bereichen<br />

der Mathematik, Statistik und Informatik sowie der Biologie<br />

und Physik.<br />

Da es keine einzige Methode gibt, die für alle möglichen<br />

Problemstellungen geeignet ist bzw. alle anderen Methoden<br />

dominiert, hängt damit die Entscheidung bezüglich<br />

der zu verwendenden Methodik von der jeweiligen<br />

Problemstellung sowie – auch dies ist wichtig – von dem<br />

Erfahrungshorizont des Data-Mining-Experten ab. Insbesondere<br />

wichtig ist, dass die Arbeit von einer mächtigen<br />

und leistungsfähigen Plattform unterstützt wird, die<br />

zudem noch eine große Verbreitung haben soll, um nicht<br />

an dieser Stelle in Engpässe zu laufen.<br />

Da die Behandlung aller am Markt verfügbaren möglichen<br />

Plattformen diesen Leitfaden bei Weitem sprengen<br />

würde, soll nur eine mögliche Plattform hier einmal näher<br />

demonstriert werden. Damit das durchgängige Beispiel<br />

dieses Abschnitts bei Interesse auch praktisch nachvollziehbar<br />

ist, wurde die kostenlose und frei verfügbare<br />

Plattform R gewählt.<br />

Plattform R – De-facto-Standard-Tool für Data<br />

Mining<br />

Data Mining – Extraktion wirtschaftlich nutzbarer<br />

Muster<br />

Der Begriff Data Mining ist ein sehr bildlicher Oberbegriff<br />

für eine Vielzahl von verschiedenen Methoden, Verfahren<br />

R ist eine freie Programmiersprache für statistisches Rechnen<br />

und statistische Grafiken. R ist Teil des GNU-Projekts,<br />

auf vielen Plattformen verfügbar 80 und gilt zunehmend<br />

als die statistische Standardsprache sowohl im kommerziellen<br />

als auch im wissenschaftlichen Bereich 81 .<br />

79<br />

z. B. eine Reparatur an einer Pumpe bevor diese ausfällt<br />

80<br />

http://www.r-project.org/<br />

81<br />

http://r4stats.com/articles/popularity/<br />

62

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!