w26M2

Empfehlungen

Info

Im dritten Schritt müssen Empfehlungen ausgearbeitet werden, die das System bei einem bestimmten Trend in eine gewünschte Richting beeinflussen oder ein vorhergesagtes Ereigniss verhindern 79 . Der Einsatz von Predictive Analytics ist ein kontinuierlicher, iterativer Prozess. Durch den fortschreitenden Einsatz werden die eingesetzten Modelle immer weiter verbessert und angepasst, und damit werden auch die Vorhersagen immer präziser. In-Database Analytics Müssen größere Datenmengen verarbeitet werden, so kann es auch sinnvoll sein, die Analysen direkt in der Datenbank auszuführen. Das bedeutet, dass die Berechnungen dort durchgeführt werden, wo die Daten gespeichert sind und nicht, wie sonst üblich, die Daten erst zu einem Berechnungsserver transferiert werden, der dann die Analysen berechnet. Das hat den Vorteil, dass weniger Daten über das Netzwerk transportiert werden müssen und die Last des Berechnungsservers reduziert wird. Dieses Vorgehen nennt sich In-Database Analytics. Dabei wird der für die Berechnung notwendige Programmcode in der Datenbank abgelegt und durch SQL oder eine andere Datenbankanweisungen ausgeführt. Gerade im Big-Data-Umfeld werden durch diese Herangehensweise Datenmengen handhabbar, die vorher nicht verarbeitet werden konnten. Die Hersteller analytischer Datenbanksysteme bieten daher ein breites Spektrum unterschiedlicher Werkzeuge und Methoden an, die es erlauben, komplexe statistische Berechnungen in der Datenbank auszuführen. 4.3.6 Data Mining und R und Techniken, der die Intention zusammenfasst – geradezu im Sinne eines »Daten-Bergbaus« – Schätze, also verwertbares Wissen, aus den Daten des Unternehmens zu fördern. Insbesondere bezeichnet Data Mining im Kontext dieses Leitfadens das intelligente, größtenteils automatisierte Aufspüren und die Extraktion von interessanten, d.h. wirtschaftlich nutzbaren Mustern und Zusammenhängen in großen Datenbeständen. Dabei sind die eingesetzten Methoden, Verfahren und Techniken interdisziplinär und stammen aus klassischen Bereichen der Mathematik, Statistik und Informatik sowie der Biologie und Physik. Da es keine einzige Methode gibt, die für alle möglichen Problemstellungen geeignet ist bzw. alle anderen Methoden dominiert, hängt damit die Entscheidung bezüglich der zu verwendenden Methodik von der jeweiligen Problemstellung sowie – auch dies ist wichtig – von dem Erfahrungshorizont des Data-Mining-Experten ab. Insbesondere wichtig ist, dass die Arbeit von einer mächtigen und leistungsfähigen Plattform unterstützt wird, die zudem noch eine große Verbreitung haben soll, um nicht an dieser Stelle in Engpässe zu laufen. Da die Behandlung aller am Markt verfügbaren möglichen Plattformen diesen Leitfaden bei Weitem sprengen würde, soll nur eine mögliche Plattform hier einmal näher demonstriert werden. Damit das durchgängige Beispiel dieses Abschnitts bei Interesse auch praktisch nachvollziehbar ist, wurde die kostenlose und frei verfügbare Plattform R gewählt. Plattform R – De-facto-Standard-Tool für Data Mining Data Mining – Extraktion wirtschaftlich nutzbarer Muster Der Begriff Data Mining ist ein sehr bildlicher Oberbegriff für eine Vielzahl von verschiedenen Methoden, Verfahren R ist eine freie Programmiersprache für statistisches Rechnen und statistische Grafiken. R ist Teil des GNU-Projekts, auf vielen Plattformen verfügbar 80 und gilt zunehmend als die statistische Standardsprache sowohl im kommerziellen als auch im wissenschaftlichen Bereich 81 . 79 z. B. eine Reparatur an einer Pumpe bevor diese ausfällt 80 http://www.r-project.org/ 81 http://r4stats.com/articles/popularity/ 62
Big-Data-Technologien – Wissen für Entscheider Der Funktionsumfang von R kann durch eine Vielzahl von Paketen erweitert und an spezifische Problemstellungen angepasst werden. Viele Pakete können dabei direkt aus einer über die R-Console abrufbaren Liste ausgewählt und automatisch installiert werden. Als Beispiel soll das Paket Rattle 85 (vgl. Abbildung 15) dienen: Zentrales Archiv für diese Pakete ist das Comprehensive R Archive Network (CRAN). Aktuell stehen über 5.000 Pakete auf CRAN 82 zur Verfügung. R läuft in einer Kommandozeilenumgebung. Darüber hinaus hat der Nutzer die Auswahl unter mehreren grafischen Benutzeroberflächen (GUI), beispielsweise RStudio 83 (vgl. Abbildung 14): Abbildung 15: Rattle – freie grafische Benutzeroberfläche für Data Mining Als Illustration dient ein vollständiges, einfaches und bewusst neutrales Beispiel 86 , welches einen möglichen Ablauf eines Data Mining-Projektes skizziert: Der Vorhersage der Regenwahrscheinlichkeit auf Basis verschiedener Wetterdaten. Abbildung 14: RStudio – freie grafische Benutzeroberflächen für R Im Bereich Data Mining gibt es ebenfalls sehr viele frei verfügbare Pakete 84 sowie GUIs. Die Gliederung der Benutzeroberfläche in den Reitern ist dem Data Mining-Prozess nachempfunden. Zuerst wird der mitgelieferte Beispieldatensatz weather geladen (im Data-Tab auf Execute und dann auf Yes klicken) (vgl. Abbildung 16). 82 http://cran.r-project.org/web/packages/index.html 83 http://www.rstudio.com/ 84 http://cran.r-project.org/web/views/MachineLearning.html 85 http://rattle.togaware.com/ 86 Hier noch einmal detaillierter nachlesbar: http://www.springer.com/cda/content/document/cda_downloaddocument/9781441998897-c1.pdfSGWID=0-0-45-1277951-p174110667 Die Benutzeroberfläche ist auch in Deutsch verfügbar, die Screenshots wurden jedoch aus Konsistenzgründen zum besseren Abgleich mit dieser Quelle auf Englisch belassen. 63
Seite 1 und 2:
Big-Data-Technologien - Wissen für
Seite 3 und 4:
Seite 5 und 6:
Seite 7 und 8:
Seite 9 und 10:
Seite 11 und 12:
Seite 13 und 14: Big-Data-Technologien - Wissen für
Seite 63: Big-Data-Technologien - Wissen für
Seite 115 und 116:
Seite 117 und 118:
Seite 119 und 120:
Seite 121 und 122:
Seite 123 und 124:
Seite 125 und 126:
Seite 127 und 128:
Seite 129 und 130:
Seite 131 und 132:
Seite 133 und 134:
Seite 135 und 136:
Seite 137 und 138:
Seite 139 und 140:
Seite 141 und 142:
Seite 143 und 144:
Seite 145 und 146:
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?