w26M2

Empfehlungen

Info

Die alleinige Speicherung von Rohdaten über einen Zeitraum von mehreren Jahren in einem Data Warehouse ist ökonomisch nicht sinnvoll. Das gilt insbesondere dann, wenn für BI-Anwendungen aufgrund der Performance- Anforderungen eine In-Memory-Datenbank 171 zum Einsatz kommt. Sinkenden Preisen für Hauptspeicher stehen wachsende (Roh-)Datenmengen gegenüber, was kommerziell die Archivierung von Rohdaten in einer In- Memory-Datenbank ausschließt. Komponenten einer hybriden, integrierten Architekturen Die sinnvolle Antwort auf die in Abbildung 50 dargestellten Anforderungen sind hybride Architekturen, die eine kosteneffiziente Integration von BI und Big Data in einer integrierten Architektur verbinden. Bei der TCO-Betrachtung spielen neben den Kosten für Anschaffung und Betrieb einer solchen Architektur auch der Schulungsaufwand, die Einsatzbreite sowie die Zeit für Datenexperimente eine wichtige Rolle. Am Beispiel der Weblog-Daten 172 werden im Folgenden die Einsatzbereiche möglicher Komponenten einer solchen hybriden Architektur vorgestellt. Komponente 1: Erfassung, Speicherung und Vorverarbeitung Es ist oft erforderlich, Weblog- oder andere Rohdaten unter neuen Gesichtspunkten zu analysieren. Für solche Situationen ist es von Vorteil, Rohdaten möglichst lange speichern zu können. Es wird dann möglich, unstrukturierte Rohdaten erst zur Laufzeit einer Analyse mit einer sinnvollen semantischen Struktur zu belegen. Dieser als Late Binding bezeichnete Ansatz unterscheidet Big Data wesentlich von klassischer Business Intelligence, bei der die Rohdaten zunächst in ein definiertes Schema transformiert werden. Für die Erfassung, Speicherung und Vorverarbeitung von Rohdaten bieten sich Hadoop oder ähnliche verteilte Dateisysteme an. Durch die eingebaute Replikation von Daten können so auch größte Datenmengen auf Standard-Servern langfristig und ausfallsicher in der Rohform gespeichert werden. Das Hadoop-Ökosystem sieht auch die Möglichkeit vor, Vorverarbeitungsschritte Batch-orientiert zu absolvieren. Komponente 2: Explorative Analyse und Mustererkennung Stehen die Rohdaten in einem Hadoop-Cluster zur Verfügung, so können Analysten oder Data Scientists mit diesen Daten experimentieren und sie mit anderen Datenquellen zu kombinieren, um auf diese Weise neue Erkenntnisse aus den Daten zu gewinnen. Dafür stellt Hadoop zahlreiche Werkzeuge bereit. In der Praxis zeigt sich jedoch, dass nur wenige Nutzer in Unternehmen die dafür benötigten Kenntnisse beseitzen oder erwerben wollen. Aus dieser Situation gibt es einen Ausweg. Der erste Schritt im Late-Binding-Ansatz zur Verarbeitung von unstrukturierten Rohdaten sieht vor, den Daten eine Struktur aufzuprägen. Danach liegen strukturierte Daten vor, die sich effizient mit relationalen Datenbanken analysieren lassen. Eine Vorverarbeitung kann also in Hadoop angestoßen und in einer relationalen Datenbank weitergeführt werden. Alternativ arbeitet die relationale Datenbank ebenfalls massiv-parallel und bietet in SQL eine MapReduce 173 -Implementierung mit vorgefertigten Analysealgorithmen an. Beiden Ansätzen ist gemeinsam, dass die Komplexität der neuen Hadoop-Technologie vor dem Anwender verborgen wird: Er muss lediglich einen erweiterten Satz von SQL-Funktionen erlernen. Die geschilderten Vorgehensweisen erweitern den Kreis von Nutzern deutlich, die in Hadoop gespeicherte, große Datenmengen analysieren können. Außerdem können die in einem Unternehmen genutzten Werkzeuge zur Visualisierung weiter verwendet werden, was den Einstieg enorm erleichtert. Die von Hadoop bereitgestellten Werkzeuge wie Hive 174 werden zügig weiter entwickelt, um ihren Einsatz komfortabler zu gestalten. Viele Anwender werden es 171 vgl. dazu Abschnitt 6.2 172 vgl. auch Abschnitt 5.4 173 vgl. Unterabschnitt 4.1.1 174 vgl. Unterabschnitt 4.1.1 118
Big-Data-Technologien – Wissen für Entscheider ungeachtet dieser Fortschritte vorziehen, in der bekannten Welt der massiv-parallelen, relationalen Datenbanksysteme zu verbleiben. Hier sind die Laufzeiten von Anfragen deutlich geringer. Experimente mit Daten sind schneller beendet, und so ist in kürzerer Zeit klar, ob ein gewählter Ansatz zielführend ist. Die Time to Insight ist ein maßgeblicher Faktor in TCO-Betrachtungen. Neue Entwicklungen senken die Einsatzbarrieren für Hadoop weiter: So bietet die Hadoop-Komponente HCatalog – seit kurzem ein Teil des Hive-Projektes – die Möglichkeit, auf Daten in Hadoop aus anderen Werkzeugen heraus zuzugreifen und dabei auch Filter zu setzen 175 . Der direkte Durchgriff auf in Hadoop gespeicherte Daten ist von großer Bedeutung, da im Falle von Big Data das einfache Kopieren von Daten ohne Berücksichtigung von Filterkriterien sehr viel Zeit beanspruchen kann. Zusätzlich muss das jeweilige Zielsystem ebenfalls über entsprechende Speicherkapazitäten verfügen. Für die explorative Analyse von Daten ist der Zugriff auf integrierte und qualitätsgesicherte – z. B. in einem Data Warehouse vorgehaltene – Unternehmensdaten wesentlich. In Weblog- und anderen Rohdaten sind häufig Identifikatoren wie Produktnummern enthalten. Für eine prädiktive Analyse ist dies vollkommen ausreichend. Für die Interpretation von Ergebnissen muss man z. B. wissen: • welches Produkt sich hinter einer Identifikationsnummer verbirgt, • ob das Produkt Gegenstand einer Werbekampagne war, • welchem Teil des Webshops das Produkt an welchem Tag zugeordnet war 176 , • ob Lieferprobleme verzeichnet wurden, • in welchen Zuständigkeitsbereich 177 das Produkt fällt, • zu welcher Kategorie das Produkt gehört. Das bedeutet: Der Durchgriff in ein Data Warehouse ist in dieser Phase der Analyse entscheidend, um eine Big-Data- Analyse im Gesamtkontext aller relevanten Unternehmensdaten bewerten zu können. Komponente 3: Unterstützung von Geschäftsprozessen und BI Bisher wurden die Komponenten 1 und 2 einer hybriden BI-Big-Data-Architektur betrachtet. Sie dienen primär der Erfassung und Analyse von großen, nicht-relationalen Daten. Die dritte Komponente einer solchen Architektur setzt die Aufgabe um, die Ergebnisse von Big-Data- Analysen in die Geschäftsprozesse einfließen zu lassen. Hierfür ist ein Data Warehouse prädestiniert, führt es doch bereits viele Daten aus Geschäftsprozessen in einer Plattform zusammen. Die aus Big Data gewonnenen Erkenntnisse können durch die Einbettung in das logische Datenmodell in den Gesamtkontext des Unternehmens gestellt werden. Relationale Datenbanken, die architektonisch für einen analytischen Data Warehouse Workload ausgelegt sind, erlauben in einer gesicherten Art und Weise Tausenden Nutzern den Zugriff auf die Big-Data-Erkenntnisse, denn analytische Modelle etc. sind für ein Unternehmen schützenswerte Daten. Außerdem lässt sich das Ergebnis einer Big-Data-Analyse kosteneffizient in einer für Data Warehousing optimierten Datenbank ablegen und vielfältig nutzen. Diese hybriden BI- und Big-Data-Systeme verfügen über Methoden zur Feinjustierung der Allokation von Systemressourcen zu Anfragen und bewegen Daten in Abhängigkeit von der Zugriffsfrequenz vollautomatisch zwischen den unterschiedlichen Speichermedien 178 innerhalb des Systems. So wird eine maximale Performance beim Zugriff auf die Daten gewährleistet. Und es entfällt die Notwendigkeit, manuell Duplikate zu erstellen, die dann z. B. in eine dedizierte In-Memory-Datenbank kopiert werden müssten. Auf diese Weise können BI und Big Data in einer hybriden Architektur unter Ausnutzung von neuen Technologien wie In-Memory-Computing zusammengeführt werden. So wird ein angemessener TCO-Wert erreicht, wie er beim Einsatz von nur einer der beiden Technologien nicht möglich wäre. 175 Beispiel: Nutzung der Weblog-Daten der letzten drei Monate 176 z. B. Kleidung oder Kleidung und »Sale« 177 z. B. Produktmanagement 178 wie Hauptspeicher, SSDs und HDDs 119
Seite 1 und 2:
Big-Data-Technologien - Wissen für
Seite 3 und 4:
Seite 5 und 6:
Seite 7 und 8:
Seite 9 und 10:
Seite 11 und 12:
Seite 13 und 14:
Seite 15 und 16:
Seite 17 und 18:
Seite 19 und 20:
Seite 21 und 22:
Seite 23 und 24:
Seite 25 und 26:
Seite 27 und 28:
Seite 29 und 30:
Seite 31 und 32:
Seite 33 und 34:
Seite 35 und 36:
Seite 37 und 38:
Seite 39 und 40:
Seite 41 und 42:
Seite 43 und 44:
Seite 45 und 46:
Seite 47 und 48:
Seite 49 und 50:
Seite 51 und 52:
Seite 53 und 54:
Seite 55 und 56:
Seite 57 und 58:
Seite 59 und 60:
Seite 61 und 62:
Seite 63 und 64:
Seite 65 und 66:
Seite 67 und 68:
Seite 69 und 70: Big-Data-Technologien - Wissen für
Seite 119: Big-Data-Technologien - Wissen für
Seite 171 und 172:
Seite 173 und 174:
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?