w26M2
w26M2
w26M2
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Die alleinige Speicherung von Rohdaten über einen<br />
Zeitraum von mehreren Jahren in einem Data Warehouse<br />
ist ökonomisch nicht sinnvoll. Das gilt insbesondere dann,<br />
wenn für BI-Anwendungen aufgrund der Performance-<br />
Anforderungen eine In-Memory-Datenbank 171 zum<br />
Einsatz kommt. Sinkenden Preisen für Hauptspeicher<br />
stehen wachsende (Roh-)Datenmengen gegenüber, was<br />
kommerziell die Archivierung von Rohdaten in einer In-<br />
Memory-Datenbank ausschließt.<br />
Komponenten einer hybriden, integrierten<br />
Architekturen<br />
Die sinnvolle Antwort auf die in Abbildung 50 dargestellten<br />
Anforderungen sind hybride Architekturen, die eine<br />
kosteneffiziente Integration von BI und Big Data in einer<br />
integrierten Architektur verbinden. Bei der TCO-Betrachtung<br />
spielen neben den Kosten für Anschaffung und<br />
Betrieb einer solchen Architektur auch der Schulungsaufwand,<br />
die Einsatzbreite sowie die Zeit für Datenexperimente<br />
eine wichtige Rolle.<br />
Am Beispiel der Weblog-Daten 172 werden im Folgenden<br />
die Einsatzbereiche möglicher Komponenten einer solchen<br />
hybriden Architektur vorgestellt.<br />
Komponente 1: Erfassung, Speicherung und<br />
Vorverarbeitung<br />
Es ist oft erforderlich, Weblog- oder andere Rohdaten<br />
unter neuen Gesichtspunkten zu analysieren. Für solche<br />
Situationen ist es von Vorteil, Rohdaten möglichst lange<br />
speichern zu können. Es wird dann möglich, unstrukturierte<br />
Rohdaten erst zur Laufzeit einer Analyse mit einer<br />
sinnvollen semantischen Struktur zu belegen. Dieser als<br />
Late Binding bezeichnete Ansatz unterscheidet Big Data<br />
wesentlich von klassischer Business Intelligence, bei der<br />
die Rohdaten zunächst in ein definiertes Schema transformiert<br />
werden.<br />
Für die Erfassung, Speicherung und Vorverarbeitung von<br />
Rohdaten bieten sich Hadoop oder ähnliche verteilte<br />
Dateisysteme an. Durch die eingebaute Replikation von<br />
Daten können so auch größte Datenmengen auf Standard-Servern<br />
langfristig und ausfallsicher in der Rohform<br />
gespeichert werden. Das Hadoop-Ökosystem sieht auch<br />
die Möglichkeit vor, Vorverarbeitungsschritte Batch-orientiert<br />
zu absolvieren.<br />
Komponente 2: Explorative Analyse und<br />
Mustererkennung<br />
Stehen die Rohdaten in einem Hadoop-Cluster zur<br />
Verfügung, so können Analysten oder Data Scientists<br />
mit diesen Daten experimentieren und sie mit anderen<br />
Datenquellen zu kombinieren, um auf diese Weise neue<br />
Erkenntnisse aus den Daten zu gewinnen.<br />
Dafür stellt Hadoop zahlreiche Werkzeuge bereit. In der<br />
Praxis zeigt sich jedoch, dass nur wenige Nutzer in Unternehmen<br />
die dafür benötigten Kenntnisse beseitzen oder<br />
erwerben wollen.<br />
Aus dieser Situation gibt es einen Ausweg. Der erste<br />
Schritt im Late-Binding-Ansatz zur Verarbeitung von<br />
unstrukturierten Rohdaten sieht vor, den Daten eine<br />
Struktur aufzuprägen. Danach liegen strukturierte Daten<br />
vor, die sich effizient mit relationalen Datenbanken<br />
analysieren lassen. Eine Vorverarbeitung kann also in<br />
Hadoop angestoßen und in einer relationalen Datenbank<br />
weitergeführt werden. Alternativ arbeitet die relationale<br />
Datenbank ebenfalls massiv-parallel und bietet in SQL<br />
eine MapReduce 173 -Implementierung mit vorgefertigten<br />
Analysealgorithmen an. Beiden Ansätzen ist gemeinsam,<br />
dass die Komplexität der neuen Hadoop-Technologie vor<br />
dem Anwender verborgen wird: Er muss lediglich einen<br />
erweiterten Satz von SQL-Funktionen erlernen.<br />
Die geschilderten Vorgehensweisen erweitern den Kreis<br />
von Nutzern deutlich, die in Hadoop gespeicherte, große<br />
Datenmengen analysieren können. Außerdem können die<br />
in einem Unternehmen genutzten Werkzeuge zur Visualisierung<br />
weiter verwendet werden, was den Einstieg<br />
enorm erleichtert.<br />
Die von Hadoop bereitgestellten Werkzeuge wie Hive 174<br />
werden zügig weiter entwickelt, um ihren Einsatz<br />
komfortabler zu gestalten. Viele Anwender werden es<br />
171<br />
vgl. dazu Abschnitt 6.2<br />
172<br />
vgl. auch Abschnitt 5.4<br />
173<br />
vgl. Unterabschnitt 4.1.1<br />
174<br />
vgl. Unterabschnitt 4.1.1<br />
118