22.01.2015 Aufrufe

w26M2

w26M2

w26M2

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Die alleinige Speicherung von Rohdaten über einen<br />

Zeitraum von mehreren Jahren in einem Data Warehouse<br />

ist ökonomisch nicht sinnvoll. Das gilt insbesondere dann,<br />

wenn für BI-Anwendungen aufgrund der Performance-<br />

Anforderungen eine In-Memory-Datenbank 171 zum<br />

Einsatz kommt. Sinkenden Preisen für Hauptspeicher<br />

stehen wachsende (Roh-)Datenmengen gegenüber, was<br />

kommerziell die Archivierung von Rohdaten in einer In-<br />

Memory-Datenbank ausschließt.<br />

Komponenten einer hybriden, integrierten<br />

Architekturen<br />

Die sinnvolle Antwort auf die in Abbildung 50 dargestellten<br />

Anforderungen sind hybride Architekturen, die eine<br />

kosteneffiziente Integration von BI und Big Data in einer<br />

integrierten Architektur verbinden. Bei der TCO-Betrachtung<br />

spielen neben den Kosten für Anschaffung und<br />

Betrieb einer solchen Architektur auch der Schulungsaufwand,<br />

die Einsatzbreite sowie die Zeit für Datenexperimente<br />

eine wichtige Rolle.<br />

Am Beispiel der Weblog-Daten 172 werden im Folgenden<br />

die Einsatzbereiche möglicher Komponenten einer solchen<br />

hybriden Architektur vorgestellt.<br />

Komponente 1: Erfassung, Speicherung und<br />

Vorverarbeitung<br />

Es ist oft erforderlich, Weblog- oder andere Rohdaten<br />

unter neuen Gesichtspunkten zu analysieren. Für solche<br />

Situationen ist es von Vorteil, Rohdaten möglichst lange<br />

speichern zu können. Es wird dann möglich, unstrukturierte<br />

Rohdaten erst zur Laufzeit einer Analyse mit einer<br />

sinnvollen semantischen Struktur zu belegen. Dieser als<br />

Late Binding bezeichnete Ansatz unterscheidet Big Data<br />

wesentlich von klassischer Business Intelligence, bei der<br />

die Rohdaten zunächst in ein definiertes Schema transformiert<br />

werden.<br />

Für die Erfassung, Speicherung und Vorverarbeitung von<br />

Rohdaten bieten sich Hadoop oder ähnliche verteilte<br />

Dateisysteme an. Durch die eingebaute Replikation von<br />

Daten können so auch größte Datenmengen auf Standard-Servern<br />

langfristig und ausfallsicher in der Rohform<br />

gespeichert werden. Das Hadoop-Ökosystem sieht auch<br />

die Möglichkeit vor, Vorverarbeitungsschritte Batch-orientiert<br />

zu absolvieren.<br />

Komponente 2: Explorative Analyse und<br />

Mustererkennung<br />

Stehen die Rohdaten in einem Hadoop-Cluster zur<br />

Verfügung, so können Analysten oder Data Scientists<br />

mit diesen Daten experimentieren und sie mit anderen<br />

Datenquellen zu kombinieren, um auf diese Weise neue<br />

Erkenntnisse aus den Daten zu gewinnen.<br />

Dafür stellt Hadoop zahlreiche Werkzeuge bereit. In der<br />

Praxis zeigt sich jedoch, dass nur wenige Nutzer in Unternehmen<br />

die dafür benötigten Kenntnisse beseitzen oder<br />

erwerben wollen.<br />

Aus dieser Situation gibt es einen Ausweg. Der erste<br />

Schritt im Late-Binding-Ansatz zur Verarbeitung von<br />

unstrukturierten Rohdaten sieht vor, den Daten eine<br />

Struktur aufzuprägen. Danach liegen strukturierte Daten<br />

vor, die sich effizient mit relationalen Datenbanken<br />

analysieren lassen. Eine Vorverarbeitung kann also in<br />

Hadoop angestoßen und in einer relationalen Datenbank<br />

weitergeführt werden. Alternativ arbeitet die relationale<br />

Datenbank ebenfalls massiv-parallel und bietet in SQL<br />

eine MapReduce 173 -Implementierung mit vorgefertigten<br />

Analysealgorithmen an. Beiden Ansätzen ist gemeinsam,<br />

dass die Komplexität der neuen Hadoop-Technologie vor<br />

dem Anwender verborgen wird: Er muss lediglich einen<br />

erweiterten Satz von SQL-Funktionen erlernen.<br />

Die geschilderten Vorgehensweisen erweitern den Kreis<br />

von Nutzern deutlich, die in Hadoop gespeicherte, große<br />

Datenmengen analysieren können. Außerdem können die<br />

in einem Unternehmen genutzten Werkzeuge zur Visualisierung<br />

weiter verwendet werden, was den Einstieg<br />

enorm erleichtert.<br />

Die von Hadoop bereitgestellten Werkzeuge wie Hive 174<br />

werden zügig weiter entwickelt, um ihren Einsatz<br />

komfortabler zu gestalten. Viele Anwender werden es<br />

171<br />

vgl. dazu Abschnitt 6.2<br />

172<br />

vgl. auch Abschnitt 5.4<br />

173<br />

vgl. Unterabschnitt 4.1.1<br />

174<br />

vgl. Unterabschnitt 4.1.1<br />

118

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!