22.01.2015 Aufrufe

w26M2

w26M2

w26M2

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

4 Relevante Technologie-Komponenten<br />

für Big-Data-Anwendungen<br />

Das Kapitel 4 ist für den Leitfaden zentral; es erläutert die Komponenten des in Abbildung 2<br />

vorgestellten Technologie-Baukastens im Detail.<br />

• Technologien der Daten-Haltung werden im Abschnitt 4.1 (S.36 ff.) vorgestellt. Mit Mittelpunkt<br />

steht Hadoop – die bisher wichtigste Innovation im Big-Data-Umfeld. Außerdem werden Datenbanken<br />

erörtert, die speziell auf die Anforderungen in Big-Data-Situationen zugeschnitten sind.<br />

• Der Daten-Zugriff bildet den Schwerpunkt des Abschnitts 4.2 (ab S. 51) Der Daten-Zugriff beinhaltet<br />

verschiedene Technologien, die es sehr unterschiedlichen analytischen Anwendungen<br />

ermöglichen, auf den Pool von großen Datenmengen zuzugreifen. Hierin enthalten sind – neben<br />

dem schon erwähnten MapReduce – unter anderem Hive, welches Zugang zu Daten auf HDFS<br />

über die von den relationalen Datenbanken vertraute Abfragesprache SQL bietet, aber auch<br />

Streaming – der Zugang zu Live-Datenströmen. Search- & Discovery- Technologien wiederum<br />

ermöglichen das Suchen und Entdecken von Informationen in meist unstrukturierten Daten<br />

analog zur Suchmaschine Google.<br />

• Die analytische Verarbeitung bildet den eigentlichen Kern von Big-Data-Anwendungen. Der<br />

Abschnitt 4.3 (ab S. 61) umfasst Technologien zur Verarbeitung der verschiedenen Datentypen<br />

sowie wichtige Themen wie Predictive Analytics, Data Mining und Maschinelles Lernen.<br />

• Fortgeschrittene Visualisierungen stellen ein mächtiges und hochgradig flexibles Werkzeug im<br />

Analyseprozess dar und werden im Abschnitt 4.4 (S. 73ff.) thematisiert.<br />

• Die Big-Data-Denkweise impliziert auch einen neuen Umgang mit Daten und eine Neudefinition<br />

der Daten-Integration. Es findet ein Wandel vom »Extract-Transform-Load« zum »Extract-Load-<br />

Transform« statt (Abschnitt 4.5, S. 89ff.).<br />

• Das Kapitel schließt mit Betrachtungen über Daten-Governance und Sicherheit (Abschnitt 4.6,<br />

S. 96 ff.). Es wird aufgezeichnet, was an Governance für Big Data neu ist. Gerade in diesem Bereich<br />

dürfen keine Versäumnisse zugelassen werden.<br />

• 4.1<br />

Daten-Haltung<br />

Hadoop spielt in vielen Big-Data-Anwendungen eine<br />

zentrale Rolle. Von einem preiswerten Daten-Parkplatz<br />

hat sich Hadoop so weiter entwickelt, dass es Unternehmensentscheidungen<br />

in nahezu Echtzeit durch<br />

verschiedenste Analyseverfahren unterstützt. Diese<br />

gehen über die Möglichkeiten traditioneller Business<br />

Intelligence Tools weit hinaus. Hadoop ist ein<br />

Open-Source-Framework zur parallelen Datenverarbeitung<br />

auf sehr hoch skalierenden Server-Clustern. Zu<br />

diesem Top-Level-Projekt der Apache Software Foundation<br />

gehört eine zweistellige Anzahl von Unterprojekten.<br />

Hadoop wird im Unterabschnitt 4.1.1 in seiner Gesamtheit<br />

vorgestellt, auch wenn sich die Unterprojekte<br />

über die Bereiche Daten-Haltung, -Zugriff, -Integration,<br />

-Sicherheit und Betrieb erstrecken. Hadoop hat sich für<br />

viele Problemstellungen als sehr tragfähig und deshalb<br />

34

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!