w26M2
w26M2
w26M2
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
4 Relevante Technologie-Komponenten<br />
für Big-Data-Anwendungen<br />
Das Kapitel 4 ist für den Leitfaden zentral; es erläutert die Komponenten des in Abbildung 2<br />
vorgestellten Technologie-Baukastens im Detail.<br />
• Technologien der Daten-Haltung werden im Abschnitt 4.1 (S.36 ff.) vorgestellt. Mit Mittelpunkt<br />
steht Hadoop – die bisher wichtigste Innovation im Big-Data-Umfeld. Außerdem werden Datenbanken<br />
erörtert, die speziell auf die Anforderungen in Big-Data-Situationen zugeschnitten sind.<br />
• Der Daten-Zugriff bildet den Schwerpunkt des Abschnitts 4.2 (ab S. 51) Der Daten-Zugriff beinhaltet<br />
verschiedene Technologien, die es sehr unterschiedlichen analytischen Anwendungen<br />
ermöglichen, auf den Pool von großen Datenmengen zuzugreifen. Hierin enthalten sind – neben<br />
dem schon erwähnten MapReduce – unter anderem Hive, welches Zugang zu Daten auf HDFS<br />
über die von den relationalen Datenbanken vertraute Abfragesprache SQL bietet, aber auch<br />
Streaming – der Zugang zu Live-Datenströmen. Search- & Discovery- Technologien wiederum<br />
ermöglichen das Suchen und Entdecken von Informationen in meist unstrukturierten Daten<br />
analog zur Suchmaschine Google.<br />
• Die analytische Verarbeitung bildet den eigentlichen Kern von Big-Data-Anwendungen. Der<br />
Abschnitt 4.3 (ab S. 61) umfasst Technologien zur Verarbeitung der verschiedenen Datentypen<br />
sowie wichtige Themen wie Predictive Analytics, Data Mining und Maschinelles Lernen.<br />
• Fortgeschrittene Visualisierungen stellen ein mächtiges und hochgradig flexibles Werkzeug im<br />
Analyseprozess dar und werden im Abschnitt 4.4 (S. 73ff.) thematisiert.<br />
• Die Big-Data-Denkweise impliziert auch einen neuen Umgang mit Daten und eine Neudefinition<br />
der Daten-Integration. Es findet ein Wandel vom »Extract-Transform-Load« zum »Extract-Load-<br />
Transform« statt (Abschnitt 4.5, S. 89ff.).<br />
• Das Kapitel schließt mit Betrachtungen über Daten-Governance und Sicherheit (Abschnitt 4.6,<br />
S. 96 ff.). Es wird aufgezeichnet, was an Governance für Big Data neu ist. Gerade in diesem Bereich<br />
dürfen keine Versäumnisse zugelassen werden.<br />
• 4.1<br />
Daten-Haltung<br />
Hadoop spielt in vielen Big-Data-Anwendungen eine<br />
zentrale Rolle. Von einem preiswerten Daten-Parkplatz<br />
hat sich Hadoop so weiter entwickelt, dass es Unternehmensentscheidungen<br />
in nahezu Echtzeit durch<br />
verschiedenste Analyseverfahren unterstützt. Diese<br />
gehen über die Möglichkeiten traditioneller Business<br />
Intelligence Tools weit hinaus. Hadoop ist ein<br />
Open-Source-Framework zur parallelen Datenverarbeitung<br />
auf sehr hoch skalierenden Server-Clustern. Zu<br />
diesem Top-Level-Projekt der Apache Software Foundation<br />
gehört eine zweistellige Anzahl von Unterprojekten.<br />
Hadoop wird im Unterabschnitt 4.1.1 in seiner Gesamtheit<br />
vorgestellt, auch wenn sich die Unterprojekte<br />
über die Bereiche Daten-Haltung, -Zugriff, -Integration,<br />
-Sicherheit und Betrieb erstrecken. Hadoop hat sich für<br />
viele Problemstellungen als sehr tragfähig und deshalb<br />
34