w26M2

Empfehlungen

Info

4 Relevante Technologie-Komponenten für Big-Data-Anwendungen Das Kapitel 4 ist für den Leitfaden zentral; es erläutert die Komponenten des in Abbildung 2 vorgestellten Technologie-Baukastens im Detail. • Technologien der Daten-Haltung werden im Abschnitt 4.1 (S.36 ff.) vorgestellt. Mit Mittelpunkt steht Hadoop – die bisher wichtigste Innovation im Big-Data-Umfeld. Außerdem werden Datenbanken erörtert, die speziell auf die Anforderungen in Big-Data-Situationen zugeschnitten sind. • Der Daten-Zugriff bildet den Schwerpunkt des Abschnitts 4.2 (ab S. 51) Der Daten-Zugriff beinhaltet verschiedene Technologien, die es sehr unterschiedlichen analytischen Anwendungen ermöglichen, auf den Pool von großen Datenmengen zuzugreifen. Hierin enthalten sind – neben dem schon erwähnten MapReduce – unter anderem Hive, welches Zugang zu Daten auf HDFS über die von den relationalen Datenbanken vertraute Abfragesprache SQL bietet, aber auch Streaming – der Zugang zu Live-Datenströmen. Search- & Discovery- Technologien wiederum ermöglichen das Suchen und Entdecken von Informationen in meist unstrukturierten Daten analog zur Suchmaschine Google. • Die analytische Verarbeitung bildet den eigentlichen Kern von Big-Data-Anwendungen. Der Abschnitt 4.3 (ab S. 61) umfasst Technologien zur Verarbeitung der verschiedenen Datentypen sowie wichtige Themen wie Predictive Analytics, Data Mining und Maschinelles Lernen. • Fortgeschrittene Visualisierungen stellen ein mächtiges und hochgradig flexibles Werkzeug im Analyseprozess dar und werden im Abschnitt 4.4 (S. 73ff.) thematisiert. • Die Big-Data-Denkweise impliziert auch einen neuen Umgang mit Daten und eine Neudefinition der Daten-Integration. Es findet ein Wandel vom »Extract-Transform-Load« zum »Extract-Load- Transform« statt (Abschnitt 4.5, S. 89ff.). • Das Kapitel schließt mit Betrachtungen über Daten-Governance und Sicherheit (Abschnitt 4.6, S. 96 ff.). Es wird aufgezeichnet, was an Governance für Big Data neu ist. Gerade in diesem Bereich dürfen keine Versäumnisse zugelassen werden. • 4.1 Daten-Haltung Hadoop spielt in vielen Big-Data-Anwendungen eine zentrale Rolle. Von einem preiswerten Daten-Parkplatz hat sich Hadoop so weiter entwickelt, dass es Unternehmensentscheidungen in nahezu Echtzeit durch verschiedenste Analyseverfahren unterstützt. Diese gehen über die Möglichkeiten traditioneller Business Intelligence Tools weit hinaus. Hadoop ist ein Open-Source-Framework zur parallelen Datenverarbeitung auf sehr hoch skalierenden Server-Clustern. Zu diesem Top-Level-Projekt der Apache Software Foundation gehört eine zweistellige Anzahl von Unterprojekten. Hadoop wird im Unterabschnitt 4.1.1 in seiner Gesamtheit vorgestellt, auch wenn sich die Unterprojekte über die Bereiche Daten-Haltung, -Zugriff, -Integration, -Sicherheit und Betrieb erstrecken. Hadoop hat sich für viele Problemstellungen als sehr tragfähig und deshalb 34
Big-Data-Technologien – Wissen für Entscheider als wesentlicher Motor der Big-Data-Entwicklung erwiesen. Ein breites und innovatives Ökosystem aus Open Source und kommerziellen Produkten liefert Verbesserungen, mit denen sich Hadoop zunehmend zu einer unternehmensweiten, gemeinsamen Daten-Plattform entwickelt – einem Shared Service. Der Unterabschnitt 4.1.2 führt in die Welt der Big-Datarelevanten Datenbanken ein. Es wird erläutert, warum frühere Investitionen in relationale Datenbanken eine gute Grundlage für Big-Data-Projekte bilden, aber zur Erhaltung der Wettbewerbsfähigkeit nicht ausreichen, wenn man die vielen innovativen Möglichkeiten in Betracht zieht, um Daten in Geschäftswert und Gewinn umzuwandeln. Unternehmen sollten Investitionen in In-Memory-Datenbanken (zur Beschleunigung des Zugriffs auf Daten) sowie in NoSQL (für mehr Flexibilität in den Datenstrukturen und bei der Verarbeitung) prüfen und dabei die TCO über kurze und längere Zeiträume ermitteln. Beide Technologien finden mittlerweile weiten Einsatz und ergänzen die relationalen Datenbanken. 4.1.1 Hadoop Viele Unternehmen sind von der Vielfalt, Geschwindigkeit und Menge an Daten überfordert. Ein echter Mehrwert für das Geschäft kann aus diesen Daten nur gewonnen werden wenn es gelingt, • die Daten so billig zu speichern wie möglich, • die Daten auf vielfältige und flexible Weise zu »befragen«, um wertvolle und umsetzbare Erkenntnisse zu gewinnen, Herausforderungen mit herkömmlichen Lösungen Herkömmliche Lösungen sind in mehrfacher Hinsicht extrem limitiert. In der klassischen Business Intelligence, basiert auf relationalen Datenbanken, müssen Fragen schon festgelegt werden, bevor Daten überhaupt gespeichert werden. Techniker nennen das »Schema on Write« – die Struktur und damit die Semantik der Daten werden in der Konfiguration der Datenbank definiert, welche dann die Daten speichert. Aus diesem Grund sind relationale Datenbanken nicht in der Lage, neue Datentypen zu akzeptieren, deren Schema noch nicht definiert ist. Sie versagen also dann, wenn die Big-Data-Dimension »Vielfalt« relevant ist. Erkenntnisse, die nur aus einem »Entdeckungsprozess« – einem interaktiven Lernen aus den Daten – hervorgehen, können so nur mühsam gewonnen werden. Außerdem skalieren herkömmliche Lösungen nicht gut, weder aus technischer noch aus wirtschaftlicher Sicht. Hohe Kosten pro Terabyte an Daten machen es unwirtschaftlich, alle Daten über lange Zeiträume vorzuhalten. Enterprise Data Warehouses zum Beispiel speichern meist nur verdichtete Daten, nicht jedoch Rohdaten. Aus Kostengründen werden nur einige wenige Jahre an Daten vorgehalten. Mit existierenden, häufig proprietären Technologien ist es für die meisten Unternehmen schlicht unbezahlbar, alle Daten für lange Zeiträume zu speichern, insbesondere auch Rohdaten oder solche Daten, deren Wert noch unklar ist. Als Fazit ergibt sich: Die Datenmengen übersteigen die verfügbaren Budgets. Kleine Budgets für große Datenmengen – Hadoop macht Skalierbarkeit bezahlbar • diese Erkenntnisse zeitnah zur Verfügung stehen. Diese drei Fähigkeiten bilden den Kern von Hadoop. Hadoop wird daher in diesem Unterabschnitt als Framework in seiner Gesamtheit vorgestellt, auch wenn sich die Unterprojekte über die Bereiche Daten-Haltung, -Zugriff, Integration, -Sicherheit und Betrieb erstrecken. Die Internet-Riesen Yahoo, Google und Facebook sind als erste mit dem Problem konfrontiert worden, große Datenmengen möglichst billig zu speichern, da die Nutzer dieser Online-Dienste ihre Inhalte gratis zur Verfügung stellen und die Kosten nur über Werbung gedeckt werden. Apache Hadoop wurde ursprünglich konzipiert, um große Datenmengen für diese Internet-Riesen extrem günstig zu speichern und auf vielfältige Weise zu verarbeiten. 35
Seite 1 und 2: Big-Data-Technologien - Wissen für
Seite 35: Big-Data-Technologien - Wissen für
Seite 87 und 88:
Big-Data-Technologien - Wissen für
Seite 89 und 90:
Seite 91 und 92:
Seite 93 und 94:
Seite 95 und 96:
Seite 97 und 98:
Seite 99 und 100:
Seite 101 und 102:
Seite 103 und 104:
Seite 105 und 106:
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119 und 120:
Seite 121 und 122:
Seite 123 und 124:
Seite 125 und 126:
Seite 127 und 128:
Seite 129 und 130:
Seite 131 und 132:
Seite 133 und 134:
Seite 135 und 136:
Seite 137 und 138:
Seite 139 und 140:
Seite 141 und 142:
Seite 143 und 144:
Seite 145 und 146:
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?