w26M2
w26M2
w26M2
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Big-Data-Technologien – Wissen für Entscheider<br />
als wesentlicher Motor der Big-Data-Entwicklung erwiesen.<br />
Ein breites und innovatives Ökosystem aus Open<br />
Source und kommerziellen Produkten liefert Verbesserungen,<br />
mit denen sich Hadoop zunehmend zu einer<br />
unternehmensweiten, gemeinsamen Daten-Plattform<br />
entwickelt – einem Shared Service.<br />
Der Unterabschnitt 4.1.2 führt in die Welt der Big-Datarelevanten<br />
Datenbanken ein. Es wird erläutert, warum<br />
frühere Investitionen in relationale Datenbanken eine<br />
gute Grundlage für Big-Data-Projekte bilden, aber zur<br />
Erhaltung der Wettbewerbsfähigkeit nicht ausreichen,<br />
wenn man die vielen innovativen Möglichkeiten in<br />
Betracht zieht, um Daten in Geschäftswert und Gewinn<br />
umzuwandeln. Unternehmen sollten Investitionen<br />
in In-Memory-Datenbanken (zur Beschleunigung des<br />
Zugriffs auf Daten) sowie in NoSQL (für mehr Flexibilität<br />
in den Datenstrukturen und bei der Verarbeitung) prüfen<br />
und dabei die TCO über kurze und längere Zeiträume<br />
ermitteln. Beide Technologien finden mittlerweile weiten<br />
Einsatz und ergänzen die relationalen Datenbanken.<br />
4.1.1 Hadoop<br />
Viele Unternehmen sind von der Vielfalt, Geschwindigkeit<br />
und Menge an Daten überfordert. Ein echter Mehrwert<br />
für das Geschäft kann aus diesen Daten nur gewonnen<br />
werden wenn es gelingt,<br />
• die Daten so billig zu speichern wie möglich,<br />
• die Daten auf vielfältige und flexible Weise zu<br />
»befragen«, um wertvolle und umsetzbare Erkenntnisse<br />
zu gewinnen,<br />
Herausforderungen mit herkömmlichen Lösungen<br />
Herkömmliche Lösungen sind in mehrfacher Hinsicht<br />
extrem limitiert. In der klassischen Business Intelligence,<br />
basiert auf relationalen Datenbanken, müssen Fragen<br />
schon festgelegt werden, bevor Daten überhaupt<br />
gespeichert werden. Techniker nennen das »Schema on<br />
Write« – die Struktur und damit die Semantik der Daten<br />
werden in der Konfiguration der Datenbank definiert,<br />
welche dann die Daten speichert. Aus diesem Grund sind<br />
relationale Datenbanken nicht in der Lage, neue Datentypen<br />
zu akzeptieren, deren Schema noch nicht definiert<br />
ist. Sie versagen also dann, wenn die Big-Data-Dimension<br />
»Vielfalt« relevant ist. Erkenntnisse, die nur aus einem<br />
»Entdeckungsprozess« – einem interaktiven Lernen<br />
aus den Daten – hervorgehen, können so nur mühsam<br />
gewonnen werden.<br />
Außerdem skalieren herkömmliche Lösungen nicht gut,<br />
weder aus technischer noch aus wirtschaftlicher Sicht.<br />
Hohe Kosten pro Terabyte an Daten machen es unwirtschaftlich,<br />
alle Daten über lange Zeiträume vorzuhalten.<br />
Enterprise Data Warehouses zum Beispiel speichern<br />
meist nur verdichtete Daten, nicht jedoch Rohdaten.<br />
Aus Kostengründen werden nur einige wenige Jahre an<br />
Daten vorgehalten. Mit existierenden, häufig proprietären<br />
Technologien ist es für die meisten Unternehmen schlicht<br />
unbezahlbar, alle Daten für lange Zeiträume zu speichern,<br />
insbesondere auch Rohdaten oder solche Daten, deren<br />
Wert noch unklar ist. Als Fazit ergibt sich: Die Datenmengen<br />
übersteigen die verfügbaren Budgets.<br />
Kleine Budgets für große Datenmengen – Hadoop<br />
macht Skalierbarkeit bezahlbar<br />
• diese Erkenntnisse zeitnah zur Verfügung stehen.<br />
Diese drei Fähigkeiten bilden den Kern von Hadoop.<br />
Hadoop wird daher in diesem Unterabschnitt als Framework<br />
in seiner Gesamtheit vorgestellt, auch wenn sich die<br />
Unterprojekte über die Bereiche Daten-Haltung, -Zugriff,<br />
Integration, -Sicherheit und Betrieb erstrecken.<br />
Die Internet-Riesen Yahoo, Google und Facebook sind<br />
als erste mit dem Problem konfrontiert worden, große<br />
Datenmengen möglichst billig zu speichern, da die Nutzer<br />
dieser Online-Dienste ihre Inhalte gratis zur Verfügung<br />
stellen und die Kosten nur über Werbung gedeckt werden.<br />
Apache Hadoop wurde ursprünglich konzipiert, um große<br />
Datenmengen für diese Internet-Riesen extrem günstig<br />
zu speichern und auf vielfältige Weise zu verarbeiten.<br />
35