22.01.2015 Aufrufe

w26M2

w26M2

w26M2

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Big-Data-Technologien – Wissen für Entscheider<br />

als wesentlicher Motor der Big-Data-Entwicklung erwiesen.<br />

Ein breites und innovatives Ökosystem aus Open<br />

Source und kommerziellen Produkten liefert Verbesserungen,<br />

mit denen sich Hadoop zunehmend zu einer<br />

unternehmensweiten, gemeinsamen Daten-Plattform<br />

entwickelt – einem Shared Service.<br />

Der Unterabschnitt 4.1.2 führt in die Welt der Big-Datarelevanten<br />

Datenbanken ein. Es wird erläutert, warum<br />

frühere Investitionen in relationale Datenbanken eine<br />

gute Grundlage für Big-Data-Projekte bilden, aber zur<br />

Erhaltung der Wettbewerbsfähigkeit nicht ausreichen,<br />

wenn man die vielen innovativen Möglichkeiten in<br />

Betracht zieht, um Daten in Geschäftswert und Gewinn<br />

umzuwandeln. Unternehmen sollten Investitionen<br />

in In-Memory-Datenbanken (zur Beschleunigung des<br />

Zugriffs auf Daten) sowie in NoSQL (für mehr Flexibilität<br />

in den Datenstrukturen und bei der Verarbeitung) prüfen<br />

und dabei die TCO über kurze und längere Zeiträume<br />

ermitteln. Beide Technologien finden mittlerweile weiten<br />

Einsatz und ergänzen die relationalen Datenbanken.<br />

4.1.1 Hadoop<br />

Viele Unternehmen sind von der Vielfalt, Geschwindigkeit<br />

und Menge an Daten überfordert. Ein echter Mehrwert<br />

für das Geschäft kann aus diesen Daten nur gewonnen<br />

werden wenn es gelingt,<br />

• die Daten so billig zu speichern wie möglich,<br />

• die Daten auf vielfältige und flexible Weise zu<br />

»befragen«, um wertvolle und umsetzbare Erkenntnisse<br />

zu gewinnen,<br />

Herausforderungen mit herkömmlichen Lösungen<br />

Herkömmliche Lösungen sind in mehrfacher Hinsicht<br />

extrem limitiert. In der klassischen Business Intelligence,<br />

basiert auf relationalen Datenbanken, müssen Fragen<br />

schon festgelegt werden, bevor Daten überhaupt<br />

gespeichert werden. Techniker nennen das »Schema on<br />

Write« – die Struktur und damit die Semantik der Daten<br />

werden in der Konfiguration der Datenbank definiert,<br />

welche dann die Daten speichert. Aus diesem Grund sind<br />

relationale Datenbanken nicht in der Lage, neue Datentypen<br />

zu akzeptieren, deren Schema noch nicht definiert<br />

ist. Sie versagen also dann, wenn die Big-Data-Dimension<br />

»Vielfalt« relevant ist. Erkenntnisse, die nur aus einem<br />

»Entdeckungsprozess« – einem interaktiven Lernen<br />

aus den Daten – hervorgehen, können so nur mühsam<br />

gewonnen werden.<br />

Außerdem skalieren herkömmliche Lösungen nicht gut,<br />

weder aus technischer noch aus wirtschaftlicher Sicht.<br />

Hohe Kosten pro Terabyte an Daten machen es unwirtschaftlich,<br />

alle Daten über lange Zeiträume vorzuhalten.<br />

Enterprise Data Warehouses zum Beispiel speichern<br />

meist nur verdichtete Daten, nicht jedoch Rohdaten.<br />

Aus Kostengründen werden nur einige wenige Jahre an<br />

Daten vorgehalten. Mit existierenden, häufig proprietären<br />

Technologien ist es für die meisten Unternehmen schlicht<br />

unbezahlbar, alle Daten für lange Zeiträume zu speichern,<br />

insbesondere auch Rohdaten oder solche Daten, deren<br />

Wert noch unklar ist. Als Fazit ergibt sich: Die Datenmengen<br />

übersteigen die verfügbaren Budgets.<br />

Kleine Budgets für große Datenmengen – Hadoop<br />

macht Skalierbarkeit bezahlbar<br />

• diese Erkenntnisse zeitnah zur Verfügung stehen.<br />

Diese drei Fähigkeiten bilden den Kern von Hadoop.<br />

Hadoop wird daher in diesem Unterabschnitt als Framework<br />

in seiner Gesamtheit vorgestellt, auch wenn sich die<br />

Unterprojekte über die Bereiche Daten-Haltung, -Zugriff,<br />

Integration, -Sicherheit und Betrieb erstrecken.<br />

Die Internet-Riesen Yahoo, Google und Facebook sind<br />

als erste mit dem Problem konfrontiert worden, große<br />

Datenmengen möglichst billig zu speichern, da die Nutzer<br />

dieser Online-Dienste ihre Inhalte gratis zur Verfügung<br />

stellen und die Kosten nur über Werbung gedeckt werden.<br />

Apache Hadoop wurde ursprünglich konzipiert, um große<br />

Datenmengen für diese Internet-Riesen extrem günstig<br />

zu speichern und auf vielfältige Weise zu verarbeiten.<br />

35

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!