w26M2
w26M2
w26M2
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
• 5.10 Data-Warehouse-Entlastung –<br />
Aktives Archiv in Hadoop<br />
Ein Hadoop-Cluster kann sowohl am Beginn des Daten-<br />
Lebenszyklus, quasi als Einflugschneise für Daten, als<br />
auch an seinem Ende eingesetzt werden – zur Archivierung<br />
der Daten für eine spätere Analyse. Damit schafft<br />
Hadoop in existierenden EDW freie Kapazitäten, in die<br />
Unternehmen hineinwachsen können, ohne zunächst in<br />
die Erweiterung des EDW investieren zu müssen.<br />
Entlastung des Enterprise Data Warehouse durch<br />
Hadoop<br />
Hadoop erlaubt die wirtschaftliche Speicherung von<br />
Daten beliebiger Struktur auf unbegrenzte Zeit, insoweit<br />
das rechtlich zulässig ist. Hadoop kann man sich vereinfacht<br />
als ein neuartiges Data Warehouse vorstellen, das<br />
größere Datenmengen und mehr Arten von Daten speichern<br />
kann und außerdem flexiblere Analysen zulässt als<br />
etablierte EDW. Als Open-Source-Software für Standard-<br />
Hardware steht Hadoop aus Sicht der Wirtschaftlichkeit<br />
etwa um den Faktor zwanzig besser da als konventionelle<br />
Data-Warehouse-Lösungen. Im Unterschied zu<br />
konventionellen EDW Architekturen mit proprietärer,<br />
hoch optimierter Hardware wurde Hadoop so konzipiert,<br />
dass ein Betrieb auf handelsüblichen Servern mit preiswertem<br />
Speicher die Norm ist.<br />
Und so verwundert es nicht, dass großen Unternehmen<br />
bereits erhebliche Kostenreduktionen gelungen sind,<br />
indem sie Hadoop zur Entlastung des EDW eingesetzt<br />
haben (vgl. Abbildung 53). Von Vorteil ist dabei, dass<br />
• die Unternehmen ihr EDW nicht ersetzen müssen,<br />
denn Hadoop ergänzt ihre vorhandene Lösung;<br />
• eine Reihe von EDW Herstellern eine Hadoop-Distribution<br />
in ihre EDW-Appliance eingebettet haben.<br />
Hadoop am Anfang sowie am Ende des Daten-<br />
Lebenszyklus<br />
Hadoop wird in absehbarer Zeit für das Data Warehouse<br />
vieler Unternehmen an Bedeutung zunehmen. Das<br />
EDW behält jedoch zunächst seine zentrale Rolle. Und<br />
so wird bereits für 2015 prognostiziert, dass mehr als die<br />
Hälfte der neu entstehenden Daten von Unternehmen<br />
Challenge<br />
Many Enterprise Data Warehouse (EDWs)<br />
at capacity<br />
Unaffordable to retain sources<br />
Older transformed data archived, not available<br />
for exploration<br />
Data Warehouse<br />
Analytics (10%)<br />
Operational (40%)<br />
Solution<br />
Free EDW for valuable queries<br />
Keep 100% of source data<br />
Mine data for value after loading it because<br />
of schema-on-read<br />
Reduce incremental EDW spend<br />
Data Warehouse<br />
Analytics (50%)<br />
Operational (50%)<br />
ETL Processing (50%)<br />
Hadoop<br />
Parse, cleanse,<br />
apply structure, transform<br />
Abbildung 53: EDW-Entlastung – Einsatz-Szenario für Hadoop<br />
122