22.01.2015 Aufrufe

w26M2

w26M2

w26M2

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Aufgaben durch die Verwendung von verschachtelten<br />

HiveQL-Unterabfragen oder durch temporäre Zwischentabellen<br />

gelöst werden müssen. Das trägt nicht gerade zur<br />

Klarheit bei und kann zu Performance-Fallen führen.<br />

Werkzeugunterstützung für die Joberstellung<br />

Es ist zu berücksichtigen, dass man bei wachsenden Integrationsprojekten<br />

mit manuellem »Hand-coding« ohne<br />

Werkzeugunterstützung, wie z. B. einem Team-Repository,<br />

regelmäßig an organisatorische Effizienzgrenzen stößt.<br />

Integrationswerkzeuge (z. B. ETL, ESB) unterstützen hierbei<br />

typischerweise in den Projektphasen Design, Dokumentation,<br />

Deployment, Betrieb und Monitoring. Mittlerweile<br />

bieten eigentlich alle Integrationssoftware-Hersteller<br />

zumindest Konnektoren für persistente Big-Data-Datenhaltungssysteme<br />

an (z. B. Hadoop, MongoDB) – ähnlich<br />

wie für etablierte Datenbanken oder Dateisysteme, die<br />

lesend bzw. schreibend angesprochen werden können.<br />

Um die manuelle Hadoop/MapReduce-Programmierung<br />

zu vereinfachen und den Datenzugriff zu erleichtern, sind<br />

ETL-Technologien entsprechend erweitert worden. Im<br />

Kontext eines Daten- und Transformationsflusses können<br />

MapReduce-Jobs konfiguriert, generiert und ausgeführt<br />

werden. Hierbei werden Technologien wie Hive und Pig<br />

genutzt, aber aus Vereinfachungsgründen gekapselt und<br />

abstrahiert. Ähnlich wie in ETL-Verfahren mit Java als<br />

Transformationslogik kann nun Hadoop komplementär<br />

oder alternativ verwendet werden, um ELT-Prozesse zu<br />

automatisieren (vgl. Abbildung 13).<br />

Abbildung 13: Werkzeuge zum Umbau eines vorhandenen ETL-Jobs in<br />

einen MapReduce-Job<br />

4.2.2 Streaming und Complex Event<br />

Processing<br />

Der traditionelle Ansatz für Data Warehouse und Big Data<br />

analysiert ruhende Daten, in denen der Anwender mit<br />

verschiedenen Techniken nach dem Gold der Erkenntnis<br />

gräbt. Die Überwachung und Steuerung dynamischer<br />

Prozesse bedarf eines anderen Ansatzes. Hierbei werden<br />

zeitlich geordnete Ereignisse aus heterogenen Quellen<br />

überwacht, verdichtet, gefiltert und korreliert. Im Bild des<br />

Goldsuchers entspricht dies dem Goldwäscher, der mit<br />

seinem Sieb den Datenstrom nach Goldkörnern filtert.<br />

Muster (Goldkorn) und Regel (Größe) sind hier konstant,<br />

die Daten dagegen variabel und in schneller Bewegung,<br />

daher auch der Begriff Streaming.<br />

Für dieses Szenario haben sich zwei grundlegende<br />

Ansätze etabliert:<br />

• Distributed Stream Computing Platforms (DSCP) und<br />

• Complex-Event Processing (CEP).<br />

DSCP-Lösungen verwenden ganze Serverfarmen (Grids),<br />

um Abfragen und Algorithmen zur Mustererkennung in<br />

Echtzeit auf kontinuierliche Datenströme (zum Beispiel<br />

Text, Video, Audio) anzuwenden. Im Vordergrund steht<br />

hier die massive Skalierung durch isolierte parallele<br />

Verarbeitung.<br />

52

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!