22.01.2015 Aufrufe

w26M2

w26M2

w26M2

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

strukturierten Formaten und überschaubaren Mengen.<br />

Die Herausforderungen bei der Integration in ein Data<br />

Warehouse sind daher in erster Linie logischer und nicht<br />

technischer Natur.<br />

Big Data verändert auch im Anwendungsgebiet ETL so<br />

manche liebgewonnene Vorgehensweise und sorgt für<br />

neue Herausforderungen, wie auch neue Chancen.<br />

ETL-Herausforderungen durch Big Data<br />

Die Big-Data-Herausforderungen für ETL-Prozesse liegen<br />

auf der Hand: Die teils sehr großen Datenmengen und vor<br />

allem die Geschwindigkeit, mit der neue Daten generiert<br />

werden, erfordern eine hoch performante Plattform für<br />

ETL-Prozesse. Dies betrifft in erster Linie die Operationen<br />

des Bereinigens und des Umformens der Daten, um sie<br />

für Analysen zu erschließen 136 . Software, die für eine SMP-<br />

Ablaufumgebung, also die Ausführung auf einzelnen<br />

Standardservern, entwickelt wurde, kann hier Probleme<br />

bekommen, ausreichend zu skalieren.<br />

Sollen beispielsweise Sensorik-Daten aus einer technischen<br />

Großanlage 137 verarbeitet werden, dann kommen<br />

leicht mehrere hunderttausend Datensätze pro Sekunde<br />

als Eingangsmenge zustande. Solch ein Datenvolumen<br />

kann von konventionellen ETL-Tools bei weitem nicht<br />

mehr online verarbeitet werden. Die Daten werden daher<br />

einfach im ursprünglichen Format abgespeichert – ein<br />

typisches Big-Data-Vorgehen.<br />

Natürlich verschiebt sich durch dieses Verfahren das<br />

Integrationsproblem einfach nur zeitlich nach hinten:<br />

Irgendwann müssen die gespeicherten Daten erschlossen<br />

werden und auch die Verarbeitung der ruhenden Datenbestände<br />

muss in einem sinnvollen Zeitraum erledigt<br />

sein.<br />

Gleichzeitig stellen die neuen nicht-, semi- und multistrukturierten<br />

Datenquellen herkömmliche Werkzeuge<br />

vor neue Herausforderungen. Klassische ETL-Werkzeuge,<br />

sind dafür entwickelt worden, mit strukturierten Daten<br />

umzugehen. Für diesen Anwendungsfall sind sie hoch<br />

optimiert. Die Processing-Pipelines setzen voraus, dass<br />

die Input-Datenstrukturen präzise definiert sind (Fixed<br />

Schemas), was in einer Big-Data-Aufgabenstellung häufig<br />

nicht möglich ist. Selbst, wenn Datenschemata prinzipiell<br />

vorhanden sind, so sind diese nicht selten unvollständig<br />

definiert oder inkonsistent. Big-Data-ETL-Werkzeuge müssen<br />

daher Daten mit lose definierten und sich ändernden<br />

Schemata verarbeiten können. Die Definition einer Datenstruktur<br />

kann häufig erst am Ende einer Verarbeitungskette<br />

passieren (Late Schemas, vgl. Abschnitt 5.9).<br />

Beispiel Sensorik-Daten<br />

Diese Schwierigkeiten lassen sich wiederum gut am<br />

Beispiel von Sensorik-Daten nachvollziehen: Besteht die<br />

Aufgabenstellung beispielsweise darin, Diagnosedaten<br />

von Kraftfahrzeugflotten zu analysieren, so hat man es<br />

mit unterschiedlichsten Formaten aus den verschiedenen<br />

Steuergeräten und Wertespeichern der Aggregate zu tun.<br />

Diese Formate sind häufig schlecht dokumentiert, je nach<br />

Zulieferer gibt es Varianten und je nach Firmware-Stand<br />

eines Steuergeräts können sich Änderungen des Schemas<br />

von einem zum anderen Auslesezeitpunkt ergeben.<br />

Eine weitere typische Klasse von Big-Data-Daten – Social-<br />

Media-Daten – sind sehr strukturiert, wenn es um die<br />

Metainformationen geht (Datum, User, Standort etc.). Es<br />

werden gut dokumentierte, einfache XML- oder JSON-<br />

Formate verwendet. Die Inhalte dagegen (Tweets, Posts,<br />

Blogeinträge) sind unstrukturierte Texte, die durch Textanalyseverfahren<br />

erschlossen werden müssen. Bestenfalls<br />

erleichtern (Hash-)Tags diese Arbeit.<br />

Big-Data-Denkweise – neuer Umgang mit Daten<br />

Doch nicht nur die Datenmengen und Strukturen sind<br />

es, die ein Umdenken notwendig machen. Auch der<br />

Umgang mit Daten ändert sich im Zuge der Big-Data-<br />

Denkweise. In der neuen Welt der Big Data Analytics mit<br />

136<br />

Das ist das T in ETL: Transform.<br />

137<br />

z. B. einem Kraftwerk oder einem Windpark<br />

94

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!