w26M2
w26M2
w26M2
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
strukturierten Formaten und überschaubaren Mengen.<br />
Die Herausforderungen bei der Integration in ein Data<br />
Warehouse sind daher in erster Linie logischer und nicht<br />
technischer Natur.<br />
Big Data verändert auch im Anwendungsgebiet ETL so<br />
manche liebgewonnene Vorgehensweise und sorgt für<br />
neue Herausforderungen, wie auch neue Chancen.<br />
ETL-Herausforderungen durch Big Data<br />
Die Big-Data-Herausforderungen für ETL-Prozesse liegen<br />
auf der Hand: Die teils sehr großen Datenmengen und vor<br />
allem die Geschwindigkeit, mit der neue Daten generiert<br />
werden, erfordern eine hoch performante Plattform für<br />
ETL-Prozesse. Dies betrifft in erster Linie die Operationen<br />
des Bereinigens und des Umformens der Daten, um sie<br />
für Analysen zu erschließen 136 . Software, die für eine SMP-<br />
Ablaufumgebung, also die Ausführung auf einzelnen<br />
Standardservern, entwickelt wurde, kann hier Probleme<br />
bekommen, ausreichend zu skalieren.<br />
Sollen beispielsweise Sensorik-Daten aus einer technischen<br />
Großanlage 137 verarbeitet werden, dann kommen<br />
leicht mehrere hunderttausend Datensätze pro Sekunde<br />
als Eingangsmenge zustande. Solch ein Datenvolumen<br />
kann von konventionellen ETL-Tools bei weitem nicht<br />
mehr online verarbeitet werden. Die Daten werden daher<br />
einfach im ursprünglichen Format abgespeichert – ein<br />
typisches Big-Data-Vorgehen.<br />
Natürlich verschiebt sich durch dieses Verfahren das<br />
Integrationsproblem einfach nur zeitlich nach hinten:<br />
Irgendwann müssen die gespeicherten Daten erschlossen<br />
werden und auch die Verarbeitung der ruhenden Datenbestände<br />
muss in einem sinnvollen Zeitraum erledigt<br />
sein.<br />
Gleichzeitig stellen die neuen nicht-, semi- und multistrukturierten<br />
Datenquellen herkömmliche Werkzeuge<br />
vor neue Herausforderungen. Klassische ETL-Werkzeuge,<br />
sind dafür entwickelt worden, mit strukturierten Daten<br />
umzugehen. Für diesen Anwendungsfall sind sie hoch<br />
optimiert. Die Processing-Pipelines setzen voraus, dass<br />
die Input-Datenstrukturen präzise definiert sind (Fixed<br />
Schemas), was in einer Big-Data-Aufgabenstellung häufig<br />
nicht möglich ist. Selbst, wenn Datenschemata prinzipiell<br />
vorhanden sind, so sind diese nicht selten unvollständig<br />
definiert oder inkonsistent. Big-Data-ETL-Werkzeuge müssen<br />
daher Daten mit lose definierten und sich ändernden<br />
Schemata verarbeiten können. Die Definition einer Datenstruktur<br />
kann häufig erst am Ende einer Verarbeitungskette<br />
passieren (Late Schemas, vgl. Abschnitt 5.9).<br />
Beispiel Sensorik-Daten<br />
Diese Schwierigkeiten lassen sich wiederum gut am<br />
Beispiel von Sensorik-Daten nachvollziehen: Besteht die<br />
Aufgabenstellung beispielsweise darin, Diagnosedaten<br />
von Kraftfahrzeugflotten zu analysieren, so hat man es<br />
mit unterschiedlichsten Formaten aus den verschiedenen<br />
Steuergeräten und Wertespeichern der Aggregate zu tun.<br />
Diese Formate sind häufig schlecht dokumentiert, je nach<br />
Zulieferer gibt es Varianten und je nach Firmware-Stand<br />
eines Steuergeräts können sich Änderungen des Schemas<br />
von einem zum anderen Auslesezeitpunkt ergeben.<br />
Eine weitere typische Klasse von Big-Data-Daten – Social-<br />
Media-Daten – sind sehr strukturiert, wenn es um die<br />
Metainformationen geht (Datum, User, Standort etc.). Es<br />
werden gut dokumentierte, einfache XML- oder JSON-<br />
Formate verwendet. Die Inhalte dagegen (Tweets, Posts,<br />
Blogeinträge) sind unstrukturierte Texte, die durch Textanalyseverfahren<br />
erschlossen werden müssen. Bestenfalls<br />
erleichtern (Hash-)Tags diese Arbeit.<br />
Big-Data-Denkweise – neuer Umgang mit Daten<br />
Doch nicht nur die Datenmengen und Strukturen sind<br />
es, die ein Umdenken notwendig machen. Auch der<br />
Umgang mit Daten ändert sich im Zuge der Big-Data-<br />
Denkweise. In der neuen Welt der Big Data Analytics mit<br />
136<br />
Das ist das T in ETL: Transform.<br />
137<br />
z. B. einem Kraftwerk oder einem Windpark<br />
94