w26M2

Empfehlungen

Info

strukturierten Formaten und überschaubaren Mengen. Die Herausforderungen bei der Integration in ein Data Warehouse sind daher in erster Linie logischer und nicht technischer Natur. Big Data verändert auch im Anwendungsgebiet ETL so manche liebgewonnene Vorgehensweise und sorgt für neue Herausforderungen, wie auch neue Chancen. ETL-Herausforderungen durch Big Data Die Big-Data-Herausforderungen für ETL-Prozesse liegen auf der Hand: Die teils sehr großen Datenmengen und vor allem die Geschwindigkeit, mit der neue Daten generiert werden, erfordern eine hoch performante Plattform für ETL-Prozesse. Dies betrifft in erster Linie die Operationen des Bereinigens und des Umformens der Daten, um sie für Analysen zu erschließen 136 . Software, die für eine SMP- Ablaufumgebung, also die Ausführung auf einzelnen Standardservern, entwickelt wurde, kann hier Probleme bekommen, ausreichend zu skalieren. Sollen beispielsweise Sensorik-Daten aus einer technischen Großanlage 137 verarbeitet werden, dann kommen leicht mehrere hunderttausend Datensätze pro Sekunde als Eingangsmenge zustande. Solch ein Datenvolumen kann von konventionellen ETL-Tools bei weitem nicht mehr online verarbeitet werden. Die Daten werden daher einfach im ursprünglichen Format abgespeichert – ein typisches Big-Data-Vorgehen. Natürlich verschiebt sich durch dieses Verfahren das Integrationsproblem einfach nur zeitlich nach hinten: Irgendwann müssen die gespeicherten Daten erschlossen werden und auch die Verarbeitung der ruhenden Datenbestände muss in einem sinnvollen Zeitraum erledigt sein. Gleichzeitig stellen die neuen nicht-, semi- und multistrukturierten Datenquellen herkömmliche Werkzeuge vor neue Herausforderungen. Klassische ETL-Werkzeuge, sind dafür entwickelt worden, mit strukturierten Daten umzugehen. Für diesen Anwendungsfall sind sie hoch optimiert. Die Processing-Pipelines setzen voraus, dass die Input-Datenstrukturen präzise definiert sind (Fixed Schemas), was in einer Big-Data-Aufgabenstellung häufig nicht möglich ist. Selbst, wenn Datenschemata prinzipiell vorhanden sind, so sind diese nicht selten unvollständig definiert oder inkonsistent. Big-Data-ETL-Werkzeuge müssen daher Daten mit lose definierten und sich ändernden Schemata verarbeiten können. Die Definition einer Datenstruktur kann häufig erst am Ende einer Verarbeitungskette passieren (Late Schemas, vgl. Abschnitt 5.9). Beispiel Sensorik-Daten Diese Schwierigkeiten lassen sich wiederum gut am Beispiel von Sensorik-Daten nachvollziehen: Besteht die Aufgabenstellung beispielsweise darin, Diagnosedaten von Kraftfahrzeugflotten zu analysieren, so hat man es mit unterschiedlichsten Formaten aus den verschiedenen Steuergeräten und Wertespeichern der Aggregate zu tun. Diese Formate sind häufig schlecht dokumentiert, je nach Zulieferer gibt es Varianten und je nach Firmware-Stand eines Steuergeräts können sich Änderungen des Schemas von einem zum anderen Auslesezeitpunkt ergeben. Eine weitere typische Klasse von Big-Data-Daten – Social- Media-Daten – sind sehr strukturiert, wenn es um die Metainformationen geht (Datum, User, Standort etc.). Es werden gut dokumentierte, einfache XML- oder JSON- Formate verwendet. Die Inhalte dagegen (Tweets, Posts, Blogeinträge) sind unstrukturierte Texte, die durch Textanalyseverfahren erschlossen werden müssen. Bestenfalls erleichtern (Hash-)Tags diese Arbeit. Big-Data-Denkweise – neuer Umgang mit Daten Doch nicht nur die Datenmengen und Strukturen sind es, die ein Umdenken notwendig machen. Auch der Umgang mit Daten ändert sich im Zuge der Big-Data- Denkweise. In der neuen Welt der Big Data Analytics mit 136 Das ist das T in ETL: Transform. 137 z. B. einem Kraftwerk oder einem Windpark 94
Big-Data-Technologien – Wissen für Entscheider ihren Methoden des Machine Learnings, des Data Minings und der Predictive Analytics ist es wichtig, eine möglichst große Menge des Rohstoffs Daten vorzuhalten. Nur Daten, die über einen längeren zeitlichen Verlauf gesammelt wurden, ermöglichen den Einsatz dieser Verfahren. Gleichzeitig wird bisweilen erst im Verlauf einer Analyse klar, welche der gesammelten Daten wichtig sind und zu einem Ergebnis beitragen. Das notwendige exploratives Vorgehen bedingt, dass die Daten ungefiltert gesammelt werden. Schlussendlich ist es banaler Weise viel einfacher, die Rohdaten zunächst unverändert auf einem preiswerten Speichermedium abzulegen und die Strukturierung und Weiterverarbeitung dann durchzuführen, wenn die endgültige Verwendung geklärt ist. In einem modernen Data Warehouse werden neben den strukturierten dimensionalen Daten, die klassisch behandelt werden können, gezielt lose strukturierte Daten in einem Langzeitspeicher – typischer Weise einem Hadoop- Cluster – vorgehalten, um diese bei Bedarf zu analysieren. In einem DWH für ein Webshop-System beispielsweise könnten neben den strukturierten Stamm- und Transaktionsdaten 138 , die Logdaten der Webserver im Rohformat gespeichert werden. Auf der Grundlage der Protokolldateien lassen sich dann regelmäßig durch Clickstream- Analysen fortlaufende Optimierungsvorschläge für das Webshop-Frontend ableiten. Dabei geht es um große Datenvolumina, die ausreichend schnell verarbeitet werden müssen, und um semistrukturierte Daten 139 . Neudefinition der Daten-Integration Die beschriebenen Faktoren – hohe Datenvolumina und -Raten, unvollständige Schemata, fehlende Notwendigkeit, in eine dimensionale Zielstruktur zu laden – führen insgesamt zu einer Neudefinition der Daten-Integration: Weg vom Vorgehen des »Extract-Transform-Load«, hin zu einem »Extract-Load-Transform« (ELT) 140 . In einem Big- Data-Umfeld ist der Aufwand für Extraktion (Extract) der Daten häufig vernachlässigbar. Sensorik-Daten werden bereits in großen Mengen geliefert, Social Media-Dienste habe einfach abzufragende APIs, Webserver protokollieren die Benutzerzugriffe sehr umfangreich: Die Daten liegen in Form von Textdateien bereits vor. Folgt man dem Paradigma des »Speichere jetzt – Verarbeite später«, dann reduziert sich das Laden der Daten (Load) auf einen einfachen Transportvorgang. Eventuell sind dabei Netzwerk-Bandbreiten zu berücksichtigen. Durch Komprimierungsverfahren, Caching und den Einsatz von Cloud-Diensten lassen sich aber auch große Datenmengen und weite Entfernungen gut in den Griff bekommen. Die Transformationen schließlich werden aufwendiger. Die Verarbeitung wenig strukturierter Daten lässt sich schlechter optimieren und verbraucht deutlich mehr Ressourcen (Prozessor, Speicher, IO). Selbst, wenn die Daten nicht in eine dimensionale Form gebracht müssen, weil es den Anwendungsfall BI nicht gibt, so sind doch auch für statistische und andere Datenanalysen oft umfangreiche Vorverarbeitungen 141 erforderlich. In einer MPP-Umgebung, die viel Rechenleistung zur Verfügung stellt – wie ein ausreichend dimensionierter Hadoop-Cluster – können diese Transformationen auch bei großen Datenmengen noch hinreichend schnell durchgeführt werden. Anforderungen an das »neue ETL« Bevor es nachfolgend darum geht, wie Hadoop die Daten- Integration unterstützen kann, folgt an dieser noch eine kurze Definition der drei wichtigsten Anforderungen an das »neue ETL«. Um Big-Data-Anwendungsfälle optimal zu unterstützen, sollten mindestens diese Kriterien erfüllt werden: • Performance: Große Datenvolumina und -Raten müssen hinreichend schnell verarbeitet werden können • Flexibilität: Nicht-, semi- und polystrukturierte Daten müssen einfach verarbeitet werden können. 138 Artikel, Kunden, Bestellungen etc. 139 Webserver sind etwas »unordentlich«, was ihre Protokollierung angeht. 140 Obwohl der Begriff ELT der passende für diese neue Art des Vorgehens ist, hat es sich doch eingebürgert, beim althergebrachten ETL zu bleiben. 141 Extraktionen, Bereinigungen, Filterungen, Ersetzung fehlender Werte etc. 95
Seite 1 und 2:
Big-Data-Technologien - Wissen für
Seite 3 und 4:
Seite 5 und 6:
Seite 7 und 8:
Seite 9 und 10:
Seite 11 und 12:
Seite 13 und 14:
Seite 15 und 16:
Seite 17 und 18:
Seite 19 und 20:
Seite 21 und 22:
Seite 23 und 24:
Seite 25 und 26:
Seite 27 und 28:
Seite 29 und 30:
Seite 31 und 32:
Seite 33 und 34:
Seite 35 und 36:
Seite 37 und 38:
Seite 39 und 40:
Seite 41 und 42:
Seite 43 und 44:
Seite 45 und 46: Big-Data-Technologien - Wissen für
Seite 95: Big-Data-Technologien - Wissen für
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?