w26M2

Empfehlungen

Info

vorab analysiert werden. Die Analyse der Rohdaten mit Einbeziehung evtl. vorhandener Metadaten ergibt dann je nach Verwendungszweck einen Mehrwert wie »negatives Sentiment« (»ungenießbares Frühstück«) für ein bestimmtes Hotel. Technologien aus den Bereichen von Suchmaschinen, maschinenlernender Systeme (vgl. Abschnitt 4.3.7) oder der künstlichen Intelligenz finden hier ihre Anwendung. Hadoop-Integration mit Echtzeitdaten Apache Flume 132 ist eine Hadoop-Schnittstelle für die effiziente Erfassung, Aggregation und Transport von großen Datenströmen in das HDFS. Es hat eine einfache und flexible Architektur auf Basis von Datenflüssen (data flows). Flume ermöglicht die Integration von Datenströmen aus mehreren Quellen (z. B. Web-Logs), gleicht die Anlieferungsgeschwindigkeit mit der Verarbeitungsrate ab, gewährleistet die Datenübertragung und skaliert horizontal, um große Datenvolumina verarbeiten zu können. Hadoop-Integration mit relationalen Datenbanken Apache Sqoop 133 ist ein Werkzeug für die effiziente Übertragung von Massendaten zwischen Hadoop und strukturierten Datenspeichern, wie relationalen Datenbanken, konzipiert. Sqoop importiert Daten aus Datenbanken in strukturierter Form nach Hadoop (z. B. HDFS, Hive, HBase). Sqoop kann auch verwendet werden, um Daten aus Hadoop zu extrahieren, d.h. Daten können strukturiert in relationale Datenbanken und Data-Warehouse-Systemen exportiert werden. Sqoop stellt Datenbank-Konnektoren bereit (z. B. Oracle, mySQL, SQL Server) oder kann beliebige Datenbanken über Standard-SQL-Schnittstellentechnologien (z. B. JDBC) integrieren. zu schreiben. HCatalog ist eine Abstraktionsschicht für HDFS, um Hadoop-Daten über eine relationale Datenstruktur zugänglich zu machen. Die relationale Sicht wird mit Hilfe von Metadaten-Definitionen (Tabellen und Spalten) bereitgestellt und kann dann über Pig oder Hive verwendet werden. Somit können strukturierte Daten aus Dateien oder relationalen Datenbanken einfach in eine Hadoop-Umgebung übertragen werden. Spezialisierte Anbieter und Technologien, wie z. B. Hadapt, Facebook Presto oder Hortonworks Stinger ermöglichen darüber hinaus einen interaktiven SQL-basierten Zugriff auf Hadoop. Grafische Entwicklungsumgebung für die Hadoop- Integration Verschiedene Anbieter (z. B. Talend, Syncsort, Datameer) stellen grafische Entwicklungsumgebungen für die Hadoop Integration bereit (vgl. Abbildung 38). Diese Werkzeuge erlauben es, ohne tiefe Hadoop-Programmierkenntnisse Daten zu integrieren und zu analysieren. Mit der Unterstützung von Teamkollaboration und definierten Betriebsverfahren erleichtern sie hierbei typischerweise alle Phasen eines Integrationsprojektes (Design, Dokumentation, Deployment und Monitoring). Relationaler Datenzugriff auf Hadoop mit HCatalog Abbildung 38: Grafische Entwicklung von Hadoop-Integrationsszenarien am Beispiel von Talend Apache HCatalog ist eine tabellen-orientierte Zugriffsschicht für Hadoop, die es ermöglicht, Daten zu lesen und 132 http://hortonworks.com/hadoop/flume/ 133 http://hortonworks.com/hadoop/sqoop/ 92
Big-Data-Technologien – Wissen für Entscheider 4.5.2 Data Ingestion – von ETL zu ELT Kimball-Methodologie Ausgangssituation Schon im Umfeld des klassischen Data Warehousing der Prä-Big-Data-Ära spielte das Thema der Datenextraktion aus unterschiedlichsten Quellen, der Transformation der Daten in die gewünschte Zielformate und das Laden in ein Data Warehouse seit jeher eine gewichtige Rolle in Business-Intelligence-Projekten. Der Begriff Extract-Transform- Load (ETL) steht dabei einerseits für die entsprechenden Softwareprozesse und andererseits für eine breite Palette von Werkzeugen, die diese Prozesse überhaupt erst mit vertretbarem Aufwand ermöglichen. Die Gestaltung der ETL-Workflows ist in vielen Fällen eine herausfordernde Aufgabenstellung: Daten aus unterschiedlichsten Quellen zu integrieren, dabei durch Datenbereinigungen und Korrekturen die Qualität der gewonnenen Informationen sicher zu stellen und gleichzeitig enge Zeitfenster einzuhalten – dies sind nichttriviale Anforderungen. Die zufriedenstellende Lösung dieser Aufgaben bedingt einige Voraussetzungen: • gute Kenntnisse der Quellsysteme, • sauber designte Datenstrukturen in den Ziel-Data-Warehouse-Systemen, • Erfahrung in der Gestaltung der Ladeprozesse und Diese Situation wird dadurch vereinfacht, dass sich im Laufe der Zeit für das ETL standardisierte Vorgehensweisen herausgebildet haben, die allgemein anerkannt sind und die sehr gut zu den – ebenfalls standardisierten – Datenmodellen passen, die in klassischen Data Warehouses eingesetzt werden. Einer der Vorreiter und maßgebliche Mitgestalter dieser Standards ist Ralph Kimball 134 . Kimball hat in den neunziger Jahren des letzten Jahrhunderts den Begriff der dimensionalen Modellierung geprägt, mit der sich Fragestellungen des Data Warehouse Designs nahezu unabhängig vom Anwendungsgebiet sehr strukturiert lösen lassen. Durch diese Kimball-Methodologie wurde unter anderem eine Vielzahl von Fachbegriffen geprägt, die heutzutage Allgemeingut sind, wie »Dimension«, »Fakt« oder »Langsam veränderliche Dimension« (ein Historisierungsverfahren). Kimball hat aber auch die Handhabung der ETL-Prozesse maßgeblich beeinflusst 135 . Der Einfluss dieser Grundlagenarbeiten geht so weit, dass heutzutage in diversen Datenbanksystemen und ETL- Tools Optimierungen für Kimball-Prozesse eingebaut sind. Ein Beispiel dafür ist die Unterstützung so genannter Star Join Queries in Datenbankystemen – das sind Abfragen, die auf Faktendaten in einem dimensionalen Datenbankschema ausgeführt werden. Ein weiteres Beispiel sind Funktionen für die Verarbeitung langsam veränderlicher Dimensionen in ETL-Tools. • nicht zuletzt Software-Werkzeuge, die gleichzeitig leistungsfähig und effizient in der Anwendung sind. Daher ist es nicht weiter erstaunlich, dass die Implementierung der ETL-Stränge in DWH-Projekten erfahrungsgemäß leicht einen Anteil von bis zu 70% des Gesamtaufwands ausmachen kann. In Data Warehouse-Umgebungen, die auf herkömmlichen RDBMS aufsetzen und in denen es um die Integration von Daten geht, die aus verhältnismäßig einfach strukturierten Geschäftsdatenquellen stammen, funktionieren diese herkömmlichen Ladeprozesse und die entsprechenden Werkzeuge weiterhin sehr gut. Übliche Datenquellen, wie ERP- oder PMS-Systeme und eine Vielzahl individueller betrieblicher Softwaresysteme, liefern Daten in 134 Vgl. Kimball, Ralph: The Data Warehouse Toolkit, 3rd Edition: The Definitive Guide to Dimensional Modeling. John Wiley & Sons, 2013 135 In ihrem Buch [Caserta, Joe; Kimball, Ralph: The Data WarehouseETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. John Wiley & Sons, 2004] beschreiben die Autoren praxisnahe Verfahren für die Implementierung von ETL-Prozessen, die als Blaupause in DWH-Projekten eingesetzt werden können – und dies weitgehend unabhängig von den verwendeten Werkzeugen. 93
Seite 1 und 2:
Big-Data-Technologien - Wissen für
Seite 3 und 4:
Seite 5 und 6:
Seite 7 und 8:
Seite 9 und 10:
Seite 11 und 12:
Seite 13 und 14:
Seite 15 und 16:
Seite 17 und 18:
Seite 19 und 20:
Seite 21 und 22:
Seite 23 und 24:
Seite 25 und 26:
Seite 27 und 28:
Seite 29 und 30:
Seite 31 und 32:
Seite 33 und 34:
Seite 35 und 36:
Seite 37 und 38:
Seite 39 und 40:
Seite 41 und 42:
Seite 43 und 44: Big-Data-Technologien - Wissen für
Seite 93: Big-Data-Technologien - Wissen für
Seite 145 und 146:
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?