w26M2
w26M2
w26M2
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Big-Data-Technologien – Wissen für Entscheider<br />
Big-Data-Plattformen (z. B. Hadoop)<br />
Hadoop HDFS und MapReduce<br />
Daten-Konnektivität<br />
Sqoop,<br />
Stinger<br />
Flume,<br />
Storm<br />
HBase<br />
HCatalog<br />
Hive<br />
Event<br />
Processing<br />
Hadoop-<br />
Konnektor<br />
SQL<br />
Streams<br />
NoSQL<br />
Data Ingestion und ELT<br />
Tabellen<br />
Enterprise<br />
Service Bus<br />
ETL<br />
Platform<br />
Sensor- und<br />
Standortdaten<br />
Social-Mediaund<br />
Freitextdaten<br />
Log- und Clickstream-Daten<br />
Video- und<br />
Audio-Daten<br />
NoSQL-<br />
Datenbanken<br />
Geschäfts-<br />
Anwendungen<br />
Datenbanken<br />
und Dateien<br />
Middleware-<br />
Systeme<br />
Cloud-SaaS-<br />
Anwendungen<br />
Elektronische<br />
Nachrichten<br />
Datenquellen<br />
Abbildung 37: Etablierte und neue (grün) Datenintegrationskomponenten im Kontext von Big Data<br />
• Lokationsdaten, z. B. GPS Informationen von mobilen<br />
Endgeräten<br />
• Maschinen- und Industrie-spezifische Datenschnittstellen,<br />
z. B. Sensoren.<br />
Durch die Verwendung der etablierten Integrationsplattformen<br />
und die neuen Big-Data-Anforderungen läßt sich<br />
die in Abbildung 37 dargestellte Big-Data-Integrationsarchitektur<br />
ableiten.<br />
• Massen- bzw. Batch-Verarbeitung:<br />
Übertragung von großen Datenmengen über<br />
Dateisysteme (FTP) oder Datenbank-Exporte<br />
(Entlade-Routinen).<br />
• Datenströme:<br />
Das kontinuierliche Einlesen von Maschinendaten in<br />
Hadoop (z. B. mit Apache Flume) oder die Übermittlung<br />
von Nachrichten über Messaging-Middleware<br />
(z. B. JMS) zu ESB und CEP-Plattformen.<br />
Hinter den genannten neuen Datenquellen verbergen<br />
sich unterschiedliche Datenstrukturen und Datenvolumina,<br />
die in unterschiedlichen Geschwindigkeiten einer<br />
Big-Data-Plattform bereitgestellt werden müssen. Es<br />
lassen sich hierbei folgende Kategorien ableiten, die sich<br />
zwischen Massen-Import und Echtzeit-Übermittlung von<br />
Daten bewegen:<br />
Integration von unstrukturierten Daten<br />
Es spielt keine Rolle, ob nun Massendaten (z. B. Tagesabzug<br />
aller Twitter Feeds) oder Datenströme (z. B. neue<br />
Einträge einer Hotelbewertung in ein Reiseportal) verarbeitet<br />
werden – der Inhalt eines Datensatzes kann je nach<br />
Quellsystem unstrukturiert vorliegen. Um aus diesen<br />
semantisch noch nicht greifbaren Datensätzen Inhalte<br />
zu erkennen, müssen diese mit geeigneten Werkzeugen<br />
91