22.01.2015 Aufrufe

w26M2

w26M2

w26M2

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Big-Data-Technologien – Wissen für Entscheider<br />

Big-Data-Plattformen (z. B. Hadoop)<br />

Hadoop HDFS und MapReduce<br />

Daten-Konnektivität<br />

Sqoop,<br />

Stinger<br />

Flume,<br />

Storm<br />

HBase<br />

HCatalog<br />

Hive<br />

Event<br />

Processing<br />

Hadoop-<br />

Konnektor<br />

SQL<br />

Streams<br />

NoSQL<br />

Data Ingestion und ELT<br />

Tabellen<br />

Enterprise<br />

Service Bus<br />

ETL<br />

Platform<br />

Sensor- und<br />

Standortdaten<br />

Social-Mediaund<br />

Freitextdaten<br />

Log- und Clickstream-Daten<br />

Video- und<br />

Audio-Daten<br />

NoSQL-<br />

Datenbanken<br />

Geschäfts-<br />

Anwendungen<br />

Datenbanken<br />

und Dateien<br />

Middleware-<br />

Systeme<br />

Cloud-SaaS-<br />

Anwendungen<br />

Elektronische<br />

Nachrichten<br />

Datenquellen<br />

Abbildung 37: Etablierte und neue (grün) Datenintegrationskomponenten im Kontext von Big Data<br />

• Lokationsdaten, z. B. GPS Informationen von mobilen<br />

Endgeräten<br />

• Maschinen- und Industrie-spezifische Datenschnittstellen,<br />

z. B. Sensoren.<br />

Durch die Verwendung der etablierten Integrationsplattformen<br />

und die neuen Big-Data-Anforderungen läßt sich<br />

die in Abbildung 37 dargestellte Big-Data-Integrationsarchitektur<br />

ableiten.<br />

• Massen- bzw. Batch-Verarbeitung:<br />

Übertragung von großen Datenmengen über<br />

Dateisysteme (FTP) oder Datenbank-Exporte<br />

(Entlade-Routinen).<br />

• Datenströme:<br />

Das kontinuierliche Einlesen von Maschinendaten in<br />

Hadoop (z. B. mit Apache Flume) oder die Übermittlung<br />

von Nachrichten über Messaging-Middleware<br />

(z. B. JMS) zu ESB und CEP-Plattformen.<br />

Hinter den genannten neuen Datenquellen verbergen<br />

sich unterschiedliche Datenstrukturen und Datenvolumina,<br />

die in unterschiedlichen Geschwindigkeiten einer<br />

Big-Data-Plattform bereitgestellt werden müssen. Es<br />

lassen sich hierbei folgende Kategorien ableiten, die sich<br />

zwischen Massen-Import und Echtzeit-Übermittlung von<br />

Daten bewegen:<br />

Integration von unstrukturierten Daten<br />

Es spielt keine Rolle, ob nun Massendaten (z. B. Tagesabzug<br />

aller Twitter Feeds) oder Datenströme (z. B. neue<br />

Einträge einer Hotelbewertung in ein Reiseportal) verarbeitet<br />

werden – der Inhalt eines Datensatzes kann je nach<br />

Quellsystem unstrukturiert vorliegen. Um aus diesen<br />

semantisch noch nicht greifbaren Datensätzen Inhalte<br />

zu erkennen, müssen diese mit geeigneten Werkzeugen<br />

91

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!