w26M2

Empfehlungen

Info

Richtung einer Event Driven Architecture (EDA) ist man in der Lage, neue Big-Data-Datenströme und -Ereignisse zu verarbeiten, dies wird z. B. durch die Integration von CEP, In-Memory und Low-Latency-Messaging Middleware ermöglicht. ETL-Plattformen unterschiedliche API’s zur Datensuche und -veränderung bereit. In den meisten Fällen werden die Operationen auf Basis von Internet-Protokollen (z. B. HTTP, REST), Dokument-orientierten Datenstrukturen (z. B. JSON) und API’s für unterschiedliche Programmierund Skriptsprachen (z. B. Java, C++, .NET, JavaScript, PHP) angeboten. Die andere wesentliche Technologie zur Anbindung von verschiedenen Datenquellen sind Datenintegrationsoder ETL-Plattformen. Im Unterschied zu einem ESB liegt bei ETL-Plattformen (z. B. Infosphere, Informatica, SAS, Talend) der Fokus auf dem Transfer und der Transformation von großen und komplexen Datenmengen, die häufig im Batch-Verfahren durchgeführt werden. Durch den Schwerpunkt auf Daten bilden bei ETL-Plattformen die Themen Datennormalisierung, Datenqualität und Metadaten eine stärkere Rolle als bei einem ESB. Auch wenn sich ETL- und ESB-Plattformen aufeinander zu bewegen und eine Abgrenzung zunehmend schwierig wird, em pfiehlt sich bei Integrationsszenarien mit hohen Anforderungen an die Echtzeit-Verarbeitung und an die Applikationsanbindung (inkl. Datenveränderungen) der Einsatz eines ESB. Andere Technologien wie Daten-Qualität, Daten-Virtualisierung, Master Data Management (MDM), SOA-Governance, API-Management, Business Process Management (BPM) oder spezialisierte Integrationslösungen (z. B. Finanzmärkte) ergänzen diese Plattformen. Neue Konnektivitäts-Anforderungen Im Rahmen von Big Data kommen zu den existierenden Integrationslösungen neue Konnektivitäts-Anforderungen hinzu: • Hadoop – Zugriff auf Daten, die in Hadoop gespeichert sind oder die Integration von Datenquellen mit Hadoop HDFS und MapReduce, z. B. der Import und Export von Daten aus relationalen Datenbanken mit Hilfe von Apache Sqoop. • NoSQL-Datenbanken (z. B. MongoDB, Apache Cassandra, CouchDB, Neo4J) – NoSQL-Datenbanken stellen • Analytische Datenbanken (z. B. IBM Netezza, SAP HANA, Oracle Exalytics, Teradata) – Die Integration erfolgt meistens über Standard-SQL-Schnittstellen (JDBC, ODBC), die zum Teil produktspezifisch erweitert wurden (z. B. Teradata SQL-H). • In-Memory-Datenhaltungssysteme (z. B. Terracotta BigMemory, Pivotal GemFire) – Integration von In-Memory-basierten Datenspeichern, z. B. auf Basis von API’s (z. B. Java Standard JSR107) oder Query-Schnittstellen. • Cloud-Datenhaltung (z. B. Microsoft Azure, Amazon RDS, Google BigQuery) – Daten, die in Cloud-Datenbanken gespeichert sind, können durch bereitgestellte API’s (z. B. REST) oder anbieterspezifische Schnittstellen verarbeitet werden. • Social Media (z. B.z. B. Facebook, Twitter) – Die Integration mit Social-Media Plattformen basiert auf den jeweiligen API’s. Diese API’s sind Plattformspezifisch und unterscheiden sich im Umfang der bereitgestellten Funktionalität, der Datenstrukturen, der Limitierungen (z. B. Datendurchsatz) und Identifizierungsmechanismen. • Unstrukturierte Daten (z. B. Texte, elektronische Dokumente, Log-Daten) – Diese Daten werden meist über herkömmliche Dateisysteme und Übermittlungsprotokolle (z. B. FTP) zur Verfügung gestellt. Elektronische Dokumente werden in Unternehmen in Dokumenten- Management-Systeme verwaltet und über zugehörige Schnittstellen bereitgestellt. • Multimedia-Daten, z. B. Audio und Video 90
Big-Data-Technologien – Wissen für Entscheider Big-Data-Plattformen (z. B. Hadoop) Hadoop HDFS und MapReduce Daten-Konnektivität Sqoop, Stinger Flume, Storm HBase HCatalog Hive Event Processing Hadoop- Konnektor SQL Streams NoSQL Data Ingestion und ELT Tabellen Enterprise Service Bus ETL Platform Sensor- und Standortdaten Social-Mediaund Freitextdaten Log- und Clickstream-Daten Video- und Audio-Daten NoSQL- Datenbanken Geschäfts- Anwendungen Datenbanken und Dateien Middleware- Systeme Cloud-SaaS- Anwendungen Elektronische Nachrichten Datenquellen Abbildung 37: Etablierte und neue (grün) Datenintegrationskomponenten im Kontext von Big Data • Lokationsdaten, z. B. GPS Informationen von mobilen Endgeräten • Maschinen- und Industrie-spezifische Datenschnittstellen, z. B. Sensoren. Durch die Verwendung der etablierten Integrationsplattformen und die neuen Big-Data-Anforderungen läßt sich die in Abbildung 37 dargestellte Big-Data-Integrationsarchitektur ableiten. • Massen- bzw. Batch-Verarbeitung: Übertragung von großen Datenmengen über Dateisysteme (FTP) oder Datenbank-Exporte (Entlade-Routinen). • Datenströme: Das kontinuierliche Einlesen von Maschinendaten in Hadoop (z. B. mit Apache Flume) oder die Übermittlung von Nachrichten über Messaging-Middleware (z. B. JMS) zu ESB und CEP-Plattformen. Hinter den genannten neuen Datenquellen verbergen sich unterschiedliche Datenstrukturen und Datenvolumina, die in unterschiedlichen Geschwindigkeiten einer Big-Data-Plattform bereitgestellt werden müssen. Es lassen sich hierbei folgende Kategorien ableiten, die sich zwischen Massen-Import und Echtzeit-Übermittlung von Daten bewegen: Integration von unstrukturierten Daten Es spielt keine Rolle, ob nun Massendaten (z. B. Tagesabzug aller Twitter Feeds) oder Datenströme (z. B. neue Einträge einer Hotelbewertung in ein Reiseportal) verarbeitet werden – der Inhalt eines Datensatzes kann je nach Quellsystem unstrukturiert vorliegen. Um aus diesen semantisch noch nicht greifbaren Datensätzen Inhalte zu erkennen, müssen diese mit geeigneten Werkzeugen 91
Seite 1 und 2:
Big-Data-Technologien - Wissen für
Seite 3 und 4:
Seite 5 und 6:
Seite 7 und 8:
Seite 9 und 10:
Seite 11 und 12:
Seite 13 und 14:
Seite 15 und 16:
Seite 17 und 18:
Seite 19 und 20:
Seite 21 und 22:
Seite 23 und 24:
Seite 25 und 26:
Seite 27 und 28:
Seite 29 und 30:
Seite 31 und 32:
Seite 33 und 34:
Seite 35 und 36:
Seite 37 und 38:
Seite 39 und 40:
Seite 41 und 42: Big-Data-Technologien - Wissen für
Seite 91: Big-Data-Technologien - Wissen für
Seite 143 und 144:
Seite 145 und 146:
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?