w26M2
w26M2
w26M2
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Big-Data-Technologien – Wissen für Entscheider<br />
• 9.2 Betrieb einer unternehmensweiten<br />
Stream-basierten Real-time-Analytics-<br />
Plattform<br />
Neben den Big-Data-Architektur-Elementen für Data at<br />
Rest, die die wichtigen Data-Store- und Analytics-Plattformen<br />
auf der Basis von Hadoop und die EDW-Plattformen<br />
umfassen, kommen in Big-Data-Einsatzfällen vermehrt<br />
Anforderungen zum Tragen, bei denen es um Data in<br />
Motion geht. Hier geht es um immensen Datenmengen,<br />
Real-time-Verarbeitung und -Analytics.<br />
Hierbei kommen Streaming-Technologien zum Einsatz,<br />
die es ermöglichen, im Low-Latency-Bereich (im µs<br />
Bereich) auf Daten-Events zu reagieren, diese miteinander<br />
zu korrelieren, zu aggregieren, CEP sowie analytische Operationen<br />
gegen strukturierte, semi- und unstrukturierte<br />
Daten vorzunehmen, z. B.:<br />
• Textdateien, Tabellenkalkulationen, Grafiken, Videound<br />
Audioaufzeichnungen<br />
• E-Mail, Chat und Instant Messaging, Webdatenverkehr,<br />
Blogs und Social Networking-Websites<br />
• Finanztransaktionen, Daten aus dem Kundenservice,<br />
Daten aus polizeilich eingesetzter Suchsoftware, System-<br />
und Anwendungsprotokolle<br />
• Satellitendaten, GPS-Daten, Sensorprotokolle, Daten<br />
aus Kartenlesegeräten und Zugriffsdaten.<br />
Stream-Computing-Plattformen sind von ihrer Eigenschaft<br />
und Struktur her Applikationsserver-Container mit<br />
hoher In-Memory-Compute- und -Analyse-Fähigkeit 234 .<br />
In den Runtime-Containern der Stream-Computing-<br />
Plattform werden Daten über standardisierte Konnektoren<br />
direkt aus dem Netzwerk, über Message Queues,<br />
über direkte Connectivity mit den API-Services der Social<br />
Networks, Anbindungen an Data Warehouses oder auch<br />
durch File Ingestion in die operative Auswertungslogik<br />
eingebracht.<br />
Die immer weiter steigenden Anforderungen an die Auswertung<br />
von Events , die z. B. aus der steigenden Anzahl<br />
von Sensoren (Internet of Things), Mobile Apps sowie GPS-<br />
Informationen und Instrumentierung von Fahrzeugen<br />
und Maschinen stammen, machen es notwendig, diese<br />
Datenvolumina in Echtzeit zu analysieren und nur solche<br />
Daten in die Data-Store-Technologien zu übertragen, die<br />
eine zeitlich längere Relevanz oder weitere Verarbeitungsund<br />
Analytics-Funktionen benötigen.<br />
Aus diesem Grunde werden Streaming-Technologien<br />
zum einen als High-Volume Data Ingest Service und zur<br />
Vorverarbeitung zu den Big Data Stores eingesetzt. Zum<br />
anderen ermöglichen sie Real-time-Analysen, wenn im<br />
Einsatz Low-Latency-Anforderungen zu erfüllen sind.<br />
Typische Anwendungsbeispiele bilden:<br />
• Financial Services:<br />
Einsatz im Bereich High Volume Trading, Real-time<br />
Trade Monitoring und Fraud Detection.<br />
• Telekommunikation:<br />
Einsatz im Bereich Real-time Call Detail Record Auswertung<br />
mit Mobile Advertisement, Fraud Detection,<br />
dynamische Netzwerk-Optimierung.<br />
• Security:<br />
Einsatz im Bereich Real-time Video/Audio<br />
Überwachung<br />
Ergebnisdaten, die zur Speicherung oder Weiterverarbeitung<br />
anstehen, werden über Standard-Konnektoren<br />
und Adapter in Richtung Enterprise Service Bus, Data<br />
Warehouse oder in ein Filesystem geschrieben.<br />
Die Streaming Runtime Container selbst enthalten keine<br />
eigenen Persistenz-Layer über ihre In-Memory Speicherbereiche<br />
hinaus.<br />
An dieser Stelle sollen die operationalen Implikationen<br />
und Themenstellungen beispielhaft für die IBM InfoSphere<br />
Streams-Plattform dargestellt werden, um die<br />
wesentlichen Optionen und Randbedingungen für den<br />
Einsatz einer Real-time- Analytics-Plattform zu skizzieren.<br />
234<br />
z. B. durch Einsatz von Text Analytics, statistischen Analysen, R-basierter Analytics und Operatoren zum Parsen, Filtern und Aggregieren von Daten<br />
161