w26M2

Empfehlungen

Info

Aufgaben durch die Verwendung von verschachtelten HiveQL-Unterabfragen oder durch temporäre Zwischentabellen gelöst werden müssen. Das trägt nicht gerade zur Klarheit bei und kann zu Performance-Fallen führen. Werkzeugunterstützung für die Joberstellung Es ist zu berücksichtigen, dass man bei wachsenden Integrationsprojekten mit manuellem »Hand-coding« ohne Werkzeugunterstützung, wie z. B. einem Team-Repository, regelmäßig an organisatorische Effizienzgrenzen stößt. Integrationswerkzeuge (z. B. ETL, ESB) unterstützen hierbei typischerweise in den Projektphasen Design, Dokumentation, Deployment, Betrieb und Monitoring. Mittlerweile bieten eigentlich alle Integrationssoftware-Hersteller zumindest Konnektoren für persistente Big-Data-Datenhaltungssysteme an (z. B. Hadoop, MongoDB) – ähnlich wie für etablierte Datenbanken oder Dateisysteme, die lesend bzw. schreibend angesprochen werden können. Um die manuelle Hadoop/MapReduce-Programmierung zu vereinfachen und den Datenzugriff zu erleichtern, sind ETL-Technologien entsprechend erweitert worden. Im Kontext eines Daten- und Transformationsflusses können MapReduce-Jobs konfiguriert, generiert und ausgeführt werden. Hierbei werden Technologien wie Hive und Pig genutzt, aber aus Vereinfachungsgründen gekapselt und abstrahiert. Ähnlich wie in ETL-Verfahren mit Java als Transformationslogik kann nun Hadoop komplementär oder alternativ verwendet werden, um ELT-Prozesse zu automatisieren (vgl. Abbildung 13). Abbildung 13: Werkzeuge zum Umbau eines vorhandenen ETL-Jobs in einen MapReduce-Job 4.2.2 Streaming und Complex Event Processing Der traditionelle Ansatz für Data Warehouse und Big Data analysiert ruhende Daten, in denen der Anwender mit verschiedenen Techniken nach dem Gold der Erkenntnis gräbt. Die Überwachung und Steuerung dynamischer Prozesse bedarf eines anderen Ansatzes. Hierbei werden zeitlich geordnete Ereignisse aus heterogenen Quellen überwacht, verdichtet, gefiltert und korreliert. Im Bild des Goldsuchers entspricht dies dem Goldwäscher, der mit seinem Sieb den Datenstrom nach Goldkörnern filtert. Muster (Goldkorn) und Regel (Größe) sind hier konstant, die Daten dagegen variabel und in schneller Bewegung, daher auch der Begriff Streaming. Für dieses Szenario haben sich zwei grundlegende Ansätze etabliert: • Distributed Stream Computing Platforms (DSCP) und • Complex-Event Processing (CEP). DSCP-Lösungen verwenden ganze Serverfarmen (Grids), um Abfragen und Algorithmen zur Mustererkennung in Echtzeit auf kontinuierliche Datenströme (zum Beispiel Text, Video, Audio) anzuwenden. Im Vordergrund steht hier die massive Skalierung durch isolierte parallele Verarbeitung. 52
Big-Data-Technologien – Wissen für Entscheider Complex Event Processing Complex Event Processing ist eine Technologie zur Verarbeitung von Informationsströmen, die Daten von verschiedenen Quellen kombiniert, um Meßwerte zu aggregieren, wichtige Ereignisse zu identifizieren und zeitnah auf sie zu reagieren. Typische Konzepte enthält die Tabelle 5. Konzept Projektion Filter Gruppierung Aggregierung Join Erläuterung Projektionen berechnen Werte aus den Parametern eines Ereignisses oder erzeugen daraus Folgeereignisse. Filter prüfen Bedingungen gegen ein oder mehrere Ereignisparameter. Sie propagieren das Ereignis, wenn die Bedingungen erfüllt sind. Gruppierungen partitionieren die Ausgangsereignisse. Sie ermöglichern so eine Auswertung nach Gruppen. Sie reichen die Ereignisse dann typischerweise an andere Operation weiter. Aggregierungen berechnen Summen, Anzahl, Durchschnitt, Maximum, Minimum von Ereignisparametern. Joins vergleichen und verknüpfen Ereignisse verschiedener Ströme. Dabei werden die entsprechenden Werte und Timestamps herangezogen. Tabelle 5: Typische Konzepte in CEP-Anwendungen Datenströme haben offensichtlich einen Zeitkontext. CEP- Systeme unterstützen daher Zeitfensterabstraktionen. Zeitfenster bewegen sich dabei abhängig von Konditionen der Abfrage bzw. des Filters. • Springende Fenster kumulieren Ereignisse über Zeitabschnitte. Wenn alle Ereignisse für den Zeitabschnitt erfasst wurden, werden sie als Ereignismenge zur Weiterverarbeitung gegeben. Das Fenster »springt« dann um einen fixierten Abschnitt weiter. • Ereignisbasierte Fenster produzieren nur dann Output, wenn während des Zeitfensters Ereignisse auftreten. Die Ergebnismenge ist die Gesamtheit der während der Fenstergröße aufgetretenen Ereignisse. • Zählerbasierte Fenster geben für einen Zähler n jeweils Eventfolgen der Länge n zurück. CEP erfreut sich hoher Nachfrage im Finanzsektor wie bei Versorgungs- und Fertigungsunternehmen weltweit, ebenso im Internet of Things und im Social Web. Statt traditioneller SQL-Abfragen historischer Daten ermöglicht CEP hochfrequente Analysen gegen Datenströme mit niedrigsten Latenzzeiten. Die bekannteste Anwendung für CEP ist das hochfrequente algorithmische Trading (HFAT) über regulierte Börsen wie in unregulierten Over-the-Counter (OTC) Swaps in sogenannten Dark Pools. HFAT-Exzesse trugen ebenso 2008 zum Ausbruch der Finanzkrise bei wie zu Kurseinbrüchen in jüngerer Zeit. Etwas weniger kontroverse Anwendungen von CEP umfassen die Echtzeitüberwachung von Anlagen und Objekten sowie Smart Meters für Gas, Wasser und Elektrizität, ebenso wie Produkt- und Sentiment-Analysen von Social Daten, z. B. Twitterstreams. Anbieter im Gesundheitswesen sehen künftige Anwendungen in Meßgeräten für Blutdruck, Herzfrequenz und andere physiologischer Daten, die über die Cloud Daten an CEP-Systeme liefern, um gesundheitsgefährdende Ausschläge rechtzeitig zu erkennen. Ein weiterer großer Markt für CEP ist die Überwachung seismischer und kosmischer Aktivität in Echtzeit, um laufende und künftige Umweltrisiken zu erkennen. Verschiedene weitere Anwendungsfälle für CEP und DSCP werden im Abschnitt 5.5 näher beleuchtet. 53
Seite 1 und 2:
Big-Data-Technologien - Wissen für
Seite 3 und 4: Big-Data-Technologien - Wissen für
Seite 53: Big-Data-Technologien - Wissen für
Seite 105 und 106:
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119 und 120:
Seite 121 und 122:
Seite 123 und 124:
Seite 125 und 126:
Seite 127 und 128:
Seite 129 und 130:
Seite 131 und 132:
Seite 133 und 134:
Seite 135 und 136:
Seite 137 und 138:
Seite 139 und 140:
Seite 141 und 142:
Seite 143 und 144:
Seite 145 und 146:
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?