w26M2
w26M2
w26M2
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Big-Data-Technologien – Wissen für Entscheider<br />
in die Wertschöpfungskette der Unternehmen integriert.<br />
Deshalb sind Analyse-Verfahren für Data in Motion<br />
zwingend erforderlich. Hier setzen sich Streaming- und<br />
Real-time Analytics-Verfahren durch.<br />
Einsatz von Streaming-Technologie<br />
ermitteln und daraus Business-relevante Rückschlüsse<br />
z. B. in Echtzeit-Visualisierungs-Dashboards den Business-<br />
Bereichen zur Verfügung zu stellen.<br />
Sensoren liefern Big Data – Hadoop ermittelt<br />
ihren Wert<br />
Beim Streaming werden lang laufende, kontinuierliche<br />
Abfragen bzw. Analysen auf Datenströmen aus der Produktion<br />
anstelle von einmaligen Abfragen und Analysen<br />
auf gespeicherten Datensätzen durchgeführt. Viele<br />
Sensordaten stehen im Kontext von aktuellen Situationen,<br />
haben eine Unschärfe aufgrund Ihres zeitlichen und<br />
technischen Entstehens und müssen zeitnah in Korrelation<br />
mit anderen Informationen gebracht werden, um die<br />
Wertschöpfung aus Unternehmenssicht abzubilden.<br />
Die durch die Sensorik in M2M-Applikationen erzeugten<br />
Events müssen nicht alle persistiert werden. Vielmehr<br />
ist im Bereich der Big-Data-Plattformen die Filterung<br />
von relevanten Events und korrelierten Informationen<br />
zur Weiterverarbeitung und Speicherung ein wichtiges<br />
Element der Beherrschbarkeit großer Datenmengen<br />
geworden.<br />
Zwei Probleme schränken derzeit die Nutzung von<br />
Sensordaten ein:<br />
• ihr Umfang und<br />
• ihre Struktur.<br />
Hadoop ist in der Lage, diese Probleme zu lösen.<br />
Sensoren messen und übertragen kleine Datenmengen<br />
effizient, allerdings sind sie immer in Betrieb. Mit<br />
zunehmender Anzahl an Sensoren und im Verlauf der<br />
Zeit können sich die Bytes oder Kilobytes von jedem<br />
Sensor schnell zu Petabytes anhäufen. Mit traditionellen<br />
Datenspeicher-Plattformen stellt ein solcher Datenstrom<br />
ein Problem dar. Die Kosten zur Speicherung der Daten<br />
können ein Unternehmen veranlassen, entweder die<br />
Sammlung von Daten einzuschränken 159 oder deren Speicherung<br />
zu begrenzen 160 .<br />
Der Einsatz von Streaming-Technologien kann den TCO<br />
einer Big-Data-Lösung signifikant reduzieren, da nur relevante<br />
Daten in den Data-Stores weitergeroutet, gespeichert<br />
und prozessiert werden müssen.<br />
Hadoop bietet eine effizientere und kostengünstigere<br />
Speicherung dieser Daten. Dank Hadoop verwandeln sich<br />
große Mengen an Sensordaten von einem Problem zu<br />
einem Vermögenswert.<br />
Des Weiteren geht es darum, aus den Datenströmen in<br />
Real-Zeit (low latency) durch Analytische Funktionen und<br />
CEP-Prinzipien direkte Auslöser für unternehmensrelevante<br />
Events und Prozessverarbeitungen zu entdecken<br />
und zu verarbeiten.<br />
Streaming Technologien wie Storm, InfoSphere Streams<br />
oder z. B. GemFire erlauben es, aus den hochvolumigen<br />
Event-Datenströmen direkt unscharfe Events (Veracity)<br />
auszufiltern, relevante Datenkontexte analytisch zu<br />
Sensordaten sind zudem zum Zeitpunkt ihrer Erhebung in<br />
der Regel unstrukturiert und werden durch einen mechanischen,<br />
sich wiederholenden Prozess generiert.<br />
Apache Hive kann die Sensordaten in Übereinstimmung<br />
mit ihren Metadaten 161 umwandeln. Die Daten werden<br />
dann in HCatalog in einem geläufigeren Tabellenformat<br />
präsentiert, auch wenn die zugrunde liegenden Daten<br />
noch in ihrem ursprünglichen Format in HDFS vorhanden<br />
sind.<br />
159<br />
durch Einschränkung der Anzahl der Sensoren<br />
160<br />
durch Löschen von Daten über einer bestimmten Menge oder nach einem bestimmten Zeitraum<br />
161<br />
z. B. Zeit, Datum, Temperatur, Druck oder Neigung<br />
111