Studie "Analytics: Big Data in der Praxis" - IBM
Studie "Analytics: Big Data in der Praxis" - IBM
Studie "Analytics: Big Data in der Praxis" - IBM
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
4 <strong>Analytics</strong>: <strong>Big</strong> <strong>Data</strong> <strong>in</strong> <strong>der</strong> Praxis<br />
Die Ergebnisse spiegeln die weith<strong>in</strong> akzeptierten Kriterien zur<br />
Charakterisierung von <strong>Big</strong> <strong>Data</strong> nach <strong>der</strong> Formel „V3“ (Volume,<br />
Variety, Velocity) wi<strong>der</strong>: Masse, Vielfalt und Geschw<strong>in</strong>digkeit.<br />
Allerd<strong>in</strong>gs s<strong>in</strong>d wir überzeugt, dass Unternehmen e<strong>in</strong>e wichtige<br />
vierte Dimension berücksichtigen müssen: die Richtigkeit <strong>der</strong><br />
Daten. Die E<strong>in</strong>beziehung von Richtigkeit (Veracity) als viertem<br />
Merkmal von <strong>Big</strong> <strong>Data</strong> unterstreicht, wie wichtig es ist, die<br />
implizite Unsicherheit e<strong>in</strong>iger Datentypen zu berücksichtigen<br />
und <strong>in</strong> den Griff zu bekommen (siehe Abbildung 2).<br />
Diese vier Dimensionen s<strong>in</strong>d aus unserer Sicht für <strong>Big</strong> <strong>Data</strong><br />
relevant:<br />
Masse: Die Dimension „Masse“ bezieht sich auf große Datenmengen,<br />
die von Unternehmen analysiert werden, um die Entscheidungsf<strong>in</strong>dung<br />
zu verbessern. Die Datenberge wachsen<br />
kont<strong>in</strong>uierlich und mit beispielloser Geschw<strong>in</strong>digkeit. Was<br />
jedoch als „große Menge“ betrachtet wird, ist je nach Branche<br />
o<strong>der</strong> sogar nach Region unterschiedlich und oft weniger als die<br />
Petabyte o<strong>der</strong> Zetabyte, die häufig genannt werden. Knapp über<br />
die Hälfte <strong>der</strong> Befragten def<strong>in</strong>ierte Datengrößen zwischen e<strong>in</strong>em<br />
Terabyte und e<strong>in</strong>em Petabyte als <strong>Big</strong> <strong>Data</strong>, während weitere<br />
30 Prozent e<strong>in</strong>fach nicht wussten, wie groß „groß“ <strong>in</strong> ihrem<br />
Unternehmen eigentlich ist. Dennoch stimmten alle dar<strong>in</strong><br />
übere<strong>in</strong>, dass das, was heute als „große Datenmenge“ angesehen<br />
wird, morgen vermutlich noch viel größer se<strong>in</strong> wird.<br />
Vielfalt: Der Begriff verweist auf unterschiedliche Datenformate<br />
und Datenquellen. Bei <strong>der</strong> Dimension „Vielfalt“ geht es darum,<br />
die Komplexität <strong>der</strong> zahlreichen Datentypen (strukturiert, semistrukturiert<br />
und unstrukturiert) <strong>in</strong> den Griff zu bekommen.<br />
Unternehmen müssen Daten aus verschiedenen herkömmlichen<br />
und neu verfügbaren Informationsquellen <strong>in</strong>tegrieren und analysieren,<br />
e<strong>in</strong>schließlich <strong>in</strong>terner und externer Daten. Mit <strong>der</strong><br />
explosionsartigen Verbreitung von Sensoren, <strong>in</strong>telligenten<br />
Devices und Social Collaboration-Technologien werden Daten<br />
<strong>in</strong> zahllosen Formaten wie Text, Webdaten, Tweets, Sensordaten,<br />
Audio, Video, Klickstreams, Protokolldateien usw. generiert.<br />
Geschw<strong>in</strong>digkeit: Die Geschw<strong>in</strong>digkeit, mit <strong>der</strong> Daten erzeugt,<br />
verarbeitet und analysiert werden, nimmt ständig zu. Ursache<br />
hierfür ist nicht nur die Tatsache, dass Daten <strong>in</strong> Echtzeit generiert<br />
werden, son<strong>der</strong>n auch die Notwendigkeit, Datenströme <strong>in</strong><br />
die Geschäftsprozesse und die Entscheidungsf<strong>in</strong>dung zu <strong>in</strong>tegrieren.<br />
Die Dimension „Geschw<strong>in</strong>digkeit“ hat Auswirkungen<br />
auf die Latenz – den Zeitraum zwischen <strong>der</strong> Erstellung o<strong>der</strong><br />
Erfassung <strong>der</strong> Daten und dem Zeitpunkt, zu dem auf die Daten<br />
zugegriffen werden kann.<br />
<strong>Big</strong> <strong>Data</strong>-Kriterien<br />
Masse<br />
Vielfalt<br />
Geschw<strong>in</strong>digkeit<br />
Große Datenmengen<br />
Daten im Terabytebis<br />
Petabyte-Bereich<br />
Daten <strong>in</strong> vielen Formaten<br />
Strukturiert, unstruktuiert,<br />
Text, Multimedia<br />
Datenströme<br />
Analyse von Stream<strong>in</strong>g-Daten, um<br />
<strong>in</strong>nerhalb von Sekundenbruchteilen<br />
Entscheidungen fällen zu können<br />
Richtigkeit<br />
Unsichere Daten<br />
Management <strong>der</strong> Zuverlässigkeit und<br />
Vorhersagbarkeit von ungenauen<br />
Datentypen<br />
Abbildung 2: Die vier Dimensionen von <strong>Big</strong> <strong>Data</strong>