28.12.2013 Aufrufe

Studie "Analytics: Big Data in der Praxis" - IBM

Studie "Analytics: Big Data in der Praxis" - IBM

Studie "Analytics: Big Data in der Praxis" - IBM

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

4 <strong>Analytics</strong>: <strong>Big</strong> <strong>Data</strong> <strong>in</strong> <strong>der</strong> Praxis<br />

Die Ergebnisse spiegeln die weith<strong>in</strong> akzeptierten Kriterien zur<br />

Charakterisierung von <strong>Big</strong> <strong>Data</strong> nach <strong>der</strong> Formel „V3“ (Volume,<br />

Variety, Velocity) wi<strong>der</strong>: Masse, Vielfalt und Geschw<strong>in</strong>digkeit.<br />

Allerd<strong>in</strong>gs s<strong>in</strong>d wir überzeugt, dass Unternehmen e<strong>in</strong>e wichtige<br />

vierte Dimension berücksichtigen müssen: die Richtigkeit <strong>der</strong><br />

Daten. Die E<strong>in</strong>beziehung von Richtigkeit (Veracity) als viertem<br />

Merkmal von <strong>Big</strong> <strong>Data</strong> unterstreicht, wie wichtig es ist, die<br />

implizite Unsicherheit e<strong>in</strong>iger Datentypen zu berücksichtigen<br />

und <strong>in</strong> den Griff zu bekommen (siehe Abbildung 2).<br />

Diese vier Dimensionen s<strong>in</strong>d aus unserer Sicht für <strong>Big</strong> <strong>Data</strong><br />

relevant:<br />

Masse: Die Dimension „Masse“ bezieht sich auf große Datenmengen,<br />

die von Unternehmen analysiert werden, um die Entscheidungsf<strong>in</strong>dung<br />

zu verbessern. Die Datenberge wachsen<br />

kont<strong>in</strong>uierlich und mit beispielloser Geschw<strong>in</strong>digkeit. Was<br />

jedoch als „große Menge“ betrachtet wird, ist je nach Branche<br />

o<strong>der</strong> sogar nach Region unterschiedlich und oft weniger als die<br />

Petabyte o<strong>der</strong> Zetabyte, die häufig genannt werden. Knapp über<br />

die Hälfte <strong>der</strong> Befragten def<strong>in</strong>ierte Datengrößen zwischen e<strong>in</strong>em<br />

Terabyte und e<strong>in</strong>em Petabyte als <strong>Big</strong> <strong>Data</strong>, während weitere<br />

30 Prozent e<strong>in</strong>fach nicht wussten, wie groß „groß“ <strong>in</strong> ihrem<br />

Unternehmen eigentlich ist. Dennoch stimmten alle dar<strong>in</strong><br />

übere<strong>in</strong>, dass das, was heute als „große Datenmenge“ angesehen<br />

wird, morgen vermutlich noch viel größer se<strong>in</strong> wird.<br />

Vielfalt: Der Begriff verweist auf unterschiedliche Datenformate<br />

und Datenquellen. Bei <strong>der</strong> Dimension „Vielfalt“ geht es darum,<br />

die Komplexität <strong>der</strong> zahlreichen Datentypen (strukturiert, semistrukturiert<br />

und unstrukturiert) <strong>in</strong> den Griff zu bekommen.<br />

Unternehmen müssen Daten aus verschiedenen herkömmlichen<br />

und neu verfügbaren Informationsquellen <strong>in</strong>tegrieren und analysieren,<br />

e<strong>in</strong>schließlich <strong>in</strong>terner und externer Daten. Mit <strong>der</strong><br />

explosionsartigen Verbreitung von Sensoren, <strong>in</strong>telligenten<br />

Devices und Social Collaboration-Technologien werden Daten<br />

<strong>in</strong> zahllosen Formaten wie Text, Webdaten, Tweets, Sensordaten,<br />

Audio, Video, Klickstreams, Protokolldateien usw. generiert.<br />

Geschw<strong>in</strong>digkeit: Die Geschw<strong>in</strong>digkeit, mit <strong>der</strong> Daten erzeugt,<br />

verarbeitet und analysiert werden, nimmt ständig zu. Ursache<br />

hierfür ist nicht nur die Tatsache, dass Daten <strong>in</strong> Echtzeit generiert<br />

werden, son<strong>der</strong>n auch die Notwendigkeit, Datenströme <strong>in</strong><br />

die Geschäftsprozesse und die Entscheidungsf<strong>in</strong>dung zu <strong>in</strong>tegrieren.<br />

Die Dimension „Geschw<strong>in</strong>digkeit“ hat Auswirkungen<br />

auf die Latenz – den Zeitraum zwischen <strong>der</strong> Erstellung o<strong>der</strong><br />

Erfassung <strong>der</strong> Daten und dem Zeitpunkt, zu dem auf die Daten<br />

zugegriffen werden kann.<br />

<strong>Big</strong> <strong>Data</strong>-Kriterien<br />

Masse<br />

Vielfalt<br />

Geschw<strong>in</strong>digkeit<br />

Große Datenmengen<br />

Daten im Terabytebis<br />

Petabyte-Bereich<br />

Daten <strong>in</strong> vielen Formaten<br />

Strukturiert, unstruktuiert,<br />

Text, Multimedia<br />

Datenströme<br />

Analyse von Stream<strong>in</strong>g-Daten, um<br />

<strong>in</strong>nerhalb von Sekundenbruchteilen<br />

Entscheidungen fällen zu können<br />

Richtigkeit<br />

Unsichere Daten<br />

Management <strong>der</strong> Zuverlässigkeit und<br />

Vorhersagbarkeit von ungenauen<br />

Datentypen<br />

Abbildung 2: Die vier Dimensionen von <strong>Big</strong> <strong>Data</strong>

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!