w26M2

Empfehlungen

Info

• 4.2 Daten-Zugriff Barrieren einer traditionellen Batch-Verarbeitung Der Kernbaustein MapReduce der aktuellen Big-Data- Kerntechnologie Hadoop wird zu Recht als Batch Processing-Komponente eingeordnet (vgl. Tabelle 2). Tatsächlich ist das MapReduce-Framework ja ein System, das die parallele Ausführung von Jobs auf den Datenknoten eines Hadoop-Clusters plant, die Ausführung überwacht und die Berechnungsergebnisse zusammenführt (vgl. Unterabschnitt 4.1.1). Im Unterabschnitt 4.2.1 werden praktische Aspekte der Anwendung der MapReduce-Komponente betrachtet und zwei populäre Bausteine erläutert, welche den Einsatz im IT-Alltag deutlich vereinfachen: Pig und Hive. Der traditionelle Ansatz für Data Warehouse und Big Data analysiert ruhende Daten. Die Überwachung und Steuerung dynamischer Prozesse bedarf eines anderen Ansatzes. Hierbei werden zeitlich geordnete Ereignisse aus heterogenen Quellen überwacht, verdichtet, gefiltert und korreliert. Das ist das Feld von Streaming und Complex Event Processing (Unterabschnitt 4.2.2). Ausführungen über Search & Discovery sowie Query ergänzen den Abschnitt. 4.2.1 Batch Processing Bei der Batch-Verarbeitung werden Geschäftsvorfälle gesammelt und in – häufig nächtlichen, von Online- Betrieb freien – Batch-Läufen 56 verarbeitet. So werden durch Batch-Skripte bzw. ETL-Werkzeuge immer wiederkehrend die neu angefallenen Daten aus den operativen Systemen abgezogen und für entsprechende analytische Zielsysteme aufbereitet. Die neu berechnete Datenbasis bzw. Scores stehen den entsprechenden (Geschäfts-) Prozessen bzw. Analysenwerkzeugen mit entsprechender zeitlicher Verspätung zur Verfügung. Zur Verminderung dieser ETL-Verzögerungen beim Laden von Daten müssen die Batch-Läufe immer weiter parallelisiert und optimiert werden. In einem Big-Data-Szenario wird man dementsprechend schnell an vier Barrieren einer traditionellen Batch-Verarbeitung stoßen: Barriere Limitierte Sichtbarkeit Limitierte Skalierbarkeit Limitierte Agilität Eingeschränkte Historisierung Erläuterung Es gibt im Unternehmen zu viele (Alt-) Applikationen, aus denen noch keine Daten über geeignete Schnittstellen abgezogen werden können. Die Quellapplikationen bzw. deren eingerichtete Schnittstellen sind eventuell nicht auf immer wiederkehrende Abfragen bzw. auf Massendatenexport ausgerichtet. Die Ursprungsformate sind oft rigide in relationalen Schemata gespeichert. Batch-Austauschformate wie CSV speichern aus Performancegründen evtl. nur Auschnitte der Originaldaten. Eventuell hält das operative System nur einen kleinen Ausschnitt der Transaktionsdaten produktiv vor, z. B. Daten eines Jahres. Ältere Transaktionsdaten stehen dann nur noch in einem Archiv oder voraggregiert in einem Data Warehouse zur Verfügung. Tabelle 4: Barrieren einer traditionellen Batch-Verarbeitung Ein zentraler Hadoop-basierter Enterprise Data Lake hingegen vereinigt die Zwischenspeicherung der Originaldaten aus den Originalsystemen im HDFS und deren Tranformationen auf dem Wege einer hochperformanten parallelen Batch-Verarbeitung. 56 Die Bezeichnung stammt aus den 60er Jahren des 20. Jahrhunderts, denn die Daten (und oft auch Programme) lagen dabei als Lochkarten vor und wurden als Stapel eingelesen und verarbeitet. 48
Big-Data-Technologien – Wissen für Entscheider MapReduce-Programmierung als Anwendungs- Hemmnis Als problematischer Blocker für die Anwendung von Hadoop hat sich bereits in den Kinderjahren dieser Technologie die Notwendigkeit gezeigt, die Verarbeitungs- Jobs in Java programmieren zu müssen. Dies setzt neben guten Entwicklerkenntnissen ein tiefes Verständnis der Hadoop-Arbeitsweise voraus. Komponenten verfolgen den Ansatz, durch einfache, schnell erlernbare Sprachen den Zugang zu Hadoop zu erleichtern und problemorientiert – befreit von den Details des MapReduce-Frameworks – arbeiten zu können. Die Jobs müssen zwar weiterhin in einer Programmiersprache formuliert werden, der Erfolg der Statistiksprache R und der Office-Makrosprache VBA zeigen aber, dass das kein Hinderungsgrund für eine weite Verbreitung sein muss. In der Praxis stellt sich immer wieder die Frage, ob ein bestimmtes Problem in einem Hadoop-Cluster effektiv gelöst werden kann. Ohne auf theoretische Aspekte der Berechenbarkeit im MapReduce-Paradigma einzugehen, lässt sich die allgemeine Antwort umgangssprachlich so formulieren: »Prinzipiell lassen sich alle (berechenbaren) Aufgaben in Hadoop lösen – man muss nur den passenden Java-Programmcode dazu finden!« Die Algorithmen müssen also in einem speziellen MapReduce-Stil formuliert werden, was für bestimmte Aufgabenstellungen eine durchaus anspruchsvolle Aufgabe darstellt. Ein typisches Beispiel dafür ist die Implementierung einer INNER JOIN-Operation, wie man sie aus relationalen Datenbanksystemen kennt und wie sie in der Hadoop-Batchverarbeitung sehr häufig vorkommt. Was im deklarativen Datenbank-Standard SQL ohne nachzudenken direkt ausgedrückt werden kann, muss in einem MapReduce-Programm durch diverse Zeilen Java-Code beschrieben werden – dies beinhaltet die Möglichkeit von Fehlern oder eines ineffizienten Jobs. Der Entwickler ist vollständig selbst für die Optimierung zuständig. Sicherlich stellt allein schon die Verwendung einer komplexen Hochsprache, wie Java oder C#, in einer Programmierumgebung wie Eclipse oder Visual Studio für Geschäftsanwender (wie z. B. Business Analysten) eine zu hohe Hürde dar. Um die Schwelle für die Adaption von Hadoop zu senken, war es also notwendig, die Komplexität der Erstellung der MapReduce-Jobs deutlich zu vermindern. Genau aus diesem Grund wurden die Apache-Projekte Pig und Hive ins Leben gerufen. Beide Pig als prozedurale Hadoop-Erweiterung Pig wurde ursprünglich im Jahre 2006 bei Yahoo! entwickelt, um auch Nicht-Programmierern die Arbeit mit Hadoop zu ermöglichen. Daten-Analysten ist es mittels der mit Pig verbundenen Sprache Pig Latin möglich, eigene Skripte zu entwickeln, ohne die Low-Level-Java- Programmierung zu verwenden. Pigs Anwendungsbereiche sind die Datenintegration und Manipulation. Pig Latin ist eine Datenfluss-Programmiersprache, mit der sich Verarbeitungs-Pipelines beschreiben lassen, die dann vom Pig Framework in MapReduce-Jobs überführt werden. Der Begriff Pig ist übrigens kein Acronym, sondern eher eine Metapher. Die folgenden Kernsätze aus der »Pig Philosophy« machen klar, worum es geht: • »Pigs eat anything« – mit Pig lassen sich beliebige Daten verarbeiten; • »Pigs live anywhere« – Pig kann innerhalb und außerhalb von Hadoop Clustern verwendet werden; • »Pigs are domestic Animals« – Pig ist einfach in der Anwendung; • »Pigs fly« – Pig kann Daten schnell verarbeiten. Dass die Arbeit mit Pig Latin tatsächlich recht einfach ist, soll das kurze Pig Latin-Skript in Abbildung 11 verdeutlichen 57 . Vermutlich wird jemand, auch wenn er nie zuvor mit der Pig Latin-Programmiersprache zu tun hatte, mehr oder weniger auf Anhieb verstehen, worum es in diesem Beispiel geht: Rohdaten werden aus einem HDFS-Verzeichnis 57 Vgl.: Wikipedia-Eintrag zu Pig: http://en.wikipedia.org/wiki/Pig_(programming_tool) 49
Seite 1 und 2: Big-Data-Technologien - Wissen für
Seite 49: Big-Data-Technologien - Wissen für
Seite 101 und 102:
Big-Data-Technologien - Wissen für
Seite 103 und 104:
Seite 105 und 106:
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119 und 120:
Seite 121 und 122:
Seite 123 und 124:
Seite 125 und 126:
Seite 127 und 128:
Seite 129 und 130:
Seite 131 und 132:
Seite 133 und 134:
Seite 135 und 136:
Seite 137 und 138:
Seite 139 und 140:
Seite 141 und 142:
Seite 143 und 144:
Seite 145 und 146:
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?