w26M2

Empfehlungen

Info

input_lines = LOAD ‚/tmp/my-copy-of-all-pages-on-internet‘ AS (line:chararray); words = FOREACH input_lines GENERATE FLATTEN(TOKENIZE(line)) AS word; filtered_words = FILTER words BY word MATCHES ‚\\w+‘; word_groups = GROUP filtered_words BY word; word_count = FOREACH word_groups GENERATE COUNT(filtered_words) AS count, group AS word; ordered_word_count = ORDER word_count BY count DESC; STORE ordered_word_count INTO ‚/tmp/number-of-words-on-internet‘; Abbildung 11: Pig-Latin-Illustration – Umsetzung des legendären Hadoop Wordcount-Beispiels geladen (LOAD), es werden Token und dann »richtige« Worte gebildet (TOKENIZE und FILTER), identische Worte werden zu Gruppen zusammengefasst und dann gezählt (GROUP und GENERATE COUNT) und schließlich werden die Worte nach der Häufigkeit des Vorkommens angeordnet (ORDER BY), sowie das Ergebnis in eine Datei geschrieben. Pig Latin-Skripte erinnern in ihrer Ausführlichkeit an die Formulierung in einer Pseudocode-Sprache. Die Verwendung von SQL-Sprachelementen erhöht die Lesbarkeit weiter. In Pig sind typische Datenflussoperationen, wie Join, Sort, Filter verfügbar – zusätzlich lassen sich Bibliotheken und benutzerdefinierte Funktionen einbinden. Die Produktivität, die beim Einsatz von Pig erreicht werden kann, ist naturgemäß davon abhängig, ob es Mitarbeiter gibt, die sich bereits gut mit Hadoop auskennen und die Pig Latin-Programmierung beherrschen. Trotz der Einfachheit dieser Spezialsprache bleibt die Gestaltung von Datentransformations-Prozessen hier eben eine Programmieraufgabe, die zudem in einer (derzeit noch) recht kargen Entwicklungsumgebung ausgeführt werden muss. Es stellen sich also die üblichen Fragen nach Lernaufwand, Codewartung und Dokumentation. Hive als deklaratives Hadoop »Data Warehouse« Einen ausreichend großen Hadoop-Cluster vorausgesetzt, können Pig-Jobs im Brute-Force-Stil große Datenmengen prinzipiell schnell verarbeiten. Pig führt dabei nur einfache regelbasierte Optimierungen des Datenflusses durch. Der Anwender ist im Wesentlichen selbst dafür verantwortlich, eine sinnvolle Verarbeitungsreihenfolge vorzugeben. In einem Hadoop-Cluster mit mehreren hundert Knoten wird das keine Rolle spielen. In einem Zehn-Knoten-Cluster kann ein ungünstig formuliertes Pig Latin-Skript aber zu frustrierenden Erlebnissen führen. Flexibilität ist eine ausgesprochene Stärke von Pig. Es werden zwar Datentypen verwendet, aber es wird nicht streng typisiert. Pig ist sehr nachsichtig gegenüber unpassenden Daten und versucht diese bestmöglich zu interpretieren. Außerdem kennt Pig einige recht allgemeine Datentypen, die es gestatten, die Daten zunächst einfach nur zu laden und dann die Struktur der Daten im Skript nach und nach zu verfeinern. Hive ist die zweite Hadoop-Technologie, die häufig im Zusammenhang mit Daten-Integrationsaufgaben genannt wird. Das Hive-Projekt wurde bei Facebook gestartet, um Anwendern eine relationale Sichtweise auf in Hadoop gespeicherte Daten zu ermöglichen. Die verwendete Abfragesprache HiveQL ist stark an SQL angelehnt, wenn auch vom Umfang her sehr deutlich reduziert und spezialisiert. In erster Linie wurde Hive entwickelt, um Anwendern zu gestatten, mit ihren gewohnten Abfrageund Business-Intelligence-Werkzeugen Auswertungen in Hadoop-Datenbeständen durchzuführen. Man spricht von einem Hive-Warehouse: Daten werden in der traditionellen Tabellenform präsentiert und können über standardisierte Datenbank-Schnittstellen, wie ODBC oder JDBC abgefragt werden. Aufgrund der teils sehr hohen Latenzzeiten bei der Ausführung von HiveQL-Abfragen sind die interaktiven Möglichkeiten allerdings eingeschränkt – dagegen stellt Hive stellt einen sehr praktischen Weg dar, Hadoop-Daten in einem traditionellen Data Warehouse verfügbar zu machen. 50
Big-Data-Technologien – Wissen für Entscheider Obwohl es nicht die ursprüngliche Aufgabenstellung von Hive war, hat es doch als Werkzeug für ETL-Aufgaben Popularität erlangt. Das hat verschiedene Gründe: • Für das Erschließen spezieller Datenformate, wie JSON, lassen sich in Hive spezielle Storagehandler und Serializer/Deserialisierer verwenden. • Es gibt außerdem eine Menge eingebauter HiveQL- Funktionen, die für die Datenanalyse eingesetzt werden können. Für jemanden, der sich schon einmal mit SQL beschäftigt hat, ist dieses Skript sofort verständlich. Die Herausforderung beim Einsatz von Hive für ETL- Aufgaben besteht in der Regel in der Überführung der Eingangsdaten in Tabellenform. Ist dies mit Hive-Mitteln nicht möglich, so muss eventuell noch ein Pig-Skript vorgeschaltet werden. Sobald sich die Daten aber in der regulären Form einer Hive-Tabelle befinden, dann ist die Formulierung von ETL-Jobs eine überschaubare Aufgabenstellung. • Der wichtigste Grund für die Verwendung von Hive für Datenintegrationsjobs ist sicherlich im Verbreitungsgrad begründet, den SQL in der Datenbankwelt genießt. HiveQL vereinfacht den Umstieg auf Hadoop, und viele ETL-Aufgaben lassen sich durch SQL-Ausdrücke einfach lösen. Ein kurzes HiveQL-Beispiel dient der Illustration (vgl. Abbildung 12): Die Vor- und Nachteile bei der Arbeit mit Hive ähneln denen mit Pig: Nach der automatischen Übersetzung von HiveQL in MapReduce-Jobs können sehr große Datenmengen verarbeitet werden; Hive ist einigermaßen tolerant gegenüber varianten Schemata (wenn auch nicht so flexibel wie Pig) und die HiveQL-Sprache erschließt sich schnell. Die Nachteile der Formulierung von Transformations-Prozessen in Skriptform sind bei Hive noch etwas spürbarer als bei Pig, da die Verarbeitungs-Pipelines komplexerer CREATE TABLE logdata( logdate string, logtime string, … cs_Referrer string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‚ ‚; LOAD DATA INPATH ‚/w3c/input/‘ OVERWRITE INTO TABLE logdata; SELECT logdate, c_ip, COUNT(c_ip) FROM WordsInTexts GROUP BY logdate ORDER BY logdate, COUNT(c_ip) LIMIT 100 Abbildung 12: Illustrationsbeispiel für HiveQL 51
Seite 1 und 2: Big-Data-Technologien - Wissen für
Seite 51: Big-Data-Technologien - Wissen für
Seite 103 und 104:
Big-Data-Technologien - Wissen für
Seite 105 und 106:
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119 und 120:
Seite 121 und 122:
Seite 123 und 124:
Seite 125 und 126:
Seite 127 und 128:
Seite 129 und 130:
Seite 131 und 132:
Seite 133 und 134:
Seite 135 und 136:
Seite 137 und 138:
Seite 139 und 140:
Seite 141 und 142:
Seite 143 und 144:
Seite 145 und 146:
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?