22.01.2015 Aufrufe

w26M2

w26M2

w26M2

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

vorab analysiert werden. Die Analyse der Rohdaten<br />

mit Einbeziehung evtl. vorhandener Metadaten ergibt<br />

dann je nach Verwendungszweck einen Mehrwert wie<br />

»negatives Sentiment« (»ungenießbares Frühstück«) für<br />

ein bestimmtes Hotel. Technologien aus den Bereichen<br />

von Suchmaschinen, maschinenlernender Systeme (vgl.<br />

Abschnitt 4.3.7) oder der künstlichen Intelligenz finden<br />

hier ihre Anwendung.<br />

Hadoop-Integration mit Echtzeitdaten<br />

Apache Flume 132 ist eine Hadoop-Schnittstelle für die<br />

effiziente Erfassung, Aggregation und Transport von<br />

großen Datenströmen in das HDFS. Es hat eine einfache<br />

und flexible Architektur auf Basis von Datenflüssen (data<br />

flows). Flume ermöglicht die Integration von Datenströmen<br />

aus mehreren Quellen (z. B. Web-Logs), gleicht die<br />

Anlieferungsgeschwindigkeit mit der Verarbeitungsrate<br />

ab, gewährleistet die Datenübertragung und skaliert horizontal,<br />

um große Datenvolumina verarbeiten zu können.<br />

Hadoop-Integration mit relationalen Datenbanken<br />

Apache Sqoop 133 ist ein Werkzeug für die effiziente Übertragung<br />

von Massendaten zwischen Hadoop und strukturierten<br />

Datenspeichern, wie relationalen Datenbanken,<br />

konzipiert. Sqoop importiert Daten aus Datenbanken in<br />

strukturierter Form nach Hadoop (z. B. HDFS, Hive, HBase).<br />

Sqoop kann auch verwendet werden, um Daten aus<br />

Hadoop zu extrahieren, d.h. Daten können strukturiert in<br />

relationale Datenbanken und Data-Warehouse-Systemen<br />

exportiert werden. Sqoop stellt Datenbank-Konnektoren<br />

bereit (z. B. Oracle, mySQL, SQL Server) oder kann beliebige<br />

Datenbanken über Standard-SQL-Schnittstellentechnologien<br />

(z. B. JDBC) integrieren.<br />

zu schreiben. HCatalog ist eine Abstraktionsschicht für<br />

HDFS, um Hadoop-Daten über eine relationale Datenstruktur<br />

zugänglich zu machen. Die relationale Sicht<br />

wird mit Hilfe von Metadaten-Definitionen (Tabellen und<br />

Spalten) bereitgestellt und kann dann über Pig oder Hive<br />

verwendet werden. Somit können strukturierte Daten aus<br />

Dateien oder relationalen Datenbanken einfach in eine<br />

Hadoop-Umgebung übertragen werden. Spezialisierte<br />

Anbieter und Technologien, wie z. B. Hadapt, Facebook<br />

Presto oder Hortonworks Stinger ermöglichen darüber<br />

hinaus einen interaktiven SQL-basierten Zugriff auf<br />

Hadoop.<br />

Grafische Entwicklungsumgebung für die Hadoop-<br />

Integration<br />

Verschiedene Anbieter (z. B. Talend, Syncsort, Datameer)<br />

stellen grafische Entwicklungsumgebungen für die<br />

Hadoop Integration bereit (vgl. Abbildung 38). Diese<br />

Werkzeuge erlauben es, ohne tiefe Hadoop-Programmierkenntnisse<br />

Daten zu integrieren und zu analysieren. Mit<br />

der Unterstützung von Teamkollaboration und definierten<br />

Betriebsverfahren erleichtern sie hierbei typischerweise<br />

alle Phasen eines Integrationsprojektes (Design, Dokumentation,<br />

Deployment und Monitoring).<br />

Relationaler Datenzugriff auf Hadoop mit<br />

HCatalog<br />

Abbildung 38: Grafische Entwicklung von Hadoop-Integrationsszenarien<br />

am Beispiel von Talend<br />

Apache HCatalog ist eine tabellen-orientierte Zugriffsschicht<br />

für Hadoop, die es ermöglicht, Daten zu lesen und<br />

132<br />

http://hortonworks.com/hadoop/flume/<br />

133<br />

http://hortonworks.com/hadoop/sqoop/<br />

92

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!