w26M2
w26M2
w26M2
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
vorab analysiert werden. Die Analyse der Rohdaten<br />
mit Einbeziehung evtl. vorhandener Metadaten ergibt<br />
dann je nach Verwendungszweck einen Mehrwert wie<br />
»negatives Sentiment« (»ungenießbares Frühstück«) für<br />
ein bestimmtes Hotel. Technologien aus den Bereichen<br />
von Suchmaschinen, maschinenlernender Systeme (vgl.<br />
Abschnitt 4.3.7) oder der künstlichen Intelligenz finden<br />
hier ihre Anwendung.<br />
Hadoop-Integration mit Echtzeitdaten<br />
Apache Flume 132 ist eine Hadoop-Schnittstelle für die<br />
effiziente Erfassung, Aggregation und Transport von<br />
großen Datenströmen in das HDFS. Es hat eine einfache<br />
und flexible Architektur auf Basis von Datenflüssen (data<br />
flows). Flume ermöglicht die Integration von Datenströmen<br />
aus mehreren Quellen (z. B. Web-Logs), gleicht die<br />
Anlieferungsgeschwindigkeit mit der Verarbeitungsrate<br />
ab, gewährleistet die Datenübertragung und skaliert horizontal,<br />
um große Datenvolumina verarbeiten zu können.<br />
Hadoop-Integration mit relationalen Datenbanken<br />
Apache Sqoop 133 ist ein Werkzeug für die effiziente Übertragung<br />
von Massendaten zwischen Hadoop und strukturierten<br />
Datenspeichern, wie relationalen Datenbanken,<br />
konzipiert. Sqoop importiert Daten aus Datenbanken in<br />
strukturierter Form nach Hadoop (z. B. HDFS, Hive, HBase).<br />
Sqoop kann auch verwendet werden, um Daten aus<br />
Hadoop zu extrahieren, d.h. Daten können strukturiert in<br />
relationale Datenbanken und Data-Warehouse-Systemen<br />
exportiert werden. Sqoop stellt Datenbank-Konnektoren<br />
bereit (z. B. Oracle, mySQL, SQL Server) oder kann beliebige<br />
Datenbanken über Standard-SQL-Schnittstellentechnologien<br />
(z. B. JDBC) integrieren.<br />
zu schreiben. HCatalog ist eine Abstraktionsschicht für<br />
HDFS, um Hadoop-Daten über eine relationale Datenstruktur<br />
zugänglich zu machen. Die relationale Sicht<br />
wird mit Hilfe von Metadaten-Definitionen (Tabellen und<br />
Spalten) bereitgestellt und kann dann über Pig oder Hive<br />
verwendet werden. Somit können strukturierte Daten aus<br />
Dateien oder relationalen Datenbanken einfach in eine<br />
Hadoop-Umgebung übertragen werden. Spezialisierte<br />
Anbieter und Technologien, wie z. B. Hadapt, Facebook<br />
Presto oder Hortonworks Stinger ermöglichen darüber<br />
hinaus einen interaktiven SQL-basierten Zugriff auf<br />
Hadoop.<br />
Grafische Entwicklungsumgebung für die Hadoop-<br />
Integration<br />
Verschiedene Anbieter (z. B. Talend, Syncsort, Datameer)<br />
stellen grafische Entwicklungsumgebungen für die<br />
Hadoop Integration bereit (vgl. Abbildung 38). Diese<br />
Werkzeuge erlauben es, ohne tiefe Hadoop-Programmierkenntnisse<br />
Daten zu integrieren und zu analysieren. Mit<br />
der Unterstützung von Teamkollaboration und definierten<br />
Betriebsverfahren erleichtern sie hierbei typischerweise<br />
alle Phasen eines Integrationsprojektes (Design, Dokumentation,<br />
Deployment und Monitoring).<br />
Relationaler Datenzugriff auf Hadoop mit<br />
HCatalog<br />
Abbildung 38: Grafische Entwicklung von Hadoop-Integrationsszenarien<br />
am Beispiel von Talend<br />
Apache HCatalog ist eine tabellen-orientierte Zugriffsschicht<br />
für Hadoop, die es ermöglicht, Daten zu lesen und<br />
132<br />
http://hortonworks.com/hadoop/flume/<br />
133<br />
http://hortonworks.com/hadoop/sqoop/<br />
92