w26M2

Empfehlungen

Info

durchgeführt werden. Das Ergebnis in diesem Beispiel ist allerdings wiederum ziemlich groß, und für die detailliertere Analyse ist eine weitere Verarbeitung notwendig. Der Kern von Hadoop ist eine hochgradig parallele Architektur sowohl für Datenhaltung als auch für Datenverarbeitung: • HDFS ist ein verteiltes Dateisystem, optimiert für serielle Verarbeitung, hohes Volumen und hohe Verfügbarkeit. • MapReduce ist ein Parallelisierungs-Framework für die Datenverarbeitung in großen Server-Clustern. Stapel-Verarbeitung mit Apache Hadoop MapReduce Apache Hadoop MapReduce ist das ursprüngliche Framework zum Schreiben von Anwendungen auf Hadoop, mit dem sich große Mengen von strukturierten und unstrukturierten Daten parallel auf einem Cluster von Tausenden von Maschinen verarbeiten lassen. Die gesamte zu untersuchende Datenmenge wird in sinnvolle Portionen aufgeteilt, und in einer ersten Map-Phase werden die Portionen unabhängig voneinander und parallel von einer Map-Funktion bearbeitet 47 . Die Ergebnisse werden jeweils mit einem Schlüssel gekennzeichnet. Nun werden alle Zwischenergebnisse, die etwas miteinander zu tun haben und deshalb mit demselben Schlüssel Distributed File System Map Phase Shuffling Phase Reduce Phase Data load MAP Local sort Combine Map write Merge Combine Reduce Final write Data load MAP Local sort Combine Map write Merge Combine Reduce Final write Distributed File System Abbildung 7: Shared-Nothing-Architektur des MapReduce-Ansatzes 47 z. B. untersucht, entschlüsselt, konvertiert 38
Big-Data-Technologien – Wissen für Entscheider gekennzeichnet sind, an einer Stelle zusammengezogen. In diesem als »Shuffling« bezeichneten Schritt werden Daten zwischen den Knoten ausgetauscht. Um auch in dieser Phase durch Parallelisierung zu skalieren, ist ein Switched Network ohne Überprovisionierung zwischen den Knoten notwendig. In der darauffolgenden Reduce- Phase erhält die Reduce-Funktion alle Zwischenergebnisse mit gemeinsamem Kennzeichnungsschlüssel, wird diese nun weiter auswerten 48 und dann ein Endergebnis zurückliefern. Die »shared nothing« Architektur von Hadoop stellt die Verfügbarkeit des Gesamtsystems in mehrfacher Hinsicht sicher. Ein System bestehend von Hunderten oder Tausenden von Rechenknoten und Netzwerkgeräten muss mit häufigen Ausfällen von Teilkomponenten gut zurechtkommen. Bei einer Mean Time Between Failures (MTBF) von ca. einem Jahr bei Serversystemen treten in einem 1000-Knoten-Cluster statistisch 3 Serverstörungen am Tag auf. Hinzu kommen Fehlersituationen durch Bugs in der System- und Anwender-Software. In diesem Ablauf übernimmt das MapReduce-Framework die gesamte Ablaufsteuerung – bestehend aus der Portionierung der Datenmenge, Zuordnung der Knoten, Aufruf der Map-Funktion, Shuffling der Zwischenergebnisse, Aufruf der Reduce-Funktion, Herausschreiben der Ergebnisse in die verteilte Datenhaltung. Die fachliche Aufgabenstellung einschließlich der Interpretation der Daten wird in Form der Map- und Reduce-Funktionen eingebracht. Die Abbildung 7 zeigt die Shared-Nothing-Architektur des MapReduce-Ansatzes: Daten aus dem verteilten Filesystem werden auf dem Rechner gelesen und verarbeitet, auf dem sie physikalisch liegen. In der Map- und Reduce- Phase arbeiten die Cluster-Knoten isoliert und zu 100% parallelisiert. Leistungsfähige Netzwerke gewährleisten in der Shuffle-Phase für den Datenaustausch zwischen den Knoten ein Minimum an Wartezeiten und Serialisierung. Die Ablaufsteuerung und Kommunikation übernimmt das Framework. Es erreicht sehr gute lineare Skalierung bis in Größenordnungen von mehreren tausend Rechnern. Die problembezogene Programmierung ist äußerst flexibel; sie kann sich auf zwei Funktionen Map und Reduce beschränken und setzt damit kein tiefes Cluster-Knowhow voraus 49 . Zur Optimierung gibt es weitere Schnittstellen um z. B. die Zwischenergebnisse auf einem Knoten zu verdichten oder das Shuffling zu beeinflussen. Daher ist die Datenhaltung im Hadoop Distributed File System (HDFS) redundant ausgelegt. In der Standardeinstellung ist jeder Datenblock dreimal vorhanden, neben dem Primärblock existieren eine Kopie auf einem zweiten Server innerhalb desselben Racks und eine zusätzliche Kopie in einem entfernten Rack. Hadoop ist ein Open-Source-Framework zur Datenverarbeitung auf sehr hoch skalierenden Parallel-Clustern. Zu diesem Top-Level-Projekt der Apache Software Foundation gehören mehr als 13 Unterprojekte. Um den Kern der verteilten Datenhaltung in HDFS und der Verarbeitung in MapReduce gruppieren sich weitere Apache-Open- Source-Projekte in Bereichen wie Daten-Zugriff, -Integration, -Sicherheit und Betrieb. Einen Überblick über die zweite Generation von Hadoop gibt Abbildung 8. Verbesserungen mit der zweiten Generation von Hadoop Bisher ist es vielen Unternehmen schwer gefallen, das Potenzial von Big Data wirklich auszuschöpfen. Viele experimentierten zunächst mit einigen der 13 Funktionsmodule von Apache Hadoop (vgl. Abbildung 8), einem Bündel von Technologien, für deren Beherrschung Hadoop-Nutzer der ersten Stunde 50 große Teams einsetzen und mehrere Jahre investieren mussten. 48 z. B. korrelieren, gruppieren, summieren, filtern 49 anders als z. B. MPI-Programmierung im HPC-Umfeld 50 darunter eBay, Facebook und Yahoo 39
Seite 1 und 2: Big-Data-Technologien - Wissen für
Seite 39: Big-Data-Technologien - Wissen für
Seite 91 und 92:
Big-Data-Technologien - Wissen für
Seite 93 und 94:
Seite 95 und 96:
Seite 97 und 98:
Seite 99 und 100:
Seite 101 und 102:
Seite 103 und 104:
Seite 105 und 106:
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119 und 120:
Seite 121 und 122:
Seite 123 und 124:
Seite 125 und 126:
Seite 127 und 128:
Seite 129 und 130:
Seite 131 und 132:
Seite 133 und 134:
Seite 135 und 136:
Seite 137 und 138:
Seite 139 und 140:
Seite 141 und 142:
Seite 143 und 144:
Seite 145 und 146:
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?