w26M2

Empfehlungen

Info

In vielen anderen Anwendungsszenarien für Big Data kommt allerdings ein Großteil der Daten von außerhalb des Unternehmens oder wird mit diesen Daten angereichert, zum Beispiel sozialen Medien, demographischen Daten, Webdaten, Ereignissen, Feeds etc. Big Data in der Cloud • Big Data erfordert eine Vielzahl von Dienstleistungen. Anwender werden sich eher auf die differenzierte Analyse großer Daten konzentrieren wollen – und weniger auf deren Verwaltung. Folgerichtig bieten eine Reihe von Anbietern Lösungen für Big Data in der Cloud. In sozialen Medien ist nur ein Bruchteil der Daten relevant zum Beispiel für die Sentimentanalyse. 20 % aller Tweets beinhalten einen Link, den man öffnen muss um den Kontext zu verstehen. Riesige Volumina externer Daten müssen gefiltert, formatiert und für die weitere Analyse vorbereitet werden. Nach der Analyse muss häufig nur das aggregierte Ergebnis gespeichert werden (zum Beispiel der Klout Score in 4.3.7). Selten benötigt man die Datenquelle für Audit oder weitere Analyse. Alle Tweets der letzten zwei Jahre benötigen 0,5 PetaByte Speicher. Es ist wenig sinnvoll für ein Unternehmen, diese Rohdaten in seinem Rechenzentrum zu speichern. • Big-Data-Plattformen bieten diverse Dienste von der Speicherung großer Datenmengen bis zu dynamisch buchbarer Rechenkapazität für schnelle Analysen und Simulationen. Das Ergebnis wird in der Cloud gespeichert, nachdem der Rechencluster heruntergefahren wird. 184 • Big Data Services konzentrieren sich auf die Vorbereitung, Anreicherung oder Verknüpfung verschiedener Datenquellen, ihre Analyse und einfacher Visualisierung. 185 Abhängig vom Anwendungsfall gibt es somit auch gute Gründe, warum Big Data in entsprechenden Fällen in der Cloud verbleiben sollte: • Big Data erfordert ein ganzes Spektrum neuer Technologien, Fertigkeiten und Investitionen. Jedes Unternehmen muss sich fragen, ob es das wirklich alles in seinem Rechenzentrum braucht und entsprechend investieren will • Big Data beinhaltet oft riesige Mengen externer Daten. Ist es wirklich sinnvoll, diese Daten innerhalb der Unternehmes-Firewall zu speichern und zu verwalten • Je nach Anwendungsszenario wird möglicherweise technisches Know-how (z. B. im Bereich Data Science) benötigt, das im eigenen Unternehmen schwierig aufzubauen ist. 184 Kombinationen bieten zum Beispiel Amazon mit S3 und EMR oder Microsoft mit Azure und HD Insight 185 zum Beispiel Microsoft Power BI 126
Big-Data-Technologien – Wissen für Entscheider • 6.2 In-Memory Computing In-Memory Computing umfasst eine Anzahl von Technologien, die sich in unterschiedlichen Big-Data- Komponenten wiederfinden. Durch die Verlagerung der Datenverarbeitung von der Festplatte in den Rechner- Hauptspeicher (In-Memory) können Big-Data-Visualisierungen, -Analysen oder-Transaktionen massiv beschleunigt werden. Somit kann der geschäftliche Mehrwert schneller erbracht werden. Historische Einordnung Der Begriff In-Memory beschreibt ein Konzept, bei dem die Daten nicht – wie bei Systemen zur Verarbeitung von großen Datenmengen üblich – auf der Festplatte gespeichert und verarbeitet werden, sondern im Hauptspeicher. Dies hat den Vorteil, dass Zugriffe auf die Daten wesentlich schneller sind als bei althergebrachten Herangehensweisen. Die Verarbeitung der Daten im Hauptspeicher ist, historisch gesehen, die einzige Art, da die klassische Von- Neumann-Architektur keine Festplatten kannte. In dieser Urform des Computers gab es nur den einen Speicher, den (Haupt-) Speicher. Musste ein Programm Daten verarbeiten, so griff es direkt auf die Stelle im Speicher zu, an der die Daten abgespeichert waren. Der Speicher erlaubt also Zugriffe auf jede Speicherstelle in beliebiger Reihenfolge, daher auch der Begriff Random Access Memory (RAM). Bei sehr großen Datenmengen kommt eine reine hauptspeicherbasierte Herangehensweise jedoch schnell an ihre Grenzen, da der Speicher üblicherweise für den ganzen Datensatz nicht ausreicht. Ein gangbarer Weg ist, nur Teile des Datensatzes in den Hauptspeicher zu laden und diese unabhängig voneinander zu verarbeiten. Dies können, wie zum Beispiel bei Datenbanken üblich, blockbasierte Verfahren sein oder im Fall von analytischen Berechnungen spezielle Big-Data-Algorithmen. Der Vorteil dabei ist, dass die Größe der zu verarbeitenden Daten nicht mehr durch den Hauptspeicher begrenzt ist, sondern annähernd beliebig groß werden kann. Der Nachteil ist jedoch, dass die Performance aus zwei Gründen drastisch sinkt: • einerseits, weil der Zugriff auf sekundäre Speichermedien deutlich langsamer ist als auf den Hauptspeicher und • andererseits, weil nicht die schnellsten Algorithmen eingesetzt werden, sondern die, die am besten mit Datenblöcken umgehen können. In den letzten Jahren sind die Preise für Hauptspeicher kontinuierlich gesunken, gleichzeitig ist die Leistungsfähigkeit der eingesetzten Netzwerkkomponenten enorm angestiegen, genauso wie das Know-how über die Verteilung von Berechnungen. Zusammen eröffneten diese Entwicklungen die Möglichkeit, große Datenmengen, verteilt auf mehrere Rechnerknoten, im Hauptspeicher zu verarbeiten. Typen von In-Memory Datenhaltung In-Memory spielt im Big-Data-Umfeld eine besondere Rolle, da erst durch den schnellen Zugriff auf die Daten typische Big-Data-Herangehensweisen möglich werden. So erfordert zum Beispiel ein explanatives Vorgehen Zugriffszeiten, die ein Benutzer noch als akzeptabel empfindet. Dabei gibt es unterschiedliche Typen und Szenarien für den Einsatz von In-Memory-Technologien. Die ausschließliche In-Memory-Verarbeitung der Daten hat aber auch Nachteile. So ist es, trotz sinkender Hauptspeicherpreise, immer noch sehr teuer, alle Daten im RAM zu halten, und außerdem sind die Daten im flüchtigen Hauptspeicher nicht notwendigerweise vor einem Systemausfall geschützt. Dafür müssten sie auf der persistenten Festplatte liegen. In der Praxis haben sich daher unterschiedliche In-Memory-Varianten entwickelt. Neben den reinen In-Memory-Systemen gibt es unterschiedliche Grade an Hybrid-Systemen. Bei den In-Memory-Systemen haben sich zwei Herangehensweisen herauskristallisiert: • die reinen In-Memory-Systeme (z. B. In-Memory Datenbanken und Data-Grids): Sie speichern alle Daten im Hauptspeichern und nutzen die Festplatte nur als persistenten Speicher (z. B. um die Ausfallsicherheit zu erhöhen). 127
Seite 1 und 2:
Big-Data-Technologien - Wissen für
Seite 3 und 4:
Seite 5 und 6:
Seite 7 und 8:
Seite 9 und 10:
Seite 11 und 12:
Seite 13 und 14:
Seite 15 und 16:
Seite 17 und 18:
Seite 19 und 20:
Seite 21 und 22:
Seite 23 und 24:
Seite 25 und 26:
Seite 27 und 28:
Seite 29 und 30:
Seite 31 und 32:
Seite 33 und 34:
Seite 35 und 36:
Seite 37 und 38:
Seite 39 und 40:
Seite 41 und 42:
Seite 43 und 44:
Seite 45 und 46:
Seite 47 und 48:
Seite 49 und 50:
Seite 51 und 52:
Seite 53 und 54:
Seite 55 und 56:
Seite 57 und 58:
Seite 59 und 60:
Seite 61 und 62:
Seite 63 und 64:
Seite 65 und 66:
Seite 67 und 68:
Seite 69 und 70:
Seite 71 und 72:
Seite 73 und 74:
Seite 75 und 76:
Seite 77 und 78: Big-Data-Technologien - Wissen für
Seite 127: Big-Data-Technologien - Wissen für
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?