w26M2

Empfehlungen

Info

• die Hybrid In-Memory-Systeme: Sie speichern die Daten teils auf der Festplatte und teils im Hauptspeicher. ergänzt. So kann zum Beispiel eine Zwischensicht aus Solid State Disks den Wechsel der Daten aus einem Cold- Zustand in einen Hot-Zustand beschleunigen. Reine In-Memory-Systeme Reine oder native In-Memory-Systeme haben alle Daten im Hauptspeicher. Auf diese Weise kann sehr schnell auf alle Daten zugegriffen werden. Dies erfordert jedoch auch, dass der gesamte Datensatz in den Hauptspeicher passt und darüber hinaus noch genügend Platz für Verarbeitungsstrukturen wie zum Beispiel Indizes ist. Hauptspeicher ist flüchtig. Das bedeutet, dass Daten, die im Hauptspeicher liegen, nach einem Neustart 186 des Systems nicht mehr zur Verfügung stehen. Für In- Memory-Systeme heißt das, dass – selbst wenn alle Daten im Hauptspeicher verarbeitet werden – es doch notwendig ist, eine Sicherung auf der Festplatte vorzunehmen bzw. die Verteilung auf ein ausfallsicheres Rechner- und Hauptspeicher-Cluster. Hybrid In-Memory-Systeme Eine Alternative zu reinen In-Memory-Systemen stellen Hybridsysteme dar. Sie speichern die Daten auf der Festplatte und verarbeiten einen Teil im Hauptspeicher. Dabei sind diese Systeme meist so konzipiert, dass nur die relevanten Daten im Hauptspeicher liegen. Da die relevanten Daten als Hot-Data und die weniger relevanten als Cold-Data bezeichnet werden, spricht man hier auch von einem Temperatur-Modell. Der Einsatz von In-Memory kann als Zugriffsbeschleuniger für Datenbanken, Data Warehouses oder Hadoop gesehen werden (vgl. Abbildung 54). Anwendung In-Memory Systeme Abbildung 54: Native und hybride In-Memory-Systeme Anwendung In-Memory Systeme Data Warehouse, Datenbank, Hadoop Mit ihrem schnellen Zugriff auf große Datenmengen ermöglichen In-Memory-Systeme vollkommen neue Anwendungen. Analytical In-Memory Computing in Datenbanken Da der Hauptspeicher jedoch erstens flüchtig, also beim Ausschalten des Computers auch alle Daten verschwinden, und zweiten sehr teuer ist, hat man den Hauptspeicher um sekundäre Speichermedien, zuerst Bänder und dann Festplatten, erweitert. Diese dienten der Auslagerung und der persistenten Speicherung selten genutzter Daten. Das Temperatur-Modell hat den Vorteil, dass nur die Daten im teuren Hauptspeicher verarbeitet werden, die wirklich auch benötigt werden. Gerade bei analytischen Abfragen ist oft nur ein Bruchteil der Daten wirklich relevant. Das bedeutet aber auch, dass in einem reinen In-Memory-Modell viele Daten im Hauptspeicher liegen, die nur selten verwendet werden. Diese Herangehensweise wird von einigen Herstellern auch noch um weitere Schichten zwischen Hauptspeicher und Festplatte Datenbanken nutzten fast ausschließlich die sekundären Speichermedien, da die Datenmengen, die mit ihnen verwaltet wurden, so groß waren, dass der Hauptspeicher sie nicht fassen konnte und ein Aufrüsten der Computer mit mehr Hauptspeicher zu teuer gewesen wäre. Aus diesem Grund wurden Datenbanken so programmiert, dass sie auf den Zugriff auf diese Speichermedien hin optimiert waren. Sie verwendeten zum Beispiel Algorithmen, die nicht auf einzelnen Datensätzen arbeiteten, sondern auf 186 gewollten oder ungewollten 128
Big-Data-Technologien – Wissen für Entscheider Blöcken, bestehend aus einer ganzen Gruppe von Datensätzen. Diese Blöcke konnten dann sequenziell gelesen werden, was bei Bändern und Festplatten verhältnismäßig schnell geht. In den letzten Jahren sind die Preise für Hauptspeicher jedoch so stark gefallen, dass es möglich ist, alle Daten einer Datenbank in den Hauptspeicher eines Computers oder mehrerer 187 Computer zu laden. Das hat gleich mehrere Vorteile, zuerst einmal wird der Zugriff auf die Daten enorm beschleunigt 188 und darüber hinaus können wesentlich effizientere Algorithmen verwendet werden, die nicht auf Blöcken, sondern auf den einzelnen Datensätzen arbeiten. Nicht nur die Verarbeitung, auch die Speicherung großer Datenmengen im Hauptspeicher hat in den letzten Jahren immer stärker an Bedeutung gewonnen. Gerade analytische Datenbanken – also Datenbanken, die hauptsächlich zur Analyse von Datenbeständen verwendet werden – benötigen schnellen Zugriff auf die zugrundeliegenden Datenbestände, da für die Analyse meist große Teile eines Datensatzes gelesen werden müssen. Die ist jedoch nur durch die Speicherung im Hauptspeicher gewährleistet. Datenbanken mit In-Memory Technologien gehen jedoch weit über die Speicherung der Daten im Hauptspeicher hinaus. Effizientere Algorithmen gepaart mit Datenstrukturen, die mit Blick auf Analysen optimiert wurden, bringen enorme Performanz-Gewinne gegenüber transaktionalen Datenbanksystemen. Einer besonderen Bedeutung kommt dabei die spaltenbasierte Speicherung zu. Sie ermöglicht eine besonders effiziente Datenspeicherung, die gezielt auf die Bedürfnisse von Analysen ausgerichtet ist. Fehler! Verweisquelle konnte nicht gefunden werden. zeigt den Unterschied zwischen spaltenbasierter und zeilenbasierter Speicherung. Bei der ersten Art erfordern Aggregationsoperationen wie zum Beispiel die Mittelwertbildung nur einen Zugriff auf einen Datensatz (die gewünschte Spalte), wobei die zweite Art jede Zeile als individuellen Datensatz betrachten muss. Die volle Leistungsfähigkeit spielen analytische Datenbanken jedoch erst aus, wenn neben In-Memory und spaltenbasierter Speicherung noch die massiv-parallele Verarbeitung in einem Cluster hinzukommt. Erst dieser Dreiklang kombiniert die Stärken aller drei Technologien zu einem hochperformanten System, das auch mit größten Datenbanken keine Probleme hat. Kunden ID Name Vorname Umsatz Row 1 Becker Hans 23.000 3 Weber Peter 730.000 4 Huber Klaus 39.600 5 Schmidt Maria 124.000 6 Schneider Thomas 93.600 22 Fischer Stefan 368.200 Abbildung 55: Spalten- und zeilenbasierte Speicherung 187 im Falle einer Clusterdatenbank 188 der Zugriff auf die Festplatte erfordert üblicherweise mehrere Größenordnungen mehr CPU-Zyklen als der Zugriff auf den Hauptspeicher 129
Seite 1 und 2:
Big-Data-Technologien - Wissen für
Seite 3 und 4:
Seite 5 und 6:
Seite 7 und 8:
Seite 9 und 10:
Seite 11 und 12:
Seite 13 und 14:
Seite 15 und 16:
Seite 17 und 18:
Seite 19 und 20:
Seite 21 und 22:
Seite 23 und 24:
Seite 25 und 26:
Seite 27 und 28:
Seite 29 und 30:
Seite 31 und 32:
Seite 33 und 34:
Seite 35 und 36:
Seite 37 und 38:
Seite 39 und 40:
Seite 41 und 42:
Seite 43 und 44:
Seite 45 und 46:
Seite 47 und 48:
Seite 49 und 50:
Seite 51 und 52:
Seite 53 und 54:
Seite 55 und 56:
Seite 57 und 58:
Seite 59 und 60:
Seite 61 und 62:
Seite 63 und 64:
Seite 65 und 66:
Seite 67 und 68:
Seite 69 und 70:
Seite 71 und 72:
Seite 73 und 74:
Seite 75 und 76:
Seite 77 und 78:
Seite 79 und 80: Big-Data-Technologien - Wissen für
Seite 129: Big-Data-Technologien - Wissen für
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?