w26M2

Empfehlungen

Info

direkt an Hive verbunden werden, indem Hive-Tabellen als Pseudotabellen in der relationalen Datenbank angezeigt und In-Memory verwendet werden. Die Integration von relationalem OLAP mit Hive bietet die folgenden Vorteile: • kosteneffiziente Funktionalität für OLAP und Data Mining für viele Abfrage-Werkzeuge und BI-Anwendungen, • Nutzung bestehenden Know-hows beim Aufbau großer Cubes mit Milliarden von Datenzeilen, Folgende Empfehlungen lassen sich aus der Praxis ableiten: • Vermeiden Sie traditionelle Datenbanken für Staging- Zwecke. Schreiben Sie die Daten stattdessen in Hadoop, und benutzen Sie dann Hive in Verbindung mit direkten Abfragen und Sichten, um die Daten der Analyse zugänglich zu machen. Dieser Ansatz minimiert Latenzen und vermeidet Redundanz im Warehouse. Er kombiniert die Vorteile von Hadoop für Speicherung und Schreiboperationen, ohne den Komfort des relationalen Daten-Zugriffs aufzugeben. • Unterstützung für Ad-hoc-Abfragen zum Beispiel aus Excel zur Untersuchung der Klout-Algorithmen, • optimale Leistung für große Datenmengen, weniger als 10 Sekunden Antwortzeit für 1 Billion Datenzeilen, • nutzerfreundliche Darstellung des Cube mit Metrik und Dimensionen. Der Cube versteckt die Komplexität sowohl von SQL als auch von Hadoop für den Fachanwender. • Nutzen Sie das Interface für Direktabfragen Ihrer Datenbank für heterogene Joints. Damit können Abfragen an verbundene Server weitergereicht werden und HiveQL Abfragen als Pseudo-Tabellen in ihrer relationalen Datenbank dargestellt werden. Pseudotabellen aus verschiedenen Datenquellen können dann zu Sichten kombiniert werden. • Nutzen Sie benutzerdefinierte Funktionen (UDF) in Hive, um komplexe Datentypen wie zum Beispiel JSON in Zeilen und Spalten zu konvertieren, die SQL versteht. Durch Hive UDF kann fast jeder unstrukturierte Datentyp in HiveQL gewandelt und der Analyse bereitgestellt werden. • Spezifizieren Sie die Hive UDF als permanent, um sie von verschiedenen relationalen Abfragen nutzen zu lassen. • Verwalten Sie große Dimensionen in Hive-Sichten. Um Speicherplatz und Rechenzeit zu sparen, nutzen Sie nur die für die Analyse benötigten Attribute. Wenn Sie über Hive-Sichten die Fakten in den Faktentabellen verlinken, können Sie Dimensionen effizienter limitieren und gleichzeitig Faktentabellen effizienter partitionieren. • Belassen Sie Hive-Objekte im Standardschema. Sie behalten damit die größtmögliche Flexibilität bei der Auswahl der Abfrage Werkzeuge. 72
Big-Data-Technologien – Wissen für Entscheider • 4.4 Visualisierung Das Ziel einer Datenanalyse ist stets, aus einer Menge an Rohdaten strukturierte Informationen und entscheidungsrelevante Erkenntnisse im gegebenen Anwendungsumfeld bzw. Geschäftsfall zu extrahieren. • Visualisierungsnutzung durch den Fachbereich (Entscheidungsträger) versus durch den Analysten (Domäne-Experten), sowie • Informationskonsum oder Analyse ortsgebunden (am Arbeitsplatz) versus mobil (Meetings, Dienstreisen). Visualisierungen spielen nicht nur eine Schlüsselrolle bei der effizienten Kommunikation relevanter Informationen zu bekannten Sachverhalten im Rahmen des BI-Reportings (vgl. Unterabschnitt 4.3.7). Die Abbildung 27 skizziert die Zusammenhänge der wichtigsten Schlagworte in diesem Kontext. Anscombe´s Quartett Vielmehr stellen fortgeschrittene Visualisierungen ein mächtiges und hochgradig flexibles Werkzeug im Analyseprozess dar, das die bisher diskutierten algorithmischen Verfahren der Datenanalyse (vgl. Abschnitt 4.3) im Sinne von »Unsicherheit minimieren durch visuellen Check« entscheidend ergänzt. Genutzte Techniken abhängig von Aufgabenstellung und Konsument Beim Einsatz visueller Analyse- und Kommunikationstechniken kommen unterschiedliche Techniken zum Einsatz. Sie lassen sich grob unterscheiden nach: • Visualisierung zur Informationsbereitstellung versus visuelle Analyse zur Wissensaufbereitung (Erkenntnisgewinn aus Daten), Als motivierendes Beispiel für die Relevanz und den Nutzen visueller Repräsentationen im Allgemeinen und visueller Analyse im Besonderen mag Anscombe´s Quartett dienen. Dabei handelt es sich um vier synthetische Punktmengen, bei denen trotz stark unterschiedlicher Verteilungen wesentliche statistische Kennzahlen identisch sind – eine irreführende Eigenschaft, die selbst bei diesen extrem kleinen Datensätzen nur sehr schwer aus der tabellarischen Darstellung abzulesen ist (Abbildung 28, links), während sie in der Visualisierung sofort evident wird (Abbildung 28, rechts). Big Data: Neue Datentypen benötigen neue Formen der Visualisierung Im Kontext von Big-Data-Anwendungen steht auch für die Visualisierung zunächst die Herausforderung der Entscheider & Konsumenten Management Fachbereich Experten Wissensaufbereitung Dashboards Advanced Visualization Informationsbereitstellung Reports Real-Time Monitoring Abbildung 27: Rollen, Ziele und Visualisierungstechnologien im Überblick 73
Seite 1 und 2:
Big-Data-Technologien - Wissen für
Seite 3 und 4:
Seite 5 und 6:
Seite 7 und 8:
Seite 9 und 10:
Seite 11 und 12:
Seite 13 und 14:
Seite 15 und 16:
Seite 17 und 18:
Seite 19 und 20:
Seite 21 und 22:
Seite 23 und 24: Big-Data-Technologien - Wissen für
Seite 73: Big-Data-Technologien - Wissen für
Seite 125 und 126:
Seite 127 und 128:
Seite 129 und 130:
Seite 131 und 132:
Seite 133 und 134:
Seite 135 und 136:
Seite 137 und 138:
Seite 139 und 140:
Seite 141 und 142:
Seite 143 und 144:
Seite 145 und 146:
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?