w26M2
w26M2
w26M2
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
direkt an Hive verbunden werden, indem Hive-Tabellen als<br />
Pseudotabellen in der relationalen Datenbank angezeigt<br />
und In-Memory verwendet werden.<br />
Die Integration von relationalem OLAP mit Hive bietet die<br />
folgenden Vorteile:<br />
• kosteneffiziente Funktionalität für OLAP und<br />
Data Mining für viele Abfrage-Werkzeuge und<br />
BI-Anwendungen,<br />
• Nutzung bestehenden Know-hows beim Aufbau großer<br />
Cubes mit Milliarden von Datenzeilen,<br />
Folgende Empfehlungen lassen sich aus der Praxis<br />
ableiten:<br />
• Vermeiden Sie traditionelle Datenbanken für Staging-<br />
Zwecke. Schreiben Sie die Daten stattdessen in<br />
Hadoop, und benutzen Sie dann Hive in Verbindung<br />
mit direkten Abfragen und Sichten, um die Daten<br />
der Analyse zugänglich zu machen. Dieser Ansatz<br />
minimiert Latenzen und vermeidet Redundanz im<br />
Warehouse. Er kombiniert die Vorteile von Hadoop für<br />
Speicherung und Schreiboperationen, ohne den Komfort<br />
des relationalen Daten-Zugriffs aufzugeben.<br />
• Unterstützung für Ad-hoc-Abfragen zum Beispiel aus<br />
Excel zur Untersuchung der Klout-Algorithmen,<br />
• optimale Leistung für große Datenmengen, weniger<br />
als 10 Sekunden Antwortzeit für 1 Billion Datenzeilen,<br />
• nutzerfreundliche Darstellung des Cube mit Metrik<br />
und Dimensionen. Der Cube versteckt die Komplexität<br />
sowohl von SQL als auch von Hadoop für den<br />
Fachanwender.<br />
• Nutzen Sie das Interface für Direktabfragen Ihrer<br />
Datenbank für heterogene Joints. Damit können<br />
Abfragen an verbundene Server weitergereicht werden<br />
und HiveQL Abfragen als Pseudo-Tabellen in ihrer<br />
relationalen Datenbank dargestellt werden. Pseudotabellen<br />
aus verschiedenen Datenquellen können dann<br />
zu Sichten kombiniert werden.<br />
• Nutzen Sie benutzerdefinierte Funktionen (UDF) in<br />
Hive, um komplexe Datentypen wie zum Beispiel<br />
JSON in Zeilen und Spalten zu konvertieren, die SQL<br />
versteht. Durch Hive UDF kann fast jeder unstrukturierte<br />
Datentyp in HiveQL gewandelt und der Analyse<br />
bereitgestellt werden.<br />
• Spezifizieren Sie die Hive UDF als permanent, um sie<br />
von verschiedenen relationalen Abfragen nutzen zu<br />
lassen.<br />
• Verwalten Sie große Dimensionen in Hive-Sichten.<br />
Um Speicherplatz und Rechenzeit zu sparen, nutzen<br />
Sie nur die für die Analyse benötigten Attribute. Wenn<br />
Sie über Hive-Sichten die Fakten in den Faktentabellen<br />
verlinken, können Sie Dimensionen effizienter<br />
limitieren und gleichzeitig Faktentabellen effizienter<br />
partitionieren.<br />
• Belassen Sie Hive-Objekte im Standardschema.<br />
Sie behalten damit die größtmögliche Flexibilität bei<br />
der Auswahl der Abfrage Werkzeuge.<br />
72