22.01.2015 Aufrufe

w26M2

w26M2

w26M2

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

direkt an Hive verbunden werden, indem Hive-Tabellen als<br />

Pseudotabellen in der relationalen Datenbank angezeigt<br />

und In-Memory verwendet werden.<br />

Die Integration von relationalem OLAP mit Hive bietet die<br />

folgenden Vorteile:<br />

• kosteneffiziente Funktionalität für OLAP und<br />

Data Mining für viele Abfrage-Werkzeuge und<br />

BI-Anwendungen,<br />

• Nutzung bestehenden Know-hows beim Aufbau großer<br />

Cubes mit Milliarden von Datenzeilen,<br />

Folgende Empfehlungen lassen sich aus der Praxis<br />

ableiten:<br />

• Vermeiden Sie traditionelle Datenbanken für Staging-<br />

Zwecke. Schreiben Sie die Daten stattdessen in<br />

Hadoop, und benutzen Sie dann Hive in Verbindung<br />

mit direkten Abfragen und Sichten, um die Daten<br />

der Analyse zugänglich zu machen. Dieser Ansatz<br />

minimiert Latenzen und vermeidet Redundanz im<br />

Warehouse. Er kombiniert die Vorteile von Hadoop für<br />

Speicherung und Schreiboperationen, ohne den Komfort<br />

des relationalen Daten-Zugriffs aufzugeben.<br />

• Unterstützung für Ad-hoc-Abfragen zum Beispiel aus<br />

Excel zur Untersuchung der Klout-Algorithmen,<br />

• optimale Leistung für große Datenmengen, weniger<br />

als 10 Sekunden Antwortzeit für 1 Billion Datenzeilen,<br />

• nutzerfreundliche Darstellung des Cube mit Metrik<br />

und Dimensionen. Der Cube versteckt die Komplexität<br />

sowohl von SQL als auch von Hadoop für den<br />

Fachanwender.<br />

• Nutzen Sie das Interface für Direktabfragen Ihrer<br />

Datenbank für heterogene Joints. Damit können<br />

Abfragen an verbundene Server weitergereicht werden<br />

und HiveQL Abfragen als Pseudo-Tabellen in ihrer<br />

relationalen Datenbank dargestellt werden. Pseudotabellen<br />

aus verschiedenen Datenquellen können dann<br />

zu Sichten kombiniert werden.<br />

• Nutzen Sie benutzerdefinierte Funktionen (UDF) in<br />

Hive, um komplexe Datentypen wie zum Beispiel<br />

JSON in Zeilen und Spalten zu konvertieren, die SQL<br />

versteht. Durch Hive UDF kann fast jeder unstrukturierte<br />

Datentyp in HiveQL gewandelt und der Analyse<br />

bereitgestellt werden.<br />

• Spezifizieren Sie die Hive UDF als permanent, um sie<br />

von verschiedenen relationalen Abfragen nutzen zu<br />

lassen.<br />

• Verwalten Sie große Dimensionen in Hive-Sichten.<br />

Um Speicherplatz und Rechenzeit zu sparen, nutzen<br />

Sie nur die für die Analyse benötigten Attribute. Wenn<br />

Sie über Hive-Sichten die Fakten in den Faktentabellen<br />

verlinken, können Sie Dimensionen effizienter<br />

limitieren und gleichzeitig Faktentabellen effizienter<br />

partitionieren.<br />

• Belassen Sie Hive-Objekte im Standardschema.<br />

Sie behalten damit die größtmögliche Flexibilität bei<br />

der Auswahl der Abfrage Werkzeuge.<br />

72

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!