w26M2

Empfehlungen

Info

4.3.8 Reporting Big Data dient letztendlich der Erkenntnis von Zusammenhängen. Die Bedeutung multidimensionaler Datenmodelle für hypothesengestützte Analysemethoden ist hinlänglich bekannt 96 und soll hier nicht vertieft werden. Der Abschnitt wiederholt kurz das Bekannte, betrachtet neue Aspekte durch Technologien wie In-Memory und bietet abschließend ein praktisches Anwendungsbeispiel sowie Empfehlungen. Die Basistechnologie für Reporting bildet das OLAP. OLAP-Formen Die Basis für OLAP bietet der OLAP-Würfel (Cube), mit dem Daten multidimensional analysiert werden (vgl. Abbildung 25 97 ). Der Würfel ordnet dabei die Daten logisch nach verschiedenen Dimensionen an, wie zum Beispiel Zeit, Region oder Produkt. ein performanter Cube zur Verfügung, der allerdings häufig in langwierigen Rechenoperationen berechnet werden muss, oft in Servicefenstern über Nacht. • ROLAP (relationales OLAP) greift auf eine relationale Datenbank zur Laufzeit zu. Hierbei wird auf die Vorausberechnung verzichtet. Die langsameren Zugriffszeiten werden durch den Wegfall der Berechnungen und die Möglichkeit zu Ad-hoc-Analysen aufgewogen. • HOLAP (hybrides OLAP) bietet eine Mischform zwischen MOLAP und ROLAP. • Durch neuere Technologien ist es möglich, die Würfel zu größeren Teilen oder vollständig in memory zu halten und damit die Berechnungsoperation zu beschleunigen. DOLAP (Desktop OLAP) ist eine zusätzliche Form, bei der der Würfel im Arbeitsspeicher des Clients entsteht, im einfachsten Fall in Excel 98 . Nach Art und Zeitpunkt des Zugriffs auf die Daten unterscheidet man klassisch: • MOLAP (multidimensionales OLAP) speichert Zahlen in Form von Datenpunkten. Zur Laufzeit steht damit 2006 2005 2004 Weiterhin kann zwischen multidimensionalem und tabellarischem OLAP unterschieden werden. Im letzteren Falle werden Faktentabellen ganz oder teilweise in den Arbeitsspeicher geladen. Hierbei helfen neue In-Memory- und Kompressionstechnologien fast aller Datenbankanbieter. 2004 Campingausrüstung 583 825 935 Campingausrüstung 583 825 935 Accessoires 629 425 534 Accessoires 629 425 534 Outdoor-Schutzausrüstung 953 996 977 Outdoor-Schutzausrüstung 953 996 977 Golfausrüstung 353 562 496 Golfausrüstung 353 562 496 Bergsteigerausrüstung 564 826 356 Bergsteigerausrüstung 564 826 356 Nordeuropa Südeuropa Mitteleuropa Nordeuropa Südeuropa Mitteleuropa Abbildung 25: OLAP-Würfel zur multidimensionalen Datenanalyse 96 zum Beispiel de.Wikipedia.org/Wiki/OLAP 97 Quelle: Wikimedia.org 98 zum Beispiel als Power Pivot Würfel, siehe www.powerpivot.com 70
Big-Data-Technologien – Wissen für Entscheider Anwendungsbeispiel Klout 99 ist ein führender Anbieter für Social Network Analytics und early adopter für Hadoop. Klout berechnet den Einfluss von Millionen von Menschen in sozialen Medien mithilfe einer Lösung für Big Data Analytics. Die Herausforderung besteht darin, ein 800 Terabyte Data Warehouse mit über 1 Billion Datenzeilen für die Ad-hoc- Analyse bereitzustellen. Obwohl Hive Ad-hoc-Abfragen von Hadoop über HiveQL unterstützt, ist die Antwortgeschwindigkeit für die meisten BI-Szenarien unzureichend. Hive bietet ein exzellentes und skalierbares Data Warehouse Framework auf Basis Hadoop. Es ist allerdings nicht die beste Wahl für Ad-hoc-Abfragen großer Daten. Eine bessere Lösung besteht darin, die relevanten Hadoop-Daten mittels HiveQL in einen relationalen Cube zu bringen. Dieser kann die Daten dann für Analysen und Berichte bereitstellen. Auf diese Weise erreicht Klout mittlere Antwortzeiten von weniger als 10 Sekunden für 1 Billion Datenzeilen (vgl. Abbildung 26 100 ). Leider gibt es keine Möglichkeit, eine multidimensionale Analysedatenbank (MOLAP) direkt an eine Hive-Datenquelle zu verbinden. Eine häufige Lösung, initial auch für Klout, ist die Nutzung einer Staging-Datenbank über Sqoop. Der Cube kann dann die Daten von dort importieren. Aber dieser Ansatz hat Nachteile: Er erzeugt zusätzliche Latenz und Komplexität, die die Verwaltbarkeit der Systeme und ihre Kosten beeinflusst. Mit einem Interface für die direkte Abfrage 101 können die Staging-Datenbank und teure Kopieroperationen vermieden werden. Darüber hinaus kann der Cube quasi Registrations DB (MySql) Klout.com (Node.js) Signal Collectors (Java/Scala) Data Enhancement Engine (PIG/Hive) Data Warehouse (Hive) Profile DB (HBase) Search Index (Elastic Search) Klout API (Scala) Mobile (ObjectiveC) Partner API (Mashery) Streams (MongoDB) Monitoring (Nagios) Serving Stores Dashboards (Tableau) Perks Analyics (Scala) Analytics Cubes (SSAS) Event Tracker (Scala) Abbildung 26: Klout-Architektur 99 www.klout.com, siehe auch http://download.microsoft.com/download/D/2/0/D20E1C5F-72EA-4505-9F26-FEF9550EFD44/MOLAP2HIVE_KLOUT.docx 100 Quelle: Microsoft 101 zum Beispiel Microsoft ODBC Treiber für Hive 71
Seite 1 und 2:
Big-Data-Technologien - Wissen für
Seite 3 und 4:
Seite 5 und 6:
Seite 7 und 8:
Seite 9 und 10:
Seite 11 und 12:
Seite 13 und 14:
Seite 15 und 16:
Seite 17 und 18:
Seite 19 und 20:
Seite 21 und 22: Big-Data-Technologien - Wissen für
Seite 71: Big-Data-Technologien - Wissen für
Seite 123 und 124:
Seite 125 und 126:
Seite 127 und 128:
Seite 129 und 130:
Seite 131 und 132:
Seite 133 und 134:
Seite 135 und 136:
Seite 137 und 138:
Seite 139 und 140:
Seite 141 und 142:
Seite 143 und 144:
Seite 145 und 146:
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?