Big Data: Hadoop sortiert Datenberg einer Investmentbank - PwC
Big Data: Hadoop sortiert Datenberg einer Investmentbank - PwC
Big Data: Hadoop sortiert Datenberg einer Investmentbank - PwC
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Datum: 07.09.2012<br />
http://digitell.ch<br />
Digitell.ch Media Rohner<br />
8005 Zürich<br />
079/ 128 34 93<br />
http://greenbyte.ch/<br />
Medienart: Internet Themen-Nr.: 660.3<br />
Medientyp: Fachorganisationen<br />
Online lesen<br />
Abo-Nr.: 660003<br />
<strong>Big</strong> <strong>Data</strong>: <strong>Hadoop</strong> <strong>sortiert</strong> <strong>Datenberg</strong> <strong>einer</strong> <strong>Investmentbank</strong><br />
Featured<br />
Publiziert am Freitag, 7. September 2012 um 08:59 Uhr. Verfasst von Marco Rohner<br />
<strong>Datenberg</strong>e, Ressourcen-Management und Effizienz im Rechenzentrum führt zu mehr als nur optimierten<br />
Prozessen. Sie ermöglichen <strong>Big</strong>-<strong>Data</strong>-Werkzeugen wie <strong>Hadoop</strong> für Schweizer Unternehmen, die zuvor nur<br />
Unternehmen wie<br />
Google<br />
nutzten. Dies zeigt das Praxisbeispiel von PWC bei <strong>einer</strong> <strong>Investmentbank</strong>.<br />
Mit <strong>Big</strong> <strong>Data</strong> können Schritt für Schritt zu Antworten kommen, wenn sie die Fragen zu Beginn noch nicht einmal<br />
kennen. (pd)<br />
Effizienz im Rechenzentrum führt zu mehr als nur optimierten Prozessen. Sind die<br />
Server<br />
virtualisiert, also die Software<br />
von der Hardware getrennt, lassen sich interne Ressourcen verschieben und bei Bedarf externe Ressourcen<br />
anknüpfen. Die Disney Technology Shared Services Group als Beispiel hat mit virtualisierten Rechenzentren das<br />
jährlichen Kostenwachstum von 23 Prozent auf minus 3 Prozent gedreht; die Prozessleistung stieg von 17 auf 45<br />
Prozent (PWC Technology Forecast, 3/2010). Die Flexibilität der virtualisierten<br />
Infrastruktur<br />
ermöglicht das dynamische Anknüpfen von weiteren, neuen Prozessen. Beispielsweise das Analysieren von<br />
riesigen Datensätzen in externen Clouds wie Disneys Web-Besucher-Statistiken. Mit Clouds sind hier die<br />
virtualisieren Server in anderen Rechenzentren gemeint. Sie verarbeiten in diesem Beispiel die Daten von Disney<br />
und senden die Resultate zurück. Dahinter steckt jedoch die Verarbeitung riesiger Daten.<br />
Die Tools der Datensammler und Social-Media-Riesen wie Google, Twitter und Facebook sind heute für alle<br />
Unternehmen aller Grössen zugänglich. «Es ist billiger, Daten zu speichern, als wegzuschmeissen», sagte Georg<br />
Polzer von Terralytics zur Eröffnung des Events «<strong>Big</strong> <strong>Data</strong> Erfolgsgeschichten» von Juni im Hotel Radisson Blue<br />
des Flughafens Zürich. Präsentationen mit Praxisbeispielen hielten auch Vertreter von SAP, Oracle, Cisco,<br />
Netapp und Splunk mit Greenbyte.ch als Medienpartner.<br />
<strong>Hadoop</strong>-Nutzerszenarien von ETH bis Facebook<br />
Medienbeobachtung<br />
Medienanalyse<br />
Informationsmanagement<br />
Sprachdienstleistungen<br />
ARGUS der Presse AG<br />
Rüdigerstrasse 15, Postfach, 8027 Zürich<br />
Tel. 044 388 82 00, Fax 044 388 82 01<br />
www.argus.ch<br />
Argus Ref.: 47206691<br />
Ausschnitt Seite: 1/6
Datum: 07.09.2012<br />
http://digitell.ch<br />
Digitell.ch Media Rohner<br />
8005 Zürich<br />
079/ 128 34 93<br />
http://greenbyte.ch/<br />
Medienart: Internet Themen-Nr.: 660.3<br />
Medientyp: Fachorganisationen<br />
Online lesen<br />
Abo-Nr.: 660003<br />
In Rechzentren betriebt Facebook zwei grosse <strong>Hadoop</strong>-Cluster aus 1100 Server. (pd)<br />
Die Werkzeugen wie <strong>Hadoop</strong>, Map Reduce und anderen Open-Source-Technologien produzieren schnelle<br />
Resultate, weil sie die grosse Daten-Analyse-Arbeitsaufträge auf viele Computer-Systeme verteilen und parallel<br />
verarbeiten. Apache <strong>Hadoop</strong> basiert auf Java und dem Googles Datei-System. Es wird offen und frei von der<br />
Apache Software Foundation entwickelt. Die<br />
<strong>Hadoop</strong>-Kundeninfo<br />
bietet einige Anwendungsszenarien von grossen und kleinen Nutzern. Von der ETH Zürich bis zu Yahoo.<br />
Facebook nutzt <strong>Hadoop</strong>, um Kopien von internen Log und Dimension-<strong>Data</strong>-Quellen zu speichern sowie als<br />
Quelle von für Berichte, Analysen und machinelles Lernen. Facebook betreibt zwei grosse <strong>Hadoop</strong>-Cluster aus<br />
1100 Server mit 8800 Kernen und 12 Petabyte Speicher, sowie aus 300 Server mit 2400 Kernen und 3 Petabyte<br />
Speicher. Ein weiteres Beispiel für <strong>Hadoop</strong>-Grossnutzer ist Linkedin, die mit <strong>Hadoop</strong>-Clustern aus 2000 Servern<br />
für aktuell 175 Millionen Mitglieder die «Personen, die Sie vielleicht auch kennen» aussortieren. Yahoo nutzt<br />
<strong>Hadoop</strong> mit über 100’000 Kernen in 40’000 Servern, beispielsweise um die Forschung in Werbesystemen und<br />
sie Suche zu unterstützen.<br />
Linkedin benötigt 2000 <strong>Hadoop</strong>-Server, um die Funktion «Personen, die Sie vielleicht auch kennen» für 175<br />
Millionen Mitglieder anzubieten.<br />
Datenanalyse <strong>einer</strong> <strong>Investmentbank</strong> im Konkurs<br />
Medienbeobachtung<br />
Medienanalyse<br />
Informationsmanagement<br />
Sprachdienstleistungen<br />
ARGUS der Presse AG<br />
Rüdigerstrasse 15, Postfach, 8027 Zürich<br />
Tel. 044 388 82 00, Fax 044 388 82 01<br />
www.argus.ch<br />
Argus Ref.: 47206691<br />
Ausschnitt Seite: 2/6
Datum: 07.09.2012<br />
http://digitell.ch<br />
Digitell.ch Media Rohner<br />
8005 Zürich<br />
079/ 128 34 93<br />
http://greenbyte.ch/<br />
Medienart: Internet Themen-Nr.: 660.3<br />
Medientyp: Fachorganisationen<br />
Online lesen<br />
Abo-Nr.: 660003<br />
Variante 7 des PWC-Tests wurde für die <strong>Investmentbank</strong> umgesetzt. (PWC)<br />
Ein Beispiel aus der Praxis zeigte Alexej Freund, Manager Consulting von Pricewaterhouse Coopers (PWC) in<br />
Zürich. Das Problem waren rund 4 Terabyte unbrauchbare, aber benötigte Daten <strong>einer</strong> konkursiten<br />
<strong>Investmentbank</strong>. «Die Bank sollte abgewickelt werden. Man musste also festgestellen, wo die Bank mit ihren<br />
komplexen Verträgen und Produkten involviert war. Dazu benötigt man eine separate Abfrage über die<br />
Datenbanken<br />
hinweg, die mit normalen Mitteln nicht möglich ist», sagte Freund. Um das Problem zu lösen, stellte Freund<br />
einige praktische Lösungsoptionen als Vergleich auf.<br />
Lösungsoption Null stellt den Nutzer ins Zentrum, mit dem was vorhanden ist: Die Daten werden in<br />
Microsoft<br />
Excel geladen und per Befehl « Ctrl+F» durchsucht und angezeigt. Die Vorteil der Intuitivität wird hinweg gefegt<br />
von der limitierten Skalierung (maximal 1 Million Reihen) und der lahmen Suchgeschwindigeit, die im<br />
Kundenbeispiel mehrere Tage bis Wochen pro Aufruf dauern kann.<br />
Die<br />
Option 1<br />
ist eine Suche mit hierarchischen SQL-Cursor und -Loops. Der erste Cursor läuft durch die Datenbank und<br />
findet Tabellen, ein zweiter Cursor/Loop läuft durch die Tabelle und findet die Werte in Spalten und Reihen. Der<br />
Vorteil: alle Tabellen und Reihen könnten durchsucht werden. Nachteil: Ein SQL-Abfrage müsste programmiert<br />
werden; schlechte Leistung (mehrene Tage); Suche in Tabellen und alle Daten müssten in Datenbanken<br />
gespeichert sein; Indexing und Daten konsumieren Speicherplatz.<br />
Als<br />
Option 2<br />
bringt Freund einen Datenbank-Volltextsuche in den Vergleich ein. Mittelns <strong>einer</strong> Volltext-Abfrage werden Wörter<br />
und Sätze in Datenbank-Tabellen durchsucht. Als Vorteil lässt sich die Abfrage leichter implememtieren. Als<br />
Nachteil können im Gegensatz zu Variante 1 nur Text abgesucht werden. Weitere Nachteile sind die zwar leicht<br />
bessere, aber immer noch schlechte Leistung wegen der gleichen Nachteile beim Speicherverbrauch wie in<br />
Medienbeobachtung<br />
Medienanalyse<br />
Informationsmanagement<br />
Sprachdienstleistungen<br />
ARGUS der Presse AG<br />
Rüdigerstrasse 15, Postfach, 8027 Zürich<br />
Tel. 044 388 82 00, Fax 044 388 82 01<br />
www.argus.ch<br />
Argus Ref.: 47206691<br />
Ausschnitt Seite: 3/6
Datum: 07.09.2012<br />
http://digitell.ch<br />
Digitell.ch Media Rohner<br />
8005 Zürich<br />
079/ 128 34 93<br />
http://greenbyte.ch/<br />
Medienart: Internet Themen-Nr.: 660.3<br />
Medientyp: Fachorganisationen<br />
Online lesen<br />
Abo-Nr.: 660003<br />
Variante 1.<br />
In<br />
Option 3<br />
kommt eine Dokumenten Management Plattform zum Einsatz. Sie funktioniert mit Volltextsuche von indexierte<br />
Inhalten. Als Vorteil muss nur die eigentliche Information in Datenbanken gespeichert sein. Der Nachteil ist das<br />
Fehlen von linear skalierbarer Leistung, die Abfragen sind komplex und der Index muss aktualisiert sein.<br />
Mit<br />
Option 4<br />
kommt eine herstellerspezifische Lösung in die Auswahl wie Oracle Exalytics (oder SAP Hana). Sie ist optimiert,<br />
Daten in den schnellen Arbeitsspeicher zu laden (sogenannte «In-Memory-Analyse») und sie ist deshalb sehr<br />
leistungsfähig. Um die Daten zu finden, kombiniert diese Variente die Volltextsuche mit In-Memory-Analyse. Der<br />
Vorteil ist die beste Leistung und die schnellste Reaktionszeit. Die Nachteile sind der sehr hohe Preis im sechs bis<br />
siebenstelligen Bereich, ein hoher Bedarf an Arbeitsspeicher in den Computern, <strong>Big</strong> <strong>Data</strong> muss unterteilt werden<br />
und wie in den Varienten 1 und 2 müssen alle Daten dazu in Datenbanken gespeichert sein.<br />
Als<br />
Option 6<br />
kommen Cloud-basierte Lösungen in die Auswahl, also das Nutzen von externen, nach<br />
Verbrauch<br />
verrechneten Speicher- und Analyse-Dienstleistungen über das Internet mit verschiedenen Anbietern. Der Vorteil<br />
ist die einfache Einführung ohne Fachpersonal. «Doch <strong>Big</strong> <strong>Data</strong> heisst in der Cloud leider auch <strong>Big</strong> Bucks», so<br />
Freund. Je mehr Daten es zu analysieren gibt, umso höher sind die Kosten. Das hohe Daten-Aufkommen<br />
könnte zudem Schwierigkeiten verursachen und die Auswahl von Anbietern ist klein.<br />
Die<br />
finale Option<br />
Nummer 7 war eine Unkonventionelle. Die Lösung wurde selbstgemacht mit frei erhältlicher Opensource-<br />
Software wie Apache Pig und <strong>Hadoop</strong>. Sie basiert auf einem Computer-Rechennetzwerk (Cluster), das<br />
unstrukturierte Daten parallel auf die Rechner verteilt und somit schnell analysiert. Die <strong>Hadoop</strong>-Plattform löst<br />
Probleme aus <strong>einer</strong> Mixtur von komplexen und unstrukturierten Daten, speziell wenn die Daten nicht schön in<br />
Tabellen passen. Zu den Vorteilen zählt laut Freund die Einfachheit von vorgefertigten Paketen (die in diesem<br />
Falle von Umsetzungspartner Teralytics stammen), die hohe Leistung eines Clusters, die schnellen<br />
Reaktionszeiten und der tiefe Preis.<br />
Medienbeobachtung<br />
Medienanalyse<br />
Informationsmanagement<br />
Sprachdienstleistungen<br />
ARGUS der Presse AG<br />
Rüdigerstrasse 15, Postfach, 8027 Zürich<br />
Tel. 044 388 82 00, Fax 044 388 82 01<br />
www.argus.ch<br />
Argus Ref.: 47206691<br />
Ausschnitt Seite: 4/6
Datum: 07.09.2012<br />
http://digitell.ch<br />
Digitell.ch Media Rohner<br />
8005 Zürich<br />
079/ 128 34 93<br />
http://greenbyte.ch/<br />
Medienart: Internet Themen-Nr.: 660.3<br />
Medientyp: Fachorganisationen<br />
Online lesen<br />
Abo-Nr.: 660003<br />
Die Lösung ist heute bei <strong>einer</strong> Schweizer <strong>Investmentbank</strong> im Einsatz. (PWC)<br />
Proof of Concept mit Recycling- PC<br />
Medienbeobachtung<br />
Medienanalyse<br />
Informationsmanagement<br />
Sprachdienstleistungen<br />
ARGUS der Presse AG<br />
Rüdigerstrasse 15, Postfach, 8027 Zürich<br />
Tel. 044 388 82 00, Fax 044 388 82 01<br />
www.argus.ch<br />
Argus Ref.: 47206691<br />
Ausschnitt Seite: 5/6
Datum: 07.09.2012<br />
http://digitell.ch<br />
Digitell.ch Media Rohner<br />
8005 Zürich<br />
079/ 128 34 93<br />
http://greenbyte.ch/<br />
Die Test-Hardware bestand nur aus Recycling-PC. (PWC)<br />
Medienart: Internet Themen-Nr.: 660.3<br />
Medientyp: Fachorganisationen<br />
Online lesen<br />
Abo-Nr.: 660003<br />
Die Option 7 hat Freund bei PWC als «Proof of Concept» umgesetzt, weil es mit dem geringsten Aufwand<br />
realisierbar war und ihn das Resultat mit dem alleinigen Gebrauch von Standard-Opensource-Software<br />
interessierte. Die Macht von Opensource-Werkzeugen wie Apache Pig und <strong>Hadoop</strong> zeigt sich in diesem<br />
Beispiel. «Wir haben uns dessen bedient, was wir herumstehen hatten», sagte Freund. Als Hardware kamen<br />
aus<strong>sortiert</strong>e PC mit Pentium-4-Systemen zum Einsatz. Die Mitarbeiter der PWC-IT-Abteilung bereiteten in ihrer<br />
freien Zeit alles nötige vor: Sie installierten Ubuntu-<br />
Linux<br />
und die Apache-Software auf den PC, vernetzten sie zum über einen Netzwerk-Switch und fertig war das<br />
<strong>Hadoop</strong>-Cluster-Mini-Rechenzentrum aus Recycling-PC. Zum Schluss musste noch ein Web-Interface nach dem<br />
Vorbild von Google programmiert werden, wozu die Programmiersprache Phython bedient wurde.<br />
Das Setup ging schnell, wie der Projektplan zeigt. In 5 bis 10 Tagen war alles fertig. Das Team von PWC und<br />
Teralytics hatte den Auftrag erledigt ohne Kosten für Software und Hardware. «Nicht das typische PWC-Projekt»,<br />
wie Freund verschmitzt anmerkte. «Aber es ging schnell und wir konnten das Problem des Kunden lösen.»<br />
Die Lösung wir heute operationell beim Kunden eingesetzt, wozu PWC nun mit Oracle und Teralytics eine<br />
Partnerschaft einging. Recycling-PC sind deshalb nicht mehr im Einsatz, sie würden die Ausfallzeiten stark<br />
erhöhen und somit schnell sehr hohe Kosten und Imageschaden verursachen. Heute werden Systeme deshalb<br />
Server von Oracle Sun genutzt. Freund sieht eine spannende Zeit kommen: «Wir führen in diesem Kontekt<br />
weitere Gespräche. Es macht viel Spass, mit diesen neuen Werkzeugen zu arbeiten – sie machen einem die<br />
Arbeit einfacher.»<br />
(Marco Rohner)<br />
Medienbeobachtung<br />
Medienanalyse<br />
Informationsmanagement<br />
Sprachdienstleistungen<br />
ARGUS der Presse AG<br />
Rüdigerstrasse 15, Postfach, 8027 Zürich<br />
Tel. 044 388 82 00, Fax 044 388 82 01<br />
www.argus.ch<br />
Argus Ref.: 47206691<br />
Ausschnitt Seite: 6/6