14.01.2013 Aufrufe

Big Data: Hadoop sortiert Datenberg einer Investmentbank - PwC

Big Data: Hadoop sortiert Datenberg einer Investmentbank - PwC

Big Data: Hadoop sortiert Datenberg einer Investmentbank - PwC

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Datum: 07.09.2012<br />

http://digitell.ch<br />

Digitell.ch Media Rohner<br />

8005 Zürich<br />

079/ 128 34 93<br />

http://greenbyte.ch/<br />

Medienart: Internet Themen-Nr.: 660.3<br />

Medientyp: Fachorganisationen<br />

Online lesen<br />

Abo-Nr.: 660003<br />

<strong>Big</strong> <strong>Data</strong>: <strong>Hadoop</strong> <strong>sortiert</strong> <strong>Datenberg</strong> <strong>einer</strong> <strong>Investmentbank</strong><br />

Featured<br />

Publiziert am Freitag, 7. September 2012 um 08:59 Uhr. Verfasst von Marco Rohner<br />

<strong>Datenberg</strong>e, Ressourcen-Management und Effizienz im Rechenzentrum führt zu mehr als nur optimierten<br />

Prozessen. Sie ermöglichen <strong>Big</strong>-<strong>Data</strong>-Werkzeugen wie <strong>Hadoop</strong> für Schweizer Unternehmen, die zuvor nur<br />

Unternehmen wie<br />

Google<br />

nutzten. Dies zeigt das Praxisbeispiel von PWC bei <strong>einer</strong> <strong>Investmentbank</strong>.<br />

Mit <strong>Big</strong> <strong>Data</strong> können Schritt für Schritt zu Antworten kommen, wenn sie die Fragen zu Beginn noch nicht einmal<br />

kennen. (pd)<br />

Effizienz im Rechenzentrum führt zu mehr als nur optimierten Prozessen. Sind die<br />

Server<br />

virtualisiert, also die Software<br />

von der Hardware getrennt, lassen sich interne Ressourcen verschieben und bei Bedarf externe Ressourcen<br />

anknüpfen. Die Disney Technology Shared Services Group als Beispiel hat mit virtualisierten Rechenzentren das<br />

jährlichen Kostenwachstum von 23 Prozent auf minus 3 Prozent gedreht; die Prozessleistung stieg von 17 auf 45<br />

Prozent (PWC Technology Forecast, 3/2010). Die Flexibilität der virtualisierten<br />

Infrastruktur<br />

ermöglicht das dynamische Anknüpfen von weiteren, neuen Prozessen. Beispielsweise das Analysieren von<br />

riesigen Datensätzen in externen Clouds wie Disneys Web-Besucher-Statistiken. Mit Clouds sind hier die<br />

virtualisieren Server in anderen Rechenzentren gemeint. Sie verarbeiten in diesem Beispiel die Daten von Disney<br />

und senden die Resultate zurück. Dahinter steckt jedoch die Verarbeitung riesiger Daten.<br />

Die Tools der Datensammler und Social-Media-Riesen wie Google, Twitter und Facebook sind heute für alle<br />

Unternehmen aller Grössen zugänglich. «Es ist billiger, Daten zu speichern, als wegzuschmeissen», sagte Georg<br />

Polzer von Terralytics zur Eröffnung des Events «<strong>Big</strong> <strong>Data</strong> Erfolgsgeschichten» von Juni im Hotel Radisson Blue<br />

des Flughafens Zürich. Präsentationen mit Praxisbeispielen hielten auch Vertreter von SAP, Oracle, Cisco,<br />

Netapp und Splunk mit Greenbyte.ch als Medienpartner.<br />

<strong>Hadoop</strong>-Nutzerszenarien von ETH bis Facebook<br />

Medienbeobachtung<br />

Medienanalyse<br />

Informationsmanagement<br />

Sprachdienstleistungen<br />

ARGUS der Presse AG<br />

Rüdigerstrasse 15, Postfach, 8027 Zürich<br />

Tel. 044 388 82 00, Fax 044 388 82 01<br />

www.argus.ch<br />

Argus Ref.: 47206691<br />

Ausschnitt Seite: 1/6


Datum: 07.09.2012<br />

http://digitell.ch<br />

Digitell.ch Media Rohner<br />

8005 Zürich<br />

079/ 128 34 93<br />

http://greenbyte.ch/<br />

Medienart: Internet Themen-Nr.: 660.3<br />

Medientyp: Fachorganisationen<br />

Online lesen<br />

Abo-Nr.: 660003<br />

In Rechzentren betriebt Facebook zwei grosse <strong>Hadoop</strong>-Cluster aus 1100 Server. (pd)<br />

Die Werkzeugen wie <strong>Hadoop</strong>, Map Reduce und anderen Open-Source-Technologien produzieren schnelle<br />

Resultate, weil sie die grosse Daten-Analyse-Arbeitsaufträge auf viele Computer-Systeme verteilen und parallel<br />

verarbeiten. Apache <strong>Hadoop</strong> basiert auf Java und dem Googles Datei-System. Es wird offen und frei von der<br />

Apache Software Foundation entwickelt. Die<br />

<strong>Hadoop</strong>-Kundeninfo<br />

bietet einige Anwendungsszenarien von grossen und kleinen Nutzern. Von der ETH Zürich bis zu Yahoo.<br />

Facebook nutzt <strong>Hadoop</strong>, um Kopien von internen Log und Dimension-<strong>Data</strong>-Quellen zu speichern sowie als<br />

Quelle von für Berichte, Analysen und machinelles Lernen. Facebook betreibt zwei grosse <strong>Hadoop</strong>-Cluster aus<br />

1100 Server mit 8800 Kernen und 12 Petabyte Speicher, sowie aus 300 Server mit 2400 Kernen und 3 Petabyte<br />

Speicher. Ein weiteres Beispiel für <strong>Hadoop</strong>-Grossnutzer ist Linkedin, die mit <strong>Hadoop</strong>-Clustern aus 2000 Servern<br />

für aktuell 175 Millionen Mitglieder die «Personen, die Sie vielleicht auch kennen» aussortieren. Yahoo nutzt<br />

<strong>Hadoop</strong> mit über 100’000 Kernen in 40’000 Servern, beispielsweise um die Forschung in Werbesystemen und<br />

sie Suche zu unterstützen.<br />

Linkedin benötigt 2000 <strong>Hadoop</strong>-Server, um die Funktion «Personen, die Sie vielleicht auch kennen» für 175<br />

Millionen Mitglieder anzubieten.<br />

Datenanalyse <strong>einer</strong> <strong>Investmentbank</strong> im Konkurs<br />

Medienbeobachtung<br />

Medienanalyse<br />

Informationsmanagement<br />

Sprachdienstleistungen<br />

ARGUS der Presse AG<br />

Rüdigerstrasse 15, Postfach, 8027 Zürich<br />

Tel. 044 388 82 00, Fax 044 388 82 01<br />

www.argus.ch<br />

Argus Ref.: 47206691<br />

Ausschnitt Seite: 2/6


Datum: 07.09.2012<br />

http://digitell.ch<br />

Digitell.ch Media Rohner<br />

8005 Zürich<br />

079/ 128 34 93<br />

http://greenbyte.ch/<br />

Medienart: Internet Themen-Nr.: 660.3<br />

Medientyp: Fachorganisationen<br />

Online lesen<br />

Abo-Nr.: 660003<br />

Variante 7 des PWC-Tests wurde für die <strong>Investmentbank</strong> umgesetzt. (PWC)<br />

Ein Beispiel aus der Praxis zeigte Alexej Freund, Manager Consulting von Pricewaterhouse Coopers (PWC) in<br />

Zürich. Das Problem waren rund 4 Terabyte unbrauchbare, aber benötigte Daten <strong>einer</strong> konkursiten<br />

<strong>Investmentbank</strong>. «Die Bank sollte abgewickelt werden. Man musste also festgestellen, wo die Bank mit ihren<br />

komplexen Verträgen und Produkten involviert war. Dazu benötigt man eine separate Abfrage über die<br />

Datenbanken<br />

hinweg, die mit normalen Mitteln nicht möglich ist», sagte Freund. Um das Problem zu lösen, stellte Freund<br />

einige praktische Lösungsoptionen als Vergleich auf.<br />

Lösungsoption Null stellt den Nutzer ins Zentrum, mit dem was vorhanden ist: Die Daten werden in<br />

Microsoft<br />

Excel geladen und per Befehl « Ctrl+F» durchsucht und angezeigt. Die Vorteil der Intuitivität wird hinweg gefegt<br />

von der limitierten Skalierung (maximal 1 Million Reihen) und der lahmen Suchgeschwindigeit, die im<br />

Kundenbeispiel mehrere Tage bis Wochen pro Aufruf dauern kann.<br />

Die<br />

Option 1<br />

ist eine Suche mit hierarchischen SQL-Cursor und -Loops. Der erste Cursor läuft durch die Datenbank und<br />

findet Tabellen, ein zweiter Cursor/Loop läuft durch die Tabelle und findet die Werte in Spalten und Reihen. Der<br />

Vorteil: alle Tabellen und Reihen könnten durchsucht werden. Nachteil: Ein SQL-Abfrage müsste programmiert<br />

werden; schlechte Leistung (mehrene Tage); Suche in Tabellen und alle Daten müssten in Datenbanken<br />

gespeichert sein; Indexing und Daten konsumieren Speicherplatz.<br />

Als<br />

Option 2<br />

bringt Freund einen Datenbank-Volltextsuche in den Vergleich ein. Mittelns <strong>einer</strong> Volltext-Abfrage werden Wörter<br />

und Sätze in Datenbank-Tabellen durchsucht. Als Vorteil lässt sich die Abfrage leichter implememtieren. Als<br />

Nachteil können im Gegensatz zu Variante 1 nur Text abgesucht werden. Weitere Nachteile sind die zwar leicht<br />

bessere, aber immer noch schlechte Leistung wegen der gleichen Nachteile beim Speicherverbrauch wie in<br />

Medienbeobachtung<br />

Medienanalyse<br />

Informationsmanagement<br />

Sprachdienstleistungen<br />

ARGUS der Presse AG<br />

Rüdigerstrasse 15, Postfach, 8027 Zürich<br />

Tel. 044 388 82 00, Fax 044 388 82 01<br />

www.argus.ch<br />

Argus Ref.: 47206691<br />

Ausschnitt Seite: 3/6


Datum: 07.09.2012<br />

http://digitell.ch<br />

Digitell.ch Media Rohner<br />

8005 Zürich<br />

079/ 128 34 93<br />

http://greenbyte.ch/<br />

Medienart: Internet Themen-Nr.: 660.3<br />

Medientyp: Fachorganisationen<br />

Online lesen<br />

Abo-Nr.: 660003<br />

Variante 1.<br />

In<br />

Option 3<br />

kommt eine Dokumenten Management Plattform zum Einsatz. Sie funktioniert mit Volltextsuche von indexierte<br />

Inhalten. Als Vorteil muss nur die eigentliche Information in Datenbanken gespeichert sein. Der Nachteil ist das<br />

Fehlen von linear skalierbarer Leistung, die Abfragen sind komplex und der Index muss aktualisiert sein.<br />

Mit<br />

Option 4<br />

kommt eine herstellerspezifische Lösung in die Auswahl wie Oracle Exalytics (oder SAP Hana). Sie ist optimiert,<br />

Daten in den schnellen Arbeitsspeicher zu laden (sogenannte «In-Memory-Analyse») und sie ist deshalb sehr<br />

leistungsfähig. Um die Daten zu finden, kombiniert diese Variente die Volltextsuche mit In-Memory-Analyse. Der<br />

Vorteil ist die beste Leistung und die schnellste Reaktionszeit. Die Nachteile sind der sehr hohe Preis im sechs bis<br />

siebenstelligen Bereich, ein hoher Bedarf an Arbeitsspeicher in den Computern, <strong>Big</strong> <strong>Data</strong> muss unterteilt werden<br />

und wie in den Varienten 1 und 2 müssen alle Daten dazu in Datenbanken gespeichert sein.<br />

Als<br />

Option 6<br />

kommen Cloud-basierte Lösungen in die Auswahl, also das Nutzen von externen, nach<br />

Verbrauch<br />

verrechneten Speicher- und Analyse-Dienstleistungen über das Internet mit verschiedenen Anbietern. Der Vorteil<br />

ist die einfache Einführung ohne Fachpersonal. «Doch <strong>Big</strong> <strong>Data</strong> heisst in der Cloud leider auch <strong>Big</strong> Bucks», so<br />

Freund. Je mehr Daten es zu analysieren gibt, umso höher sind die Kosten. Das hohe Daten-Aufkommen<br />

könnte zudem Schwierigkeiten verursachen und die Auswahl von Anbietern ist klein.<br />

Die<br />

finale Option<br />

Nummer 7 war eine Unkonventionelle. Die Lösung wurde selbstgemacht mit frei erhältlicher Opensource-<br />

Software wie Apache Pig und <strong>Hadoop</strong>. Sie basiert auf einem Computer-Rechennetzwerk (Cluster), das<br />

unstrukturierte Daten parallel auf die Rechner verteilt und somit schnell analysiert. Die <strong>Hadoop</strong>-Plattform löst<br />

Probleme aus <strong>einer</strong> Mixtur von komplexen und unstrukturierten Daten, speziell wenn die Daten nicht schön in<br />

Tabellen passen. Zu den Vorteilen zählt laut Freund die Einfachheit von vorgefertigten Paketen (die in diesem<br />

Falle von Umsetzungspartner Teralytics stammen), die hohe Leistung eines Clusters, die schnellen<br />

Reaktionszeiten und der tiefe Preis.<br />

Medienbeobachtung<br />

Medienanalyse<br />

Informationsmanagement<br />

Sprachdienstleistungen<br />

ARGUS der Presse AG<br />

Rüdigerstrasse 15, Postfach, 8027 Zürich<br />

Tel. 044 388 82 00, Fax 044 388 82 01<br />

www.argus.ch<br />

Argus Ref.: 47206691<br />

Ausschnitt Seite: 4/6


Datum: 07.09.2012<br />

http://digitell.ch<br />

Digitell.ch Media Rohner<br />

8005 Zürich<br />

079/ 128 34 93<br />

http://greenbyte.ch/<br />

Medienart: Internet Themen-Nr.: 660.3<br />

Medientyp: Fachorganisationen<br />

Online lesen<br />

Abo-Nr.: 660003<br />

Die Lösung ist heute bei <strong>einer</strong> Schweizer <strong>Investmentbank</strong> im Einsatz. (PWC)<br />

Proof of Concept mit Recycling- PC<br />

Medienbeobachtung<br />

Medienanalyse<br />

Informationsmanagement<br />

Sprachdienstleistungen<br />

ARGUS der Presse AG<br />

Rüdigerstrasse 15, Postfach, 8027 Zürich<br />

Tel. 044 388 82 00, Fax 044 388 82 01<br />

www.argus.ch<br />

Argus Ref.: 47206691<br />

Ausschnitt Seite: 5/6


Datum: 07.09.2012<br />

http://digitell.ch<br />

Digitell.ch Media Rohner<br />

8005 Zürich<br />

079/ 128 34 93<br />

http://greenbyte.ch/<br />

Die Test-Hardware bestand nur aus Recycling-PC. (PWC)<br />

Medienart: Internet Themen-Nr.: 660.3<br />

Medientyp: Fachorganisationen<br />

Online lesen<br />

Abo-Nr.: 660003<br />

Die Option 7 hat Freund bei PWC als «Proof of Concept» umgesetzt, weil es mit dem geringsten Aufwand<br />

realisierbar war und ihn das Resultat mit dem alleinigen Gebrauch von Standard-Opensource-Software<br />

interessierte. Die Macht von Opensource-Werkzeugen wie Apache Pig und <strong>Hadoop</strong> zeigt sich in diesem<br />

Beispiel. «Wir haben uns dessen bedient, was wir herumstehen hatten», sagte Freund. Als Hardware kamen<br />

aus<strong>sortiert</strong>e PC mit Pentium-4-Systemen zum Einsatz. Die Mitarbeiter der PWC-IT-Abteilung bereiteten in ihrer<br />

freien Zeit alles nötige vor: Sie installierten Ubuntu-<br />

Linux<br />

und die Apache-Software auf den PC, vernetzten sie zum über einen Netzwerk-Switch und fertig war das<br />

<strong>Hadoop</strong>-Cluster-Mini-Rechenzentrum aus Recycling-PC. Zum Schluss musste noch ein Web-Interface nach dem<br />

Vorbild von Google programmiert werden, wozu die Programmiersprache Phython bedient wurde.<br />

Das Setup ging schnell, wie der Projektplan zeigt. In 5 bis 10 Tagen war alles fertig. Das Team von PWC und<br />

Teralytics hatte den Auftrag erledigt ohne Kosten für Software und Hardware. «Nicht das typische PWC-Projekt»,<br />

wie Freund verschmitzt anmerkte. «Aber es ging schnell und wir konnten das Problem des Kunden lösen.»<br />

Die Lösung wir heute operationell beim Kunden eingesetzt, wozu PWC nun mit Oracle und Teralytics eine<br />

Partnerschaft einging. Recycling-PC sind deshalb nicht mehr im Einsatz, sie würden die Ausfallzeiten stark<br />

erhöhen und somit schnell sehr hohe Kosten und Imageschaden verursachen. Heute werden Systeme deshalb<br />

Server von Oracle Sun genutzt. Freund sieht eine spannende Zeit kommen: «Wir führen in diesem Kontekt<br />

weitere Gespräche. Es macht viel Spass, mit diesen neuen Werkzeugen zu arbeiten – sie machen einem die<br />

Arbeit einfacher.»<br />

(Marco Rohner)<br />

Medienbeobachtung<br />

Medienanalyse<br />

Informationsmanagement<br />

Sprachdienstleistungen<br />

ARGUS der Presse AG<br />

Rüdigerstrasse 15, Postfach, 8027 Zürich<br />

Tel. 044 388 82 00, Fax 044 388 82 01<br />

www.argus.ch<br />

Argus Ref.: 47206691<br />

Ausschnitt Seite: 6/6

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!