20.11.2012 Aufrufe

Download Whitepaper (.PDF) - SEiCOM Communication Systems ...

Download Whitepaper (.PDF) - SEiCOM Communication Systems ...

Download Whitepaper (.PDF) - SEiCOM Communication Systems ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

WHITE PAPER<br />

Internet Wide Area Protocol (iWARP)<br />

NetEffect 10 10-Gigabit Ethernet<br />

Server-Cluster-Adapter<br />

Technisches und High-Performance-Computing<br />

März 2010 deutsche Version aus 1,0<br />

Tom Stachura, Intel LAN Access Division<br />

Brian Yoshinaka, Intel LAN Access Division<br />

Ein High-Performance-Cluster in der biomedizinischen Forschung<br />

stützt sich auf 10-Gigabit-Ethernet (10-GbE) mit iWARP<br />

Ein großes Forschungsinstitut erzielte in einem Cluster mit 4032 Kernen eine<br />

Leistung von nahezu 36 TeraFLOPS bei einer Effizienz von über 84 Prozent<br />

(HPL-Benchmark). Möglich wurde dies durch die Nutzung von iWARP und 10-<br />

GbE, womit der typische Overhead durch Kernel-Benutzer-Kontextwechsel,<br />

mehrfache Kopien des Puffers zwischen Speicherbereichen und durch die<br />

TCP/IP-Verarbeitung reduziert werden konnte.<br />

Kurzzusammenfassung<br />

iWARP (Internet Wide Area RDMA Protocol) erlaubt den Aufbau von Netzwerken mit<br />

geringer Latenz, die sich für High-Performance-Cluster eignen. Das Entscheidende: Alles<br />

geschieht mit standardbasierter, überall verbreiteter Ethernet-Technik. Ein Schlüsselvorteil<br />

der Vernetzung mit iWARP ist ihre Kompatibilität mit bestehenden Netzwerkinfrastrukturen,<br />

Managementlösungen und Anwendungen.


Dieses Papier zeigt, wie Cluster-Computing auf iWARP-Basis eingesetzt werden kann, um<br />

mithilfe von 10-GbE sehr hohe Leistung zu erzielen. Es beginnt mit der Beschreibung der<br />

Architektur eines Clusters auf iWARP-Basis, bevor die iWARP-Technik als solche kurz<br />

erläutert wird. Das Papier schließt mit einem Bericht über die Performance, die mit einem<br />

solchen Cluster erreicht wurde, sowie Beobachtungen zum Nutzen, den iWARP künftig auf<br />

diesem Gebiet erbringen kann.<br />

Eine Großforschungseinrichtung erzielte mit iWARP und NetEffect 10-GbE-Server-Cluster-<br />

Adaptern in einem Cluster mit 4032 Kernen exzellente Leistung und nahezu lineare<br />

Skalierbarkeit. Dies ergab eine Messung mit dem HPC-LINPACK-Benchmark. Ergebnis ist<br />

ein im Vergleich sehr kostengünstiger Ansatz für die Verarbeitung sehr großer Mengen<br />

technischer Daten: die Netzwerk-Hardware besteht ausschließlich aus marktüblichen<br />

Komponenten.<br />

Architektur eines iWARP-Clusters für die medizinische Forschung<br />

Um größere Workloads in bestimmten, für ihre Forschung kritischen Bereichen, wie<br />

Bioinformatik, Bildanalyse und Sequenzierung, zu unterstützen, baute eine<br />

Forschungseinrichtung ein ausgedehntes Cluster (4032 Kerne) auf iWARP-Basis auf. Bei<br />

den Rechnern fiel die Wahl auf Zweiprozessorserver des Typs Dell PowerEdge R610 mit<br />

Intel® Xeon® x5550-Prozessoren und 2,66 GHz Taktfrequenz. Die Server sind jeweils mit<br />

24 GB RAM und einem einzelnen 80-GB-SATA-Festplattenlaufwerk ausgestattet. Für die<br />

RDMA-Verbindung (Remote Direct Memory Access) nutzt der Aufbau NetEffect 10-GbE-<br />

Server-Cluster-Adapter.<br />

Bild 1: Der Cluster besteht aus 504 Servern mit je zwei Quadcore-Prozessoren, je Rack mit zwei Rack-Level-<br />

Switches verbunden, die ihrerseits einen Uplink ins zentrale Netzwerk besitzen.


Der Cluster wird für eine Reihe von Aufgaben genutzt, darunter Bildanalyse, verschiedene<br />

Bioinformatik-Software und -Werkzeuge, CFD-Modelling, Software für rechnerische Chemie<br />

und viele Softwarepakete, die aus Open-Source-Quellen, kommerziellem Erwerb und<br />

Eigenentwicklung stammen. Der Cluster wurde so konzipiert, dass er einerseits für alle<br />

aktuell benötigten wissenschaftlichen Berechnungen geeignet ist und andererseits eine<br />

Plattform bildet, die andere Arten von Aufgaben, die im Laufe seines Lebenszyklus auf ihn<br />

zukommen könnten, bewältigen kann.<br />

Die in Abbildung 1 gezeigte Cluster-Topologie besteht aus 14 Server-Racks mit 36 Servern<br />

pro Rack, insgesamt also 504 Servern. Auf Rack-Ebene hat jeder Server zwei Verbindungen<br />

zu einem der zwei 1-HE-Switches Arista 7148SX mit je 48 Ports: eine 10-GbE-Verbindung<br />

(über direkt angeschlossenes Twinax-Kabel) für den RDMA-Verkehr und eine 1-GbE-<br />

Verbindung für den gesamten anderen Datenverkehr. Jeder Arista-7148SX-Switch hat acht<br />

10-GbE-Uplinks (16 pro Rack) zu einer Gruppe von Arista-7xxx-Switches.<br />

Als Software läuft auf dem Cluster Red Hat Enterprise Linux* 5.3, OFED (OpenFabrics<br />

Enterprise Distribution) 1.4.1 und Intel® MPI (Message Passing Interface) 3.2.1.<br />

Einsatz von iWARP zur Reduzierung des Overheads und der Latenz in Multi-Gigabit-<br />

Netzwerken<br />

Seine weite Verbreitung macht Ethernet extrem kostengünstig für den allgemeinen LAN-<br />

Datenverkehr. Es liegt nahe, diesen Vorteil auch für andere Einsatzbereiche zu nutzen –<br />

etwa als Basistechnik für leistungsstarke Rechencluster. Für diesen Zweck galt es jedoch<br />

zunächst, einige Probleme zu bewältigen. Als Erstes musste die<br />

Verbindungsgeschwindigkeit auf ein hinreichend hohes Niveau gebracht werden, was mit der<br />

weithin verfügbaren 10-GbE-Netzwerktechnik erreicht wurde.<br />

Um die Vorteile der 10-GbE-Übertragungsrate voll ausschöpfen zu können, mussten jedoch<br />

die für Ethernet-Netzwerke typischen Latenzen überwunden werden. iWARP spezifiziert eine<br />

Reihe von Standarderweiterungen für TCP/IP, die einen Transportmechanismus für RDMA<br />

definieren. Damit bietet iWARP einen Weg, um RDMA mit geringen Latenzen über Ethernet<br />

zu übertragen (Bild 2):<br />

• Lösung für einen Kernel-Bypass:<br />

Daten werden direkt in den Benutzerspeicher übertragen. Dies vermeidet Kernel-User-<br />

Kontextwechsel, wodurch sowohl die Latenz als auch die Prozessorauslastung reduziert<br />

werden.


• Vermeiden von Kopien des Puffers zwischen Speicherbereichen<br />

Daten werden direkt in die Applikations-Puffer übertragen, anstatt sie mehrfach in die<br />

Stackpuffer der Treiber und des Netzwerks zu kopieren. Dies führt zu einer weiteren<br />

Verringerung der Latenz sowie zur Reduzierung der Speicher- und Prozessorauslastung.<br />

• Beschleunigte TCP/IP-Verarbeitung (Datentransport)<br />

Die TCP/IP-Verarbeitung erfolgt in der Hardware, anstatt dafür die Netzwerk-Stack-Software<br />

des Betriebssystems zu beanspruchen. Dies erlaubt eine zuverlässige<br />

Verbindungsverarbeitung bei hoher Geschwindigkeit und Auslastung.<br />

Bild 2: iWARP verbessert den Durchsatz, indem es den Overhead reduziert, der mit Kernel-User-<br />

Kontextwechseln, Kopien des Puffers zwischen Speicherbereichen und der TCP/IP-Verarbeitung verbunden ist.


Das iWARP-Protokoll wurde für den Datenverkehr innerhalb einer Ethernet-Infrastruktur<br />

entwickelt, daher sind keine Änderungen an den bestehenden Ethernet-Netzwerken oder<br />

-Geräten erforderlich. Die Kompatibilität von iWARP mit Ethernet erlaubt dabei, dass IT-<br />

Organisationen gleichzeitig alle Vorteile der Erweiterungen von Ethernet in Anspruch<br />

nehmen können, darunter etwa Data-Center-Bridging, Switches mit geringer Latenz und IP-<br />

Sicherheit.<br />

Übliche Ethernet-Switches und -Router transportieren den iWARP-Verkehr über existierende<br />

TCP/IP-Protokolle. Da iWARP oberhalb der TCP-Schichten angesiedelt ist, brauchen<br />

Netzwerkgeräte iWARP nicht zu verarbeiten und spezielle Funktionseigenschaften sind nicht<br />

erforderlich. Dies erlaubt die Nutzung von branchenüblichen Managementkonsolen, die mit<br />

existierenden IP-Management-Protokollen arbeiten. Die Open Fabrics Alliance<br />

(www.openfabrics.org) stellt einen Open-Source-RDMA-Software-Stack zur Verfügung, der<br />

für iWARP sowohl gegenüber der Hardware als auch gegenüber Applikationen transparent<br />

ist. Diese Eigenschaften erlauben eine problemlose iWARP-Integration in bestehende<br />

Umgebungen, während gleichzeitig die strengsten Anforderungen hinsichtlich Kosten und<br />

Leistung erfüllt werden.<br />

Performance- und Skalierungs-Ergebnisse<br />

Bei HPL-Benchmark-Tests, den Projektingenieure mit diesem Cluster auf Basis von 4000<br />

Kernen im Labor durchführten, kam eine Leistung vom 35,81 TeraFLOPS bei 84,14 Prozent<br />

Effizienz heraus (Bild 3). Die verwendete HPL-Problemgröße war 1 200 000 und die für die<br />

halbe Leistung erforderliche Problemgröße (N/2-Problemgröße) war 300 000. Wichtig: Die<br />

Leistungsdaten skalieren nahezu linear mit der Anzahl der Kerne.<br />

Aus Ingenieurs-Perspektive hilft die Linearität der Ergebnisse beim Performance-Gewinn<br />

sicherzustellen, dass diese Topologie auch für Rechenaufgaben im sehr großen Stil geeignet<br />

ist. Im Vergleich zu den Systemen in der Top-500-Rangliste vom letzten Juni zeigt dieser<br />

Cluster die höchste Effizienz einer Ethernet-Lösung. Über alle x86-Lösungen insgesamt<br />

kommt der Cluster in Sachen Effizienz immerhin unter die ersten 30 dieser Rangliste.<br />

Nachdem die Datenrate selbst bei dieser Cluster-Größe keinen nennenswerten Einbruch<br />

zeigt, liegt der Schluss nahe, dass sich die Lösung auch weit über die hier gezeigte<br />

Größenordnung hinaus skalieren lässt. Natürlich müsste diese Hypothese erst noch<br />

untersucht werden, um ihre Gültigkeit zu beweisen. Aus kostentechnischer Perspektive<br />

zeigen die Ergebnisse, dass bis zu mindestens 500 Knoten jeder einem Cluster hinzugefügte<br />

Rechenknoten einen angemessenem Mehrwert im Verhältnis zu den Gesamtkosten des<br />

Clusters bietet.<br />

Die genannten Leistungs- und Effizienzwerte müssen unter Berücksichtigung der Tatsache<br />

erwogen werden, dass die gewählte Cluster-Konfiguration die Verbindungen zu den Arista-<br />

7xxx-Switches um den Faktor 2,475:1 überbeansprucht. Die Nutzung von freien Ports in den<br />

Racks für zusätzliche Verbindungen in das Netzwerk würde die Überbeanspruchung<br />

reduzieren. Dies könnte möglicherweise zu noch besseren Performance-Ergebnissen führen<br />

– ein interessanter Punkt, der zu einem späteren Zeitpunkt noch genauer untersucht werden<br />

sollte.


Bild 3: Messungen mit dem HPC-LINPACK-Benchmark ergaben für das Cluster auf Basis von iWARP und 10-<br />

GbE eine Performance von 35,81 TeraFLOPS bei 84,14 Prozent Effizienz.<br />

Fazit<br />

Die in diesem <strong>Whitepaper</strong> beschriebenen Untersuchungsergebnisse mit einem künstlichen<br />

Benchmark-Test deuten auf einen sehr hohen Nutzen dieser Cluster-Topologie für die<br />

künftige Forschung hin. Die Ergebnisse zeigen, dass der Einsatz weit verbreiteter Ethernet-<br />

Technik in Rechenclustern inzwischen überzeugende Leistung, Effizienz und Skalierbarkeit<br />

liefert. Mit Unterstützung von iWARP mit NetEffect 10-GbE-Server-Cluster-Adaptern lässt<br />

sich der RDMA-Verkehr sehr effektiv über die Ethernet-Netzwerkinfrastruktur übertragen. Mit<br />

zunehmender Reife von 10-GbE, wie sie sich beispielsweise in höheren Port-Dichten der<br />

Switches und Technik für weiter sinkende Latenzwerte ausdrückt, erscheinen die Vorzüge<br />

von Ethernet für den Aufbau von Super-Computing-Plattformen sogar noch<br />

vielversprechender.<br />

Weiterführende Quellen<br />

Um mehr über die in diesem <strong>Whitepaper</strong> beschriebene Technik, Produkte und<br />

Implementierungen zu erfahren, empfehlen wir folgende Quellen:<br />

10-GbE-iWARP-fähige NetEffect Ethernet-Server-Cluster-Adapter:<br />

www.intel.com/Products/Server/Adapters/Server-Cluster/Server-Cluster-overview.htm<br />

Arista Switches: www.aristanetworks.com<br />

Arista Vertretung Region DACH www.seicom-muc.de<br />

Dell PowerEdge* R610 Server:


www.dell.com/us/en/business/servers/server-poweredge-r610/pd.aspx?refid=serverpoweredge-r610&cs=04&s=bsd<br />

HPL-Benchmark-Website: www.netlib.org/benchmark/hpl/<br />

Für weitere Informationen zum Thema iWARP empfehlen wir das Papier „Understanding<br />

iWARP: Eliminating Overhead and Latency in multi-Gb Ethernet Networks“, das unter<br />

folgendem Link heruntergeladen werden kann:<br />

http://download.intel.com/support/network/adapter/pro100/sb/understanding_iwarp.pdf<br />

Copyright © 2009 Intel Corporation (http://www.intel.com/). Alle Rechte vorbehalten. Intel, das Intel-Logo und<br />

Xeon sind Marken der Intel Corporation in den USA und anderen Ländern.<br />

Übersetzung vom Englischen ins Deutsche: <strong>SEiCOM</strong> <strong>Communication</strong> <strong>Systems</strong> GmbH (www.seicom-muc.de)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!