Download Whitepaper (.PDF) - SEiCOM Communication Systems ...
Download Whitepaper (.PDF) - SEiCOM Communication Systems ...
Download Whitepaper (.PDF) - SEiCOM Communication Systems ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
WHITE PAPER<br />
Internet Wide Area Protocol (iWARP)<br />
NetEffect 10 10-Gigabit Ethernet<br />
Server-Cluster-Adapter<br />
Technisches und High-Performance-Computing<br />
März 2010 deutsche Version aus 1,0<br />
Tom Stachura, Intel LAN Access Division<br />
Brian Yoshinaka, Intel LAN Access Division<br />
Ein High-Performance-Cluster in der biomedizinischen Forschung<br />
stützt sich auf 10-Gigabit-Ethernet (10-GbE) mit iWARP<br />
Ein großes Forschungsinstitut erzielte in einem Cluster mit 4032 Kernen eine<br />
Leistung von nahezu 36 TeraFLOPS bei einer Effizienz von über 84 Prozent<br />
(HPL-Benchmark). Möglich wurde dies durch die Nutzung von iWARP und 10-<br />
GbE, womit der typische Overhead durch Kernel-Benutzer-Kontextwechsel,<br />
mehrfache Kopien des Puffers zwischen Speicherbereichen und durch die<br />
TCP/IP-Verarbeitung reduziert werden konnte.<br />
Kurzzusammenfassung<br />
iWARP (Internet Wide Area RDMA Protocol) erlaubt den Aufbau von Netzwerken mit<br />
geringer Latenz, die sich für High-Performance-Cluster eignen. Das Entscheidende: Alles<br />
geschieht mit standardbasierter, überall verbreiteter Ethernet-Technik. Ein Schlüsselvorteil<br />
der Vernetzung mit iWARP ist ihre Kompatibilität mit bestehenden Netzwerkinfrastrukturen,<br />
Managementlösungen und Anwendungen.
Dieses Papier zeigt, wie Cluster-Computing auf iWARP-Basis eingesetzt werden kann, um<br />
mithilfe von 10-GbE sehr hohe Leistung zu erzielen. Es beginnt mit der Beschreibung der<br />
Architektur eines Clusters auf iWARP-Basis, bevor die iWARP-Technik als solche kurz<br />
erläutert wird. Das Papier schließt mit einem Bericht über die Performance, die mit einem<br />
solchen Cluster erreicht wurde, sowie Beobachtungen zum Nutzen, den iWARP künftig auf<br />
diesem Gebiet erbringen kann.<br />
Eine Großforschungseinrichtung erzielte mit iWARP und NetEffect 10-GbE-Server-Cluster-<br />
Adaptern in einem Cluster mit 4032 Kernen exzellente Leistung und nahezu lineare<br />
Skalierbarkeit. Dies ergab eine Messung mit dem HPC-LINPACK-Benchmark. Ergebnis ist<br />
ein im Vergleich sehr kostengünstiger Ansatz für die Verarbeitung sehr großer Mengen<br />
technischer Daten: die Netzwerk-Hardware besteht ausschließlich aus marktüblichen<br />
Komponenten.<br />
Architektur eines iWARP-Clusters für die medizinische Forschung<br />
Um größere Workloads in bestimmten, für ihre Forschung kritischen Bereichen, wie<br />
Bioinformatik, Bildanalyse und Sequenzierung, zu unterstützen, baute eine<br />
Forschungseinrichtung ein ausgedehntes Cluster (4032 Kerne) auf iWARP-Basis auf. Bei<br />
den Rechnern fiel die Wahl auf Zweiprozessorserver des Typs Dell PowerEdge R610 mit<br />
Intel® Xeon® x5550-Prozessoren und 2,66 GHz Taktfrequenz. Die Server sind jeweils mit<br />
24 GB RAM und einem einzelnen 80-GB-SATA-Festplattenlaufwerk ausgestattet. Für die<br />
RDMA-Verbindung (Remote Direct Memory Access) nutzt der Aufbau NetEffect 10-GbE-<br />
Server-Cluster-Adapter.<br />
Bild 1: Der Cluster besteht aus 504 Servern mit je zwei Quadcore-Prozessoren, je Rack mit zwei Rack-Level-<br />
Switches verbunden, die ihrerseits einen Uplink ins zentrale Netzwerk besitzen.
Der Cluster wird für eine Reihe von Aufgaben genutzt, darunter Bildanalyse, verschiedene<br />
Bioinformatik-Software und -Werkzeuge, CFD-Modelling, Software für rechnerische Chemie<br />
und viele Softwarepakete, die aus Open-Source-Quellen, kommerziellem Erwerb und<br />
Eigenentwicklung stammen. Der Cluster wurde so konzipiert, dass er einerseits für alle<br />
aktuell benötigten wissenschaftlichen Berechnungen geeignet ist und andererseits eine<br />
Plattform bildet, die andere Arten von Aufgaben, die im Laufe seines Lebenszyklus auf ihn<br />
zukommen könnten, bewältigen kann.<br />
Die in Abbildung 1 gezeigte Cluster-Topologie besteht aus 14 Server-Racks mit 36 Servern<br />
pro Rack, insgesamt also 504 Servern. Auf Rack-Ebene hat jeder Server zwei Verbindungen<br />
zu einem der zwei 1-HE-Switches Arista 7148SX mit je 48 Ports: eine 10-GbE-Verbindung<br />
(über direkt angeschlossenes Twinax-Kabel) für den RDMA-Verkehr und eine 1-GbE-<br />
Verbindung für den gesamten anderen Datenverkehr. Jeder Arista-7148SX-Switch hat acht<br />
10-GbE-Uplinks (16 pro Rack) zu einer Gruppe von Arista-7xxx-Switches.<br />
Als Software läuft auf dem Cluster Red Hat Enterprise Linux* 5.3, OFED (OpenFabrics<br />
Enterprise Distribution) 1.4.1 und Intel® MPI (Message Passing Interface) 3.2.1.<br />
Einsatz von iWARP zur Reduzierung des Overheads und der Latenz in Multi-Gigabit-<br />
Netzwerken<br />
Seine weite Verbreitung macht Ethernet extrem kostengünstig für den allgemeinen LAN-<br />
Datenverkehr. Es liegt nahe, diesen Vorteil auch für andere Einsatzbereiche zu nutzen –<br />
etwa als Basistechnik für leistungsstarke Rechencluster. Für diesen Zweck galt es jedoch<br />
zunächst, einige Probleme zu bewältigen. Als Erstes musste die<br />
Verbindungsgeschwindigkeit auf ein hinreichend hohes Niveau gebracht werden, was mit der<br />
weithin verfügbaren 10-GbE-Netzwerktechnik erreicht wurde.<br />
Um die Vorteile der 10-GbE-Übertragungsrate voll ausschöpfen zu können, mussten jedoch<br />
die für Ethernet-Netzwerke typischen Latenzen überwunden werden. iWARP spezifiziert eine<br />
Reihe von Standarderweiterungen für TCP/IP, die einen Transportmechanismus für RDMA<br />
definieren. Damit bietet iWARP einen Weg, um RDMA mit geringen Latenzen über Ethernet<br />
zu übertragen (Bild 2):<br />
• Lösung für einen Kernel-Bypass:<br />
Daten werden direkt in den Benutzerspeicher übertragen. Dies vermeidet Kernel-User-<br />
Kontextwechsel, wodurch sowohl die Latenz als auch die Prozessorauslastung reduziert<br />
werden.
• Vermeiden von Kopien des Puffers zwischen Speicherbereichen<br />
Daten werden direkt in die Applikations-Puffer übertragen, anstatt sie mehrfach in die<br />
Stackpuffer der Treiber und des Netzwerks zu kopieren. Dies führt zu einer weiteren<br />
Verringerung der Latenz sowie zur Reduzierung der Speicher- und Prozessorauslastung.<br />
• Beschleunigte TCP/IP-Verarbeitung (Datentransport)<br />
Die TCP/IP-Verarbeitung erfolgt in der Hardware, anstatt dafür die Netzwerk-Stack-Software<br />
des Betriebssystems zu beanspruchen. Dies erlaubt eine zuverlässige<br />
Verbindungsverarbeitung bei hoher Geschwindigkeit und Auslastung.<br />
Bild 2: iWARP verbessert den Durchsatz, indem es den Overhead reduziert, der mit Kernel-User-<br />
Kontextwechseln, Kopien des Puffers zwischen Speicherbereichen und der TCP/IP-Verarbeitung verbunden ist.
Das iWARP-Protokoll wurde für den Datenverkehr innerhalb einer Ethernet-Infrastruktur<br />
entwickelt, daher sind keine Änderungen an den bestehenden Ethernet-Netzwerken oder<br />
-Geräten erforderlich. Die Kompatibilität von iWARP mit Ethernet erlaubt dabei, dass IT-<br />
Organisationen gleichzeitig alle Vorteile der Erweiterungen von Ethernet in Anspruch<br />
nehmen können, darunter etwa Data-Center-Bridging, Switches mit geringer Latenz und IP-<br />
Sicherheit.<br />
Übliche Ethernet-Switches und -Router transportieren den iWARP-Verkehr über existierende<br />
TCP/IP-Protokolle. Da iWARP oberhalb der TCP-Schichten angesiedelt ist, brauchen<br />
Netzwerkgeräte iWARP nicht zu verarbeiten und spezielle Funktionseigenschaften sind nicht<br />
erforderlich. Dies erlaubt die Nutzung von branchenüblichen Managementkonsolen, die mit<br />
existierenden IP-Management-Protokollen arbeiten. Die Open Fabrics Alliance<br />
(www.openfabrics.org) stellt einen Open-Source-RDMA-Software-Stack zur Verfügung, der<br />
für iWARP sowohl gegenüber der Hardware als auch gegenüber Applikationen transparent<br />
ist. Diese Eigenschaften erlauben eine problemlose iWARP-Integration in bestehende<br />
Umgebungen, während gleichzeitig die strengsten Anforderungen hinsichtlich Kosten und<br />
Leistung erfüllt werden.<br />
Performance- und Skalierungs-Ergebnisse<br />
Bei HPL-Benchmark-Tests, den Projektingenieure mit diesem Cluster auf Basis von 4000<br />
Kernen im Labor durchführten, kam eine Leistung vom 35,81 TeraFLOPS bei 84,14 Prozent<br />
Effizienz heraus (Bild 3). Die verwendete HPL-Problemgröße war 1 200 000 und die für die<br />
halbe Leistung erforderliche Problemgröße (N/2-Problemgröße) war 300 000. Wichtig: Die<br />
Leistungsdaten skalieren nahezu linear mit der Anzahl der Kerne.<br />
Aus Ingenieurs-Perspektive hilft die Linearität der Ergebnisse beim Performance-Gewinn<br />
sicherzustellen, dass diese Topologie auch für Rechenaufgaben im sehr großen Stil geeignet<br />
ist. Im Vergleich zu den Systemen in der Top-500-Rangliste vom letzten Juni zeigt dieser<br />
Cluster die höchste Effizienz einer Ethernet-Lösung. Über alle x86-Lösungen insgesamt<br />
kommt der Cluster in Sachen Effizienz immerhin unter die ersten 30 dieser Rangliste.<br />
Nachdem die Datenrate selbst bei dieser Cluster-Größe keinen nennenswerten Einbruch<br />
zeigt, liegt der Schluss nahe, dass sich die Lösung auch weit über die hier gezeigte<br />
Größenordnung hinaus skalieren lässt. Natürlich müsste diese Hypothese erst noch<br />
untersucht werden, um ihre Gültigkeit zu beweisen. Aus kostentechnischer Perspektive<br />
zeigen die Ergebnisse, dass bis zu mindestens 500 Knoten jeder einem Cluster hinzugefügte<br />
Rechenknoten einen angemessenem Mehrwert im Verhältnis zu den Gesamtkosten des<br />
Clusters bietet.<br />
Die genannten Leistungs- und Effizienzwerte müssen unter Berücksichtigung der Tatsache<br />
erwogen werden, dass die gewählte Cluster-Konfiguration die Verbindungen zu den Arista-<br />
7xxx-Switches um den Faktor 2,475:1 überbeansprucht. Die Nutzung von freien Ports in den<br />
Racks für zusätzliche Verbindungen in das Netzwerk würde die Überbeanspruchung<br />
reduzieren. Dies könnte möglicherweise zu noch besseren Performance-Ergebnissen führen<br />
– ein interessanter Punkt, der zu einem späteren Zeitpunkt noch genauer untersucht werden<br />
sollte.
Bild 3: Messungen mit dem HPC-LINPACK-Benchmark ergaben für das Cluster auf Basis von iWARP und 10-<br />
GbE eine Performance von 35,81 TeraFLOPS bei 84,14 Prozent Effizienz.<br />
Fazit<br />
Die in diesem <strong>Whitepaper</strong> beschriebenen Untersuchungsergebnisse mit einem künstlichen<br />
Benchmark-Test deuten auf einen sehr hohen Nutzen dieser Cluster-Topologie für die<br />
künftige Forschung hin. Die Ergebnisse zeigen, dass der Einsatz weit verbreiteter Ethernet-<br />
Technik in Rechenclustern inzwischen überzeugende Leistung, Effizienz und Skalierbarkeit<br />
liefert. Mit Unterstützung von iWARP mit NetEffect 10-GbE-Server-Cluster-Adaptern lässt<br />
sich der RDMA-Verkehr sehr effektiv über die Ethernet-Netzwerkinfrastruktur übertragen. Mit<br />
zunehmender Reife von 10-GbE, wie sie sich beispielsweise in höheren Port-Dichten der<br />
Switches und Technik für weiter sinkende Latenzwerte ausdrückt, erscheinen die Vorzüge<br />
von Ethernet für den Aufbau von Super-Computing-Plattformen sogar noch<br />
vielversprechender.<br />
Weiterführende Quellen<br />
Um mehr über die in diesem <strong>Whitepaper</strong> beschriebene Technik, Produkte und<br />
Implementierungen zu erfahren, empfehlen wir folgende Quellen:<br />
10-GbE-iWARP-fähige NetEffect Ethernet-Server-Cluster-Adapter:<br />
www.intel.com/Products/Server/Adapters/Server-Cluster/Server-Cluster-overview.htm<br />
Arista Switches: www.aristanetworks.com<br />
Arista Vertretung Region DACH www.seicom-muc.de<br />
Dell PowerEdge* R610 Server:
www.dell.com/us/en/business/servers/server-poweredge-r610/pd.aspx?refid=serverpoweredge-r610&cs=04&s=bsd<br />
HPL-Benchmark-Website: www.netlib.org/benchmark/hpl/<br />
Für weitere Informationen zum Thema iWARP empfehlen wir das Papier „Understanding<br />
iWARP: Eliminating Overhead and Latency in multi-Gb Ethernet Networks“, das unter<br />
folgendem Link heruntergeladen werden kann:<br />
http://download.intel.com/support/network/adapter/pro100/sb/understanding_iwarp.pdf<br />
Copyright © 2009 Intel Corporation (http://www.intel.com/). Alle Rechte vorbehalten. Intel, das Intel-Logo und<br />
Xeon sind Marken der Intel Corporation in den USA und anderen Ländern.<br />
Übersetzung vom Englischen ins Deutsche: <strong>SEiCOM</strong> <strong>Communication</strong> <strong>Systems</strong> GmbH (www.seicom-muc.de)