Download Whitepaper (.PDF) - SEiCOM Communication Systems ...

WHITE PAPER 

Internet Wide Area Protocol (iWARP) 

NetEffect 10 10-Gigabit Ethernet 

Server-Cluster-Adapter 

Technisches und High-Performance-Computing 

März 2010 deutsche Version aus 1,0 

Tom Stachura, Intel LAN Access Division 

Brian Yoshinaka, Intel LAN Access Division 

Ein High-Performance-Cluster in der biomedizinischen Forschung 

stützt sich auf 10-Gigabit-Ethernet (10-GbE) mit iWARP 

Ein großes Forschungsinstitut erzielte in einem Cluster mit 4032 Kernen eine 

Leistung von nahezu 36 TeraFLOPS bei einer Effizienz von über 84 Prozent 

(HPL-Benchmark). Möglich wurde dies durch die Nutzung von iWARP und 10- 

GbE, womit der typische Overhead durch Kernel-Benutzer-Kontextwechsel, 

mehrfache Kopien des Puffers zwischen Speicherbereichen und durch die 

TCP/IP-Verarbeitung reduziert werden konnte. 

Kurzzusammenfassung 

iWARP (Internet Wide Area RDMA Protocol) erlaubt den Aufbau von Netzwerken mit 

geringer Latenz, die sich für High-Performance-Cluster eignen. Das Entscheidende: Alles 

geschieht mit standardbasierter, überall verbreiteter Ethernet-Technik. Ein Schlüsselvorteil 

der Vernetzung mit iWARP ist ihre Kompatibilität mit bestehenden Netzwerkinfrastrukturen, 

Managementlösungen und Anwendungen.

Dieses Papier zeigt, wie Cluster-Computing auf iWARP-Basis eingesetzt werden kann, um 

mithilfe von 10-GbE sehr hohe Leistung zu erzielen. Es beginnt mit der Beschreibung der 

Architektur eines Clusters auf iWARP-Basis, bevor die iWARP-Technik als solche kurz 

erläutert wird. Das Papier schließt mit einem Bericht über die Performance, die mit einem 

solchen Cluster erreicht wurde, sowie Beobachtungen zum Nutzen, den iWARP künftig auf 

diesem Gebiet erbringen kann. 

Eine Großforschungseinrichtung erzielte mit iWARP und NetEffect 10-GbE-Server-Cluster- 

Adaptern in einem Cluster mit 4032 Kernen exzellente Leistung und nahezu lineare 

Skalierbarkeit. Dies ergab eine Messung mit dem HPC-LINPACK-Benchmark. Ergebnis ist 

ein im Vergleich sehr kostengünstiger Ansatz für die Verarbeitung sehr großer Mengen 

technischer Daten: die Netzwerk-Hardware besteht ausschließlich aus marktüblichen 

Komponenten. 

Architektur eines iWARP-Clusters für die medizinische Forschung 

Um größere Workloads in bestimmten, für ihre Forschung kritischen Bereichen, wie 

Bioinformatik, Bildanalyse und Sequenzierung, zu unterstützen, baute eine 

Forschungseinrichtung ein ausgedehntes Cluster (4032 Kerne) auf iWARP-Basis auf. Bei 

den Rechnern fiel die Wahl auf Zweiprozessorserver des Typs Dell PowerEdge R610 mit 

Intel® Xeon® x5550-Prozessoren und 2,66 GHz Taktfrequenz. Die Server sind jeweils mit 

24 GB RAM und einem einzelnen 80-GB-SATA-Festplattenlaufwerk ausgestattet. Für die 

RDMA-Verbindung (Remote Direct Memory Access) nutzt der Aufbau NetEffect 10-GbE- 

Server-Cluster-Adapter. 

Bild 1: Der Cluster besteht aus 504 Servern mit je zwei Quadcore-Prozessoren, je Rack mit zwei Rack-Level- 

Switches verbunden, die ihrerseits einen Uplink ins zentrale Netzwerk besitzen.

Der Cluster wird für eine Reihe von Aufgaben genutzt, darunter Bildanalyse, verschiedene 

Bioinformatik-Software und -Werkzeuge, CFD-Modelling, Software für rechnerische Chemie 

und viele Softwarepakete, die aus Open-Source-Quellen, kommerziellem Erwerb und 

Eigenentwicklung stammen. Der Cluster wurde so konzipiert, dass er einerseits für alle 

aktuell benötigten wissenschaftlichen Berechnungen geeignet ist und andererseits eine 

Plattform bildet, die andere Arten von Aufgaben, die im Laufe seines Lebenszyklus auf ihn 

zukommen könnten, bewältigen kann. 

Die in Abbildung 1 gezeigte Cluster-Topologie besteht aus 14 Server-Racks mit 36 Servern 

pro Rack, insgesamt also 504 Servern. Auf Rack-Ebene hat jeder Server zwei Verbindungen 

zu einem der zwei 1-HE-Switches Arista 7148SX mit je 48 Ports: eine 10-GbE-Verbindung 

(über direkt angeschlossenes Twinax-Kabel) für den RDMA-Verkehr und eine 1-GbE- 

Verbindung für den gesamten anderen Datenverkehr. Jeder Arista-7148SX-Switch hat acht 

10-GbE-Uplinks (16 pro Rack) zu einer Gruppe von Arista-7xxx-Switches. 

Als Software läuft auf dem Cluster Red Hat Enterprise Linux* 5.3, OFED (OpenFabrics 

Enterprise Distribution) 1.4.1 und Intel® MPI (Message Passing Interface) 3.2.1. 

Einsatz von iWARP zur Reduzierung des Overheads und der Latenz in Multi-Gigabit- 

Netzwerken 

Seine weite Verbreitung macht Ethernet extrem kostengünstig für den allgemeinen LAN- 

Datenverkehr. Es liegt nahe, diesen Vorteil auch für andere Einsatzbereiche zu nutzen – 

etwa als Basistechnik für leistungsstarke Rechencluster. Für diesen Zweck galt es jedoch 

zunächst, einige Probleme zu bewältigen. Als Erstes musste die 

Verbindungsgeschwindigkeit auf ein hinreichend hohes Niveau gebracht werden, was mit der 

weithin verfügbaren 10-GbE-Netzwerktechnik erreicht wurde. 

Um die Vorteile der 10-GbE-Übertragungsrate voll ausschöpfen zu können, mussten jedoch 

die für Ethernet-Netzwerke typischen Latenzen überwunden werden. iWARP spezifiziert eine 

Reihe von Standarderweiterungen für TCP/IP, die einen Transportmechanismus für RDMA 

definieren. Damit bietet iWARP einen Weg, um RDMA mit geringen Latenzen über Ethernet 

zu übertragen (Bild 2): 

• Lösung für einen Kernel-Bypass: 

Daten werden direkt in den Benutzerspeicher übertragen. Dies vermeidet Kernel-User- 

Kontextwechsel, wodurch sowohl die Latenz als auch die Prozessorauslastung reduziert 

werden.

• Vermeiden von Kopien des Puffers zwischen Speicherbereichen 

Daten werden direkt in die Applikations-Puffer übertragen, anstatt sie mehrfach in die 

Stackpuffer der Treiber und des Netzwerks zu kopieren. Dies führt zu einer weiteren 

Verringerung der Latenz sowie zur Reduzierung der Speicher- und Prozessorauslastung. 

• Beschleunigte TCP/IP-Verarbeitung (Datentransport) 

Die TCP/IP-Verarbeitung erfolgt in der Hardware, anstatt dafür die Netzwerk-Stack-Software 

des Betriebssystems zu beanspruchen. Dies erlaubt eine zuverlässige 

Verbindungsverarbeitung bei hoher Geschwindigkeit und Auslastung. 

Bild 2: iWARP verbessert den Durchsatz, indem es den Overhead reduziert, der mit Kernel-User- 

Kontextwechseln, Kopien des Puffers zwischen Speicherbereichen und der TCP/IP-Verarbeitung verbunden ist.

Das iWARP-Protokoll wurde für den Datenverkehr innerhalb einer Ethernet-Infrastruktur 

entwickelt, daher sind keine Änderungen an den bestehenden Ethernet-Netzwerken oder 

-Geräten erforderlich. Die Kompatibilität von iWARP mit Ethernet erlaubt dabei, dass IT- 

Organisationen gleichzeitig alle Vorteile der Erweiterungen von Ethernet in Anspruch 

nehmen können, darunter etwa Data-Center-Bridging, Switches mit geringer Latenz und IP- 

Sicherheit. 

Übliche Ethernet-Switches und -Router transportieren den iWARP-Verkehr über existierende 

TCP/IP-Protokolle. Da iWARP oberhalb der TCP-Schichten angesiedelt ist, brauchen 

Netzwerkgeräte iWARP nicht zu verarbeiten und spezielle Funktionseigenschaften sind nicht 

erforderlich. Dies erlaubt die Nutzung von branchenüblichen Managementkonsolen, die mit 

existierenden IP-Management-Protokollen arbeiten. Die Open Fabrics Alliance 

(www.openfabrics.org) stellt einen Open-Source-RDMA-Software-Stack zur Verfügung, der 

für iWARP sowohl gegenüber der Hardware als auch gegenüber Applikationen transparent 

ist. Diese Eigenschaften erlauben eine problemlose iWARP-Integration in bestehende 

Umgebungen, während gleichzeitig die strengsten Anforderungen hinsichtlich Kosten und 

Leistung erfüllt werden. 

Performance- und Skalierungs-Ergebnisse 

Bei HPL-Benchmark-Tests, den Projektingenieure mit diesem Cluster auf Basis von 4000 

Kernen im Labor durchführten, kam eine Leistung vom 35,81 TeraFLOPS bei 84,14 Prozent 

Effizienz heraus (Bild 3). Die verwendete HPL-Problemgröße war 1 200 000 und die für die 

halbe Leistung erforderliche Problemgröße (N/2-Problemgröße) war 300 000. Wichtig: Die 

Leistungsdaten skalieren nahezu linear mit der Anzahl der Kerne. 

Aus Ingenieurs-Perspektive hilft die Linearität der Ergebnisse beim Performance-Gewinn 

sicherzustellen, dass diese Topologie auch für Rechenaufgaben im sehr großen Stil geeignet 

ist. Im Vergleich zu den Systemen in der Top-500-Rangliste vom letzten Juni zeigt dieser 

Cluster die höchste Effizienz einer Ethernet-Lösung. Über alle x86-Lösungen insgesamt 

kommt der Cluster in Sachen Effizienz immerhin unter die ersten 30 dieser Rangliste. 

Nachdem die Datenrate selbst bei dieser Cluster-Größe keinen nennenswerten Einbruch 

zeigt, liegt der Schluss nahe, dass sich die Lösung auch weit über die hier gezeigte 

Größenordnung hinaus skalieren lässt. Natürlich müsste diese Hypothese erst noch 

untersucht werden, um ihre Gültigkeit zu beweisen. Aus kostentechnischer Perspektive 

zeigen die Ergebnisse, dass bis zu mindestens 500 Knoten jeder einem Cluster hinzugefügte 

Rechenknoten einen angemessenem Mehrwert im Verhältnis zu den Gesamtkosten des 

Clusters bietet. 

Die genannten Leistungs- und Effizienzwerte müssen unter Berücksichtigung der Tatsache 

erwogen werden, dass die gewählte Cluster-Konfiguration die Verbindungen zu den Arista- 

7xxx-Switches um den Faktor 2,475:1 überbeansprucht. Die Nutzung von freien Ports in den 

Racks für zusätzliche Verbindungen in das Netzwerk würde die Überbeanspruchung 

reduzieren. Dies könnte möglicherweise zu noch besseren Performance-Ergebnissen führen 

– ein interessanter Punkt, der zu einem späteren Zeitpunkt noch genauer untersucht werden 

sollte.

Bild 3: Messungen mit dem HPC-LINPACK-Benchmark ergaben für das Cluster auf Basis von iWARP und 10- 

GbE eine Performance von 35,81 TeraFLOPS bei 84,14 Prozent Effizienz. 

Fazit 

Die in diesem Whitepaper beschriebenen Untersuchungsergebnisse mit einem künstlichen 

Benchmark-Test deuten auf einen sehr hohen Nutzen dieser Cluster-Topologie für die 

künftige Forschung hin. Die Ergebnisse zeigen, dass der Einsatz weit verbreiteter Ethernet- 

Technik in Rechenclustern inzwischen überzeugende Leistung, Effizienz und Skalierbarkeit 

liefert. Mit Unterstützung von iWARP mit NetEffect 10-GbE-Server-Cluster-Adaptern lässt 

sich der RDMA-Verkehr sehr effektiv über die Ethernet-Netzwerkinfrastruktur übertragen. Mit 

zunehmender Reife von 10-GbE, wie sie sich beispielsweise in höheren Port-Dichten der 

Switches und Technik für weiter sinkende Latenzwerte ausdrückt, erscheinen die Vorzüge 

von Ethernet für den Aufbau von Super-Computing-Plattformen sogar noch 

vielversprechender. 

Weiterführende Quellen 

Um mehr über die in diesem Whitepaper beschriebene Technik, Produkte und 

Implementierungen zu erfahren, empfehlen wir folgende Quellen: 

10-GbE-iWARP-fähige NetEffect Ethernet-Server-Cluster-Adapter: 

www.intel.com/Products/Server/Adapters/Server-Cluster/Server-Cluster-overview.htm 

Arista Switches: www.aristanetworks.com 

Arista Vertretung Region DACH www.seicom-muc.de 

Dell PowerEdge* R610 Server:

www.dell.com/us/en/business/servers/server-poweredge-r610/pd.aspx?refid=serverpoweredge-r610&cs=04&s=bsd 

HPL-Benchmark-Website: www.netlib.org/benchmark/hpl/ 

Für weitere Informationen zum Thema iWARP empfehlen wir das Papier „Understanding 

iWARP: Eliminating Overhead and Latency in multi-Gb Ethernet Networks“, das unter 

folgendem Link heruntergeladen werden kann: 

http://download.intel.com/support/network/adapter/pro100/sb/understanding_iwarp.pdf 

Copyright © 2009 Intel Corporation (http://www.intel.com/). Alle Rechte vorbehalten. Intel, das Intel-Logo und 

Xeon sind Marken der Intel Corporation in den USA und anderen Ländern. 

Übersetzung vom Englischen ins Deutsche: SEiCOM Communication Systems GmbH (www.seicom-muc.de)

Download Whitepaper (.PDF) - SEiCOM Communication Systems ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?