Bequemer als Backup Bequemer als Backup - Wuala
Bequemer als Backup Bequemer als Backup - Wuala
Bequemer als Backup Bequemer als Backup - Wuala
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Prüfstand | Prozessoren<br />
Andreas Stiller<br />
Im Sechser-Pack<br />
Intels erster Sechs-Kern-Prozessor<br />
mit Codenamen Dunnington<br />
Gegen Intels Quad-Core konnte AMD noch ins Feld<br />
führen, es handele sich ja nicht um einen nativen Quad-<br />
Core, sondern nur um zwei zusammengeklebte Dual-<br />
Cores. Dieses Argument ist mit dem Dunnington (Xeon<br />
74xx) nun vom Tisch, sind hier doch nicht nur vier, sondern<br />
gleich sechs Kerne nativ auf einem Chip (Die) untergebracht,<br />
samt großem L3-Cache von bis zu 16 MByte.<br />
Mit 503 mm 2 ist der Dunnington-Chip<br />
riesig,<br />
muss er doch die Rekordzahl<br />
von 1,9 Milliarden Transistoren<br />
unterbringen. Bisheriger<br />
Integrationsweltmeister war der<br />
Itanium-Montecito mit 1,72 Milliarden<br />
Transistoren. Bei den<br />
sechs Kernen des Dunnington<br />
handelt es sich um die aktuellen<br />
Penryn-Cores, hergestellt im 45-<br />
nm-Prozess. Jeder Kern hat seine<br />
eigenen L1-Caches, den L2-<br />
Cache von 3 MByte teilen sich<br />
paarweise zwei Kerne. Der zusätzliche<br />
L3-Cache (je nach Ausführung<br />
zwischen 8 und 16<br />
MByte) ist für alle Kerne da.<br />
Trotz seiner Größe hält sich der<br />
Energieverbrauch des Hex-Kerns<br />
mit maximal 130 Watt TDP (Xeon<br />
X7460 mit 2,66 GHz Takt und 16<br />
MByte L3) in Grenzen, schließlich<br />
soll der Dunnington <strong>als</strong> Sockelnachfolger<br />
des Tigerton-Prozessors<br />
(Xeon X7350, Merom-Kern,<br />
maximal 2,93 GHz) in die gleiche<br />
MP-Plattform passen, die bei Intel<br />
den Codenamen Caneland trägt.<br />
Daneben gibt es weitere MP-<br />
Plattformen, insbesondere die<br />
mit eigenem Chipsatz auftrumpfenden<br />
x3850/x3950-Server von<br />
IBM, die über einen proprietären<br />
Anschluss zwei Boards zu einem<br />
8-Sockel-SMP-System verknüpfen<br />
können.<br />
Wenn Server-Software gut mit<br />
der Zahl der Prozessoren skaliert,<br />
bekommt man dank der um 50<br />
Prozent höheren Kernzahl im<br />
Schnitt 30 bis 40 Prozent mehr<br />
Performance. Intel hat sogar hier<br />
und da Performanceverbesserungen<br />
von über 50 Prozent gegenüber<br />
Tigerton-Systemen festgestellt,<br />
dann nämlich, wenn die<br />
Software besonders stark vom<br />
L3-Cache profitiert. Zudem hat<br />
der Penryn-Core verglichen mit<br />
dem Vorgänger Merom ein paar<br />
weitere Goodies, etwa schnellere<br />
Division, beschleunigte Virtualisierung<br />
sowie SSE4. Andererseits<br />
ist der Takt niedriger.<br />
2729 US-Dollar beträgt nach<br />
inoffiziellen Vorabinformationen<br />
der Intel-OEM-Preis des Flaggschiffes<br />
X7350 bei Abnahme von<br />
1000 Stück, rund 3600 US-Dollar<br />
plus Steuern muss man bei Hewlett-Packard<br />
für einen einzelnen<br />
Xeon bezahlen. Die Stromersparnis<br />
bei konstanter Workload liegt<br />
pro Prozessor bei vielleicht 50<br />
Dollar pro Jahr – ein Upgrade allein<br />
aus Energiespargründen<br />
lohnt sich <strong>als</strong>o nicht wirklich.<br />
Aber die zumeist deutlich höhere<br />
Performance bei gleichem<br />
Energieverbrauch wird man zu<br />
schätzen wissen. Wer wirklich<br />
Energie sparen will, der sollte<br />
sich die neuen Low-Voltage-Vertreter<br />
L7455 (6 Kerne) oder<br />
L7445 (4 Kerne) anschauen,<br />
beide mit 12 MByte Cache und<br />
2,13 GHz Takt, die nur 65 respektive<br />
50 Watt TDP verbrauchen.<br />
Wir bekamen von Intel eines<br />
ihrer Building-Blocks namens<br />
Deer Harbor <strong>als</strong> Testsystem (4 U<br />
Rack-Einschub), welches sich<br />
von dem Chassis des Caneland-<br />
Vorgängers mit Tigerton-Prozessoren<br />
äußerlich nicht unterscheidet.<br />
Beide Boards (Fox Cove) verwenden<br />
den Clarksboro-Chipsatz<br />
mit eigenen Ports zu den<br />
vier Prozessoren, vier Speicherkanälen<br />
und großem Snoop-Filter-Cache<br />
für 64 MByte Daten.<br />
Rehe und Füchse<br />
Ausgestattet war das System mit<br />
32 GByte FB-DIMM-Speicher<br />
PC5300F – das klingt nach viel,<br />
reicht aber nicht, um eine<br />
„echte“ SPEC CPU2006-Suite auf<br />
allen 24 Kernen laufen zu lassen,<br />
denn für den 64-Bit-Betrieb benötigt<br />
die Suite mindestens<br />
2 GByte pro Kern. Intel veröffentlicht<br />
für SPECint (wie alle anderen<br />
Hersteller auch) allerdings<br />
immer nur Ergebnisse mit 32-Bit-<br />
Kompilaten, die dann mit<br />
1ˇGByte pro Kern auskommen.<br />
Aber da mag sich jeder selber<br />
denken, welchen Sinn solche<br />
Werte für aktuelle SMP-Systeme<br />
mit 32 oder 64 GByte Speicher<br />
machen. Wir ziehen lieber serverpraxisrelevante<br />
64-Bit-Applikationen<br />
vor – doch mangels<br />
ausreichend Speicher blieb uns<br />
bezüglich SPEC CPU2006 auch<br />
Neuer Chip-Rekord: 1,9 Milliarden Transistoren bringt Intel<br />
beim Dunnington auf über 500 mm 2 Die-Fläche unter.<br />
Bild: Intel<br />
erst mal nichts anderes übrig, <strong>als</strong><br />
uns auf 32 Bit zu beschränken.<br />
SPECint-Rasanz<br />
Mit 197 SPECint_rate_base2006<br />
lag bei uns der unter Windows<br />
Server 2003 (64 Bit, Enterprise<br />
Edition) gemessene Basis-Wert<br />
ein gutes Stückchen unter den<br />
226, die Fujitsu Siemens für ihr<br />
System unter SLES10 angegeben<br />
hat, vielleicht weil unter Windows<br />
2003 der Scheduler mit so<br />
vielen Kernen nicht mehr so gut<br />
klarkommt. Intel hatte auf dem<br />
IDF gar einen Peak-Wert von 277<br />
proklamiert; doch so eine Peak-<br />
Messung ist eine ziemlich wilde<br />
Spielwiese, bei der jeder einzelne<br />
Benchmark mit diversen Spezial-Flags<br />
und sonstigen Spitzfindigkeiten<br />
monatelang getunt<br />
wird.<br />
Um vernünftige, praxisrelevante<br />
64-Bit-Base-Werte zu erhalten,<br />
entnahmen wir den noch<br />
nötigen Speicher der alten Caneland-Plattform.<br />
Das Umstecken<br />
ist recht bequem, die Plattformen<br />
besitzen vier Speicherträger,<br />
ein jeder mit acht FB-DIMM-<br />
Steckplätzen. Somit wären mit 4-<br />
GByte-Riegeln sogar bis zu 128<br />
GByte im Zugriff. Wir spielten<br />
SLES 10SP2 auf, und installierten<br />
zusätzlich eine aktuelle Version<br />
von gcc beziehungsweise binutils,<br />
damit der GNU-Assembler<br />
auch SSSE3- und SSE4-Befehle<br />
unterstützt.<br />
Aus Vergleichsgründen zu früheren<br />
Messungen mit der Tigerton-Plattform<br />
kam die etwas ältere<br />
Intel-Compiler-Version 10.0.23<br />
zum Einsatz, mit der aktuellen<br />
Fassung 10.1.18 sind noch ein,<br />
zwei Prozent mehr Performance<br />
drin. Mit 177 liegt der 64-bittige<br />
SPECint_rate_base2006-Wert unter<br />
Linux etwa 10 Prozent hinter<br />
dem 32-Bit-Windows-Wert zurück,<br />
aber immerhin um 37 Prozent<br />
über dem Ergebnis des Vorgängers<br />
Tigerton.<br />
Konkurrent Opteron 8360<br />
kommt nach Messungen von<br />
Dell im PowerEdge 905 – mit 32-<br />
Bit-Kompilaten für C++-Applikationen<br />
sowie zusätzlicher Smart-<br />
Heap-Bibliothek – auf 167, liegt<br />
<strong>als</strong>o 15 Prozent unter unserem<br />
und 25 Prozent unter dem<br />
Fujitsu-Siemens-Wert für 32-Bit-<br />
Kompilate. Opteron-Nachfolger<br />
Shanghai dürfte mit der versprochenen<br />
höheren Performance<br />
gegen Jahresende dann aber<br />
wieder in etwa auf Augenhöhe<br />
zum Dunnington liegen.<br />
160 c’t 2008, Heft 20<br />
©<br />
Copyright by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags.