03.03.2013 Aufrufe

Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...

Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...

Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

2.5. DIE ARCHITEKTUR VON NVIDIA GRAFIKKARTEN 17<br />

2.5.1 Die Compute Capability<br />

Die Compute Capability beschreibt die Charakteristik der Hardware und die<br />

unterstützten Befehle. Zudem gibt sie weitere Spezifikationen wie die maximale<br />

Anzahl von Threads pro Block und Register pro Multiprozessor an. Der<br />

erste Teil der Revisionsnummer beschreibt die Architektur während die zweite<br />

Ziffer für eine stufenweise Optimierung der Bauart und das Hinzufügen<br />

von neuen Features steht. Allerdings gibt es auch Hardwarecharakteristika,<br />

die nicht von der Compute Capability abhängen. Ein Beispiel hierfür ist die<br />

Möglichkeit zur zeitgleichen Ausführung eines Kernels mit einem asynchronen<br />

Datentransfer. Solche Eigenschaften können jedoch mit einem entsprechenden<br />

Befehl direkt abgefragt werden.<br />

2.5.2 Die Architektur von Grafikkarten mit einer Compute<br />

Capability von 1.x<br />

Die GPU besteht aus mehreren Multiprozessoren, die sich einen globalen<br />

Speicherbereich teilen. Bei Devices mit einer Compute Capability von 1.x<br />

besteht ein Multiprozessor aus 8 CUDA-Grafikkernen, welche für Integer<br />

und Gleitkommaarithmetik mit einfacher Genauigkeit verwendet werden. Des<br />

Weiteren verfügt die Grafikkarte <strong>über</strong> eine Einheit für Gleitkommaoperationen<br />

mit doppelter Genauigkeit und 2 Spezialeinheiten für Transzendente<br />

Gleitkommafunktionen mit einfacher Genauigkeit. Die letzte Einheit kann<br />

auch für Gleitkommamultiplikationen mit einfacher Genauigkeit verwendet<br />

werden. Des Weiteren besitzt der Multiprozessor einen Warp Scheduler, welcher<br />

die Ausführung der einzelnen Warps plant. Sobald weitere Anweisungen<br />

abgearbeitet werden können, sucht dieser nach einem Warp mit aktiven<br />

Threads welche bereit sind Operationen durchzuführen.<br />

Der Warp Scheduler plant 4 Taktsignale für eine Integer- bzw. Gleitkommaoperation<br />

mit einfacher Genauigkeit, 32 Taktsignale für eine Gleitkommaoperation<br />

mit doppelter Genauigkeit und 16 Taktsignale für eine Transzendente<br />

Gleitkommafunktion mit einfacher Genauigkeit ein. Des Weiteren verfügt<br />

jeder Multiprozessor <strong>über</strong> einen konstanten Read-Only Cache, auf welchen<br />

alle Threads eines Multiprozessors zugreifen können. Multiprozessoren sind<br />

gruppiert in so genannten Textur Processor Clusters, kurz TPCs. Bei einer<br />

Compute Capability von 1.0 und 1.1 sind in jedem Cluster 2, bei 1.2 und<br />

1.3 in jedem 3 enthalten. Jeder TCP hat einen Texturcache, den sich die

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!