Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...
Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...
Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
2.5. DIE ARCHITEKTUR VON NVIDIA GRAFIKKARTEN 17<br />
2.5.1 Die Compute Capability<br />
Die Compute Capability beschreibt die Charakteristik der Hardware und die<br />
unterstützten Befehle. Zudem gibt sie weitere Spezifikationen wie die maximale<br />
Anzahl von Threads pro Block und Register pro Multiprozessor an. Der<br />
erste Teil der Revisionsnummer beschreibt die Architektur während die zweite<br />
Ziffer für eine stufenweise Optimierung der Bauart und das Hinzufügen<br />
von neuen Features steht. Allerdings gibt es auch Hardwarecharakteristika,<br />
die nicht von der Compute Capability abhängen. Ein Beispiel hierfür ist die<br />
Möglichkeit zur zeitgleichen Ausführung eines Kernels mit einem asynchronen<br />
Datentransfer. Solche Eigenschaften können jedoch mit einem entsprechenden<br />
Befehl direkt abgefragt werden.<br />
2.5.2 Die Architektur von Grafikkarten mit einer Compute<br />
Capability von 1.x<br />
Die GPU besteht aus mehreren Multiprozessoren, die sich einen globalen<br />
Speicherbereich teilen. Bei Devices mit einer Compute Capability von 1.x<br />
besteht ein Multiprozessor aus 8 CUDA-Grafikkernen, welche für Integer<br />
und Gleitkommaarithmetik mit einfacher Genauigkeit verwendet werden. Des<br />
Weiteren verfügt die Grafikkarte <strong>über</strong> eine Einheit für Gleitkommaoperationen<br />
mit doppelter Genauigkeit und 2 Spezialeinheiten für Transzendente<br />
Gleitkommafunktionen mit einfacher Genauigkeit. Die letzte Einheit kann<br />
auch für Gleitkommamultiplikationen mit einfacher Genauigkeit verwendet<br />
werden. Des Weiteren besitzt der Multiprozessor einen Warp Scheduler, welcher<br />
die Ausführung der einzelnen Warps plant. Sobald weitere Anweisungen<br />
abgearbeitet werden können, sucht dieser nach einem Warp mit aktiven<br />
Threads welche bereit sind Operationen durchzuführen.<br />
Der Warp Scheduler plant 4 Taktsignale für eine Integer- bzw. Gleitkommaoperation<br />
mit einfacher Genauigkeit, 32 Taktsignale für eine Gleitkommaoperation<br />
mit doppelter Genauigkeit und 16 Taktsignale für eine Transzendente<br />
Gleitkommafunktion mit einfacher Genauigkeit ein. Des Weiteren verfügt<br />
jeder Multiprozessor <strong>über</strong> einen konstanten Read-Only Cache, auf welchen<br />
alle Threads eines Multiprozessors zugreifen können. Multiprozessoren sind<br />
gruppiert in so genannten Textur Processor Clusters, kurz TPCs. Bei einer<br />
Compute Capability von 1.0 und 1.1 sind in jedem Cluster 2, bei 1.2 und<br />
1.3 in jedem 3 enthalten. Jeder TCP hat einen Texturcache, den sich die