03.03.2013 Aufrufe

Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...

Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...

Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Inhaltsverzeichnis<br />

1 Einleitung 1<br />

2 Parallele Programmierung mit CUDA 5<br />

2.1 Parallele Architekturen . . . . . . . . . . . . . . . . . . . . . . 5<br />

2.2 NVIDIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />

2.3 Parallele Programmierung . . . . . . . . . . . . . . . . . . . . 8<br />

2.3.1 Unterschiede zwischen Host und Device . . . . . . . . . 8<br />

2.3.2 Threads, Blöcke und Grids . . . . . . . . . . . . . . . . 9<br />

2.3.3 Streams . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

2.4 CUDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

2.4.1 Die CPU Komponente der Laufzeitbibliothek . . . . . 12<br />

2.4.2 Erweiterungen der C-Programmiersprache . . . . . . . 13<br />

2.5 Die Architektur von NVIDIA Grafikkarten . . . . . . . . . . . 16<br />

2.5.1 Die Compute Capability . . . . . . . . . . . . . . . . . 17<br />

2.5.2 Die Architektur von Grafikkarten mit einer Compute<br />

Capability von 1.x . . . . . . . . . . . . . . . . . . . . . 17<br />

2.5.3 Die Architektur von Grafikkarten mit einer Compute<br />

Capability von 2.0 . . . . . . . . . . . . . . . . . . . . . 18<br />

2.5.4 Der Grafikkartenspeicher . . . . . . . . . . . . . . . . . 18<br />

2.5.5 Der CPU-Speicher . . . . . . . . . . . . . . . . . . . . 28<br />

2.6 Optimiertes Programmieren mit CUDA . . . . . . . . . . . . . 29<br />

2.6.1 Optimierung des Befehlsdurchsatzes . . . . . . . . . . . 30<br />

2.6.2 Optimierung von Speicherzugriffen . . . . . . . . . . . 33<br />

2.6.3 Optimierung des Datendurchsatzes . . . . . . . . . . . 34<br />

3 Die Umsetzung des M4RI in CUDA 37<br />

3.1 Die “Method of Four Russians“ Inversion . . . . . . . . . . . . 38<br />

3.2 Die Umsetzung von M4RI mit CUDA . . . . . . . . . . . . . . 42<br />

vii

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!