Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...

Weitere Magazine

Empfehlungen

Info

Inhaltsverzeichnis 1 Einleitung 1 2 Parallele Programmierung mit CUDA 5 2.1 Parallele Architekturen . . . . . . . . . . . . . . . . . . . . . . 5 2.2 NVIDIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3 Parallele Programmierung . . . . . . . . . . . . . . . . . . . . 8 2.3.1 Unterschiede zwischen Host und Device . . . . . . . . . 8 2.3.2 Threads, Blöcke und Grids . . . . . . . . . . . . . . . . 9 2.3.3 Streams . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.4 CUDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.4.1 Die CPU Komponente der Laufzeitbibliothek . . . . . 12 2.4.2 Erweiterungen der C-Programmiersprache . . . . . . . 13 2.5 Die Architektur von NVIDIA Grafikkarten . . . . . . . . . . . 16 2.5.1 Die Compute Capability . . . . . . . . . . . . . . . . . 17 2.5.2 Die Architektur von Grafikkarten mit einer Compute Capability von 1.x . . . . . . . . . . . . . . . . . . . . . 17 2.5.3 Die Architektur von Grafikkarten mit einer Compute Capability von 2.0 . . . . . . . . . . . . . . . . . . . . . 18 2.5.4 Der Grafikkartenspeicher . . . . . . . . . . . . . . . . . 18 2.5.5 Der CPU-Speicher . . . . . . . . . . . . . . . . . . . . 28 2.6 Optimiertes Programmieren mit CUDA . . . . . . . . . . . . . 29 2.6.1 Optimierung des Befehlsdurchsatzes . . . . . . . . . . . 30 2.6.2 Optimierung von Speicherzugriffen . . . . . . . . . . . 33 2.6.3 Optimierung des Datendurchsatzes . . . . . . . . . . . 34 3 Die Umsetzung des M4RI in CUDA 37 3.1 Die “Method of Four Russians“ Inversion . . . . . . . . . . . . 38 3.2 Die Umsetzung von M4RI mit CUDA . . . . . . . . . . . . . . 42 vii
Seite 1: Diplomarbeit Effizientes Lösen lin
Seite 5: Danksagung In den letzten Monaten,
Seite 9 und 10: Kapitel 1 Einleitung Das Lösen von
Seite 11 und 12: Da für die Verwendung von Grafikka
Seite 13 und 14: Kapitel 2 Parallele Programmierung
Seite 15 und 16: 2.2. NVIDIA 7 Seit ca. 2000 werden
Seite 17 und 18: 2.3. PARALLELE PROGRAMMIERUNG 9 Bei
Seite 19 und 20: 2.4. CUDA 11 abhängt, kann es soga
Seite 21 und 22: 2.4. CUDA 13 einem C-Style Interfac
Seite 23 und 24: 2.4. CUDA 15 realisieren, da eine Z
Seite 25 und 26: 2.5. DIE ARCHITEKTUR VON NVIDIA GRA
Seite 37 und 38: 2.6. OPTIMIERTES PROGRAMMIEREN MIT
Seite 45 und 46: Kapitel 3 Die Umsetzung des M4RI in
Seite 47 und 48: 3.1. DIE “METHOD OF FOUR RUSSIANS
Seite 49 und 50: 3.1. DIE “METHOD OF FOUR RUSSIANS
Seite 51 und 52: 3.2. DIE UMSETZUNG VON M4RI MIT CUD
Seite 57 und 58:
3.2. DIE UMSETZUNG VON M4RI MIT CUD
Seite 59 und 60:
Seite 61 und 62:
Seite 63 und 64:
Seite 65 und 66:
Seite 67 und 68:
Seite 69 und 70:
Seite 71 und 72:
Seite 73 und 74:
Seite 75 und 76:
3.3. MULTIPLE GPUS 67 3.3 Multiple
Seite 77 und 78:
3.3. MULTIPLE GPUS 69 Abbildung 3.1
Seite 79 und 80:
3.3. MULTIPLE GPUS 71 für Linux. S
Seite 81 und 82:
Kapitel 4 Fazit und Ausblick Diese
Seite 83 und 84:
Da das Programm mit CUDA geschriebe
Seite 85 und 86:
Anhang A Programmcode 77
Seite 87 und 88:
Users/ddemirel/M4R1/FourRussians20.
Seite 89 und 90:
Users/ddemirel/M4R1/FourRussians20.
Seite 91 und 92:
Users/ddemirel/M4R1/FourRussians20_
Seite 93 und 94:
}*/ } } //printf("\n"); count = 0;
Seite 95 und 96:
Anhang B Technische Spezifikationen
Seite 97 und 98:
Literaturverzeichnis [1] Bard G.V.,
Alle anzeigen

Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?