Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...

Weitere Magazine

Empfehlungen

Info

20 KAPITEL 2. PARALLELE PROGRAMMIERUNG MIT CUDA Tabelle 2.1: Attribute der verwendeten Speicher. Speicher Lebensdauer Zugriff Anwendungsbereich Globaler Speicher Wird vom Host belegt und freigegeben Lokaler Speicher Lebensdauer des zugehörigen Threads Texturspeicher Wird vom Host belegt und freigegeben Konstanter Speicher Wird vom Host belegt und freigegeben Gemeinsamer Speicher Lebensdauer des zugehörigen Blocks Register Lebensdauer des zugehörigen Threads R/W Alle Threads und Host R/W Zugehöriger Thread R Alle Threads und Host R Alle Threads und Host R/W Alle Threads und Host R/W Zugehöriger Thread Speicher Lage Gecached Größe Globaler Speicher Off-Chip Nein bis zu 2048 * Lokaler Speicher Off-Chip Nein 16 KB - 512 KB pro Thread ** Texturspeicher Off-Chip, Cache ist Ja Cache 6 KB - 8 KB On-Chip pro MP * Konstanter Speicher Off-Chip, Cache ist Ja 64 KB, 8 KB Cache On-Chip pro MP Gemeinsamer Speicher On-Chip Nein 16 KB - 48 KB pro MP ** Register On-Chip Nein 8 K - 32 K ** *Hängt von der Compute Capability ab. **Deviceabhängig
2.5. DIE ARCHITEKTUR VON NVIDIA GRAFIKKARTEN 21 Der Globale Speicher Der globale Speicher ist bis zu 2048 MiB groß und neben dem Konstantenund Texturspeicher der einzige, welcher von allen Threads und dem Host adressiert werden kann. Ein Bereich im globalen Speicher kann entweder als CUDA Array oder <strong>linearer</strong> Speicherbereich belegt werden. CUDA Arrays sind optimiert für die Verwendung von Texturen, haben aber den Nachteil, dass nur die CPU die Möglichkeit hat diesen zu beschreiben. Der lineare Speicher hingegen kann auch von der GPU zur Datensicherung benutzt werden. Bei Devices mit einer Compute Capability von 1.x wird ein 32 Bit Adressraum verwendet während die neueren mit einem 40 Bit Raum arbeiten. Im Normalfall werden alle Daten, bei denen es sich nicht um Konstanten handelt, zuerst in den globalen Speicher <strong>über</strong>tragen. Später ist es möglich bestimmte Bereiche als Texturen zu definieren. Wenn ein Warp den globalen Speicher ansteuert, wird dies in so wenigen Transaktionen wie möglich zusammengefasst. Für Devices mit einer Compute Capability von 1.x werden mindestens zwei Zugriffe, je einer pro halben Warp, benötigt. Bei Grafikkarten mit einer Compute Capability von 2.0 wird der Warp nicht unterteilt und somit im besten Fall nur eine Transaktion durchgeführt. Pro Zugriff auf den globalen Speicher ist es möglich ein komplettes Segment der Größe 32, 64 oder 128 Byte auszulesen bzw. zu beschreiben. Dabei werden alle Threads eines Warps bei einer Compute Capability von 2.0 und alle eines halben bei einer Compute Capability von 1.x bedient, deren angesteuerte Adressen sich innerhalb dieses Abschnitts befinden. Die erste Adresse des Segments ist immer ein Vielfaches seiner Größe. Der Anfang des Abschnitts wird also nicht durch die Position des ersten Wortes, sondern durch die Einteilung des Adressraumes bestimmt. Wie viele Aufrufe nötig sind, um den ganzen Warp abzuarbeiten, hängt von der Wortgröße pro Thread und deren Verteilung im globalen Speicher ab. Nicht zusammengefasste Zugriffe reduzieren durch die Anzahl der zusätzlichen Transaktionen und dem Auslesen von nicht benötigten Daten den Befehlsdurchsatz. Aufgrund dieser möglichen Performanzreduzierung ist das Organisieren der Speicherzugriffe ein sehr wichtiger Aspekt der Optimierung. Für Devices mit einer Compute Capability von 1.2 und 1.3 sind die Bedingungen zwar weniger streng dennoch ist die Differenz in der Bandbreite gerade bei einer großen Anzahl von Daten deutlich spürbar.
Seite 1: Diplomarbeit Effizientes Lösen lin
Seite 5: Danksagung In den letzten Monaten,
Seite 8 und 9: viii INHALTSVERZEICHNIS 3.2.1 Besch
Seite 10 und 11: 2 KAPITEL 1. EINLEITUNG Grafikkarte
Seite 12 und 13: 4 KAPITEL 1. EINLEITUNG kommen kann
Seite 14 und 15: 6 KAPITEL 2. PARALLELE PROGRAMMIERU
Seite 16 und 17: 8 KAPITEL 2. PARALLELE PROGRAMMIERU
Seite 18 und 19: 10 KAPITEL 2. PARALLELE PROGRAMMIER
Seite 46 und 47: 38 KAPITEL 3. DIE UMSETZUNG DES M4R
Seite 78 und 79:
70 KAPITEL 3. DIE UMSETZUNG DES M4R
Seite 80 und 81:
72 KAPITEL 3. DIE UMSETZUNG DES M4R
Seite 82 und 83:
74 KAPITEL 4. FAZIT UND AUSBLICK un
Seite 84 und 85:
76 KAPITEL 4. FAZIT UND AUSBLICK
Seite 86 und 87:
78 ANHANG A. PROGRAMMCODE #ifndef _
Seite 88 und 89:
80 ANHANG A. PROGRAMMCODE } /Users/
Seite 90 und 91:
82 ANHANG A. PROGRAMMCODE } } } /Us
Seite 92 und 93:
84 ANHANG A. PROGRAMMCODE } /Users/
Seite 94 und 95:
86 ANHANG A. PROGRAMMCODE
Seite 96 und 97:
88 ANHANG B. TECHNISCHE SPEZIFIKATI
Seite 98:
90 LITERATURVERZEICHNIS [11] N VIDI
Alle anzeigen

Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?