Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...

Weitere Magazine

Empfehlungen

Info

24 KAPITEL 2. PARALLELE PROGRAMMIERUNG MIT CUDA Abbildung 2.4: Mögliche Zugriffsszenarien eines Warps auf den globalen Speicher und die daraus resultierenden Speicherzugriffe basierend auf der Compute Capability [5].
2.5. DIE ARCHITEKTUR VON NVIDIA GRAFIKKARTEN 25 Der Lokale Speicher Der lokale Speicher wird nicht von dem Anwender, sondern von dem Kernel selber belegt. Dies geschieht wenn er beschließt, dass die zur Verfügung stehenden Register für die Variablen des Threads nicht ausreichend sind. Ursache dafür kann beispielsweise ein zu großer Datentyp sein. Da sich der lokale wie auch der globale Speicher nicht auf dem Chip befindet, haben sie die selben Verzögerungszeiten. Seinen Namen hat dieser Adressraum nicht durch seine Lage, sondern durch die Tatsache, dass er lokal zu einem Thread gehört. Der lokale Speicher ist in 32 Bit Worten organisiert und seine Zugriffe können anders als bei dem globalen Speicher nur dann zusammengefasst werden, wenn die Threads auf die selben Daten zugreifen. Der Gemeinsame Speicher Bei dem gemeinsamen Speicher handelt es sich um einen Cache für alle Threads eines Blocks, welcher durch den Anwender organisiert wird. Somit ermöglicht er Kommunikation und einen gemeinsamen Zugriff auf Daten. Dieser Shared Memory hat eine geringe Verzögerungszeit, da er sich in der Nähe des Prozessorkerns befindet. Seine Lebensdauer beginnt und endet mit der des Blocks. Um eine möglichst hohe Bandbreite zu erzielen ist der Speicher in einzelne Module, so genannte Bänke, unterteilt auf die zeitgleich zugegriffen werden kann. Daher sollte versucht werden den Speicher so zu adressieren, dass es zu keinem Konflikt kommt. Dies geschieht beispielsweise wenn verschiedene Threads mit unterschiedlichen Wörtern in der selben Bank arbeiten. In diesem Fall wird der Aufruf in so viele konfliktfreie Transaktionen unterteilt, wie nötig. Daher empfiehlt es sich eine Wortgröße von mindestens 32 Bit zu wählen, da CUDA aufeinander folgende Daten mit einer Länge von 16 und 8 Bit jeweils zu zweit bzw. zu viert in dem selben Modul speichert. Der gemeinsame Speicher eignet sich nur dann, wenn die dort abgelegten Variablen mehr als einmal verwendet werden, da seine Lebensdauer erst mit der des Blocks beginnt und die Daten vorher aus dem globalen Speicher geladen werden müssen. Neben der Möglichkeit redundante Zugriffe auf einen langsamen Speicher zu vermeiden kann er auch verwendet werden um nicht zusammenfassbare Transaktionen zu verhindern. Dazu müssen im ersten Schritt, den Rahmenbedingungen entsprechend, die Daten sequentiell aus dem globalen Speicher in den gemeinsamen Speicher <strong>über</strong>tragen werden. Anschließend
Seite 1: Diplomarbeit Effizientes Lösen lin
Seite 5: Danksagung In den letzten Monaten,
Seite 8 und 9: viii INHALTSVERZEICHNIS 3.2.1 Besch
Seite 10 und 11: 2 KAPITEL 1. EINLEITUNG Grafikkarte
Seite 12 und 13: 4 KAPITEL 1. EINLEITUNG kommen kann
Seite 14 und 15: 6 KAPITEL 2. PARALLELE PROGRAMMIERU
Seite 16 und 17: 8 KAPITEL 2. PARALLELE PROGRAMMIERU
Seite 18 und 19: 10 KAPITEL 2. PARALLELE PROGRAMMIER
Seite 46 und 47: 38 KAPITEL 3. DIE UMSETZUNG DES M4R
Seite 82 und 83:
74 KAPITEL 4. FAZIT UND AUSBLICK un
Seite 84 und 85:
76 KAPITEL 4. FAZIT UND AUSBLICK
Seite 86 und 87:
78 ANHANG A. PROGRAMMCODE #ifndef _
Seite 88 und 89:
80 ANHANG A. PROGRAMMCODE } /Users/
Seite 90 und 91:
82 ANHANG A. PROGRAMMCODE } } } /Us
Seite 92 und 93:
84 ANHANG A. PROGRAMMCODE } /Users/
Seite 94 und 95:
86 ANHANG A. PROGRAMMCODE
Seite 96 und 97:
88 ANHANG B. TECHNISCHE SPEZIFIKATI
Seite 98:
90 LITERATURVERZEICHNIS [11] N VIDI
Alle anzeigen

Effizientes Lösen linearer Gleichungssysteme über GF(2) - CDC ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?