PC Games Hardware Magazin Ebay-Schnäppchen (Vorschau)

grafikkarten | Accelerated Computing @ Home 

(Quelle: http://www.cs.virginia.edu/kim/docs/ispass11.pdf) 

nigung durch massiv-parallele Prozessoren. 

Denn bei Weitem nicht 

alle Algorithmen lassen sich mir 

nichts, dir nichts auf größere Mengen 

an Rechenwerken verteilen. 

Bei Grafikberechnungen gibt es 

mehr als ausreichend Parallelität, 

wie bereits angesprochen, und zudem 

müssen die berechneten Pixel 

nicht mehr von der Grafikkarte zur 

CPU zurückgeschickt werden. Im 

Bereich allgemeinerer Funkionen 

gestaltet sich das schwieriger, und 

selbst wenn diese Verteilung durch 

trickreiche Rechenschritte möglich 

ist, muss sie sich immer noch 

rentieren. Denn zwischen CPU und 

GPU müssen die Daten hin und her 

Geeignet für GPU-Beschleunigung? 

re bei sehr schnellen GPUs einen 

großen Teil der Gesamtlaufzeit 

ausmacht. Je kleiner der Datensatz, 

desto krasser wird dieses Missverhältnis, 

sodass in einer relativen 

Balkendarstellung die eigentliche 

Berechnungszeit kaum noch zu 

erkennen ist. Im Extremfall SAXPY 

lag das Verhältnis von Gesamt zur 

Kernellaufzeit bei 43:1 im Durchschnitt 

über alle Messgrößen. 

Solche Probleme erklären oftmals 

auch die Ergebnisse, die wir immer 

wieder in sogenannten Showcase- 

Benchmarks ermitteln. Bei Nutzung 

zusätzlicher Recheneinheiten 

via Open CL oder auch Cuda findet 

Wir haben hier unterschiedliche Kernel- und Transferzeiten dargestellt. Je nachdem an welcher Stelle eine Beschleunigung 

stattfindet, lässt sich durchaus eine Menge Arbeitszeit einsparen (Fall IV). 

I 

II 

Host 

Host 

geschickt werden, manchmal sogar 

mehrfach für eine Berechnung. 

Das kostet jedes mal Zeit, sodass 

der Entwickler eines Programmes 

prüfen muss, ob die gesparte 

Rechenzeit durch die zusätzliche 

Latenz nicht wieder aufgefressen 

wird. 

Spezielle Mikro-Benchmarks einzelner, 

verbreiteter Algorithmen 

wie zum Beispiel SAXPY, SGEMM, 

FFT oder Sortierungen und andere 

mehr zeigen einem Forschungspapier 

(siehe Bild links) zufolge 

deutlich, dass der Prozentsatz der 

Transferzeiten von Daten von und 

zum Grafikprozessor insbesonde- 

Fußangel: Rechen- vs. Datenübertragungszeit 

Für jede Berechnung auf der GPU müssen dieser die entsprechenden Daten zur Verfügung gestellt werden. Diese 

Mikro-Benchmarks zeigen, dass manchmal der Datentransfer zigfach länger dauert als die eigentliche Berechnung. 

Kernelzeit 

Kernelzeit 

Ergebnis 

Ergebnis 

per se eine Beschleunigung statt, 

die Rechenzeit verkürzt sich gegenüber 

der CPU-Version, aber schnellere 

Grafikchips werden durch 

einen großen Anteil der Transferzeiten 

oder mangelnde Parallelisierungsmöglichkeiten 

bei niedrigem 

Datenaufkommen daran gehindert, 

ihre Leistung voll auszuspielen. Unser 

frischer Open-CL-Benchmark 

auf der nächsten Seite zeigt das Problem 

– ebenso wie in der Vergangenheit 

bereits Winzip oder frühe 

Versionen des inzwischen eingestellten 

Vreveal-Videokonverters 

(zunächst Cuda, später Open CL). 

Mindestanforderung: 

Software 

Aus dem oben Gesagten lassen sich 

mehrere Grundregeln ableiten, die 

eine Software erfüllen muss, damit 

sie sinnvoll beschleunigt werden 

kann. Zunächst einmal muss sich 

die Aufgabe des Programms in einen 

Algorithmus pressen lassen, 

den auch eine GPU ausführen kann. 

Zudem muss ausreichend Daten- 

Parallelität vorhanden sein, sodass 

auch Tausende von Recheneinheiten 

einer GPU genutzt werden 

können. Damit die Transferzeiten, 

also das möglicherweise mehrfach 

nötige Hin-und-her-Schieben der 

Daten, die Gewinne in der reinen 

Rechenzeit nicht auffressen, muss 

der Anteil Letzterer an der Gesamtlaufzeit 

möglichst groß sein. Hier 

schlägt auch das Problem zu, dass 

in manchen Aufgabenstellungen 

zwar eine effiziente Arbeit von 

GPUs möglich wäre, die Größe der 

Datenfelder für Heimanwender 

aber schlicht nicht ausreichend ist, 

um die Transferlatenz auszugleichen. 

Im professionellen Bereich 

dagegen, zum Beispiel in der Forschung 

oder auf Supercomputern, 

die grundsätzlich gleichen Kernel 

so lange rechnen, lohnt es sich 

eben doch, solche Berechnungen 

auf eine GPU auszulagern. 

III 

IV 

Host 

Host 

Kernel - 

zeit 

Ergebnis 

Zeit 

Kernelzeit 

Einsparung 

Ergebnis 

Einsparung 

Mindestanforderung: 

Hardware 

Wenn man denn ein Programm 

gefunden hat, welches sinnvoll 

durch zusätzliche Prozessorkraft 

beschleunigt werden kann, muss 

noch ein geeigneter Rechenknecht 

vorhanden sein. In fast allen Fällen 

handelt es sich dabei um einen Grafikprozessor, 

der sich durch seine 

parallel arbeitenden Rechenwerke 

besonders für diese Aufgabe eignet 

46 

PC Games Hardware | 08/14 

www.pcgameshardware.de

Vorherige Seite

Nächste Seite

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

PC Games Hardware Magazin Ebay-Schnäppchen (Vorschau)

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?