DirectCompute Optimizations and Best Practices - Nvidia

More documents

Recommendations

Info

Shared Memory Bank Addressing • 2-way Bank Conflicts • 8-way Bank Conflicts – Linear addressing stride == 2 Thread 0 Thread 1 Thread 2 Thread 3 Thread 4 Thread 8 Thread 9 Thread 10 Thread 11 Bank 0 Bank 1 Bank 2 Bank 3 Bank 4 Bank 5 Bank 6 Bank 7 Bank 15 – Linear addressing stride == 8 Thread 0 x8 Thread 1 Thread 2 Thread 3 Thread 4 Thread 5 Thread 6 Thread 7 x8 Thread 15 Bank 0 Bank 1 Bank 2 Bank 7 Bank 8 Bank 9 Bank 15
What is Occupancy GPUs typically run 1000 to 10,000’s of threads concurrently. Higher occupancy = More efficient utilization of the HW. Parallel code executed in HW through warps (32 threads) running concurrently at any given moment of time. Thread instructions are executed sequentially, by executing other warps, we can hide instruction <strong>and</strong> memory latencies in the HW. Maximizing ―Occupancy‖, with occupancy of 1.0 the best scenario. Occupancy = # of resident warps Max possible # of resident warps
Page 1 and 2: DirectCompute Optimizations and Bes
Page 3 and 4: Why GPUs • GPUs are throughput or
Page 5 and 6: Advantages of DirectCompute • Dir
Page 7 and 8: Parallel Execution Model Thread Gro
Page 9 and 10: Memory Coalescing • A coordinated
Page 11 and 12: Uncoalesced Access: Reading floats
Page 13 and 14: Compute 1.2+ Coalesced Access: Read
Page 15 and 16: Thread Group Shared Memory (TGSM)
Page 17: Shared Memory Bank Addressing • N
Page 21 and 22: Maximizing HW Occupancy • Registe
Page 23 and 24: DirectCompute Optimization Example
Page 25 and 26: Parallel Reduction • Tree-based a
Page 27 and 28: Solution: Shader Decomposition •
Page 29 and 30: Reduction #1: Interleaved Addressin
Page 31 and 32: Performance for 4M element reductio
Page 33 and 34: What is Thread Divergence • Diver
Page 35 and 36: Parallel Reduction: Interleaved Add
Page 37 and 38: Thread Group Shared Memory Bank Con
Page 39 and 40: Reduction #3: Sequential Addressing
Page 41 and 42: Idle Threads Problem: for (unsigned
Page 45 and 46: Unrolling the Last Warp • As redu
Page 49 and 50: Reduction #6: Completely Unrolled #
Page 51 and 52: Reduction #7: Multiple Adds / Threa
Page 55 and 56: Time (ms) Performance Comparison 10
Page 58 and 59: Extra Slides
Page 60 and 61: Memory Coalescing (Matrix Multiply)
Page 62: Matrix Multiplication (cont.) Optim

DirectCompute Optimizations and Best Practices - Nvidia

Create successful ePaper yourself

Delete template?

Save as template?