CUDA TIPS and FAQ

CUDA TIPS and FAQGTC 2013 チュートリアルエヌビディアジャパンCUDAエンジニア森野慎也

CUDA TIPS and FAQ• NVIDIA Japanでは、開発者のみなさんへの支援を行っています。その中で…よくいただく質問「へー」と言ってもらえたことなど、まとめて、お話しします。

Topic 1: Compute Capability• GPUのCompute Capabilityを知りたいのですが。— お答え:CUDA GPUs ページにアクセスしてください!— https://developer.nvidia.com/cuda-gpus

Topic 1: Compute Capability• GPUの確認方法

Topic 2: 開発・デバッグ環境• 開発環境は、何を使えばよいのですか?• Windows— Windows XP 以降で動作— Visual Studio 2008, 2010, 2012• MacOS X— 10.7.5+、10.8.x(64 bit)— Compiler : gcc or clang**いくつかの機能はサポートされていません

Topic 2: 開発・デバッグ環境• サポートされている LinuxDistribution Version 32 bit 64 bitFedora 18 XRedHat Enterprise 5.5+, 6.xXOpenSUSE 12.2 XSUSE SLES 11 SP1, SP2 XUbuntu 12.10, 12.04, 10.04 X XUbuntu (ARMv7) 12.04 X X

Topic 2: 開発・デバッグ環境• Nsight Visual Studio Edition— CUDA Toolkitに含まれます。(CUDA 5.5より)— Windows Vista 以降• GPUカーネルのデバッグができます!— Datatip 、Breakpoint( 条件指定可能 )、assert()、デバイスメモリのダンプ— Visual Studio IDEに、統合

Topic 2: 開発・デバッグ環境• VS2010

Topic 3: ホストコンパイラのオプション• 質問*.cuに書いた、CPUコードが遅いのです。nvccの生成するコードが、遅いのでは?— お答えnvccでは、ホストコードは、各プラットフォームのコンパイラでコンパイルされます。— ホストコード用のコンパイルオプションを、指定してください。

Topic 3: ホストコンパイラのオプション• nvcc— CUDA 用のコンパイラ• 内部でホストコンパイラを使用— デフォルトでC++• ホストコンパイラのオプションも指定します。ソースホスト/GPU ソース分割ホストコンパイラマージオブジェクトカーネルコンパイラ

Topic 3: ホストコンパイラのオプション• NVCCオプション— -Xcompiler• ホストコンパイラ向けのオプション— -ccbin• ホストコンパイラのパス指定— -gencode— -G• Compute Capability (GPUバージョン)の指定 _35,sm_35• デバッグ情報生成— -Xptxas• 最適化に必要な情報を得るために指定• PTX(GPUアセンブラ)のオプション11

Topic 3: ホストコンパイラのオプション.SUFFIXES: .cpp .h .cu .oDEBUG=0CXXFLAGS=-Wall -gNVCCFLAGS=-gencode arch=compute_30,code=sm_30 -Xptxas -v( 略 )all: ….cu.o: $

Topic 3: ホストコンパイラのオプション• Windowsの場合

Topic 4: 並列化• 質問CUDAでは、非常に多くのスレッドを使いますが、スレッド数を増やすよりは、ループで書けませんか?— お答え通常、性能が出ないので、お勧めしません。CUDAでは、多くのスレッドを動作させることで、性能が出ます。— メモリコピーのコードで、説明します。

Topic 4: 並列化 (Coalesced Access)• CUDAに適した並列化 (Coalesced Access)CUDA coreint *dSrc 0 1 2 3 4 5 6 7 8……int *dDst…

Topic 4: 並列化 (Coalesced Access)__global__void coalescedMemcpyKernel(int *dDst, const int *dSrc, size_t size) {/* Global IDを算出 */int globalID = blockDim.x * blockIdx.x + threadIdx.x;}if (globalID < size) {/* 自スレッド担当の要素のみ、処理 */dDst[globalID] = dSrc[globalID];}

Topic 4: ループによる実装• スレッドでループ— 1スレッドで、4 回ループする場合ThreadsThread 0Thread 1…Thread 2int *dSrc 0 1 2 3 4 5 6 7 8…int *dDst…

Topic 4: 並列化 (loop)__global__void loopMemcpyKernel(int *dDst, const int *dSrc,size_t size, size_t loopCount) {/* Global IDを算出 */int globalID = blockDim.x * blockIdx.x + threadIdx.x;unsigned int begin = gid * loopCount;unsigned int end = min((gid + 1) * loopCount, size);}for (unsigned int index = begin; index < end; ++index) {dDst[index] = dSrc[index];}

バンド幅 (GB/sec)Topic 4: ベンチマーク結果200150Spec : 208 GB/secCoalesced Access : 146 GB/sec• Tesla K20cECC off100ループによるコピー5001 8 64 512 4096スレッドあたりのループ回数

Topic 4: 並列化• ループは、なぜ遅い?— メモリアクセスが、歯抜けになっている!Threads Thread 0 Thread 1…Thread 20 1 2 3 4 5 6 7 8 …Cache…DRAM…

Topic 4: 並列化• スレッド(Warp) 数が足りないと、性能が出ません。スレッド(Warp)が多数、実行されている。スレッド(Warp)の実行数がすくない。Warp XWarp AWarp BWarp CWarp ……Warp …Warp XWarp AWarp Bca. 11 clock (Kepler)ca. 22 clock (Fermi)StallWarp AStallStallStall…StallStallWarp AStall

Topic 4: 並列化• メモリアクセスにも、スレッド(Warp)の数が必要です。スレッド(Warp)が多数、実行されている。スレッド(Warp)の実行数がすくない。Warp XWarp AWarp BWarp CWarp ……メモリアクセス要求が多いStallWarp AStallStallStall…メモリアクセス要求が少ないWarp …Warp XWarp AWarp Bバンド幅大StallStallWarp AStallバンド幅小

バンド幅 (GB/sec)Topic 4: ベンチマーク(Thread 数 )200150Spec : 208 GB/secCoalesced Access : 146 GB/sec• Tesla K20c(ECC off)1005000 20 40 60SMXあたりのWarp 数

Topic 5: 開発者登録• NVIDIA Registered Developer program— https://developer.nvidia.com/registered-developer-programs• 誰でも登録できます。— 企業の方、学生の方、皆さんOKです。— 無償です。• メリット— プレリリース版のダウンロード— バグレポート

NVIDIA Japan CUDA Monthly Seminar• NVIDIA Japanでは、毎月、CUDA 関連の無償セミナーを実施しています。— 申し込み :http://www.nvidia.co.jp/object/event-calendar-jp.html— 場所 : NVIDIA Japan 赤坂オフィス— 定員 : 20 名

Thank you

CUDA TIPS and FAQ

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?