int offset = 0;<br />

int i;<br />

cuParamSeti(cuFunction, offset, i);<br />

offset += sizeof(i);<br />

float f;<br />

cuParamSetf(cuFunction, offset, f);<br />

offset += sizeof(f);<br />

char data[32];<br />

cuParamSetv(cuFunction, offset, (void*)data, sizeof(data));<br />

offset += sizeof(data);<br />

cuParamSetSize(cuFunction, offset);<br />

cuFuncSetSharedSize(cuFunction, numElements * sizeof(float));<br />

cuLaunchGrid(cuFunction, gridWidth, gridHeight);<br /> 存 储 器 管 理<br />

CUdeviceptr devPtr;<br />

cuMemAlloc(&devPtr, 256 * sizeof(float));<br />

// host code<br />

CUdeviceptr devPtr;<br />

int pitch;<br />

cuMemAllocPitch(&devPtr, &pitch,<br />

浮 点 元 素 的 数 组<br />

width * sizeof(float), height, 4);<br />

cuModuleGetFunction(&cuFunction, cuModule, “myKernel”);<br />

cuFuncSetBlockShape(cuFunction, 512, 1, 1);<br />

cuParamSeti(cuFunction, 0, devPtr);<br />

cuParamSetSize(cuFunction, sizeof(devPtr));<br />

cuLaunchGrid(cuFunction, 100, 1);<br />

// device code<br />

__global__ void myKernel(float* devPtr)<br />

{<br />

for (int r = 0; r < height; ++r) {<br />

float* row = (float*)((char*)devPtr + r * pitch);<br />

for (int c = 0; c < width; ++c) {<br />

float element = row[c];<br />

}<br />

}<br />

}<br />

<strong>CUDA</strong>_ARRAY_DESCRIPTOR desc;<br />

desc.Format = CU_AD_FORMAT_FLOAT;<br />

desc.NumChannels = 1;<br />

desc.Width = width;<br />

desc.Height = height;<br />

CUarray cuArray;<br />

cuArrayCreate(&cuArray, &desc);<br />

<strong>CUDA</strong>_MEMCPY2D copyParam;<br />

memset(&copyParam, 0, sizeof(copyParam));<br />

copyParam.dstMemoryType = CU_MEMORYTYPE_ARRAY;<br />

copyParam.dstArray = cuArray;<br />

copyParam.srcMemoryType = CU_MEMORYTYPE_DEVICE;<br />

cuMemAlloc() 手 册 列 举 了 用 于 在 考 参<br />

2.0 南 , 版 本 指 程<br />

<strong>CUDA</strong> 之 间 复 制 存 储 器 的 所 有 函 数 。 下 面 的 代 码 示 例 将 二 维 数 组 复 制 到 之 前 代 码 示 例 中 分 配 的 组 数

