我正在查看来自 Nvidia 的并行缩减示例。如果tid < 32
那么线程都意味着在同一个warp中,那么指令应该是SIMD同步的,所以我们可以假设sdata[tid] += sdata[tid + 32];
之前的所有线程都完成了sdata[tid] += sdata[tid + 16];
,依此类推。但这对我来说并没有发生。
for (unsigned int s=groupDim_x/2; s>32; s>>=1)
{
if (tid < s) sdata[tid] += sdata[tid + s];
GroupMemoryBarrierWithGroupSync();
}
if (tid < 32)
{
sdata[tid] += sdata[tid + 32];
sdata[tid] += sdata[tid + 16];
sdata[tid] += sdata[tid + 8];
sdata[tid] += sdata[tid + 4];
sdata[tid] += sdata[tid + 2];
sdata[tid] += sdata[tid + 1];
}
Cuda 上相同问题的解决方案已经发布(参见),但它使用指针和 volatile 关键字。Directcompute 没有指针,也不允许在全局内存上使用 volatile 关键字。