我正在尝试编写一个几乎完全在 GPU 上运行的程序(与主机的交互很少)。initKernel是从主机启动的第一个内核。我使用动态并行性从 启动连续内核initKernel,其中两个是thrust::sort(thrust::device,...).
在启动之前initKernel,我cudaMalloc()在主机代码上做了一个,它显示在可视分析器的运行时 API中。Visual profiler的Runtime API中没有cudaMalloc显示出现在__device__函数和后续内核中的 s(在 启动之后initKernel) 。有人可以帮我理解为什么我在 Visual Profiler中看不到s 吗?cudaMalloc
感谢您的时间。
