Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在构建一个内核,其中使用 Magma 函数 magma_dgeqrf2_gpu 来执行 QR 分解。这会将上三角矩阵 R 输出到 GPU 设备上的通用矩阵 d_A 中。
在不将 d_A 传输回主机(因为我需要 GPU 进行进一步操作)的情况下,是否有一种 lib 方法可以将 d_A 减少或提取到设备上的上三角矩阵 R 中?
这有点傻,但我发现解决方案只是使用 magmablas_dlacopy() 并设置属性以将上三角矩阵复制到设备上的另一个矩阵(已设置为 0)。