对于 Pytorch 中的 Gloo 分布式,如本文档https://pytorch.org/docs/stable/distributed.html所示,以下代码是否会获得使用 CUDA-aware MPI 的性能优势?(例如,绕过 CPU 通过 PCIe 进行 GPU 到 GPU 传输)
group = dist.new_group([0, 1], backend="gloo")
dist.all_reduce(gpu_tensor_a, op=dist.ReduceOp.SUM, group=group)