以下错误和解决方案适用于通过 YAML 在portainer中部署堆栈,但它们肯定可以应用于 docker。
环境:
PYTORCH="1.8.0"
CUDA="11.1"
CUDNN="8"
GPUs: Geforce RTX 3090
尝试使用单个 GPU训练模型时,会引发共享内存大小超出范围错误。
此外,当我使用更多 GPU (4) 时,我得到了一个不同的错误,即
RuntimeError: NCCL error in: /opt/conda/conda-bld/pytorch_1614378083779/work/torch/lib/c10d/ProcessGroupNCCL.cpp:825, unhandled system error, NCCL version 2.7.8
但是,如果您启用NCCL 的调试,您会注意到它的根源实际上是共享内存大小错误。