pytorch - Pytorch中奇怪的Cuda内存不足行为

Question

编辑：已解决-问题取决于工人的数量，降低了他们，问题解决了

我正在使用 24GB Titan RTX，我正在使用它来使用 Pytorch 进行图像分割 Unet，

它总是以不同的批处理大小将 Cuda 从内存中抛出，而且我的可用内存比它声明的需要的多，并且通过降低批处理大小，它增加了它尝试分配的内存，这没有任何意义。

这是我尝试过的：

图像大小 = 448，批量大小 = 8

图像大小 = 448，批量大小 = 6

“RuntimeError：CUDA 内存不足。尝试分配 3.12 GiB（GPU 0；24.00 GiB 总容量；2.06 GiB 已分配；19.66 GiB 空闲；PyTorch 总共保留 2.31 GiB）”

是说它试图分配 3.12GB 并且我有 19GB 可用空间并且它会引发错误？？

图像大小 = 224，批量大小 = 8

“RuntimeError：CUDA 内存不足。尝试分配 28.00 MiB（GPU 0；24.00 GiB 总容量；2.78 GiB 已分配；19.15 GiB 可用；PyTorch 总共保留 2.82 GiB）”

图像大小 = 224，批量大小 = 6

“RuntimeError：CUDA 内存不足。尝试分配 344.00 MiB（GPU 0；24.00 GiB 总容量；2.30 GiB 已分配；19.38 GiB 空闲；PyTorch 总共保留 2.59 GiB）”

减少批量大小但尝试分配更多？

图像大小 = 224，批量大小 = 4

“RuntimeError：CUDA 内存不足。尝试分配 482.00 MiB（GPU 0；24.00 GiB 总容量；2.21 GiB 已分配；19.48 GiB 空闲；PyTorch 总共保留 2.50 GiB）”

图像大小 = 224，批量大小 = 2

“RuntimeError：CUDA 内存不足。尝试分配 1.12 GiB（GPU 0；24.00 GiB 总容量；1.44 GiB 已分配；19.88 GiB 可用；PyTorch 总共保留 2.10 GiB）”

图像大小 = 224，批量大小 = 1

“RuntimeError：CUDA 内存不足。尝试分配 1.91 GiB（GPU 0；24.00 GiB 总容量；894.36 MiB 已分配；20.94 GiB 可用；PyTorch 总共保留 1.03 GiB）”

即使图像大小和批量大小都非常低......

score 1 · Accepted Answer

1

已解决- 问题取决于工人的数量，降低他们，问题解决了

于 2021-03-16T14:54:46.203 回答

1 回答 1