1

我是 GCP 和深度学习 VM 的新手。我得到它来训练一些深度学习模型。在谷歌云 jupyter notebook 中训练时,它崩溃了,因为它无法将输入张量从 GPU 复制到 CPU:具体来说:

InternalError: Failed copying input tensor from /job:localhost/replica:0/task:0/device:GPU:0 to /job:localhost/replica:0/task:0/device:CPU:0 in order to run TensorDataset: Dst tensor is not initialized. [Op:TensorDataset]

经过调查,它发生在GPU中没有足够的内存时。我检查了我的内存,在我初始化 VM 后运行了大约一个小时后,我的 RAM 已满 95%。我不知道这是怎么发生的。我怎样才能释放这个内存?

4

1 回答 1

3

发现即使在 python 脚本终止后,GPU 中的内存仍然存在。运行nvidia-smi以查看是否有 python 进程占用 GPU 内存,如果是,则运行pkill -9 python以杀死所有关联的内存和 python 进程。

于 2021-07-19T18:33:41.333 回答