我试图弄清楚如何使用 https://docs.ansible.com/ansible/latest/docker_container_module.html#docker-container 使用 nvidia-docker (https://github.com/NVIDIA/nvidia-docker).
问题
我当前的 Ansible 剧本使用“docker”命令而不是“nvidia-docker”来执行我的容器。
我做了什么
根据一些读数,我尝试添加我的设备,但没有成功
docker_container:
name: testgpu
image: "{{ image }}"
devices: ['/dev/nvidiactl', '/dev/nvidia-uvm', '/dev/nvidia0', '/dev/nvidia-uvm-tools]
state: started
注意我尝试了不同的设备语法(内联..),但仍然遇到同样的问题
此命令不会引发任何错误。正如预期的那样,它使用我的图像创建了一个 Docker 容器并尝试启动它。
查看我的容器日志:
terminate called after throwing an instance of 'std::runtime_error'
what(): No CUDA driver found
这是我在运行时遇到的完全相同的错误,
docker run -it <image>
而不是
nvidia-docker run -it <image>
在将 docker_container 与 Ansible 一起使用时如何覆盖 docker 命令的任何想法?
我可以确认我的 CUDA 驱动程序已安装,并且所有路径 /dev/nvidia* 都是有效的。
谢谢