问题标签 [nvidia-docker]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6183 浏览

ubuntu - GLXGears 在 Docker 内部不起作用

我正在尝试让 nvidia 硬件加速在 Docker 容器内运行。到目前为止,我没有成功。运行时glxgears出现以下错误。

我的 docker 文件看起来像这样

我用

我目前不知道容器内的nvidia-driver需要有相同的版本。但我不知道如何检查这是否是问题所在。

nvidia-smi

我用作为解决问题的指南,但没有成功

0 投票
2 回答
900 浏览

docker - 如何使用 nvidia-docker 在 docker swarm 中创建服务

如何使用 nvidia-docker 在 docker 操作的 swarm 模式下创建服务。我正在尝试在这个 swarm 网络中训练一个 tensorflow 模型来进行分布式学习。我发现一种方法是在不同的机器上运行一个由不同容器组成的集群网络,并在每台机器上使用 GPU 进行分布式训练。如果在 swarm 模式下不可能,是否有任何可能的方法来完成上述任务?

docker service create --name tensorflow --network overnet saikishor/tfm:test azt0tczwkxaqpkh9yaea4laq1

由于未指定 --detach=false,因此将在后台创建任务。

在未来的版本中,--detach=false 将成为默认值

但在 docker service ls 下,我有这个

ID 名称模式副本图像端口

uf6jgp3tm6dp tensorflow 复制 0/1 saikishor/tfm:test

0 投票
3 回答
7618 浏览

nvidia - 来自守护程序的错误响应:获取 https://nvcr.io/v2/:未授权:需要身份验证

我开始使用 NVIDIA GPU CLOUD 深度学习平台。我尝试拉入控制台(命令提示符):

并得到消息:

我的错是什么?

0 投票
2 回答
3802 浏览

docker - 未找到 nvidia-smi 可执行文件

我在nvidia-docker 存储库中经历了 3 个 关于这个确切问题的不同问题,但实际上无法弄清楚出了什么问题。

我是一个重度 docker 用户,但我不太了解这些问题中使用的术语和解决方案。

当我nvidia-smi以 sudo 或不以 sudo 运行时,一切正常,我得到标准输出。我的 nvidia-docker-plugin 已启动并正在运行,运行时会收到以下消息nvidia-docker run --rm nvidia/cuda nvidia-smi

英伟达码头插件| 2017/11/04 09:14:18 收到卷“nvidia_driver_387.22”的挂载请求 Blockquote nvidia-docker-plugin | 2017/11/04 09:14:18 收到卷“nvidia_driver_387.22”的卸载请求

我还尝试运行deepo存储库,但由于我的所有容器在启动时退出,因此无法使其工作,并且nvidia-docker run --rm nvidia/cuda nvidia-smi输出错误:

container_linux.go:247:启动容器进程导致“exec:\”nvidia-smi\”:在 $PATH 中找不到可执行文件”/usr/bin/docker-current:来自守护进程的错误响应:oci 运行时错误:container_linux.go :247:启动容器进程导致“exec:\”nvidia-smi\“:$PATH 中找不到可执行文件”。

我究竟做错了什么?

我运行 Fedora 26,如果它有什么不同的话

0 投票
0 回答
122 浏览

docker - 通过 docker image nvcr.io/nvidia/torch 的训练程序慢了 41%

我通过 NVidia docker image nvcr.io/nvidia/torch 训练了一个 DNN。一切正常,除了在我的机器上执行时它比训练时间慢得多(+41%)。一批执行大约需要 410 毫秒,而不是裸机上的 290 毫秒。

我的 nvidia-docker 运行命令:

my-custom-image 基于 nvcr.io/nvidia/torch。我只添加我的训练脚本 (.lua) 并安装 luajit。所有结果都写入 /mnt/data1 而不是容器本身。

这是正常的还是我做错了什么?我如何调查浪费的时间从何而来?

更新:我仔细检查过,训练期间容器内没有写任何内容。所有数据都写入/mnt/data1。

Update2:我尝试了容器内的推理例程,它并不比裸机设置花费更多的时间。

0 投票
3 回答
27941 浏览

docker - 如何从 docker-compose.yml 指定 nvidia 运行时?

我可以使用以下命令从命令行运行 tensorflow 容器并访问 GPU

$ sudo docker run --runtime=nvidia --rm gcr.io/tensorflow/tensorflow:latest-gpu

我希望能够从 docker-compose 运行这个容器。是否可以从 指定--runtime标志docker-compose.yml

0 投票
1 回答
3957 浏览

docker - nvidia-container-cli:初始化错误:cuda 错误:未检测到支持 cuda 的设备

我正在使用 nvidia/cuda:8.0-devel 图像并尝试运行它。但我收到以下错误。

它说没有检测到支持 cuda 的设备。我已经安装了 cuda 8.0。

以及司机。

我的 docker 版本是 17.09.0-ce。由于未检测到支持 cuda 的设备,我收到的错误可能是什么问题?

谢谢你

0 投票
0 回答
133 浏览

docker - 如何使用 nvidia docker 作为提供者运行 Vagrant

我是开发机器学习应用程序的团队的一员。

目前我们正在使用带有 Docker 提供程序的 Vagrant 作为统一的开发环境。

我们想在开发过程中使用计算机上的 GPU,我发现 Nvidia 发布了 nvidia-docker 来为一个简单的 docker 容器启用它。

如何使用 nvidia-docker 作为 Vagrant 的提供者?

如果不可能,是否有任何等效的解决方案?


在我们部署的同一个 docker 镜像之上进行开发对我们来说很重要,因为我们依赖于多个交互的开源库,并且我们希望在一个地方管理它们

(部署时没有依赖关系中断)

0 投票
1 回答
256 浏览

ubuntu - 使 vim 配置适应 nvidia-docker 容器

我正在使用 nvidia-docker 来训练一些深度学习模型。每次我附加到我正在运行的容器时,我意识到,vim 设置并没有适应容器的 vim。所以我安装了 vundle,并将主机的.vimrc选项复制到容器root/.vimrc

我没有具体的错误。但是 :NERDTree 或其他命令没有运行,请帮忙。

这是我的.vimrc设置

:PluginInstall “完成!”的结果 容器内截图

附加细节:使用 git clone 在 docker 内安装 NERDTree

cd .vim/bundle/

git clone https://github.com/scrooloose/nerdtree.git

0 投票
1 回答
853 浏览

docker - 在 Ansible 中使用 nvidia-docker 而不是 docker

我试图弄清楚如何使用 https://docs.ansible.com/ansible/latest/docker_container_module.html#docker-container 使用 nvidia-docker https://github.com/NVIDIA/nvidia-docker).

问题

我当前的 Ansible 剧本使用“docker”命令而不是“nvidia-docker”来执行我的容器。

我做了什么

根据一些读数,我尝试添加我的设备,但没有成功

docker_container: name: testgpu image: "{{ image }}" devices: ['/dev/nvidiactl', '/dev/nvidia-uvm', '/dev/nvidia0', '/dev/nvidia-uvm-tools] state: started

注意我尝试了不同的设备语法(内联..),但仍然遇到同样的问题

此命令不会引发任何错误。正如预期的那样,它使用我的图像创建了一个 Docker 容器并尝试启动它。

查看我的容器日志: terminate called after throwing an instance of 'std::runtime_error' what(): No CUDA driver found

这是我在运行时遇到的完全相同的错误, docker run -it <image> 而不是 nvidia-docker run -it <image>

在将 docker_container 与 Ansible 一起使用时如何覆盖 docker 命令的任何想法?

我可以确认我的 CUDA 驱动程序已安装,并且所有路径 /dev/nvidia* 都是有效的。

谢谢