问题标签 [nvidia-docker]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
167 浏览

docker - 在 Nvidia Docker 中部署 Windows 应用程序

我计划使用 Nvidia Docker 和 kubernetis 将遗留的 GPU 密集型 Windows 应用程序容器化。但是 nvidia docker 目前不支持 windows。请提出一些想法。我可以使用 RancherVM 或 kubevirt 吗?

0 投票
1 回答
257 浏览

azure-iot-edge - Running IoT Edge Module in NVIDIA Runtime

I am working on an IoTEdge Module with image detection capabilities. For the image processing/analysing I am using Detectron which needs to run in an docker nvidia runtime.

Is it possible to enable an nvidia runtime for IoTEdge Modules and Docker Moby and how? I am not able to figure out on how to make it work. There is an entry about the topic here, but I am still not able to get it work: https://github.com/moby/moby/issues/23917 https://github.com/NVIDIA/nvidia-docker/wiki/Internals

I figured out, how to get it work with Docker CE, unfortunatly, the documentation says, Moby is not supported by IoT Edge. I havn't found any sideeffects yet, but for production it would be nice to understand the impact.

0 投票
2 回答
4296 浏览

docker - 如何在 Docker 容器中运行 OpenCL + OpenGL?

目的是在 docker 容器内运行 OpenCL/OpenGL(互操作)应用程序。但我还没有成功。

介绍

我有带 NVidia 显卡的笔记本电脑,所以我认为利用 NVidia Dockerfiles [1,2] 将是一个很好的起点。

以下 Dockerfile:

效果很好,我能够运行glxgears.

在自己的容器上运行 OpenCL 也没什么大不了的:

clinfo成功显示有关我的设备的信息。


试图

最后,这是我尝试使用 OpenGL 和 OpenCL 驱动程序创建容器:

现在,虽然clinfo仍然打印 OpenCL 设备信息,glxgears但另一方面失败并出现以下错误:

知道如何进行这项工作吗?提前致谢。


参考

0 投票
0 回答
642 浏览

docker - 容器级别的 GPU 统计信息

我正在使用https://hub.docker.com/r/jarkt/docker-remote-api/使用 CURL 远程获取 Docker 统计信息,如下所示:

寻找类似的方法来获取特定 docker 容器的 GPU 统计信息。

0 投票
1 回答
678 浏览

kubernetes - 如何确保容器运行时是 kubernetes 节点的 nvidia-docker?

我需要检查 kubernetes 节点是否配置正确。需要为其中一个工作节点使用 nvidia-docker。

使用:https ://github.com/NVIDIA/k8s-device-plugin

如何确认设备插件的配置是否正确?

但是,我可以看到nvidia.com/gpu节点下的资源,问题是:Container Runtime Version应该说nvidia-docker节点是否配置正确?目前,它显示了docker这似乎是可疑的,我猜!

0 投票
1 回答
133 浏览

c++ - 尝试运行 NVIDIA FleX 时出现“检测到缓冲区溢出”

我使用Singularity 2.6 已经有一段时间了,最​​近将我的 Singularity 升级到了 3.0(由于技术原因,我无法升级到 3.0.3)。使用 Singularity 3.0,我使用与使用 Singularity 2.6 构建容器时完全相同的定义文件构建新容器。从那以后,我不能再可靠地运行 NVIDIA FleX 并且时不时地出现以下错误。在过去 10 个月左右的时间里,我绝对没有更改我的 NVIDIA FleX 代码中的任何内容,而且我几乎每天都在运行 FleX,从来没有遇到过这样的问题。我想知道,可能是什么问题,试图说的错误是什么?我可能做错了什么或需要改变以防止这种情况发生?

根据我在代码中输入的打印语句,我只知道在我的 FleX 代码中调用UnmapBuffers()函数时会发生这种情况;但自从我写了这段代码以来,我一直在这样做,从来没有遇到过任何问题。虽然这可能不是很有帮助,但这是该函数的作用:

最后,这是我得到的错误:

对于 Singularity 用户:不幸的是,我无法再尝试使用 Singularity 2.6 来查看问题是否消失,因为我使用的是集群并且无法自己安装东西。

请注意,我在构建容器时将 NVIDIA 的 Docker 映像拉入容器中。这是构建容器时我的 Singularity 定义文件的主要部分:

0 投票
1 回答
359 浏览

windows - 如何在alienware windows 10系统中安装nvidia docker?

我正在尝试使用在 windows 10 系统中服务的 tensorflow-GPU。但我还没有找到任何安装适用于 Windows 的 Nvidia docker 的解决方案。请给我一个建议,如何在部署中使用 Windows 机器 GPU。

0 投票
1 回答
442 浏览

azure - 使用带有 GPU 的 Azure 容器实例进行模型训练比使用相同容器进行本地测试慢得多

我正在尝试使用我构建的包含暗网安装的容器来训练 Yolo 计算机视觉模型。该容器使用 Nvidia 提供的基本映像:nvcr.io/nvidia/cuda:9.0-devel-ubuntu16.04

在我的本地机器上使用 Nvidia-Docker 和 gtx 1080 ti,训练运行得非常快,但是同样的容器作为具有 P100 gpu 的 Azure 容器实例运行的训练速度非常慢。就好像它没有使用gpu一样。我还注意到“nvidia-smi”命令在 Azure 中运行的容器中不起作用,但是当我 ssh 进入在我的机器上本地运行的容器时它确实起作用。

这是我正在使用的 Dockerfile

requirements.txt 文件如下图所示:

0 投票
1 回答
947 浏览

docker - SLURM+Docker:如何使用 SLURM 杀死 docker 创建的进程 scancel

我们目前已经建立了一个以 SLURM 作为资源管理器的 GPU 计算集群。由于这是一个用于深度学习的集群,我们通过使用 nvidia-docker 图像来管理依赖项,以促进不同的框架和 CUDA 版本。

我们的典型用例是使用 srun 分配资源并给出一个命令来运行 nvidia-docker,该命令按照以下方式运行实验脚本:

我们发现了一个问题,如果使用scancel命令取消 slurm 作业,节点上的 docker 进程将被取消,但在 docker 中启动的任何实验脚本仍会继续。据我们了解,这不是 SLURM 的错误,而是杀死 docker 进程并不会杀死其衍生的进程,它们只会被docker kill命令杀死。虽然可能有一些方法可以在 SLURM 序言脚本中执行 docker kill 命令,但我们想知道是否有其他人遇到过这个问题,以及他们是否以某种方式解决了这个问题。总结一下,我们想知道:

我们如何确保在 nvidia-docker 容器中启动的进程(又由 SLURM SRUN 启动)被 SCANCEL 杀死?

0 投票
0 回答
110 浏览

docker - 如何将文件挂载到 Jenkins docker

我正在尝试将我的文件(ubuntu 上的 /home/ubuntu/grace/new_project)挂载到 Jenkins Docker 容器中并运行“nvidia-docker”。我要复制它的目录位于 Docker 容器上的 /var/jenkins_home/new_folder 中。

这是使用 docker 运行 Jenkins 服务器的命令。

我想在 Jenkins 中运行这个命令。

我希望我的项目(/home/ubuntu/grace/new_project)位于 docker 容器上的 /var/jenkins_home/new_folder/ 中,这样我就可以运行“nvidia-docker”来运行“main.py”。

我的最终目标是让 Jenkins 管道使用 shell 脚本中的 'sudo nvidia-docker exec -it auto python main.py' 运行我的项目。任何人都可以帮助我吗?