如何使用 nvidia-docker 在 docker 操作的 swarm 模式下创建服务。我正在尝试在这个 swarm 网络中训练一个 tensorflow 模型来进行分布式学习。我发现一种方法是在不同的机器上运行一个由不同容器组成的集群网络,并在每台机器上使用 GPU 进行分布式训练。如果在 swarm 模式下不可能,是否有任何可能的方法来完成上述任务?
docker service create --name tensorflow --network overnet saikishor/tfm:test azt0tczwkxaqpkh9yaea4laq1
由于未指定 --detach=false,因此将在后台创建任务。
在未来的版本中,--detach=false 将成为默认值
但在 docker service ls 下,我有这个
ID 名称模式副本图像端口
uf6jgp3tm6dp tensorflow 复制 0/1 saikishor/tfm:test