0

我正在尝试使用Ray库在带有 Docker 的多台远程机器上启动运行。根据文档,我ray up CONFIG_YAML用来设置集群并ray submit [OPTIONS] CLUSTER_CONFIG_FILE SCRIPT在其上运行脚本。问题是进程/容器只在头节点上启动,而没有在工作人员上运行。

检查源,ray up CONFIG_YAML调用函数create_or_update_clusterray submit [OPTIONS] CLUSTER_CONFIG_FILE SCRIPT调用submit。这些似乎都没有与除了头部之外的任何节点进行交互。

这是我的 Dockerfile:https ://github.com/lobachevzky/ppo/blob/debug/Dockerfile

这是我的集群配置文件:https ://github.com/lobachevzky/ppo/blob/debug/tune.yaml

这是我的脚本:https ://github.com/lobachevzky/ppo/blob/debug/tune_script.py

4

0 回答 0