我正在尝试使用Ray库在带有 Docker 的多台远程机器上启动运行。根据文档,我ray up CONFIG_YAML
用来设置集群并ray submit [OPTIONS] CLUSTER_CONFIG_FILE SCRIPT
在其上运行脚本。问题是进程/容器只在头节点上启动,而没有在工作人员上运行。
检查源,ray up CONFIG_YAML
调用函数create_or_update_cluster
和ray submit [OPTIONS] CLUSTER_CONFIG_FILE SCRIPT
调用submit
。这些似乎都没有与除了头部之外的任何节点进行交互。
这是我的 Dockerfile:https ://github.com/lobachevzky/ppo/blob/debug/Dockerfile
这是我的集群配置文件:https ://github.com/lobachevzky/ppo/blob/debug/tune.yaml
这是我的脚本:https ://github.com/lobachevzky/ppo/blob/debug/tune_script.py