问题标签 [ray]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ray - 满足复杂条件时提前停止 ray.tune 实验?
ray.tune
当明显过度拟合或一个指标长时间没有改善时,有没有办法停止实验(例如使用 PBT)?
tensorflow - 无法使用 tensorflow 和 gpu 运行光线调谐
- 操作系统平台和发行版:Linux Ubuntu 16.04
- Ray 安装自(源代码或二进制文件):binary
- 射线版本:0.6.5
- Python版本:3.6
我正在尝试按照教程(链接)将 ray 与 tensorflow 一起使用,我得到了一个tune error
:
错误日志
源代码/日志
射线使用相关的代码:
我该如何解决这个问题?谢谢你的帮助:)
python - 如何在 docker swarm 中使用 ray
我正在尝试用一个 ray-head 和两个带有 docker swarm 的 ray-workers 建立一个集群。为此,我有三台机器,一台运行 ray-had,两台各一台 ray-worker。集群启动正常,但是每当我执行到容器中并运行时:
我明白了
容器的日志 looḱ ok。
我也有 IP,包括机器和 ray-head 容器的 ip。
运行时:
有一个答案。
容器的 Dockerfile:
码头工人-compose.yml
我做错了吗?任何让它在集群模式下工作的人。
编辑 2019-04-14
头部日志:
头容器内的 ps aux:
工人日志:
工人的ps aux:
编辑 2019-04-17
我知道它现在不起作用的原因,但不知道如何解决它。
如果我登录到头容器并检查运行光线进程的 ip
这匹配
但它不匹配
如果我将光线进程移动到以 --redis-address=10.0.30.6:6379 开头,它就可以工作。
ray - 简单的 DQN 示例 - 在配置中指定什么以便打印出模型参数和结果?
我想在运行 DQN 或 DDPG 模型后打印参数和结果。我在 jupyter notebook 中触发了模型,如下所示。
定义配置和对象并调用训练。如下:
但这并没有打印模型参数和结果。请澄清如何打印这些?
Ubuntu EC2 实例 Jupyter notebook DQN 上的购物车杆示例。还想使用我的自定义体验数据集为我的问题设置(在线电子商务数据)进行政策培训
带有模型参数和结果 json 的文件夹
amazon-ec2 - Ray 没有在 EC2 上启动工作程序
我正在使用 Ray 模块在 AWS EC2 上启动一个 Ubuntu (16.04) 集群。在配置中,我将 min_workers、max_workers 和 initial_workers 指定为 2,因为我不需要任何自动调整大小。我还想要一个 t2.micro 主节点和 c4.8xlarge 工作者。集群启动,但只有主节点(以下终端输出是从 ray 安装开始的,....减去详细信息):-
我使用了标准配置(example-full.yaml)并进行了以下更改:-
最新失败的设置:-
ray - 如何列出登录到头部的工作人员
我正在 kubernetes 集群上设置 Ray。
我已经开始了一些工人和一些豆荚内的头。
有没有一种方法可以列出附加到头部的工作人员,而无需编写集群配置文件?
ray - Ray 中笔记本电脑/开发机器的最小集群配置文件是什么?
许多光线命令需要一个 CLUSTER_CONFIG 文件。
例如
提供的示例文件又大又吓人……就像……
假设我已经启动并运行了一个 ray 集群,并且只想做一些事情,比如使用 ray 命令行向它提交作业。我真的需要所有这些东西,还是有一个我可以使用的最小配置。
offline - RAY - RLLIB - 无法使用离线样本批次训练 DQN - episode_len_mean:.nan 值
RAY - RLLIB 库 - 使用离线批处理数据估计 DQN 模型。模型无法学习。episode_len_mean: .nan 用于 CartPole 示例以及个人领域特定的数据集
Ubuntu Ray 库 - RLIB DQN 离线环境:- 尝试使用 Cartpole-v0 以及自定义环境示例。
episode_len_mean: .nan episode_reward_max: .nan episode_reward_mean: .nan episode_reward_min: .nan episodes_this_iter: 0 episodes_total: 0
使用 PG 生成数据
在离线数据上训练模型
预期:- episode_len_mean:数值 episode_reward_max:数值 episode_reward_mean:数值 episode_reward_min:数值
实际结果(在张量板上也没有观察到改善):- episode_len_mean: .nan episode_reward_max: .nan episode_reward_mean: .nan episode_reward_min: .nan
python - 从 REST API 服务器到 Ray Pipeline 的高效数据传输
我有一个 ML 管道,其中有多个 Ray ( https://ray.readthedocs.io/en/latest/ ) 演员(1 个 Tensorflow,一些预处理步骤和一些后处理)相互连接。
我现在想通过一个 REST API 使该管道可用,该 API 应该接受图像,将图像放入管道(由 Ray 执行)并响应结果。
我想知道最好和最有效的架构决策是通过 REST API 公开 Ray 的远程功能吗?图像可能非常大,因此理想情况下,运行 REST API 的代码块应该能够将图像直接放入 Ray 的 Plasma 存储中。
我在 Kubernetes 集群中运行 Ray。REST API 服务器基于 Python / asyncio。
一种简单的解决方案是:
- 生成一个服务于 REST API 服务器的 kubernetes pod,并
ray.init(...)
在此容器内使用它来连接到 Ray 集群并将数据传输到管道中。但是,我想这样一来,REST API pod 就不能直接将图像数据推送到 Ray 的共享内存中了吗?在这张图片(https://youtu.be/D_oz7E4v-U0?t=830)中,我可以看到在一台物理机器上有多个工人/驱动程序是正常的。但是,如果 Ray 在 Docker/Kubernetes 中运行,这也算吗?在 kubernetes 部署示例中,有一个设置明确每个节点只有 1 个工作人员 ( https://github.com/ray-project/ray/blob/master/kubernetes/worker.yaml#L18 )。
另一个(hacky?)解决方案是:
- 在 Ray Worker pod 中实现 REST API 服务器。通过这种方式,我假设 REST API 代码将能够访问与 worker 相同的共享内存,从而确保有效的数据传输。
最后一个选项是:
- 将 API 服务器实现为 Ray 函数或 Ray Actor。但是,如果函数/actor 部署在 Ray 集群内的随机节点上,我不确定如何公开此 API Server。
对Ray有更深入了解的人可以帮助我选择最佳选择(上述之一或其他)吗?
非常感谢!
offline - Ray - RLlib - 自定义环境错误 - 连续动作空间 - DDPG - 离线体验培训?
为 DDPG 使用离线体验时出错。自定义环境维度(动作空间和状态空间)似乎与 DDPG RLLIB 培训师的预期不一致。
Ubuntu,Ray 0.7 版本(最新的 ray),DDPG 示例,离线数据集。用于离线数据集的采样器构建器。
用这个经验数据估计的 DQN 并运行通过。将环境动作空间更改为连续 (Box(,1)) 并且 DDPG 不起作用。
DDPG 迭代的预期结果。
实际 - 错误:-