问题标签 [ray]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
300 浏览

ray - 满足复杂条件时提前停止 ray.tune 实验?

ray.tune当明显过度拟合或一个指标长时间没有改善时,有没有办法停止实验(例如使用 PBT)?

0 投票
0 回答
1703 浏览

tensorflow - 无法使用 tensorflow 和 gpu 运行光线调谐

  • 操作系统平台和发行版:Linux Ubuntu 16.04
  • Ray 安装自(源代码或二进制文件):binary
  • 射线版本:0.6.5
  • Python版本:3.6

我正在尝试按照教程(链接)将 ray 与 tensorflow 一起使用,我得到了一个tune error

错误日志

源代码/日志

射线使用相关的代码:

我该如何解决这个问题?谢谢你的帮助:)

0 投票
1 回答
2181 浏览

python - 如何在 docker swarm 中使用 ray

我正在尝试用一个 ray-head 和两个带有 docker swarm 的 ray-workers 建立一个集群。为此,我有三台机器,一台运行 ray-had,两台各一台 ray-worker。集群启动正常,但是每当我执行到容器中并运行时:

我明白了

容器的日志 looḱ ok。

我也有 IP,包括机器和 ray-head 容器的 ip。

运行时:

有一个答案。

容器的 Dockerfile:

码头工人-compose.yml

我做错了吗?任何让它在集群模式下工作的人。

编辑 2019-04-14

头部日志:

头容器内的 ps aux:

工人日志:

工人的ps aux:

编辑 2019-04-17

我知道它现在不起作用的原因,但不知道如何解决它。

如果我登录到头容器并检查运行光线进程的 ip

这匹配

但它不匹配

如果我将光线进程移动到以 --redis-address=10.0.30.6:6379 开头,它就可以工作。

0 投票
1 回答
165 浏览

ray - 简单的 DQN 示例 - 在配置中指定什么以便打印出模型参数和结果?

我想在运行 DQN 或 DDPG 模型后打印参数和结果。我在 jupyter notebook 中触发了模型,如下所示。

定义配置和对象并调用训练。如下:

但这并没有打印模型参数和结果。请澄清如何打印这些?

Ubuntu EC2 实例 Jupyter notebook DQN 上的购物车杆示例。还想使用我的自定义体验数据集为我的问题设置(在线电子商务数据)进行政策培训

带有模型参数和结果 json 的文件夹

0 投票
1 回答
889 浏览

amazon-ec2 - Ray 没有在 EC2 上启动工作程序

我正在使用 Ray 模块在 AWS EC2 上启动一个 Ubuntu (16.04) 集群。在配置中,我将 min_workers、max_workers 和 initial_workers 指定为 2,因为我不需要任何自动调整大小。我还想要一个 t2.micro 主节点和 c4.8xlarge 工作者。集群启动,但只有主节点(以下终端输出是从 ray 安装开始的,....减去详细信息):-

我使用了标准配置(example-full.yaml)并进行了以下更改:-

最新失败的设置:-

0 投票
1 回答
90 浏览

ray - 如何列出登录到头部的工作人员

我正在 kubernetes 集群上设置 Ray。

我已经开始了一些工人和一些豆荚内的头。

有没有一种方法可以列出附加到头部的工作人员,而无需编写集群配置文件?

0 投票
1 回答
756 浏览

ray - Ray 中笔记本电脑/开发机器的最小集群配置文件是什么?

许多光线命令需要一个 CLUSTER_CONFIG 文件。

例如

提供的示例文件又大又吓人……就像……

假设我已经启动并运行了一个 ray 集群,并且只想做一些事情,比如使用 ray 命令行向它提交作业。我真的需要所有这些东西,还是有一个我可以使用的最小配置。

0 投票
1 回答
800 浏览

offline - RAY - RLLIB - 无法使用离线样本批次训练 DQN - episode_len_mean:.nan 值

RAY - RLLIB 库 - 使用离线批处理数据估计 DQN 模型。模型无法学习。episode_len_mean: .nan 用于 CartPole 示例以及个人领域特定的数据集

Ubuntu Ray 库 - RLIB DQN 离线环境:- 尝试使用 Cartpole-v0 以及自定义环境示例。

episode_len_mean: .nan episode_reward_max: .nan episode_reward_mean: .nan episode_reward_min: .nan episodes_this_iter: 0 episodes_total: 0

使用 PG 生成数据

在离线数据上训练模型

预期:- episode_len_mean:数值 episode_reward_max:数值 episode_reward_mean:数值 episode_reward_min:数值

实际结果(在张量板上也没有观察到改善):- episode_len_mean: .nan episode_reward_max: .nan episode_reward_mean: .nan episode_reward_min: .nan

0 投票
0 回答
205 浏览

python - 从 REST API 服务器到 Ray Pipeline 的高效数据传输

我有一个 ML 管道,其中有多个 Ray ( https://ray.readthedocs.io/en/latest/ ) 演员(1 个 Tensorflow,一些预处理步骤和一些后处理)相互连接。

我现在想通过一个 REST API 使该管道可用,该 API 应该接受图像,将图像放入管道(由 Ray 执行)并响应结果。

我想知道最好和最有效的架构决策是通过 REST API 公开 Ray 的远程功能吗?图像可能非常大,因此理想情况下,运行 REST API 的代码块应该能够将图像直接放入 Ray 的 Plasma 存储中。

我在 Kubernetes 集群中运行 Ray。REST API 服务器基于 Python / asyncio。

一种简单的解决方案是:

  • 生成一个服务于 REST API 服务器的 kubernetes pod,并ray.init(...)在此容器内使用它来连接到 Ray 集群并将数据传输到管道中。但是,我想这样一来,REST API pod 就不能直接将图像数据推送到 Ray 的共享内存中了吗?在这张图片(https://youtu.be/D_oz7E4v-U0?t=830)中,我可以看到在一台物理机器上有多个工人/驱动程序是正常的。但是,如果 Ray 在 Docker/Kubernetes 中运行,这也算吗?在 kubernetes 部署示例中,有一个设置明确每个节点只有 1 个工作人员 ( https://github.com/ray-project/ray/blob/master/kubernetes/worker.yaml#L18 )。

另一个(hacky?)解决方案是:

  • 在 Ray Worker pod 中实现 REST API 服务器。通过这种方式,我假设 REST API 代码将能够访问与 worker 相同的共享内存,从而确保有效的数据传输。

最后一个选项是:

  • 将 API 服务器实现为 Ray 函数或 Ray Actor。但是,如果函数/actor 部署在 Ray 集群内的随机节点上,我不确定如何公开此 API Server。

对Ray有更深入了解的人可以帮助我选择最佳选择(上述之一或其他)吗?

非常感谢!

0 投票
1 回答
1116 浏览

offline - Ray - RLlib - 自定义环境错误 - 连续动作空间 - DDPG - 离线体验培训?

为 DDPG 使用离线体验时出错。自定义环境维度(动作空间和状态空间)似乎与 DDPG RLLIB 培训师的预期不一致。

Ubuntu,Ray 0.7 版本(最新的 ray),DDPG 示例,离线数据集。用于离线数据集的采样器构建器。

用这个经验数据估计的 DQN 并运行通过。将环境动作空间更改为连续 (Box(,1)) 并且 DDPG 不起作用。

DDPG 迭代的预期结果。

实际 - 错误:-