问题标签 [ray]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

534 问题

0 投票

1 回答

300 浏览

ray - 满足复杂条件时提前停止 ray.tune 实验？

ray.tune当明显过度拟合或一个指标长时间没有改善时，有没有办法停止实验（例如使用 PBT）？

ray

2019-04-03T10:31:33.413

0 投票

0 回答

1703 浏览

tensorflow - 无法使用 tensorflow 和 gpu 运行光线调谐

操作系统平台和发行版：Linux Ubuntu 16.04
Ray 安装自（源代码或二进制文件）：binary
射线版本：0.6.5
Python版本：3.6

我正在尝试按照教程（链接）将 ray 与 tensorflow 一起使用，我得到了一个tune error：

错误日志

源代码/日志

射线使用相关的代码：

我该如何解决这个问题？谢谢你的帮助:)

2019-04-05T08:32:03.930

0 投票

1 回答

2181 浏览

python - 如何在 docker swarm 中使用 ray

我正在尝试用一个 ray-head 和两个带有 docker swarm 的 ray-workers 建立一个集群。为此，我有三台机器，一台运行 ray-had，两台各一台 ray-worker。集群启动正常，但是每当我执行到容器中并运行时：

我明白了

容器的日志 looḱ ok。

我也有 IP，包括机器和 ray-head 容器的 ip。

运行时：

有一个答案。

容器的 Dockerfile：

码头工人-compose.yml

我做错了吗？任何让它在集群模式下工作的人。

编辑 2019-04-14

头部日志：

头容器内的 ps aux：

工人日志：

工人的ps aux：

编辑 2019-04-17

我知道它现在不起作用的原因，但不知道如何解决它。

如果我登录到头容器并检查运行光线进程的 ip

这匹配

但它不匹配

如果我将光线进程移动到以 --redis-address=10.0.30.6:6379 开头，它就可以工作。

python docker dockerfile docker-swarm ray

2019-04-12T14:18:59.827

0 投票

1 回答

165 浏览

ray - 简单的 DQN 示例 - 在配置中指定什么以便打印出模型参数和结果？

我想在运行 DQN 或 DDPG 模型后打印参数和结果。我在 jupyter notebook 中触发了模型，如下所示。

定义配置和对象并调用训练。如下：

但这并没有打印模型参数和结果。请澄清如何打印这些？

Ubuntu EC2 实例 Jupyter notebook DQN 上的购物车杆示例。还想使用我的自定义体验数据集为我的问题设置（在线电子商务数据）进行政策培训

带有模型参数和结果 json 的文件夹

ray

2019-04-12T16:04:25.080

0 投票

1 回答

889 浏览

amazon-ec2 - Ray 没有在 EC2 上启动工作程序

我正在使用 Ray 模块在 AWS EC2 上启动一个 Ubuntu (16.04) 集群。在配置中，我将 min_workers、max_workers 和 initial_workers 指定为 2，因为我不需要任何自动调整大小。我还想要一个 t2.micro 主节点和 c4.8xlarge 工作者。集群启动，但只有主节点（以下终端输出是从 ray 安装开始的，....减去详细信息）：-

我使用了标准配置（example-full.yaml）并进行了以下更改：-

2019-04-12T23:31:21.437

0 投票

1 回答

90 浏览

ray - 如何列出登录到头部的工作人员

我正在 kubernetes 集群上设置 Ray。

我已经开始了一些工人和一些豆荚内的头。

有没有一种方法可以列出附加到头部的工作人员，而无需编写集群配置文件？

ray

2019-04-13T00:45:25.370

0 投票

1 回答

756 浏览

ray - Ray 中笔记本电脑/开发机器的最小集群配置文件是什么？

许多光线命令需要一个 CLUSTER_CONFIG 文件。

例如

提供的示例文件又大又吓人……就像……

假设我已经启动并运行了一个 ray 集群，并且只想做一些事情，比如使用 ray 命令行向它提交作业。我真的需要所有这些东西，还是有一个我可以使用的最小配置。

ray

2019-04-13T00:55:32.453

0 投票

1 回答

800 浏览

offline - RAY - RLLIB - 无法使用离线样本批次训练 DQN - episode_len_mean：.nan 值

RAY - RLLIB 库 - 使用离线批处理数据估计 DQN 模型。模型无法学习。episode_len_mean: .nan 用于 CartPole 示例以及个人领域特定的数据集

Ubuntu Ray 库 - RLIB DQN 离线环境：- 尝试使用 Cartpole-v0 以及自定义环境示例。

episode_len_mean: .nan episode_reward_max: .nan episode_reward_mean: .nan episode_reward_min: .nan episodes_this_iter: 0 episodes_total: 0

使用 PG 生成数据

在离线数据上训练模型

预期：- episode_len_mean：数值 episode_reward_max：数值 episode_reward_mean：数值 episode_reward_min：数值

实际结果（在张量板上也没有观察到改善）：- episode_len_mean: .nan episode_reward_max: .nan episode_reward_mean: .nan episode_reward_min: .nan

offline reinforcement-learning ray

2019-04-16T11:40:05.377

0 投票

0 回答

205 浏览

python - 从 REST API 服务器到 Ray Pipeline 的高效数据传输

我有一个 ML 管道，其中有多个 Ray ( https://ray.readthedocs.io/en/latest/ ) 演员（1 个 Tensorflow，一些预处理步骤和一些后处理）相互连接。

我现在想通过一个 REST API 使该管道可用，该 API 应该接受图像，将图像放入管道（由 Ray 执行）并响应结果。

我想知道最好和最有效的架构决策是通过 REST API 公开 Ray 的远程功能吗？图像可能非常大，因此理想情况下，运行 REST API 的代码块应该能够将图像直接放入 Ray 的 Plasma 存储中。

我在 Kubernetes 集群中运行 Ray。REST API 服务器基于 Python / asyncio。

一种简单的解决方案是：

生成一个服务于 REST API 服务器的 kubernetes pod，并ray.init(...)在此容器内使用它来连接到 Ray 集群并将数据传输到管道中。但是，我想这样一来，REST API pod 就不能直接将图像数据推送到 Ray 的共享内存中了吗？在这张图片（https://youtu.be/D_oz7E4v-U0?t=830）中，我可以看到在一台物理机器上有多个工人/驱动程序是正常的。但是，如果 Ray 在 Docker/Kubernetes 中运行，这也算吗？在 kubernetes 部署示例中，有一个设置明确每个节点只有 1 个工作人员 ( https://github.com/ray-project/ray/blob/master/kubernetes/worker.yaml#L18 )。

另一个（hacky？）解决方案是：

在 Ray Worker pod 中实现 REST API 服务器。通过这种方式，我假设 REST API 代码将能够访问与 worker 相同的共享内存，从而确保有效的数据传输。

最后一个选项是：

将 API 服务器实现为 Ray 函数或 Ray Actor。但是，如果函数/actor 部署在 Ray 集群内的随机节点上，我不确定如何公开此 API Server。

对Ray有更深入了解的人可以帮助我选择最佳选择（上述之一或其他）吗？

非常感谢！

python python-asyncio ray

2019-04-17T16:10:51.597

0 投票

1 回答

1116 浏览

offline - Ray - RLlib - 自定义环境错误 - 连续动作空间 - DDPG - 离线体验培训？

为 DDPG 使用离线体验时出错。自定义环境维度（动作空间和状态空间）似乎与 DDPG RLLIB 培训师的预期不一致。

Ubuntu，Ray 0.7 版本（最新的 ray），DDPG 示例，离线数据集。用于离线数据集的采样器构建器。

用这个经验数据估计的 DQN 并运行通过。将环境动作空间更改为连续 (Box(,1)) 并且 DDPG 不起作用。

DDPG 迭代的预期结果。

实际 - 错误：-

offline reinforcement-learning ray policy-gradient-descent

2019-04-18T06:09:35.573

1 2 3 4 5 6 7 8 9 10

问题标签 [ray]

错误日志

源代码/日志

使用 PG 生成数据

在离线数据上训练模型

Reference