0

我正在为最终产生奖励的农场模拟器游戏开发强化学习解决方案。总结一下我要解决的问题:

  1. 采取行动(种植哪种类型,种植多少等)。
  2. 暂时存储动作和状态(一年中的时间,可用的地块数量)。
  3. 确定奖励(收益)后,将其与动作和状态相匹配。
  4. 使用 (3) 中的数据训练代理。
  5. 从(1)重复。

我查看了对此的引用,但我只能找到https://github.com/tensorflow/agents/issues/529

有人可以帮我设置一个可以在这里使用的重播缓冲区吗?

4

0 回答 0