我正在为最终产生奖励的农场模拟器游戏开发强化学习解决方案。总结一下我要解决的问题:
- 采取行动(种植哪种类型,种植多少等)。
- 暂时存储动作和状态(一年中的时间,可用的地块数量)。
- 确定奖励(收益)后,将其与动作和状态相匹配。
- 使用 (3) 中的数据训练代理。
- 从(1)重复。
我查看了对此的引用,但我只能找到https://github.com/tensorflow/agents/issues/529。
有人可以帮我设置一个可以在这里使用的重播缓冲区吗?
我正在为最终产生奖励的农场模拟器游戏开发强化学习解决方案。总结一下我要解决的问题:
我查看了对此的引用,但我只能找到https://github.com/tensorflow/agents/issues/529。
有人可以帮我设置一个可以在这里使用的重播缓冲区吗?