tensorflow - 如何在 TensorFlow 代理中使用延迟奖励？

翻译自：https://stackoverflow.com/questions/70638155 2022-01-09T03:12:10.307

29 次

0

我正在为最终产生奖励的农场模拟器游戏开发强化学习解决方案。总结一下我要解决的问题：

采取行动（种植哪种类型，种植多少等）。
暂时存储动作和状态（一年中的时间，可用的地块数量）。
确定奖励（收益）后，将其与动作和状态相匹配。
使用 (3) 中的数据训练代理。
从（1）重复。

我查看了对此的引用，但我只能找到https://github.com/tensorflow/agents/issues/529。

有人可以帮我设置一个可以在这里使用的重播缓冲区吗？

0 回答 0