artificial-intelligence - 为什么我的奖励收敛但仍然有很多变化

翻译自：https://stackoverflow.com/questions/59103072 2019-11-29T10:30:40.140

92 次

1

我正在针对固定情节长度的情节任务训练强化学习代理。我通过绘制一集的累积奖励来跟踪训练过程。我正在使用张量板来绘制奖励。我已经对我的代理进行了 2000 万步的训练。所以我相信代理已经有足够的时间来训练。一集的累积奖励可以从+132到-60左右。我的情节平滑为 0.999

在剧集中，我可以看到我的奖励已经收敛。但是如果我看到平滑为 0 的情节

奖励有很大的不同。那么我应该考虑代理是否已经收敛？另外我不明白为什么即使经过这么多的训练，奖励也会有如此巨大的差异？

谢谢。

0 回答 0