我正在针对固定情节长度的情节任务训练强化学习代理。我通过绘制一集的累积奖励来跟踪训练过程。我正在使用张量板来绘制奖励。我已经对我的代理进行了 2000 万步的训练。所以我相信代理已经有足够的时间来训练。一集的累积奖励可以从+132到-60左右。我的情节平滑为 0.999
在剧集中,我可以看到我的奖励已经收敛。但是如果我看到平滑为 0 的情节
奖励有很大的不同。那么我应该考虑代理是否已经收敛?另外我不明白为什么即使经过这么多的训练,奖励也会有如此巨大的差异?
谢谢。
我正在针对固定情节长度的情节任务训练强化学习代理。我通过绘制一集的累积奖励来跟踪训练过程。我正在使用张量板来绘制奖励。我已经对我的代理进行了 2000 万步的训练。所以我相信代理已经有足够的时间来训练。一集的累积奖励可以从+132到-60左右。我的情节平滑为 0.999
在剧集中,我可以看到我的奖励已经收敛。但是如果我看到平滑为 0 的情节
奖励有很大的不同。那么我应该考虑代理是否已经收敛?另外我不明白为什么即使经过这么多的训练,奖励也会有如此巨大的差异?
谢谢。