0

我正在通过 TF Agents 软件包感受到软演员评论家的感觉。我遇到了一个问题,即政策正在​​为环境应该建模的内容输出不可能的行动(金融交易所;政策试图购买/出售更多的东西),并且不知道如何实际解决它.

为此类行为设置一个极其负面的奖励并没有帮助——通常,溢出发生在模型意识到它的错误之前。

有没有一种通用的方法可以使连续动作空间的边界取决于当前的环境状态?如果没有,解决方法是什么?

4

0 回答 0