2

我目前正在为我正在做的 Q-Learning 优化奖励值。所以现在我考虑计算特定奖励值的两个值。由于这是与工作相关的,我无法指定我考虑的变量名称。奖励采用以下形式:reward = a + bwherea从 a 中获取值,list: [10, 20, 40, 60, 80]并且b可以是0 to infinityie范围内的任何值b ε [0,∞)。尽管 b 的值不会很大,但它可以取范围内的任何值。

所以情况是这样的:如果 b 类似于b=1300and a=80,则reward = 1380value 的优先级ab. 有没有办法可以制定奖励,使得 a 和 b 的值具有相同的优先级,例如在计算奖励时都具有 50% 的值?

4

1 回答 1

1

我推荐的一种可以解决您的问题的技术是正则化a 和 b的 Q 值。有很多方法可以做到这一点,但我认为L1 或 L2 正则化应该可以很好地解决您的问题。

简而言之,L2 正则化是一个计算权重平方和的数学方程。

l2正则化公式

上图来自chioka.in

于 2018-01-31T07:33:57.963 回答