python - 奖励价值计算：Q-Learning

Question

我目前正在为我正在做的 Q-Learning 优化奖励值。所以现在我考虑计算特定奖励值的两个值。由于这是与工作相关的，我无法指定我考虑的变量名称。奖励采用以下形式：reward = a + bwherea从 a 中获取值，list: [10, 20, 40, 60, 80]并且b可以是0 to infinityie范围内的任何值b ε [0,∞)。尽管 b 的值不会很大，但它可以取范围内的任何值。

所以情况是这样的：如果 b 类似于b=1300and a=80，则reward = 1380value 的优先级a被b. 有没有办法可以制定奖励，使得 a 和 b 的值具有相同的优先级，例如在计算奖励时都具有 50% 的值？

score 1 · Accepted Answer

我推荐的一种可以解决您的问题的技术是正则化a 和 b的 Q 值。有很多方法可以做到这一点，但我认为L1 或 L2 正则化应该可以很好地解决您的问题。

简而言之，L2 正则化是一个计算权重平方和的数学方程。

l2正则化公式

上图来自chioka.in。

python - 奖励价值计算：Q-Learning

1 回答 1

Related

Reference