我目前正在为我正在做的 Q-Learning 优化奖励值。所以现在我考虑计算特定奖励值的两个值。由于这是与工作相关的,我无法指定我考虑的变量名称。奖励采用以下形式:reward = a + b
wherea
从 a 中获取值,list: [10, 20, 40, 60, 80]
并且b
可以是0 to infinity
ie范围内的任何值b ε [0,∞)
。尽管 b 的值不会很大,但它可以取范围内的任何值。
所以情况是这样的:如果 b 类似于b=1300
and a=80
,则reward = 1380
value 的优先级a
被b
. 有没有办法可以制定奖励,使得 a 和 b 的值具有相同的优先级,例如在计算奖励时都具有 50% 的值?