0

对仅允许来自某些状态的动作进行编码的惯用方式是什么?

例如,您有四个操作:

  1. 翻牌
  2. 结束
  3. 保留翻转的卡片
  4. 不要保留翻转的卡片

如果你把它想象成一个状态机,那么每个动作都是一个转换。

游戏开始时,您只能执行动作 1 或 2。

如果您处于卡片正面朝上的状态(您已完成操作 2),您只能执行操作 3 或 4,这会将您带回原始状态。

我希望我需要使用代理可以观察到的内容对其进行编码,但是是什么阻止了代理从开始状态尝试 3/4 的动作,这只是一个糟糕的奖励?

有人对如何完成此操作或此类环境的示例有任何提示吗?

4

0 回答 0