对仅允许来自某些状态的动作进行编码的惯用方式是什么?
例如,您有四个操作:
- 翻牌
- 结束
- 保留翻转的卡片
- 不要保留翻转的卡片
如果你把它想象成一个状态机,那么每个动作都是一个转换。
游戏开始时,您只能执行动作 1 或 2。
如果您处于卡片正面朝上的状态(您已完成操作 2),您只能执行操作 3 或 4,这会将您带回原始状态。
我希望我需要使用代理可以观察到的内容对其进行编码,但是是什么阻止了代理从开始状态尝试 3/4 的动作,这只是一个糟糕的奖励?
有人对如何完成此操作或此类环境的示例有任何提示吗?