0

我正在研究多臂强盗问题,使用LinearUCBAgentandLinearThompsonSamplingAgent但它们都返回单个动作进行观察。我需要的是可用于排名的所有动作的概率。

4

0 回答 0