多臂强盗:当随机概率低于分配给强盗的成功概率时,为什么我们将奖励增加1

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多臂强盗:当随机概率低于分配给强盗的成功概率时,为什么我们将奖励增加1相关的知识,希望对你有一定的参考价值。

我试图了解使用python的多臂强盗问题。当随机概率小于分配的强盗的成功概率时,我不断遇到返回值1(即奖励)的代码片段。请看下面的代码

def reward(prob):
    reward = 0;
    for i in range(10):
        if random.random() < prob:
            reward += 1
    return reward

我从以下链接获得了这个:http://outlace.com/rlpart1.html

另外我在另一个github页面上看到了类似的东西。基于第一个链接,奖励函数背后的直觉是什么(它与实际的一个武装强盗的直觉类似),最后为什么当它小于概率时我们分配1的奖励。除非我弄错了,否则它应该是相反的。谢谢。

答案

如果您有关于选择了哪个手臂和成功标签的实际数据,则此奖励功能将不存在。

我的理解是你这样做是因为你没有实际的数据响应数据。换句话说,你展示一只手臂,你不知道它们是否导致成功(1)与否(0)。

所以你假设,如果概率是0.7,那么你获得的几率是70%。就像伯努利变量一样,成功概率为0.7。这个random.random()只是供你实现。概率(手臂的成功概率)越大,获得奖励的机会就越大。

以上是关于多臂强盗:当随机概率低于分配给强盗的成功概率时,为什么我们将奖励增加1的主要内容,如果未能解决你的问题,请参考以下文章

使用 Vowpal wabbit 的上下文强盗

Robberies (01背包dp变形)

强盗分宝石

acwing 784. 强盗团伙

codevs2597 团伙

codevs 2597 团伙