多臂强盗：当随机概率低于分配给强盗的成功概率时，为什么我们将奖励增加1

Question

我试图了解使用python的多臂强盗问题。当随机概率小于分配的强盗的成功概率时，我不断遇到返回值1（即奖励）的代码片段。请看下面的代码

def reward(prob):
    reward = 0;
    for i in range(10):
        if random.random() < prob:
            reward += 1
    return reward

我从以下链接获得了这个：http://outlace.com/rlpart1.html

另外我在另一个github页面上看到了类似的东西。基于第一个链接，奖励函数背后的直觉是什么（它与实际的一个武装强盗的直觉类似），最后为什么当它小于概率时我们分配1的奖励。除非我弄错了，否则它应该是相反的。谢谢。