多臂强盗:当随机概率低于分配给强盗的成功概率时,为什么我们将奖励增加1
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多臂强盗:当随机概率低于分配给强盗的成功概率时,为什么我们将奖励增加1相关的知识,希望对你有一定的参考价值。
我试图了解使用python的多臂强盗问题。当随机概率小于分配的强盗的成功概率时,我不断遇到返回值1(即奖励)的代码片段。请看下面的代码
def reward(prob):
reward = 0;
for i in range(10):
if random.random() < prob:
reward += 1
return reward
我从以下链接获得了这个:http://outlace.com/rlpart1.html
另外我在另一个github页面上看到了类似的东西。基于第一个链接,奖励函数背后的直觉是什么(它与实际的一个武装强盗的直觉类似),最后为什么当它小于概率时我们分配1的奖励。除非我弄错了,否则它应该是相反的。谢谢。
答案
如果您有关于选择了哪个手臂和成功标签的实际数据,则此奖励功能将不存在。
我的理解是你这样做是因为你没有实际的数据响应数据。换句话说,你展示一只手臂,你不知道它们是否导致成功(1)与否(0)。
所以你假设,如果概率是0.7,那么你获得的几率是70%。就像伯努利变量一样,成功概率为0.7。这个random.random()只是供你实现。概率(手臂的成功概率)越大,获得奖励的机会就越大。
以上是关于多臂强盗:当随机概率低于分配给强盗的成功概率时,为什么我们将奖励增加1的主要内容,如果未能解决你的问题,请参考以下文章