对大卫·西尔弗讲座 2 中的奖励感到困惑
Posted
技术标签:
【中文标题】对大卫·西尔弗讲座 2 中的奖励感到困惑【英文标题】:Confused about Rewards in David Silver Lecture 2 【发布时间】:2019-10-16 11:06:36 【问题描述】:在 YouTube 上观看 David Silver 的强化学习课程(以及幻灯片:Lecture 2 MDP)时,我发现“奖励”和“价值函数”真的很混乱。
我试图理解幻灯片 (P11) 上标记的“给予的奖励”,但我不知道为什么会这样。就像“1 级:R = -2”但“Pub:R = +1”
为什么负奖励 Class 和 Pub 正奖励?为什么不同的价值?
如何计算折扣因子奖励? (P17 和 P18)
我认为强化学习缺乏直觉是我遇到这种问题的主要原因......
所以,如果有人能给我一点提示,我将不胜感激。
【问题讨论】:
【参考方案1】:您通常设置奖励和折扣,以便使用 RL 驱动代理解决任务。 在学生示例中,目标是通过考试。学生可以花时间上课、睡觉、在 Facebook 上或在酒吧。上课是一件“无聊”的事情,所以学生看不到这样做的直接好处。因此是负奖励。相反,去酒吧很有趣,而且会带来积极的回报。但是,只有参加所有 3 门课程,学生才能通过考试并获得丰厚的最终奖励。 现在的问题是:学生对即时奖励和未来奖励的重视程度如何?折扣因素告诉你:小折扣更重视即时奖励,因为从长远来看,未来奖励只会“消失”。如果我们使用小额折扣,学生可能更喜欢总是去酒吧或睡觉。折扣接近 0,一步之后所有奖励也接近 0,因此在每个状态下,学生都将尝试最大化即时奖励,因为在那之后“其他一切都不重要了”。
相反,高折扣(最多 1 个)更重视长期奖励:在这种情况下,最佳学生将参加所有课程并通过考试。
选择折扣可能很棘手,尤其是在没有终端状态的情况下(在这种情况下“睡眠”是终端),因为折扣为 1 时,代理可能会忽略用于达到最高奖励的步数。例如,如果课程将给予 -1 而不是 -2 的奖励,因为代理将永远花时间在“课堂”和“酒吧”之间交替并在某个时候通过考试,因为折扣 1奖励永不褪色,因此即使在 10 年后,学生仍然会因通过考试而获得 +10。
还可以考虑必须到达目标位置的虚拟代理。使用折扣 1,代理不会学会以最少的步数到达它:只要到达它,对他来说都是一样的。
除此之外,折扣 1 还存在一个数值问题。由于目标是最大化折扣奖励的累积总和,如果奖励没有折扣(并且范围是无限的),总和将不会收敛。
【讨论】:
【参考方案2】:Q1) 首先你不应该忘记环境会给予奖励。智能体采取的行动对环境的奖励没有影响,但当然会影响跟随轨迹获得的奖励。
在示例中,这些 +1 和 -2 只是有趣的示例 :) “作为学生”你在课堂上感到无聊,所以它的奖励是 -2,而你在酒吧里玩得开心,所以奖励是+1。不要对这些数字背后的原因感到困惑,它们是环境给定的。
Q2)让我们对“示例:学生 MRP (2) 的状态-值函数”中值为 4.1 的状态进行计算:
v(s) = (-2) + 0.9 * [(0.4 * 1.9) + (0.6 * 10)] = (-2) + 6.084 =~ 4.1
David 在这里使用 MRP 的贝尔曼方程。您可以在同一张幻灯片上找到它。
【讨论】:
以上是关于对大卫·西尔弗讲座 2 中的奖励感到困惑的主要内容,如果未能解决你的问题,请参考以下文章