为啥 RL 被称为“强化”学习?

Posted

技术标签:

【中文标题】为啥 RL 被称为“强化”学习?【英文标题】:Why is RL called 'reinforcement' learning?为什么 RL 被称为“强化”学习? 【发布时间】:2018-11-06 12:42:53 【问题描述】:

我了解机器学习为何如此命名,以及监督和非监督学习背后的命名法。那么强化学习的强化是什么?

【问题讨论】:

【参考方案1】:

强化学习中的“强化”指的是如何鼓励某些行为,而阻止其他行为。通过环境经验获得的奖励来强化行为。

【讨论】:

【参考方案2】:

强化学习通过反复试验得到强化。不正确(或不是最佳)的结果不需要手动纠正。相反,重点是探索,并从这些相同的经验中获得反馈(强化)。

【讨论】:

【参考方案3】:

现代强化学习建立在两个主线之上。一个主题涉及通过反复试验进行学习,起源于动物学习心理学。第二个线程涉及最优控制问题,它是使用价值函数和动态规划的解决方案(Sutton and Barto., 2018)。 强化学习从第一个研究线索中借用了他的名字。根据 Watkins (1989) 的说法,在研究动物的学习能力时,可能会自动为动物提供强化剂。例如,在行为方面,正强化物可能是给饥饿的动物吃的一小口食物,或者是给口渴的动物喝的水。相反,负强化物可能是电击。

附言。 Watkins 提出了 Q-learning 算法。

编辑:(添加更多历史记录)

根据 Sutton 和 Barto(2018 年):“在动物学习的背景下,“强化”一词在桑代克表达效果法则之后很好地开始使用,首次出现在这种情况下(据我们所知)在 1927 年巴甫洛夫关于条件反射的专着的英文翻译中。巴甫洛夫将强化描述为加强一种行为模式 以与另一种刺激或反应具有适当时间关系的动物接受刺激(一种强化物)。”

萨顿、理查德 S. 和安德鲁 G. 巴托。强化学习:简介。麻省理工学院出版社,2018 年。 Thorndike, E. L. 动物智能。康涅狄格州达里恩 (Darien) 哈夫纳 (Hafner),1911 年。 沃特金斯,克里斯托弗·约翰·康沃尔·海拉比。 “从延迟奖励中学习。” (1989 年)。

【讨论】:

以上是关于为啥 RL 被称为“强化”学习?的主要内容,如果未能解决你的问题,请参考以下文章

轻松入门强化学习的一本新书《Easy RL 强化学习教程》

AWS DeepRacer 强化学习RL,工作流程

使用 SEED RL 大规模扩展强化学习

分布式强化学习基础概念(Distributional RL )

强化学习RL必须知道的基础概念和MDP

用于解决应用强化学习挑战的模拟套件