为啥 RL 被称为“强化”学习？

Posted 2023-03-12

技术标签:

【中文标题】为啥 RL 被称为“强化”学习？【英文标题】：Why is RL called 'reinforcement' learning?为什么 RL 被称为“强化”学习？ 【发布时间】：2018-11-06 12:42:53 【问题描述】：

我了解机器学习为何如此命名，以及监督和非监督学习背后的命名法。那么强化学习的强化是什么？

【问题讨论】：

【参考方案1】：

强化学习中的“强化”指的是如何鼓励某些行为，而阻止其他行为。通过环境经验获得的奖励来强化行为。

【讨论】：

【参考方案2】：

强化学习通过反复试验得到强化。不正确（或不是最佳）的结果不需要手动纠正。相反，重点是探索，并从这些相同的经验中获得反馈（强化）。

【讨论】：

【参考方案3】：

现代强化学习建立在两个主线之上。一个主题涉及通过反复试验进行学习，起源于动物学习心理学。第二个线程涉及最优控制问题，它是使用价值函数和动态规划的解决方案（Sutton and Barto., 2018）。强化学习从第一个研究线索中借用了他的名字。根据 Watkins (1989) 的说法，在研究动物的学习能力时，可能会自动为动物提供强化剂。例如，在行为方面，正强化物可能是给饥饿的动物吃的一小口食物，或者是给口渴的动物喝的水。相反，负强化物可能是电击。

附言。 Watkins 提出了 Q-learning 算法。

编辑：（添加更多历史记录）

根据 Sutton 和 Barto（2018 年）：“在动物学习的背景下，“强化”一词在桑代克表达效果法则之后很好地开始使用，首次出现在这种情况下（据我们所知）在 1927 年巴甫洛夫关于条件反射的专着的英文翻译中。巴甫洛夫将强化描述为加强一种行为模式以与另一种刺激或反应具有适当时间关系的动物接受刺激（一种强化物）。”

萨顿、理查德 S. 和安德鲁 G. 巴托。强化学习：简介。麻省理工学院出版社，2018 年。 Thorndike, E. L. 动物智能。康涅狄格州达里恩 (Darien) 哈夫纳 (Hafner)，1911 年。沃特金斯，克里斯托弗·约翰·康沃尔·海拉比。 “从延迟奖励中学习。” （1989 年）。

【讨论】：

以上是关于为啥 RL 被称为“强化”学习？的主要内容，如果未能解决你的问题，请参考以下文章

轻松入门强化学习的一本新书《Easy RL 强化学习教程》

AWS DeepRacer 强化学习RL，工作流程

使用 SEED RL 大规模扩展强化学习

分布式强化学习基础概念（Distributional RL ）

强化学习RL必须知道的基础概念和MDP

用于解决应用强化学习挑战的模拟套件