强化学习、深度学习和深度强化学习有啥区别?
Posted
技术标签:
【中文标题】强化学习、深度学习和深度强化学习有啥区别?【英文标题】:What's the difference between reinforcement learning, deep learning, and deep reinforcement learning?强化学习、深度学习和深度强化学习有什么区别? 【发布时间】:2018-11-05 15:46:20 【问题描述】:强化学习、深度学习和深度强化学习之间有什么区别? Q-learning 适合哪些领域?
【问题讨论】:
【参考方案1】:强化学习是关于教代理使用奖励在环境中导航。 Q-learning 是主要的强化学习方法之一。
深度学习使用神经网络来实现某个目标,例如从图像中识别字母和单词。
深度强化学习是两者的结合,以 Q-learning 为基础。但是,这不是使用实际的状态-值对,而是通常用于状态-动作空间非常大以至于 Q-learning 需要很长时间才能收敛的环境。通过使用神经网络,我们可以找到其他相似的状态-动作对。这种“函数逼近”允许在状态动作空间非常大的环境中进行有效学习。
【讨论】:
深度强化学习不仅仅是基于 Q 学习。诸如 Reinforce 或 Actor-Critic 之类的策略梯度方法也用于深度神经网络。 更一般地说,RL 上下文中的“深度学习”只是指使用神经网络的函数逼近来寻找策略。【参考方案2】:深度学习是一种利用神经网络制作函数逼近器来解决各种问题的方法。 例如:学习一个以图像为输入并输出图像中对象的边界框的函数。
强化学习是一个领域,其中我们有一个代理,我们希望该代理执行一项任务,即我们使用试错学习方法的基于目标的问题。 例如:Agent 学习从网格世界的一个位置移动到一个目标位置,而不会掉入中间的坑中。
深度强化学习是一种使用神经网络解决基于目标的问题的方法。这是因为,当我们希望智能体在现实世界或当前游戏中执行任务时,状态空间非常大。 甚至访问每个状态一次都需要很长时间,而且我们不能使用查找表来存储值函数。 因此,为了解决这个问题,我们使用神经网络来近似状态来概括学习过程 例如:我们使用 DQN 解决了许多 atari 游戏。
Q-learning:这是一种时间差分学习方法,我们有一个 Q-table 来根据 Q 值函数在当前状态下寻找可能的最佳动作。 为了学习 Q 值,我们使用奖励和最大可能的下一状态 Q 值。
Q-learning 基本上属于强化学习,其深度强化学习类似物是 Deep Q 网络 (DQN)。
【讨论】:
【参考方案3】:强化学习指的是面向完成的算法,它学习如何在多个步骤中沿特定维度实现协调复合目标(目标)或最大化。强化学习背后的基本主题是,代理角色将通过与环境交互来学习环境并获得执行动作的奖励。
深度学习使用多层非线性处理单元来提取特征和变换
深度强化学习方法引入了深度神经网络来解决强化学习问题 因此它们被命名为“深度”。
【讨论】:
【参考方案4】:机器学习方法的目标是从数据中学习规则并根据它们做出预测和/或决策。
学习过程可以在(n)个监督、半监督、无监督、强化中完成> 学习时尚。
在强化学习 (RL) 中,代理与环境交互并通过反复试验(使用成功操作的奖励积分和错误的惩罚)来学习最佳策略。它用于顺序决策问题[1]。
深度学习作为机器学习的一个子领域,是一个数学框架,用于学习数据中的潜在规则或手头数据的新表示。术语“深度”是指框架中的学习层数。深度学习可以与上述任何学习策略一起使用,即监督、半监督、无监督和强化学习。
当强化学习 [1] 的任何组件使用深度学习时,就会获得一种深度强化学习技术。请注意,Q-learning 是 RL 的一个组件,用于告诉代理在什么情况下需要采取什么行动。详细信息见[1]。
[1] 李玉玺。 “深度强化学习:概述。” arXiv 预印本 arXiv:1701.07274 (2017)。
【讨论】:
【参考方案5】:强化学习和监督学习之间有更多区别,两者都可以使用深度神经网络,也就是深度学习。在监督学习中 - 训练集由人类标记(例如 AlphaGo)。在强化学习(例如 AlphaZero)中,算法是自学的。
【讨论】:
【参考方案6】:简单来说,
深度学习 - 它使用神经网络模型(模仿大脑、神经元),深度学习也用于图像分类、数据分析和强化学习。
强化学习 - 这是机器学习的一个分支,它围绕一个代理(例如:清理机器人)在其环境(例如:家)中采取行动(例如:四处寻找垃圾)并获得奖励(例如:收集垃圾)
深度强化学习 - 这是强化学习算法列表中的一种,该算法利用了深度学习概念。
【讨论】:
【参考方案7】:强化学习 (RL) 是一种主要受系统反馈控制驱动的机器学习。 RL 通常被认为是一种通过与系统/环境交互并获得反馈来学习的最优控制。 RL 通常用单时间步/多时间步学习规则来代替计算量大的动态规划方法。 RL 中流行的时间差分方法被认为介于动态规划和蒙特卡罗方法之间。经典的 RL 方法使用不可扩展的表格算法。
深度学习 (DL) 被认为是现代机器学习的关键部分(经典机器学习通常意味着 SVM、线性回归等)。 DL 使用带有反向传播的深层多层神经网络 (NN) 进行学习。通过使用精心设计的深度 NN 网络,可以学习复杂的输入输出关系。由于这种近似非常复杂函数的特性,DL 在最近几年(2010 年左右)非常流行,尤其是在自然语言任务和计算机视觉任务中。 DL 的一个吸引人的方面是这些模型可以是端到端的,这意味着我们不需要进行手动特征工程。深度学习算法有很多种,如深度神经网络、卷积神经网络、GRU、LSTM、GAN、注意力、transfromer等。
Deep RL 使用深度 NN 架构来代替表格方法来解决非常高维的问题。通俗地说,控制器不再是查表,而是我们使用深度神经网络作为控制器。由于在 RL 中利用了深度 NN,这通常被称为深度 RL。
【讨论】:
以上是关于强化学习、深度学习和深度强化学习有啥区别?的主要内容,如果未能解决你的问题,请参考以下文章