监督学习 vs. 监督学习离线（批量）强化学习

Posted 2023-02-23

技术标签:

【中文标题】监督学习 vs. 监督学习离线（批量）强化学习【英文标题】：Supervised learning v.s. offline (batch) reinforcement learning 【发布时间】：2021-10-17 07:06:48 【问题描述】：

我能找到的大多数资料（例如 David Silver 的在线课程）都提供了关于监督学习和强化学习之间关系的讨论。然而，它实际上是监督学习和在线强化学习之间的比较，其中代理在环境中运行（或模拟交互）以在对底层动态了解有限的情况下获得反馈。

我对离线（批量）强化学习更好奇，其中数据集（收集的学习经验）是先验。那么与监督学习相比有什么区别呢？它们可能有哪些相似之处？

【问题讨论】：

【参考方案1】：

我对强化学习的离线（批量）设置更加好奇，其中数据集（收集的学习经验）是先验的。那么与监督学习相比有什么区别呢？他们可能有哪些相似之处？

在在线环境中，监督学习和强化学习之间的根本区别在于需要探索以及 RL 中探索/利用之间的权衡。然而，在离线环境中，也存在一些差异，这使得 RL 成为比监督学习更困难/更丰富的问题。我能想到的一些不同之处：

在强化学习中，智能体接收所谓的“评估反馈”，即标量奖励，它为智能体提供了一些关于所采取行动质量的反馈，但它不会告诉智能体这个动作是否是最佳行动与否。将此与监督学习进行对比，其中代理接收所谓的“指导性反馈”：对于学习者所做的每个预测，它都会收到一个反馈（标签），说明最佳动作/预测是什么。 Rich Sutton 的书中第一章详细介绍了指导性反馈和评价性反馈之间的区别。本质上，强化学习是使用稀疏标签进行优化，对于某些操作，您可能根本得不到任何反馈，而在其他情况下，反馈可能会延迟，这会产生学分分配问题。

在强化学习中，您有一个时间方面的目标是找到一个最佳策略，将状态映射到某个范围内的动作（时间步数）。如果地平线 T=1，那么它只是一个像监督学习中的一次性预测问题，但如果 T>1，那么它是一个顺序优化问题，你必须找到最优动作，不仅在单个状态，而且在多个状态，而且由于在一个状态中采取的行动可以影响在未来状态中应该采取哪些行动（即它是动态的），这一事实更加复杂。

在监督学习中，有一个固定的 i.i.d 分布，从中提取数据点（至少这是常见的假设）。在 RL 中没有固定的分布，而是这种分布取决于所遵循的策略，而且这种分布通常不是 i.i.d，而是相关的。

因此，RL 是一个比监督学习更丰富的问题。事实上，可以将任何监督学习任务转换为强化学习任务：监督任务的损失函数可以用来定义奖励函数，较小的损失映射到较大的奖励。虽然目前尚不清楚为什么要这样做，因为它将监督问题转化为更困难的强化学习问题。强化学习比监督学习做出的假设更少，因此通常比监督学习更难解决。然而，反过来是不可能的，一般不可能将强化学习问题转化为监督学习问题。

【讨论】：

以上是关于监督学习 vs. 监督学习离线（批量）强化学习的主要内容，如果未能解决你的问题，请参考以下文章