监督学习,(ii)无监督学习,(iii)强化学习
Posted
技术标签:
【中文标题】监督学习,(ii)无监督学习,(iii)强化学习【英文标题】:Supervised Learning, (ii) Unsupervised Learning, (iii) Reinforcement Learn 【发布时间】:2013-03-24 20:38:03 【问题描述】:我是机器学习的新手。在阅读有关监督学习、无监督学习、强化学习的信息时,我遇到了以下问题并感到困惑。请帮助我在以下三个中确定哪一个是监督学习、无监督学习、强化学习。
什么类型的学习(如果有的话)最能描述以下三种场景:
(i) 为自动售货机创建硬币分类系统。为此, 开发商从美国造币厂获得准确的硬币规格并推导出 自动售货机的尺寸、重量和面额的统计模型 然后机器用它来分类它的硬币。
(ii) 不是调用美国造币厂来获取硬币信息,而是一种算法 赠送一大套带标签的硬币。该算法使用这些数据 推断自动售货机然后用来对其进行分类的决策边界 硬币。
(iii) 计算机通过反复玩来制定玩井字游戏的策略 并通过惩罚最终导致失败的举动来调整其策略。
【问题讨论】:
这听起来像是家庭作业。如果是,那么至少应该相应地标记它。 a1.phobos.apple.com/us/r30/CobaltPublic/v4/bd/c2/2a/… @LarsKotthoff,作业标签已被废弃。 @DonReba 这不是我 2.5 年前发布的时候。 【参考方案1】:假设您有表示为矩阵X
的数据集。 X
中的每一行都是一个观察值(实例),每一列代表特定的变量(特征)。
如果您还拥有(并使用)标签矢量y
,对应于观察,那么这是监督学习的任务。涉及“主管”,表示哪些观察属于 #1 类,哪些属于 #2 类,等等。
如果您没有观察标签,那么您必须根据 X
数据集本身做出决定。例如,在硬币的示例中,您可能希望为硬币参数建立正态分布模型,并创建在硬币具有异常参数时发出信号的系统(因此可能是企图欺诈)。在这种情况下,您没有任何类型的主管会说什么硬币是好的,什么代表欺诈企图。因此,它是无监督学习任务。
在前面的 2 个示例中,您首先训练了模型,然后使用它,而无需对模型进行任何进一步的更改。在强化学习中,模型会根据处理后的数据和结果不断改进。例如,寻求从 A 点到 B 点的路径的机器人可能首先计算移动参数,然后根据这些参数移动,然后分析新的位置并更新移动参数,以便下一步移动更准确(重复直到到达 B)。
基于此,我很确定您将能够找到这三种学习方式与您的项目之间的对应关系。
【讨论】:
【参考方案2】:(i) 无监督学习 - 因为没有可用的标记数据
(ii) 监督学习 - 因为您已经拥有可用的标记数据
(iii) 强化学习 - 您可以根据动作以及该动作的效果/奖励来学习和重新学习。
【讨论】:
(ii) "一个算法被展示了一大组标记硬币" (i) 不是无监督的:数据的真实分布是已知的。这意味着您可以获得贝叶斯最优决策规则。没有标记数据 -> 无监督规则过于简单,我认为正确答案必须是“以上都不是”。要无人监督,您必须看到一堆硬币,但没有关于哪些实例属于哪些类型的信息。 同意,但如果必须从给定的三种方法中选择一种方法,我认为应该是无监督学习,因为手头没有现成的信息(标签) 在 RL 中,你被告知结果是好是坏,而不是答案。【参考方案3】:在监督算法中,类别是预先确定的。这些类可以被认为是一个有限集,以前是由人类获得的。在实践中,某些数据段将被标记为这些分类。机器学习者的任务是搜索模式并构建数学模型。然后根据与数据本身的方差度量相关的预测能力来评估这些模型。文档中引用的许多方法(决策树归纳、朴素贝叶斯等)都是监督学习技术的示例。
无监督学习者不提供分类。事实上,无监督学习的基本任务是自动开发分类标签。无监督算法寻找数据片段之间的相似性,以确定它们是否可以被表征为形成一个组。这些组被称为集群,并且有一整套集群机器学习技术。
【讨论】:
很好的解释,但你缺少强化学习。【参考方案4】:我写了一篇关于 Perceptron for Novices 的文章。我已经用 Delta Rule 详细解释了监督学习。还描述了无监督学习和强化学习(简要)。有兴趣的可以去看看。
“人工神经网络(感知器)从自动驾驶汽车中检测汽车/行人的直观示例”
https://www.spicelogic.com/Blog/Perceptron-Artificial-Neural-Networks-10
【讨论】:
以上是关于监督学习,(ii)无监督学习,(iii)强化学习的主要内容,如果未能解决你的问题,请参考以下文章
强化学习(Reinforcement Learning)是什么?强化学习(Reinforcement Learning)和常规的监督学习以及无监督学习有哪些不同?